Een grafeem-foneem-conversie-systeem voor het Duits: een eerste aanzet

(1)

Een grafeem-foneem-conversie-systeem voor het Duits

Citation for published version (APA):

Smeele, P. M. T. (1987). Een grafeem-foneem-conversie-systeem voor het Duits: een eerste aanzet. (IPO rapport; Vol. 600). Instituut voor Perceptie Onderzoek (IPO).

Document status and date: Gepubliceerd: 14/08/1987 Document Version:

Uitgevers PDF, ook bekend als Version of Record Please check the document version of this publication:

• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.

• The final author version and the galley proof are versions of the publication after peer review.

• The final published version features the final layout of the paper including the volume, issue and page numbers.

Link to publication

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal.

If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:

www.tue.nl/taverne Take down policy

If you believe that this document breaches copyright please contact us at: openaccess@tue.nl

(2)

Rapport no. 600

~en grafeem-foneem-conversie-sysieem voor het Duits

(3)

Een grafeem-{ oneem-conversie-systeem

voor het Duits

een eerste aanzet

P.M. T. Smeele Doctoraalscriptie Fonetiek

Rijksuniversiteit Utrecht / Instituut voor Perceptie Onderzoek 14 augustus 1987

(4)

INHOUD

Voorwoord 1 INLEIDING 1 2 1.1 Tekst-naar-spraak-systemen . . . . . . . . . . . . . . . 2 1.2 Lexicon- versus regelbenadering . . . . . . . . . . . . . . . 2 1.3 Grafeem- en foneemniveau, regelnotatie en distinctieve kenmerken in

het GRAFON-programma . . . . . . . . . . . . . . . . . . . . 4 1.4 Het GRAFON-programma voor het Nederlands . . . . . . . . . . . . 5 1.4.l Regelstructuren in het GRAFON-programma . . . . . . 5 1.4.2 Opbouw en werking van het GRAFON-programma voor het

Nederlands . . . . . . . . . . . . . . . . . . . . . . . 7

2 HET GRAFON-PROGRAMMA MET GRAMMATICALE REGELS

VOOR HET DUITS 11

2.1 Korte beschrijving van de opbouw van het programma . . . . 11 2.2 De onderdelen van het GRAFON-programrna voor het Duits 11 2.2.l De lijst met grafemen en hun distinctieve kenmerken . 11 2.2.2 Gebruik van symbolen voor woorden morfeemgrenzen 12 2.2.3 De lijst met fonemen en hun distinctieve kenmerken 15 2.2.4 Module 1: grafeem-grafeem-omzetregels 16 2.2.5 Module 2: grafeem-foneem-omzetregels . 17

2.2.6 Module 3: fonologische regels . 23

2.2.7 Module 4: reduktieregels . . . . 24

2.2.8 Module 5: grensreduktieregels . 25

3 RESULTAAT VAN HET GRAFON-PROGRAMMA VOOR HET

DUITS 27

3.1 Controlelijst van Kaeding . .. 3.2 Afwijkingen van Kaeding's lijst

3.2.1 Fouten . . . . 3.2.2 Uitzonderingen . . . 3.2.3 Diskutabele gevallen 3.2.4 Namen . . . . 3.3 Samenvatting van het resultaat

27 28 28 31 34 36 37

4 SUGGESTIES VOOR VERDER ONDERZOEK 38

4.1 Uitbreiding van het grafeem-foneem-conversie-systeem 38 4.1.1 Morfologische analyse . . . . . . . . . . 38 4.1.2 Regels voor kortere foneemversies van klinkers 38

4.1.3 Klemtoontoekenningsregels . . . . 38

4.1.4 Nieuwe assimilatieregels . . . . . . . . . . 38 4.1.5 Toetsing op andere woordenlijsten . . . . . . 39 4.1.6 Tweede versie van het GRAFON-programma 40 4.2 Verbetering van Duitse difonen van het spraak-synthese-systeem 43 4.2.1 Kortere representaties voor de klinkers . . . . . . . . . . . 43

(5)

4.2.2 Representaties voor de fonemen "BB", "DD", "GG" en "ZZ" 43 4.2.3 Onderzoek naar difoonverbetering op het IPO . . . . . . 44 5 SAMENVATTING EN CONCLUSIES

Literatuur

Het GRAFON-prograrnrna voor het Duits Appendix 1: Grafemen en distinctieve kenmerken Appendix 2: Fonemen en distinctieve kenmerken Appendix 3: Grafeem-grafeem-omzetregels

Appendix 4: Grafeem-foneem-omzetregels Appendix 5: Fonologische regels

Appendix 6: Reduktieregels

Appendix 7: Grensreduktieregels

Appendix 8: Uitbreidingen (tweede versie) Afwijkingen van Kaeding's lijst

Appendix 9: Fouten

Appendix 10: Uitzonderingen Appendix 11: Diskutabele gevallen Appendix 12: Namen

45 47

(6)

Voorwoord

Dit verslag beschrijft het ontwerp van een grafeem-foneem-conversie-systeem voor het Duits. Het project is mijn afstudeeronderzoek voor de studie Fonetiek aan de Rijksuniversiteit Utrecht. Het Instituut voor Perceptie Onderzoek (IPO) te Eind-hoven bood mij de gelegenheid dit onderzoek in de vorm van een stage te kun-nen verrichten. Ik ben het IPO voor het gebruik van de faciliteiten zeer erken-telijk. Begeleiders waren Jan van Hemert (IPO) en Egon Berendsen (Rijksuniver-siteit Utrecht, Vakgroep Fonetiek). Hun ondersteuning, alsmede die van Hugo van Leeuwen (IPO), stelde ik zeer op prijs.

(7)

~ f . ~ O ' t ~

o-.t.tlt~

o~

w..

· ,~.c..u.tt;e,

-'

fo~

~'4

~ 'lil'

"911-fr'L¼r.

ct..•fo~

~11

.

: . t:...rt,-u..Wie--1du.Ut,

_{olte>foa..•}

c+

~ :

l.lit&,oe.ae;

f'~~

QMbW

..

_~

(,u~uU)

w

(~~el.-''1

.... _Ohl.Utt&c.

'

_"

,

,,

_.r

(8)

1 INLEIDING

1.1 Tekst-naar-spraak-systemen

Tekst-naar-spraak-systemen nemen als invoer geschreven tekst en geven als uitvoer spraak. Deze systemen zijn hiertoe opgebouwd uit de volgende onderdelen:

1. een grafeem-foneem-conversie-systeem 2. een spraak-synthese-systeem

De onderdelen zijn op zichzelf staande systemen, d.w.z. ze kunnen afzonderlijk worden gebruikt. Alleen door koppeling ervan ontstaat een tekst-naar-spraak-sys-teem, waarbij een grafeem-foneem-conversie-systeem invoer voor een spraak-synthe-se-systeem levert.

Een grafeem-foneem-conversie-systeem krijgt als invoer geschreven tekst. Tekst is opgebouwd uit letters en leestekens: deze noemen we grafemen. Een conversie-systeem zorgt ervoor, dat de geschreven woorden als klankbeelden, d.w.z. in hun fonetisch schrift worden weergegeven ( = uitvoer). De woorden zijn dan opgebouwd uit fonemen.

Een spraak-synthese-systeem zet gefonematiseerde woorden om in spraak. Dit kan o.a. op basis van difonen en/of allofonen, demisyllaben of op een pure regelbasis geschieden, afhankelijk van het synthese-systeem dat gebruikt wordt.

In deze scriptie wordt ingegaan op grafeem-foneem-conversie als deel van een tekst-naar-spraak-systeem voor het Duits. Een conversie-systeem valt uiteen in:

la. een talig gedeelte

lb. een implementatie-gedeelte

Figuur 1 geeft een conversie-systeem als deel van een tekst-naar-spraak-systeem grafisch weer. Het grafeem-foneem-conversie-systeem staat hierin links afgebeeld.

Het talig gedeelte omvat het geheel aan talige informatie ( dit kan zijn o.a. lexicon,

morfologische, fonologische, grafeem-foneem-omzetregels), die nodig is voor een cor-recte omzetting van grafemen in fonemen. Het implementatie-gedeelte houdt in, dat de talige informatie in een computerprogramma geïmplementeerd wordt. In figuur 1 wordt het talig gedeelte (met een pijl) naar het implementatie-gedeelte overgebracht.

Het implementeren betekent o.a., dat de talige informatie in een bepaald 'format'

moet worden geschreven, en dat er een 'compiler' nodig is om het programma voor de computer geschikt te maken. Na implementatie en compilatie bestaat er een grafeem-foneem-conversie-programma (='omzetter' in figuur 1). Dit programma is in staat om ingevoerde grafemen in fonemen om te zetten. Na omzetting kan het klankschrift aan een spraak-synthese-systeem worden doorgegeven.

1.2 Lexicon- versus regelbenadering

Er bestaan tekst-naar-spraak-systemen voor verschillende talen zoals het Engels, Nederlands en Duits. Afgezien van mogelijke implementatie- en syntheseverschillen bij deze systemen, wordt hier op het verschil in benadering van het talig gedeelte van het grafeem-foneem-conversie-systeem ingegaan. Grofweg kunnen twee benade-ringswijzen onderscheiden worden:

(9)

tA~

~~

-

w·

,,.,lul.te.

-

~

6kAFON

_~

\i,

1 co--.,~

"'"-trOCl'I. :

₌

~tt-~..t~-

~uluUc.

1 . 1 , 1 , ~ : 1 , ~ t , w _~

t""'-~

'

0 ~

,

"'F.:1k-M,2..

0c.

~

GR~fON.&''-'""M1~u.--io~-\.

,

(10)

• Men kan uitgaan van een pure lexiconbenadering. Dit houdt in, dat het talig gedeelte van een conversie-systeem een lexicon voorstelt, waarin de woorden van een taal opgenomen en van hun klankschrift voorzien zijn. Er hoeven dan vrijwel geen regels opgesteld te worden. Het is echter onmogelijk om alle woorden van een taal in een lexicon te vermelden: het lexicon wordt enorm groot en er kunnen nieuwe woorden in een taal ontstaan.

• Tegenover de lexicon- staat de regelbenadering. Het talig gedeelte van een conversie-systeem bestaat uit grammaticale regels, die tot grafeem-foneem omzetting leiden. De regels beschrijven regelmatigheden. Afwijkende woor-den (bijvoorbeeld buitenlandse woorwoor-den en uit1onderingen binnen de taal zelf) kunnen niet met deze regels beschreven worden.

De benadering van het talig gedeelte van de bestaande grafeem-foneem-conversie-systemen ligt meestal tussen deze twee uitersten in. Er wordt zowel met een lexicon als met regels gewerkt. Het gaat er dan om waar de nadruk wordt gelegd. Een voorbeeld van een lexicaal gerichte opzet voor het Duits is het 'Weense Systeem' waarover gerapporteerd wordt in M. Kommenda (1985) en A. Pounder & M. Kom-menda (1986). Bij dit systeem wordt ook gebruik gemaakt van regels. De systemen die hierna genoemd worden, hebben een voornamelijk op regels gebaseerde grafeem-foneem-conversie. Deze systemen verschillen onderling wat betreft het aantal ben-odigde grammaticale regels. In het systeem voor het Duits beschreven door D.S. Stall (1972) en D.S. Stall & H. Mangold (1978) is een zeer uitgebreide grammati-cale analyse opgenomen. Door de uitgebreide analyse bestaat het talig gedeelte uit erg veel regels. Een voordeel is echter, zo beweert Stall, dat nagenoeg alle Duitse woorden correct in hun fonetisch schrift weergegeven kunnen worden.

De conversie-systemen voor het Engels van D.H. Klatt (1976) en S.R. Hertz (1982) werken ook voornamelijk op basis van grammaticale regels.

Voor het Nederlands zijn grafeem-foneem-conversie-systemen ontwikkeld door J. Wester (1984) aan de universiteit van Nijmegen en door samenwerking van de uni-versiteiten van Utrecht (E. Berendsen (1986)) en Leiden (E. Berendsen, S. Langeweg & H.v. Leeuwen (1986)) en het Instituut voor Perceptie Onderzoek (IPO) te Eind-hoven (H.v. Leeuwen, S. Langeweg & E. Berendsen (1986)). Het conversie-systeem als resultaat van laatstgenoemd samenwerkingsverband heet 'GRAFON'. In figuur 2 is te zien dat GRAFON zowel het talig- als het implementatie-gedeelte als de omzetter omvat. De regels van het talig gedeelte kunnen vervangen worden door andere, mits deze dezelfde notatiewijze (d.i. regel-formaat) aanhouden.

Het doel van mijn afstudeeronderzoek is het schrijven van regels voor grafeem-foneem-conversie van Duitse morfemen. Het GRAFON-programma stond mij daar-bij ter beschikking. Na implementatie van de regels in het GRAFON-programma ontstond een grafeem-foneem-conversie-systeem voor het Duits. De regels worden op correctheid beoordeeld aan de hand van een lijst met 8000 hoogfrequente Duitse woorden (lijst van Kaeding).

Voordat de opbouw en werking van het GRAFON-programma besproken wordt, worden eerst nog een aantal begrippen en de notatiewijze, die bij het opstellen van regels gebruikt werden, nader toegelicht.

(11)

GRAFON IPA GRAFON IPA I p p IE 1: B b AE t: T t EH e: D d A a K k AH a: G g E lJ F f 0 ::>

w

V OH o:

s

u

0

z

z UH u: X X UE y CH ç

uu

y: SH

_J

OE re M m 00 j1l: _N _n AI _'1 NQ

_u

AU _~ L l EU _~ R r ER

•

y _J GS 1 H h

Tabel 1. De foneemsymbolen van het GRAFON-programma met de correspon-derende !PA-notaties.

(12)

1.3 Grafeem- en foneemniveau, regelnotatie en distinctieve

ken-merken in het GRAFON-programma

Bij het omzetten van grafemen in fonemen onderscheidt men twee niveau 's, nl. een grafeem- en een foneemniveau. Op het grafeemniveau is het ingevoerde woord opge-bouwd uit letters. De omzetting vindt op de volgende manier plaats: elk grafeem of groep van grafemen op een grafeemniveau wordt omgezet in een foneem op een foneemniveau. Twee voorbeelden voor het Duits geven aan, dat het bij grafemen en fonemen om twee verschillende eenheden op verschillende niveau 's gaat en dat er sprake is van een bepaalde relatie tussen deze eenheden.

grafeeaniveau (kleine letters) foneem.niveau (hoofdletters) t a g

l

T AH K ae t h e r

l

l l l l

EH T ; E R

In tabel 1 staan de foneemsymbolen die in het GRAFON-programma gebruikt wor-den, met hun IPA notaties (zie ook figuur 4).

De notatiewijze van regels is terug te voeren tot die in Sound Pattern of English van N. Chomsky & M. Halle (1968), welke notatiewijze als basis gezien mag worden. De algemene vorm van een regel is:

F -> C / L _ R

De betekenis van deze regel is als volgt: focus F wordt veranderd in de verandering C onder de voorwaarde dat linkercontext L voorafgaat aan de focus en rechtercontext R de focus volgt. Als L en R niet gegeven zijn, dan is het een contextvrije regel. F, C, L en R staan voor een grafeem of foneem of groepen van grafemen of fonemen. De afspraak is, dat grafemen met kleine letters en fonemen met hoofdletters worden geschreven.

Een voorbeeld van een regel voor het Duits is: a -> A / _ n,d

Deze regel zet grafeem "a" in foneem "A" om, wanneer na "a" in woorden als "hand" en "sand" de grafemen "n" en "d" volgen.

In de fonologie worden regels vaak met distinctieve kenmerken i.p.v. met fonemen geformuleerd. In het GRAFON-programma kunnen in regels zowel voor grafemen als voor fonemen distinctieve kenmerken gebruikt worden. Elk grafeem of foneem kan beschreven worden met een bepaalde set distinctieve kenmerken, waarbij elk grafeem of foneem zich uniek onderscheidt van een ander. Dit komt tot stand, doordat het wel-aanwezig-zijn van een eigenschap (= distinctief kenmerk) als

"+"

en het niet-aanwezig-zijn als "-" wordt aangemerkt. Distinctieve kenmerken zeggen iets over articulatie, zoals de wijze en de plaats. Door distinctieve kenmerken te gebruiken kan men verwijzen naar een groep van grafemen of fonemen, waarbij alleen de overeenkomstige kenmerken opgegeven hoeven te worden.

Een voorbeeld van een regel voor het Duits, die gebruik maakt van distinctieve kenmerken:

(13)

a -> A / _ <g +cons>,<g +cons> (cons • consonantisch) Deze regel zet grafeem "a" in foneem "A" om, wanneer er na "a" twee consonanten volgen. Deze regel beeft dus betrekking op meer woorden dan alleen "band" en "sand", nl. ook "wappen", "narr", "maat" enz. Distinctieve kenmerken moeten volgens afspraak tussen de haakjes "< >" staan. Omdat het in dit geval om een kenmerk gaat, dat op een grafeem betrekking heeft, moet er een "g" in staan (voor fonemen is dat een -r'). Met het noemen van dit kenmerk wordt naar een hele groep, de consonanten, verwezen. Voor een overzicht van de Duitse grafemen en de door mij gebruikte distinctieve kenmerken verwijs ik naar Appendix 1. Voor zover mogelijk zijn dezelfde distinctieve kenmerken gehandhaafd als van het GRAFON-programma voor het Nederlands van Berendsen, Langeweg en van Leeuwen. In een toelichting staat de betekenis van de afkortingen van de distinctieve kenmerken. De fonemen en de door mij gebruikte distinctieve kenmerken staan in Appendix 2.

1.4 Het GRAFON-programma voor het Nederlands

Hieronder geef ik een beschrijving van het GRAFON-programma zoals die ook te vinden is in E. Berendsen (1986), E. Berendsen, S. Langeweg & H.v. Leeuwen (1986) en H.v. Leeuwen, S. Langeweg & E. Berendsen (1986).

1.4.1 Regelstructuren in het GRAFON-programma

In de regel

F ->

C / L _

R

kunnen L en Rook d.m.v. structuren weergegeven worden. De volgende structuren van een linker- of rechtercontext zijn mogelijk, waarbij de notatie iets aangepast is voor gebruik met de computer (er worden voorbeelden voor het Duits gegeven):

1. alternatieve mogelijkheden: Een van de aangegeven structuren moet waar zijn om de regel te laten werken.

Voorbeeld:

i ->

I /

<f -acht,-segm>,{H} _ n,<g -segm>

{B} <f ... > : bundel van foneemkenmerken <g ... > : bundel van graf eemkenmerken

{ .. } : geven de alternatieven aan

De linkercontext moet zijn een morfeemgrens (als foneem) gevolgd door ofwel foneem "H" of foneem "B" (dus twee alternatieven). Eén van deze linkercon-texten samen met de aangegeven rechtercontext zijn de voorwaarden om de letter "i" in foneem "I" te laten omzetten. Deze regel betreft de woorden "hin" en "bin".

(14)

2. negatie: Een bepaald grafeem of foneem of groep van grafemen of fonemen wordt uitgesloten, wat betekent dat op de plaats van dit grafeem of foneem (of groep van grafemen of fonemen) al het andere wel in de context mag voorkomen, wil de regel van toepassing zijn.

Voorbeeld:

c,c -> K / _ <g -cona,+acht,+aegm>,'e

: negatie van het volgend grafeem of foneem

De rechtercontext moet dus bestaan uit de grafeembundel <g -cona, +acht, +aegm> (dit is een achtervocaal) gevolgd door iets, wat niet het grafeem "e" is. De regel heeft betrekking op woorden als •~usativus" en "staccato". Negatie bestaat niet in Sound Pattern of Engli,h, maar is toegevoegd in het

GRAFON-programma.

3. conjunctie: De regel wordt alleen toegepast wanneer alle structuren tegelijker-tijd van toepassing zijn.

Voorbeeld:

h -> / / + [cons] + • [c ]

+ [ ... ] structuren met een plusteken ervoor moeten

+ [ ... ] allemaal tegelijkertijd waar zijn, indien plustekens onder elkaar staan.

Hier moet een consonant voorafga.an aan de "h", maar die consonant mag geen "c" zijn. Conjunctie kan met negatie gecombineerd worden, zoals hier het geval is. "16" betekent, dat de letter "h" in niets wordt omgezet, dus geen fonetische representatie krijgt. De regel is van toepassing op bijv. "theater",

"aet,ber", "bibliothek".

4. optie: De structuur mag wel aanwezig zijn, maar hoeft niet. Voorbeeld:

a

->

AH/_ cona,(<g -aegm>),i,u,m ( ... ) : deze structuur is optioneel

De rechtercontext luidt een consonant gevolgd door een morfeemgrens en grafeemreeks "ium" of een consonant gevolgd door grafeemreeks "ium". De regel betreft woorden als "stadium", "aquarium".

Deze vier structuren definiëren een computertaal specifiek voor het schrijven van regels voor grafeem-foneem-conversie. De regels geschreven in deze computertaal worden vertaald door een regel compiler, die de regels omzet naar een vorm die door de omzetter gebruikt kan worden. De vier basisstructuren mogen gecombineerd

(15)

(zie onder punt 3) en genest worden, zodat ook complexe regels geschreven kunnen worden.

Een voorbeeld van een geneste structuur is:

0 -> 0 / - [cona, •[ploa, ---,conjunctie t--t-+---.. alternatieven ,,,,,_ _ _ _ _ ; = = - . 4 , . ---alternatieve mogelijkheden

_______

..

Hier vallen de alternatieven •1• en •n• onder de conjunctie (met negatie gecombi-neerd), welke zelf samen met het grafeem •x• een alternatieve mogelijkheid voorstelt.

Verder is in het GRAFON-programma het gebruik van definities mogelijk. Definities maken het gemakkelijk, omdat met een term, bijv. "suffix", een hele groep eenheden bedoeld kan worden. Een voorbeeld van een definitie is:

suffix• {{e },-} {e,r } {e,n } 1 1 enz.

Het gebruik van definities heeft pas zin, wanneer een bepaalde structuur in verschil-lende regels herhaald wordt en wanneer een structuur heel uitgebreid is.

Een voorbeeld van een regel waar een definitie in voorkomt:

->

1 /

<g +aegm> _ suffix

1.4.2 Opbouw en werking van het GRAFON-programma voor het

Ne-derlands

Men zou zich kunnen voorstellen dat het omzetten van grafemen in fonemen in de volgende stappen verloopt:

1. Een woord wordt gecontroleerd op zijn vorm: het kan bijv. een afkorting of een getal zijn. In dat geval worden ze met een volledige notatie in grafemen weergegeven.

2. Deze grafeemnotaties en alle andere woorden, die geen afkortingen of getallen zijn, ondergaan een morfologische analyse. Dit houdt in, dat de grafeemreeksen in eenheden (morfemen) opgesplitst worden, die de basis vormen van waaruit er klanktoekenning aan de afzonderlijke grafemen kan plaatsvinden.

3. Dan worden de grafemen in fonemen omgezet. 4. Er vindt klemtoontoekenning plaats.

5. Vervolgens worden fonologische regels toegepast. 6. Als laatste komen allofonische regels aan de orde.

(16)

De stappen 1 en 2 vinden op grafeemniveau plaats, stap 3 zet een grafeemrepresenta-tie om in een foneemrepresentagrafeemrepresenta-tie en de stappen 4 t/m 6 spelen zich op foneemniveau af.

De volgorde waarin deze stappen gedaan worden, en 6f deze stappen wel gedaan worden, hangt af van de wijze van linguïstische analyse. Wanneer van bovenge-noemd schema uitgegaan wordt, ia het denkbaar dat de ene stap de invoer voor de volgende stap levert. In het GRA.FON-programma kan iedere stap een module vertegenwoordigen. Ook kunnen er submodules aangebracht worden (deze worden hier niet aangegeven). De opbouw volgt (in volgorde van verwerking) hieronder, waarbij ook de verschillende niveau's met betrekking tot de invoer en uitvoer van de modules aangegeven worden.

module 1 2 3 4 5 6

Het GRAFON-programma voor het Nederlands

functie invoerniveau uitvoerniveau

bewerking van afkortingen e.d.

morfologische regels grafeem-foneem-omzetregels klemtoonregels fonologische regels allofonische regels grafeem

( =

orthografische representatie) grafeem grafeem foneem foneem foneem grafeem grafeem foneem foneem foneem foneem

( =

fonetische transcriptie) Buiten deze modules zijn in het programma nog twee lijsten met distinctieve ken-merken opgenomen, nl. één voor grafemen en één voor fonemen. Deze lijsten zijn nodig, omdat de computer moet weten, welke grafemen en fonemen er zijn en hoe hun distinctieve kenmerken eruit zien, omdat deze in modules gebruikt worden. Binnen een module worden de regels sequentiëel doorlopen en wordt die verandering doorgevoerd, die hoort bij de eerste regel waarbij aan alle voorwaarden is voldaan. Hierdoor is er een bepaalde volgorde van regels: de meest specifieke regel komt het eerst en de meest algemene regel het laatst. Dit is om te voorkomen, dat de algemene regel al toegepast wordt, voordat de specifieke regel aan de beurt had kun-nen komen. Zodra dus een regel past, wordt deze toegepast en wordt het volgende grafeem/foneem in ogenschouw genomen. Binnen een module kan de uitvoer van de ene regel geen invoer van een andere regel zijn. Een regel die ervoor zorgt dat een andere regel kan werken, moet in een voorafgaande module geplaatst worden. Voor het GRAFON-programma geldt, dat de modules zo opgesteld moeten zijn, dat er binnen een module altijd minimaal en maximaal een regel op een grafeem of foneem (of set van grafemen of fonemen), dat (die) omgezet moet worden, aangrijpt. De regel die 'gevoed' wordt moet dan in een volgende module opgenomen worden, zodat deze in werking kan treden.

Het GRAFON-programma is een flexibel systeem. Dit houdt in, dat de aanwezige grammaticale regels makkelijk gewijzigd of verwijderd en nieuwe regels toegevoegd

(17)

kunnen worden.

De werking van het GRAFON-programma is als volgt. Een ingevoerd woord gaat de modules één voor één door. Binnen de module 1 t/m 3 worden de regels per grafeem (of set van grafemen) toegepast. Daarbij wordt een woord per module van links naar rechts of van rechts naar links doorlopen. Elk grafeem of set van grafemen gaat de regels betreffende deze eenheid langs, totdat een regel aangrijpt. De verandering wordt uitgevoerd en verschijnt op het uitvoerniveau. Deze uitvoer dient als invoer voor de volgende module.

Vanaf module 4 vindt toepassing van regels per foneem of set van fonemen plaats. De uitvoer van module 6 is de fonetische weergave van het ingevoerde woord.

In dit verslag is alleen van toekenning van links naar rechts sprake.

Doordat toekenning van links naar rechts pláatsvindt, moet men grammaticale regels zo opstellen, dat de linkercontext alleen naar een uitvoerniveau en de rechtercontext alleen naar een invoerniveau verwijst.

Voor modules 1 en 2 geldt bijvoorbeeld het volgende: invoerniveau (grafemen)

uitvoerniveau (grafemen)

Wanneer er nu een regel voor de "b" geformuleerd wordt, die in de omgeving van "a" en "c" "bh" wordt, moet deze als linkercontext grafeem "aa" hebben. De "a" is immers al in een nieuw grafeem "aa" omgezet, want deze gaat aan de "b" vooraf. Er is geen informatie meer beschikbaar over de eenheid op een vorig grafeemniveau (is hier invoerniveau). De rechtercontext kan alleen maar op invoerniveau aangegeven worden, omdat deze nog niet omgezet is. Dus de rechtercontext is "c". De regel zou er zo uit kunnen zien:

b -> bb / aa _ c

Voor module 3 (de grafeem-foneem-omzetregels) geldt: invoerniveau (grafemen)

uitvoerniveau (fonemen)

Wanneer ook hier een regel voor "bh" opgesteld wordt, zou de linkercontext foneem "A" ("aa" is al omgezet) of grafeem "aa" kunnen zijn. De rechtercontext kan alleen met "cc" aangegeven worden. De grafemen "aa", "bh" en "cc" verwijzen niet naar het invoerniveau van module 1 maar naar het laatste uitvoerniveau in grafemen. In

dit geval is dat het uitvoerniveau van module 2. Er kan m.b.v. grafemen alleen naar dit uitvoerniveau verwezen worden, d.w.z. er blijft alleen informatie over de eenheden op dit laatste grafeemniveau beschikbaar. De omzetregel kan er als volgt uitzien:

bb -> B / aa _ cc

of

(18)

bb -> B / A _ cc

Voor modules 4, 5 en 6 geldt, dat er een invoer en een uitvoer op foneemniveau is en dat er bovendien nog een laatste uitvoerniveau in grafemen {hier van module 2) beschik baar is:

uitvoerniveau (grafemen)

invoerniveau (fonemen)

uitvoerniveau (fonemen)

De linkercontext in een regel voor •B" zou hier met "aa" of "AA" aangegeven kunnen worden. Met "A" is niet mogelijk omdat er geen informatie meer over dit foneem van het invoerniveau bestaat ( de "A" is al omgezet in een nieuw foneem). De rechtercontext kan met "cc" of "C" aangegeven worden. In principe zijn de mogelijkheden voor formulering van de betreffende regel:

B

-> BB / aa

B

->

BB /

aa cc C B ->

BB /

AA cc

B

->

BB /

AA

C

Welke formulering van de regels in bovenstaande voorbeelden uiteindelijk gekozen wordt, hangt af van de vraag welke het best aansluit op woorden waarin de beschreven omzetting moet plaatsvinden.

In het GRAFON-programma bestaat een speciaal commando, 'DEBUG', waardoor men een gedetailleerd overzicht krijgt van wat er in elke module plaatsgevonden heeft. Dit is voor de gebruiker van het GRAFON-programma niet zo van belang.

Voor de taalkundige echter, die de regels opstelt, is deze mogelijkheid bedoeld om te bekijken wat er fout gaat.

In de titel van mijn scriptie staat 'een eerste aanzet'. Dit is gedaan op grond van het feit, dat dit inderdaad de eerste poging is tot het formuleren van regels voor grafeem-foneem-conversie voor het Duits in combinatie met het GRAFON-programma. Het gevolg is dan ook dat zal blijken dat de regels nog uitgebreid en verbeterd zullen moeten worden.

In het volgende hoofdstuk ga ik in op de werking van het door mij ontwikkelde GRAFON-programma voor het Duits. Ik heb me bij het opstellen beperkt tot grafeem-foneem-omzetregels, fonologische en allofonische regels (resp. modules 3, 5 en 6 uit het schema op blz. 8). Bewerkingen van afkortingen e.d., morfologische analyse en het opstellen van klemtoontoekenningsregels vielen buiten mijn onder-zoek. Verder worden door mij drie andere modules geïntroduceerd, die niet met één van de modules in het GRAFON-prograrnrna voor het Nederlands corresponderen, nl. grafeem-grafeem-omzetregels, reduktieregels en grensreduktieregels.

In hoofdstuk 3 worden de fonetische transcripties, die het programma levert, op correctheid beoordeeld aan de hand van een lijst met 8000 hoogfrequente woorden uit het Duits met bijbehorende fonetische transcripties {lijst van Kaeding).

(19)

-

- -

-

- - - -

-

- -

-2 HET GRAFON-PROGRAMMA MET

GRAMMA-TICALE REGELS VOOR HET DUITS

2.1 Korte beschrijving van de opbouw van het programma

Het GRAFON-programma voor het Duits heeft de volgende opbouw (vgl. schema voor het Nederlands op blz. 8):

module functie mvoerniveau

.

uitvoerniveau

1 grafeem-grafeem-omzetregels grafeem grafeem

voor woorden morfeemgrens

2 grafeem-foneem-omzetregels grafeem foneem

3 fonologische regels foneem foneem

4 reduktieregel foneem foneem

5 grensred uktieregels foneem foneem

Het behandelen van afkortingen, getallen e.d. en het opstellen van klemtoonregels vielen buiten mijn onderzoek. Dit is daarom ook niet in de opzet van het programma terug te vinden.

Bij de allofonische regels gaat het slechts om die voor het allofoon "ER" . Deze is bij de grafeem-foneem-omzetregels (module

2)

opgenomen. Allofonische regels kwamen in het schema op blz. 8 na fonologische regels. In het GRAFON-programma voor het Duits zijn er geen fonemen, opgeleverd door fonologische regels, die allofoni-sche variaties kunnen vertonen. Morfologiallofoni-sche analyse vindt niet plaats. In plaats daarvan worden grenssymbolen ingevoerd en zijn daarvoor regels opgesteld. De grenssymbolen zullen in de paragrafen 2.2.2. en 2.2.4. ter sprake komen.

Aan de modules worden nog twee lijsten met distinctieve kenmerken toegevoegd, één voor grafemen en één voor fonemen.

De door mij ontwikkelde grafeem-foneem-conversieregels voor het Duits zijn voor-namelijk gericht op de Duitse standaard uitspraak ('Hochlautung'). In het vervolg van dit verslag wordt daar steeds van uitgegaan.

Hierna worden de onderdelen van het programma één voor één besproken, beginnend met de lijst met grafemen.

2.2 De onderdelen van het GRAFON-programma voor het Duits

2.2.1 De lijst met grafemen en hun distinctieve kenmerken

In deze lijst (zie Appendix 1) zijn alle tekens opgenomen, die bij het schrijven van een taal worden gebruikt, dus letters van het alfabet en leestekens (geen cijfers). Er zijn een aantal uitzonderingen. Bij de invoer mogen volgens afspraak geen hoofdletters gebruikt worden, ook al is dit eigenlijk in strijd met de Duitse spellingsregels1. Ten tweede wordt het teken "f3"

als

"as" weergegeven en staat als zodanig niet in de lijst, zoals geen enkele dubbele grafeemcombinatie. Als laatste komt een Umlaut tot stand

1_{Na afronding van mijn ondenoek bleek dat het nu ook mogelijk i1 om hoofdletten in de invoer} te gebruiken.

(20)

i.-..

tbc,...,.

o~~-~l,()fl\.

.tod't

k

~ NO~ t-o,l1.&1

w:tvo~ ott

r4~ _

,~

M , ~

,..~---:

- ..(d~ .., ~,..,.,

~

- ~ i ~

.,,.., .. v~t...

:

- 4 ~ ~

.

~

'f'

~

-

--

41:'

~e...t4~'1

~

,~~

r-,-• ,.,·

1°'1~

3. Se&.,-...,~

.t.,

~

Wi,.t

~ ~

Gk~roN~

(21)

-door een "e" achter de betreffende klinker te zetten. Naast de letters en leestekens zijn er nog een aantal extra symbolen voor woorden morfeemgrenzen ingevoerd. Paragraaf 2.2.2. gaat daarover. De distinctieve kenmerken van de grafemen zijn analoog aan die van de fonemen voornamelijk op articulatiebasis tot stand gekomen. De kenmerken zijn alleen voor het schrijven van regels en binnen het GRAFON-programma van belang. De gebruiker heeft deze kenmerken bij het intypen van woorden niet nodig.

Figuur 3 laat de werking van het GRAFON-programma zien tot aan module 1. Er is tekst ingevoerd.

Voordat de tekst module 1 ingaat, worden spaties intern in het teken "$" omgezet, in figuur 3 met een pijl aangegeven.

Een voorbeeld van invoer is:

invoer: ein aann

intern: ein

S

■ann

2.2.2 Gebruik van symbolen voor woorden morfeemgrenzen

De regels voor grafeem-foneem-conversie voor het Duits gaan uit van morfemen. Woorden die uit meer morfemen opgebouwd zijn moeten dus eerst gesegmenteerd worden. In het GRAFON-programma voor het Nederlands is tot dit doel module 2 ingevoerd. In het GRAFON-programma voor het Duits bestaat hiervoor (nog) geen module. Consequentie hiervan is, dat polymorfematische woorden met de hand, d.w.z. door de gebruiker zelf, gesegmenteerd moeten worden.

Ik heb ervoor gekmen om voor de taalkundig verschillende grenzen tussen de mor-femen (de prefix-, suffix-, samenstellings- en woordgrenzen), zo weinig mogelijk ver-schillende symbolen te introduceren. Dit is gedaan om het conversie-systeem zo gebruikersvriendelijk mogelijk te maken. De grenssymbolen die de gebruiker moet aangeven, ZlJn:

"

"-"

De spatie moet gebruikt worden om een woordgrens aan te geven. (Intern wordt de spatie gerepresenteerd door het symbool "$".)

is het teken voor een morfeemgrens waarbij deze geen woordgrens mag zijn; een prefix-, suffix- of samenstelingsgrens dus. Voorbeeld: "be-kannt-mach-ung". 2

Voor sommige morfeemgrenzen bestaat er een apart symbool en dat is

"#".

"'#"

Dit grafeem geeft de morfeemgrens aan na het prefix "er". De gebruiker mag

op deze plaats alleen dit teken vermelden en niet het algemene "-".

De grafeemreeks "er" kan als morfeem in het Duits drie functies hebben. Bij deze functies horen verschillende uitspraken. Deze staan erachter. "er" treedt op als:

2_{Een &antal morfeemgrensen hoeft men niet te markeren: wanneer een woord eindigt op •e•,} •er(n(d))•, •el(n(d))• of •en(d)• dan hoeft voor de •e• geen morfeemgrena geplaatat te worden. De grafeem-foneem-omsetregel.e voor de •e• 1orgen ervoor, dat in de1e gevallen de juiate klank toegekend wordt. Wanneer dese gren1en wel aangegeven worden, verloopt de omzetting ook goed.

(22)

persoonlijk vnw. prefix suffix IEH R] IAE R] IE R] (E

=

achwa)

De uitspraak met "EH" wordt door de algemene grafeem-foneem-omzetregel, die "e" in "EH" omzet wanneer een consonant (behalve •x") volgt, waarbij de "e" de klinker van een éénlettergrepig woord ia ( de op één na laatste van de set regels bij grafeem •e•), verkregen.

De moeilijkheid bestond in het afbakenen van de linker- en rechtercontext van "er"

als prefix en als suffix. Als prefix kan er voor •er" een morfeemgrens ( "-") of een woordgrens

("S")

staan en moet een morfeemgrena (•-") gevolgd door een grafeem (<g +segm>) erachter komen. Het teken

•S"

wordt in module 1 omgezet in "-,-" (twee morfeemgreil88ymbolen dus voor een woordgrens). De regel, die van "er" "AER" maakt, ziet er dan zo uit:

e,r ->

AE,R / - _

-,<g +aegm>

Voorbeeld 1: "er-kennen" (woordgrens voor "er"). Voorbeeld 2: "wieder-er-kennen" (morfeemgrens).

Als suffix treedt er als linkercontext van "er" een grafeem gevolgd door een morfeem-grens ("-")open als rechtercontext een morfeemmorfeem-grensteken ("-") of een woordmorfeem-grens ( "$"). Dit als regel uitgedrukt:

e,r ->

E,R /

<g

+aegm>,-Voorbeeld 3: "weit-er" (woordgrens na "er"). Voorbeeld 4: "weit-er-e" (morfeemgrens).

Wanneer men nu voorbeeld 2 en 4 vergelijkt, wordt duidelijk, dat aan de hand van de morfeemgrenzen tussen woorden als in 2 en 4 geen onderscheid gemaakt kan worden. Het hangt dan alleen af van de volgorde waarin deze regels staan, of "er" in woorden als "wieder-er-kennen" en "weit-er-e" systematisch als "AER" dan wel als "ER" wordt weergegeven.

Om in deze gevallen de juiste fonetische transcriptie te krijgen, is het symbool

"#"

ingevoerd. Dit teken geeft aan, dat we te maken hebben met een speciaal soort morfeemgrens, nl. die na het prefix "er". De fonetische weergave van woorden als in voorbeeld 1 wordt door toevoeging van

"#" niet beïnvloed. Het symbool

"#" moet

bij het formuleren van de nieuwe regel in de focus geplaatst worden:

e,r,#

->

.lE,R,GR / - _

<g +aegm> waarbij "GR" het foneem voor

"#" is (zie figuur 4).

Een nadeel van het invoeren van het symbool

"#"

is, dat de gebruiker moet ont-houden, dat dit na het prefix "er" ingetypt moet worden. De gebruiker moet weten, wanneer "er" als prefix optreedt.

(23)

Als vierde grenssymbool, waar de gebruiker echter niet mee te maken krijgt, wordt het symbool "%" gebruikt. Het morfeemgrenssymbool "-" wordt in module 1 in een bepaalde omgeving hierin omgezet.

In het GRAFON-programma voor het Duits is een bepaalde groep suffixen begin-nend met een klinker gedefiniëerd als "suffix". Deze definitie wordt genoemd op blz. 7 en staat volledig afgebeeld in Appendix 3.

Het bleek bij het opstellen van de grafeem-foneem-omzetregels en fonologische regels dat er in sommige gevallen een onderscheid moest worden gemaakt tussen een mor-feemgrena in het algemeen en een suffixgrens in het bijzonder. Met een suffixgrens wordt hier bedoeld: een morfeemgrens waacna een "suffix" volgt. Een voorbeeld is

"um-geb-ung", waacbij het teken "-" tussen "geb" en "ung" een suffixgrens is. De situaties, waacin het wel of niet aanwezig zijn van zo'n suffixgrena van belang is, vindt men o.a. bij de grafeemreeks "er" wanneer (a) deze aan het eind van een woord als laatste onbeklemtoonde lettergreep voorkomt en wanneer (b) deze reeks zelf een "suffix" is. Komt er in beide gevallen achter "er" nog een "suffix" dan wordt de grafeemreeks omgezet in de fonemen "E" en "R" (zie Appendix 4 voor de regel). Wanneer er echter niets of nog een morfeem ( zodat een samenstelling ontstaat) volgt, dan wordt "er" als het foneem "ER" weergegeven (zie Appendix 8 voor de regel). Foneem "ER" wordt in het in dit verslag besproken GRAFON-programma voor het Duits nog niet gebruikt, wat in de volgende paragraaf ter sprake komt, maar wel in een tweede versie van het programma. In hoofdstuk 4 zal deze tweede versie aan de orde komen. Ik loop hier alvast op vooruit omdat m.b.v. het foneem "ER" het belang van de suffixgrens goed aangetoond kan worden.

Voorbeelden:

geval mvoer module 1 "er" wordt

(a)

ueber ueber [ER]

(b) weit-er weit%er [ER]

(b) weit-er-e weit%er%e [E,R]

(b) weit-er-ge ben weit%er%geben [ER]

Ook in module 3 bij de fonologische regel verscherping speelt het onderscheid tussen een morfeemgrens en suffixgrens een rol. Wanneer er een ander morfeem (geen "suffix") of niets volgt op een woord, dat eindigt op een niet-sonore medeklinker, treedt verscherping op. In het geval, dat een "suffix" volgt, werkt deze fonologische regel niet (zie Appendix 5 voor de regel).

Van de vier genoemde grenssymbolen 11

" , 11- " , "#"en"%" moeten de eerste drie dus

door de gebruiker aangegeven worden. Het gebruik van een spatie zal geen probleem vormen: de spatie is een spellingseigenschap. Bij het aangeven van de symbolen "-" en"#" heeft de gebruiker enig taalkundig inzicht wat betreft morfeemopbouw nodig.

(24)

Al

AU

e

g~

EH

AE

f

G H

IE

I

y

t

"'

N

Z,idu,,"" /Ju,J,dvift fI,r tlftudu Alu•pr11elt,

Die uawn___. Tabdk brinst LautlZlidNln und LaulZllk:hc:nkombinationcn, wie

11c bei cleullàlcr A...-.,cbc 1111 Wörterverzeièmis venwendet werden. In der enten

S-palte 11Cht das LaulZleichffl oder die Lauuei~k<'ll"!:liralion. in der zwciten Spalte

msl)lel dazu In ~«1!1M:hr,;;,!:<i.::,1'l:fff drit'fWIC das Beispiel in Lautschrif\.

a llilltt bat

N fJ

o • lao

a: t 1 J k 1 1 m

"'

n i:i

....

0 -

\JI.-.._

c.-...i wat Hut

a.u

Ida

...

Gjn Medlen 8-t lliitu

....

~--Taln llilltlk F.S

c..-....

.t.._i

...

_~

...

il ~h

...

Npel

~·

---

Nellt

--ba:n 'o:be U:t pl'ac: gor'mA: vait hÄut bal IÇ dan ~ mc'ta:n bc:t 'btu 'vt:l:i tl'bri:r:in 'tf:be 'halu fas gast bat vi'ta:l fi:I 'hu:di.:i bist ja: kalt last 'na:bJ mast 'gro:srr na:t 'ba:dl) UE

z

GS

'I' z 3 1 Morel 8agt lo>'II FGalr FOIIII PQat Ökoaom

o,

ai)nlidl Linlist Parfmn Haa

"-t

Pfahl ~ t Mest lldlal Tel Zehl M,ISdl kua.,rt Hut aktuell Pl,h "'5 S.ch Mykene Rübc Etui fl;III Hase WIJK -.in.tet mo'n:l bo:t lqa'ja:J ffl'dy: Il!: p:)St eko'no:m e:I ·~thç ll!'dJSI par'fä: h:,y pa-kt ~a:I rast bast Ja:I ta:I tsa:I ma!J ku'lant hu:t ak't11tl poll vas bax my'ke:n:i 'ry:b;i e'tiii: Mt 'ha:z:i :se'ni: l,Q'lamut Von diescn Zeichcn und Zeichenkombinationcn werden 111 ~i &,!) ~ 1) ~ ~ ts !J Il nicht für fremdsprachliche Aussprache verwende!.

Da á r n a.a s

t

z i

.

1

n e r n o a :

GR -

al!

fon~em voor

leestekens

en

voor"-"

en"#"

SF - als

foneem voor

n(n

SI - als

foneem voor

pauze:

niet

in

gebruik

(25)

2.2.3 De lijst met fonemen en bun distinctieve kenmerken

De lijst met fonemen (zie Appendix 2) is niet door mij samengesteld. Ik heb gebruik gemaakt van de lijst, die op het IPO aanwezig was en die zodoende op een difoon-synthese-apparaat aldaar was afgestemd. Hierdoor kan de uitvoer van het grafeem-foneem-conversie-systeem direct gebruikt worden t.b.v deze difoonsynthese. Het gebruik van Kaeding's lijst als controle op de werking van de door mij ontwikkelde grafeem-foneem-conversie-regels voor het Duits bracht consequenties met zich mee.

Om de uitvoer van het GRAFON-programma met de fonetische transcriptie van Kaeding's lijst te kunnen vergelijken, moest er bij het opstellen van de regels rekening worden gehouden met het foneembestand in deze controlelijst. Dit hield in, dat de fonemen •sr, •GS" en •ER", die wel op de lijst van het IPO voorkwamen, maar niet in Kaeding's transcripties, niet in het GRAFON-programma gebruikt konden worden. Deze drie fonemen zouden dan immers niet op correctheid beoordeeld kunnen worden.

Figuur 4 geeft een overzicht van Duitse fonemen in !PA-notatie en de overeenkom-stige fonemen, zoals die in het GRAFON-programma voorkomen (in !PO-notatie;

"Sr, "GS" en "ER" zijn hier aanwezig).

De fonemen "GR" en "SF" zijn nodig bij de omzetting van de leestekens en de symbolen voor de verschillende morfeemgrenzen. Voor het teken "$" (spatie) bestaat geen apart foneem. De spatie wordt in module 1 (zie volgende paragraaf) omgezet in twee keer het symbool "-". Als zodanig krijgt het twee fonemen "GR" in module 2 toegewezen.

De "NF" ('not found') en het 'empty phoneme' "GR" hebben alleen voor de com-puter betekenis.

Het foneem "Sr wordt in dit GRAFON-programrna (nog) niet gebruikt. Het is bedoeld om een pauze in te lassen op die plaats in de ingevoerde zin, waar een komma staat.

Het foneem "GS" (glottisslag) wordt zoals gezegd niet in dit GRAFON-programma gebruikt. Toch zou in fonetische transcripties de glottisslag in die gevallen, waar

deze in de Duitse uitspraak gerealiseerd wordt, ingevoerd kunnen worden. Zo zou een betere weergave van de Duitse spraak ontstaan. Doordat dan een foneem voor glottisslag in fonetische transcripties voorkomt, heeft dit tot gevolg, dat een spraak-synthese-systeem dit foneem ook kan realiseren, wat nu niet gebeurt. Een poging tot het formuleren van een grafeem-foneem-omzetregel voor de glottisslag wordt ondernomen in hoofdstuk 4.

Ook het foneem •ER" wordt om eerder genoemde reden niet in dit GRAFON-programma gebruikt. Paragraaf 2.2.2. bracht in verband met het suffixgrenssym-bool

"%"

dit foneem als belangrijk voorbeeld wel ter spake: in die gevallen, dat er achter de grafeemreeks "er" een "suffix" volgt, wordt de reeks in de fonemen "E" en "R" omgezet , anders in het foneem •ER". Het foneem "ER" kan dus eigenlijk als een soort allofoon beschouwd worden. De Duitser spreekt dit foneem uit

als

een "abgeschwächtes a; silbisches 'vocalisches r'" (Ouden, blz. 37; "verzwakte a; syl-labische vocalische r"). Op de plaatsen, die voor dit allofoon in aanmerking zouden komen, komen in dit GRAFON-programma de fonemen "E" en "R" te staan. De "ER" klank is echter een essentieel verschijnsel in de Duitse uitspraak (vgl. Ouden

(26)

1,4,.,l)()C,,C.

.loh

_c,lc.,

~

Ut.."'

0 ~

-Y~""" "'-"

~NC)ft.111.o.tJ.c.1 Ah

o.tM.

t.,

1

~t~.

Of-

,-.~,«~

.-M ~ ~ 0.,

t/,,.,,z,

.((.U~~

419~

~

'.t,

' ,

,

-

,

--

•

-

,

_' _,

,

_{, o/c ,}

/

-

_{( - .} ₀

-~t'

~~~

·~t~

r-t'~'

(27)

en Siebs). Ik zal daarom in hoofdstuk 4 voor dit foneem een regel voorstellen, die dan wel buiten het tekst-naar-spraak-systeem voor het Duits valt.

Samenvattend vormen de fonemen die in Kaeding's lijst voorkomen het uitgangspunt bij het opstellen van regels. Deze komen overeen met die van de IPO-lijst, waarbij "SI", "GS" en "ER" niet van toepassing zijn.

2.2.4 Module 1: grafeem-grafeem-omzetregels

Deze module heeft alleen betrekking op het woordgrenssymbool

"S"

en het mor-feemgrenssymbool •-". De overige grafemen en symbool

"#" blijven onveranderd.

In module 1 wordt eerst gedefiniëerd wat een "suffix" is. Door deze term "suffix" te gebruiken kan in een keer naar een reeks van morfemen verwezen worden, zoals in de grafeem-grafeem-omzetregel voor het symbool •-":

->

1 /

<g +aegm> _ suffix

Dit is de regel die een morfeemgrens, waarna een "suffix" volgt, in een suffixgrens omzet. Voor de functie van deze suffixgrens verwijs ik terug naar paragraaf 2.2.2. Vervolgens de regel die "$" altijd in twee morfeemgrenssymbolen omzet:

• ->

Het bleek bij het opstellen van grafeem-foneem-omzetregels nodig te zijn, om de woordgrens enerzijds aan een morfeemgrens te relateren door deze hetzelfde sym-bool "-" toe te wijzen. Anderzijds moest de woordgrens van een morfeemgrens te onderscheiden zijn, wat door het gebruik van twee symbolen tot uitdrukking komt. Ter illustratie twee grafeem-foneem-omzetregels (<g -segm> staat voor symbool

"-"):

a

->

A / _ t,<g -segm>,i,o,n e -> AE / o,t _ l,<g -aegm>

In de eerste regel moet <g -aegm> een morfeemgrens en geen woordgrens voorstellen. Een voorbeeld is het woord "nat-ion". In de tweede regel staat er weliswaar een keer <g -segm>, maar wat erop volgt mag alles zijn, d.w.z. ook nog een <g -segm>. Dit houdt in, dat er zowel een morfeem- als een woordgrens kan staan. Voorbeelden zijn "hotel-zimmer" (met een morfeemgrens achter "hotel") en "hotel" (met een

woordgrens erachter).

Figuur 5 laat de werking van het GRAFON-programma zien tot en met module 1 (vgl. figuur 3). De pijlen in de figuur geven de omzettingen in de betreffende module aan. De eenheden van waaruit geen pijlen vertrekken blijven in module 1 onveranderd. De uitvoer is op grafeemniveau.

Een voorbeeld: invoer module 1:

er#find-ung er#findlung

(28)

2.2.5 Module 2: grafeem-foneem-omzetregels

Aan het begin van deze module worden een aantal begrippen gedefiniëerd, zoals bijvoorbeeld wat onder een plosief (hier als een bepaalde groep consonanten bedoeld, niet als distinctief kenmerk) verstaan moet worden. De rest van de module is gewijd aan de grafeem-foneem-omzetregels.

Bij het opstellen van de omzetregels heb ik een aantal boeken voor Duitse uit-spraakregels geraadpleegd, o.a. Ouden (1974), Siebe (1969), Kreuzer & Pawlawski (1975) en ten Cate, Jordens & van Lessen Kloeke (1976). Tevens had ik beschikking over een programma, dat een door mij opgegeven morfeemstructuur kon opzoeken in een lijst van ongeveer 8000 hoogfrequente woorden in het Duits (lijst van Kaeding). Achtereenvolgens bespreek ik in het kort .de basis, de volgorde, de werking, de beperkingen en het ontwerpproces van de grafeem-foneem-omzetregels.

Basis

De regels zijn gebaseerd op de uiterlijke verschijningsvorm van woorden, d.w.z. de spellingsvorm, vandaar dat we van grafeem-foneem-omzetregels spreken. Het for-muleren van de regels gebeurt op grond van regelmatigheden in het verband tussen het spellingsschrift en de daarbijbehorende klanken. Daarbij is het noodzakelijk, dat de woorden eerst in morfemen zijn opgesplitst. Het verband tussen spellingschrift en klank bestaat in het Duits namelijk op morfeemniveau; het morfeem is de een-heid van waaruit, afhankelijk van de opbouw van het morfeem, foneemtoekenning plaatsvindt.

Voorbeelden zullen dit verduidelijken: invoer module 1: module 2: b e - e n d - e n b e - e n d

I

e n BE GR AE N D SF EN beer beer

B EH R

Op grond van het feit, dat de eerste en tweede "e" in "be-end-en" tot verschillende morfemen behoren, worden ze niet samen in foneem "EH" omgezet zoals in het monomorf ematische "beer" . De eerste "e" vormt een onderdeel van een prefix en wordt daarom in "E" omgezet. De tweede "e" is deel van de stam van het werkwoord. Er volgen twee consonanten, daarom wordt aan deze "e" foneem "AE" toegekend. De derde "e" is samen met de "n" een verbuigingsvorm (als "suffix" gedefinieerd) en wordt foneem "E".

Volgorde

De regels zijn gegroepeerd aan de hand van het eerste grafeem in de focus: eerst worden alle regels met betrekking tot grafeem "a" gegeven en als laatste de set met betrekking tot grafeem "z". Daarna volgen de omzetregels voor de overige tekens, d.w.z. de leestekens en de tekens "-",

"%"

P.n

"#".

Het teken "-,-" wordt als twee keer "-" beschouwd en krijgt zodoende in deze module twee keer het foneem "GR" toegewezen. Het 'empty grapheme' "$"wordt in het 'empty phoneme' "GR" omgezet. De volgorde binnen een set regels voor een grafeem is ook bepaald, nl. van specifiek naar algemeen.

Een voorbeeld van een set regels voor grafeem "i" is:

(29)

1. i ,e ->

IE

2. i -> I / _ cons2

3. i -> I / <f -acht,-aegm>,M _ t,<g -aegm>

4.

i ->

IE

De eerste regel bekijkt of er in een grafeemreeks na "i" nog een "e" komt. Is dat het geval dan treedt deze regel in werking, de overige omzetregels komen niet meer aan bod. Woorden waarop regel 1 van toepassing is, zijn o.a. "tier", "lied", "ver-miet-ung". Wanneer deze regel niet toegepast kan worden, omdat bijvoorbeeld een rechtercontext in regel 1 gedefiniëerd zou zijn die niet overeenkomt met die in het woord, zou regel 4 toegepast worden. Ook zou grafeem "e" nog een foneem toegewezen krijgen door een omzetregel voor dit grafeem. Het resultaat is een

ver-keerde omzetting.

De tweede regel stelt een eis aan de rechtercontext. Wanneer deze uit (minstens) twee consonanten bestaat, wordt "i" in "I" omgezet. Dit is het geval in woorden als "kind", "bliek", "finger". Indien deze regel niet toegepast wordt zou "i" door de 4e regel, welke een algemene is, foneem "IE" worden en een verkeerde fonetische transcriptie ontstaan.

Regel 3 geldt voor een speciale grafeemreeks, nl. "mit". Er wordt zowel een linker-als een rechtercontext gedefiniëerd. Het woord "mit" vormt een uitzondering op de regel, dat een klinker gevolgd door een consonant 'lang' wordt. Zo'n rechtercon-text van een consonant zit normaliter in regel 4 opgesloten. Wanneer regel 3 niet toegepast zou worden, zou de "i" in "mit" door regel 4 foneem "IE" worden.

Alles wat niet door de drie voorafgaande regels bewerkt wordt, valt onder het domein van regel 4. Woorden als "leicht", "sein", "bei" enz. zouden goed beschouwd ook

onder deze vier regels vallen, resp. regel 2, 4 en 4. In deze gevallen moet echter

grafeem "i" niet los van grafeem "e" genomen worden. Samen vormen ze de diftong

"AI" . Dit komt tot stand door een regel bij de "e" ( deze gaat aan de "i" vooraf), die nagaat of er een "i" volgt.

Werking

De invoer van module 2 bestaat zoals gezegd uit grafemen. Wanneer nu bijv. de grafeemreeks "band" deze module ingaat, wordt eerst de set grafeem-foneem-omzetregels die voor de "h" gelden doorlopen; er wordt een foneem aan "h"

toe-gekend. Daarna wordt de "a" door toepassing van een van de omzetregels voor

dit grafeem omgezet, dan de "n" en vervolgens de "d", totdat alle grafemen een foneemrepresentatie hebben. Voor een bepaald grafeem worden dus niet alle omzet-regels binnen de module 'bekeken', alleen de speeifieke set omzet-regels voor dat betreffende

grafeem. Deze set wordt op zijn beurt zo ver doorlopen, totdat een regel aangrijpt.

De rest wordt overgeslagen.

Er kan binnen de module slechts één regel op een grafeem toegepast worden. Dit betekent dat er een bepaalde ordening van regels moet zijn. Deze ordening moet ervoor garant staan, dat bij het doorlopen van de specifieke set regels voor een

(30)

grafeem de goede regel aangrijpt (zie eerder onder "volgorde"). Beperkingen

Het gebruik van de fonemenlijst van het IPO leidde tot beperkingen bij het opstellen van omzetregels. In dit verband vormden voornamelijk de klinkers een moeilijkheid. Er is geen verschil in duur aan te geven bij de zogenaamde 'lange' klinkers "IE", "EH", "OH", "UH" en "00"3_•_In_{figuur 4}_is_{te zien, dat bij deze klinkers de} IPO-notatie telkens een aantal van de !PA-IPO-notaties samenneemt. Terwijl de !PA-IPO-notaties wel onderscheid in klinkerduur maken, heeft de !PO-notatie hiervoor slechts één foneem. Dit komt ongeveer met de lange versie van de !PA-notatie overeen. Dit houdt in, dat bij een omzetting van een grafeem (bijv. "i" in foneem "IE") dit foneem automatisch een lang foneem wordt. Men kan in dit verband zeggen dat het IPA een fijnere transcriptiemethode hanteert dan het IPO.

De lengte van een klinker hangt af van een aantal factoren, o.a. van (a) de plaats van de klinker in een woord, (b) het feit, of de klinker de klemtoon krijgt, (c) de hoeveelheid lettergrepen binnen het woord waarvan de klinker deel uitmaakt en ( d) de plaats van het woord in de zin. Wanneer bovengenoemde fonemen altijd lang zijn, kunnen deze factoren geen invloed meer op de lengte hebben. Dit kan bijv. in die gevallen, waar de klinker in een meerlettergrepig woord niet de hoofdklemtoon krijgt, tot een verkeerde lengte van het foneem leiden.

Voorbeeld: invoer: fonetische transcriptie: (na module 6) V i t a 1 F IET AH L V ie 1 F IEL

De kwaliteit van de klinker "i" in "vital" is dezelfde als die in "viel", de duur hoort echter geringer te zijn ( de klemtoon ligt op de "a"). De fonetische transcripties laten geen onjuiste fonemen zien. Wanneer deze fonemen m.b.v. een spraak-synthese-apparaat hoorbaar worden gemaakt, valt op dat de "i" in "vital" te langgerekt klinkt.

Er zouden dus eigenlijk (minstens) twee soorten fonemen "IE", "EH", "OH", "UH" en "00" moeten bestaan, die een korte (onbeklemtoonde) en een lange (beklem-toonde) versie zouden voorstellen. De overige fonemen voor klinkers zijn zowel voor kwaliteit als voor duur (relatief: in de vorm van kort of lang) gedefinieerd. Voorbeelden als "vital" /"viel", waarbij bij een gelijke klinkerkwaliteit de duur kan variëren zonder dat dat verschil in het gebruik van andere fonemen tot uitdrukking komt, zijn hier niet te vinden.

De fonemen "AH" en "UU" zijn de lange versies van resp. "A" en "UE". Het verschil in klinkerkwaliteit van beide versies is zeer gering (foneem "A" wordt in het Duits meer gesloten uitgesproken dan in het Nederlands). De fonemen "I", "AE" , "O", "U" en "OE" staan voor de open korte klinkers.

1

Het ia beter om van geeloten c.q. halfgeeloten klinken te 1preken. Dit duidt op de

articu-latiewijse (= kwaliteit) van de klinken. De 1ogenaamde 'korte' tegenhangers zijn dan meer open

klinkers. De duur (= kwa.ntiteit) kan 1owel bij gesloten ale bij open klinken variëren. Toch moet gezegd worden dat open klinken meestal kort sijn.

(31)

~ . l o n k

...

~

ot...:tef:-1c.hwi~

...,~._,,t.i...&,1 ""'-o,lc.c.te. 1

"'-o.t.11.f.e.

a.

1..1:l

a,o14

._..,_,.

Of-

"°"'

~

.,t/...,%

~ ! ' h . ~

(Ekj

~

"Gt

,

.. ,...~.:e.

~

·-1·

.

, I

,Gk

--,,

-

-J

.

,

-

" , ,

, 0,1; •

_~Gt

_~

_SF

~ - ~ 0

lI*

~

6k

~.:..,~

,

~

cr,o,,Ct.t..

~I

, ~

~~·

(Gs)•

(32)

Open lange klinkers komen niet op de fonemenlijst van het IPO voor ( afgezien van de "AH"). De !PA-notatie geeft hier wel een "ê:" aan, oftewel een lange "AE". Dit foneem is mijns inziens niet nodig. Op die plaatsen waar volgens Ouden en Siebs de lange "AE" voorkomt, kan deze klank goed door de "EH", die ook lang gerealiseerd wordt, vervangen worden (vgl.Duden blz. 62). Het gebruik van het foneem "EH" hier houdt alleen geen verband met de Duitse standaard uitspraak, maar meer met de omgangstaal. Ik ben me ervan bewust, dat een bepaalde samenstelling van een foneemlijst mede bepaald wordt door persoonlijke overwegingen en argumenten van degene, die een grafeem-foneem-conversie-systeem ontwikkelt.

Met het feit, dat er bij de fonemen "IE", "EH", "OH", "UH" en "00" geen verschil in duur kan worden aangegeven, moest bij het opstellen van de omzetregels rekening worden gehouden. Dit betekende, dat klinkers, die in deze klanken omgezet moesten worden, zowel in beklemtoonde als in minder of niet beklemtoonde posities hetzelfde foneem toegewezen kregen.

De oorzaak van het ontbreken van gedetailleerdere fonemen ligt aan de kant van het spraak-synthese-systeem, waarmee op het IPO gewerkt wordt en waarop het GRAFON-programma afgestemd is. Dit systeem kent maar één representatie voor bovengenoemde fonemen (in de vorm van difonen). Het gevolg is, dat in minder of niet beklemtoonde posities de fonemen na synthese te lang worden gerealiseerd. Het gaat in dit werk echter voornamelijk om het grafeem-foneem-conversie-systeem. De fonetische transcripties geven over het algemeen de juiste informatie over klank en relatieve duur.

Het GRAFON-programma is nu tot en met de grafeem-foneem-omzetregels bespro-ken. Figuur 6 laat zien welke omzettingen er tot en met module 2 plaatsgevonden hebben. De omzetregels staan afgebeeld in Appendix 4.

Ontwerpproces

Om een indruk te geven hoe de conversieregels tot stand kwamen, worden enkele Duitse woorden nader bekeken. Aan de hand van de volgende woorden zullen een aantal grafeem-foneem-omzetregels voor het grafeem "e" beschreven worden (bij het daadwerkelijk opstellen zijn natuurlijk meer woorden betrokken geweest):

uitspraak [AE] uitspraak [EH] uitspraak [E]

h,erz-lich ~b-en ah.end

h,erbst th~ater regn-~n

we_tter r~n-en leb-e_nd

h~lf-en ,eph~s--er gab-~

e_xamen m,echan-isch kame_rad

r,echn-ung k~hle haus--~s

e_t-lich-e ,erst eit,el

Men kan het volgende verband ontdekken tussen de morfeemopbouw en de uitspraak van de letter "e": wanneer de "e" gevolgd wordt door (minstens) twee consonanten wordt de "e" als "AE" uitgesproken en wanneer de "e" gevolgd wordt door één

(33)

consonant of een klinker als •EU". Bij nadere beschouwing blijkt, dat een "e" waarna een "x" (is maar één consonant, maar wordt als [KS] gerealiseerd!) volgt ook als "AE" uitgesproken wordt. Verder moet "et" in "et-lich-e" [AE T] worden. Het morfeem "et" vormt samen met "es" en prefix •er" echter een uitzondering: er zijn in het Duits geen andere woorden aan te wijzen, die met een overeenkomstige vorm het foneem "AE" toegewezen krijgen. De voorbeelden "regn-en", "ephes-er" en "werd-en" laten zien, dat de "e" gevolgd door de volgende paren van consonanten niet in "AE" omgezet wordt (hoewel er twee conaonanten staan!): "gn", "ph" en "hl". Dit geldt ook voor andere woorden met deze consonantclusters. Bovendien mag de cluster "ch" niet in deze omzetregel voorkomen wanneer aan de "e" een "m" (als woordbegin) voorafgaat; voor deze omgeving bestaat een aparte regel:

1. e -> .lE / '[<g -aep>, ■]

_

c,h

Naar aanleiding van andere woorden bleek uitsluitsel van de volgende consonant-clusters als rechtercontext in een regel met foneem "AE":

• een consonant gevolgd door een "h" (de "ch" mag wel, maar komt in de ge-noemde speciale regel voor),

• "h" gevolgd door minstens één consonant ( de "h" zorgt ervoor, dat de

vooraf-gaande klinker 'lang' wordt),

• een plosief of "f" gevolgd door t.:en "l" of "r", • de clusters "dn", "rd", "rt".

Het woord "erst" wordt als uitzondering beschouwd, omdat er geen andere vorm-overeenkomstige woorden in het Duits zijn waarvan de "e" in foneem "EH" wordt omgezet.

De derde kolom voorbeelden laat zien dat de "e" in omgevingen, waar fonemen "AE" of "EH" worden verwacht (twee resp. één consonant achter de "e"), foneem "E" toegewezen krijgt. Dit hangt samen met het feit, dat de "e" hier in een on-beklemtoonde lettergreep van een meerlettergrepig morfeem staat of van een suffix deel uitmaakt. Deze omgevingen moeten dus buiten die vallen, waarin de omzetregel met foneem "AE" werkt.

De omzetregel die het foneem "e" in foneem "AE" omzet ziet er, met het boven-staande rekening houdend, als volgt uit:

2. e -> AE / _

---

[cona2 '[h,consl '[cona,h ] ] ] ,<g +son,+cor,-nas>] ] ]-...-.. (N.B. 2)

~---

(N.B. 1)