Ein Ansatz zur Dauerregulierung deutscher Diphonsprache

(1)

Ein Ansatz zur Dauerregulierung deutscher Diphonsprache

Citation for published version (APA):

van den Heuvel, H. (1987). Ein Ansatz zur Dauerregulierung deutscher Diphonsprache. (IPO-Rapport; Vol. 603). Instituut voor Perceptie Onderzoek (IPO).

Document status and date: Gepubliceerd: 26/08/1987

Document Version:

Uitgevers PDF, ook bekend als Version of Record

Please check the document version of this publication:

• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.

• The final author version and the galley proof are versions of the publication after peer review.

• The final published version features the final layout of the paper including the volume, issue and page numbers.

Link to publication

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal.

If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:

www.tue.nl/taverne Take down policy

If you believe that this document breaches copyright please contact us at: openaccess@tue.nl

(2)

Instituut voor Perceptie 0nderzoek

Postbus 513, 5600 MB

Eindhoven

Rapport no. 603

Ein Ansatz zur Dauerregulierung

deutscher Diphonsprache

(3)

Ein Ansatz zur Dauerregulierung deutscher Diphonsprache H. van den Heuvel

26 augustus 1987

Afstudeerverslag (voor RUU) begeleiders :

Ir. J.P. van Hemert (IPO) Ors. W .J.M. Peeters (RUU)

(4)

Vorwort

Vorliegender Aufsatz bildet den AbschluB eines Forschungsprojektes, das in der er-sten Halfte des Jahres 1987 am "lnstituut voor Perceptie Onderzoek" (Institut fiir Perzeptionsforschung, kurz IPO) durchgefiihrt wurde. Diesem Forschungsprojekt lag eine Zusammenarbeit zwischen dem IPO und der "Rijksuniversiteit te Utrecht" ( der staatlichen Universitat zu Utrecht) zugrunde. Vorliegende Arbeit wurde in Utrecht als AbschluBarbeit (" doktoraal skriptie") von der Fachgruppe fi.ir Germa-nistik akzeptiert.

Der Aufsatz beschreibt einen Versuch, die temporale Variabilitat realgesprochener deutscher Sprache einigermaBen in den Griff zu bekommen. Es wird untersucht, welche Regularitaten diese gesprochene Sprache aufweist und ob diese produk-tionellen Regularitaten sich perzeptiv bewahren, wenn sie in synthetisierte Sprache eingebracht werden.

Wir werden in dieser Untersuchung von Diphonsprachmaterial ausgehen. Kapitel 1 erklart, was Diphone sind, wie Diphonsprache durativ strukturiert werden kann und welche Ergebnisse bier bereits vorliegen. Kapitel 2 beschreibt, wie die in dieser Un-tersuchung verwendete Satze mit natiirlicheren Zeitstrukturen ausgestattet wurden, und vermittelt eine Antwort zur Frage, ob diese realeren Dauerverhaltnisse wirklich zu einer Verbesserung der Diphonsprache fiihren. Kapitel 3 diskutiert die in der Lit-eratur aufgefiihrten DauersteuerungsgroBen und prasentiert anhand dieser Diskus-sion eine Aufgabenstellung zur Analyse der moglich relevanten Faktoren in unserem Satzmaterial. Wie diese Analyse weitgehend durch den Computer erledigt werden kann, erklart Kapitel 4. Kapitel 5 legt die Ergebnisse dieser computerisierten statis-tischen Analyse vor. Kapitel 6 bietet ein Modell zur Dauerregulierung diphonischer Sprache in tabellarischer Form dar, und Kapitel 7 iiberpriift, ob die Anwendung dieses Modells eine Verbesserung der Diphonsprache in perzeptiver Hinsicht mit sich bringt. Zurn AbschluB werden in Kapitel 8 unsere Befunde kritisch iiberdacht und mogliche weitere Forschungswege gewiesen.

DaB auf dem Titelblatt zu dieser Arbeit nur mein Name erscheint, soil darauf hin-weisen, daB ich fi.ir diese Arbeit die voile Verantwortung auf mich nehme, nicht, daB sie lediglich durch meine Bemiihungen zustande gekommen sei. Es gibt eine Vielzahl von Personen, die mich im fachlichen wie im auBerfachlichen Bereich un-terstiitzt haben. In erster Linie danke ich meinen Begleitern Drs. W .J.M. Peeters, wissenschaftlichem Mitarbeiter am lnstitut "Frantzen" in Utrecht, und Ir. J.P. van Hemert, Forschungsmitglied am IPO in Eindhoven, die mir durch ihre wertvollen Ratschlage und ihren unermiidlichen Enthousiasmus stets weitergeholfen haben. lch bedanke mich bei der ganzen IPO-Gruppe, welche mich durch ihr sachkundiges Eingreifen vor manchem technischen MiBgriff behiitet haben.

lch danke meinen Versuchspersonen Anke, Beate, Clarissa, Dieneke, Kurt, Marie-Louise, Marion, Monika, Petra, Susanne und Wolfgang, die nicht nur in den Tests ihr Bestes taten, sondern auch an meiner Arbeit ein reges Interesse zeigten.

lch bedanke mich besonders auch bei Ursula und Leon Adriaens, die als Wis-senschaftler vom 'Fach' immer angelegentlich nach dem 'Stand der Dinge' informiert

(5)

haben. Die Arbeit hat Ursulas kritischem Auge viele Verbesserungen, sowohl auf inhaltlicher wie auf sprachlicher Ebene, zu verdanken.

Nicht in letzter Hinsicht danke ich meiner Familie, die mich darauf hinwies, daB es im Leben mehr gibt als die sprachlichen ZeitmaBe.

Eindhoven, im August 1987,

(6)

Inhaltsverzeichnis

1 Einleitung

1.1 Analyse und Resynthese gesprochener Sprache 1.2 Diphonsprache . . . . 1.3 Intonation der Diphonsprache . . . . 1.4 Temporale Gliederung von Diphonsprache 1.5 Methodik dieser Arbeit . . . . 2 Materialzubereitung und Pilottest

2.1 Praparierung der Sotscheksatze . . . . 2 .1.1 Analyse der Sotscheksatze . . . . 2.1.2 Transkription der Diphonaquivalentsatze . 2.1.3 Intonation der Diphonaquivalentsatze 2.1.4 Temp~~ale Verarbeitung . . . . 2.2 Pilottest zur Uberpriifung des Materials . 2.2.1 Darbietung und Aufbau des Testes 2.2.2 Statistische Verarbeitung .

2.2.3 Ergebnisse und Diskussion . . .

3 Relevante Dauersteuerungsfaktoren nach der Literatur 3.1 Lautumgebung

3.2 Vokalquantitat 3.3 Vokalqualitat . 3.4 Akzentuierung

3.5 lsochronie und Silbenzahl 3.6 Position im Satz . . . . .

3.7 Tempo . . . . 3.8 Wortbau und Wortgrenze 3.9 Zusammenfassung . . . .

4 Auswahl und computergesteuerte Analyse der Satze 4.1 Selektion der Satze . . . . 4.2 Die Matrixform der Datei . . . . 4.3 Aufbau und Wirkung der Analyseprogrammatur 5 Ergebnisse der statistischen Analyse

5.1 Akzentuierung . . . . 5.2 Anfangsposition im Satz . . . . 5.3 Endposition in einer Nominalgruppe 5.4 Endposition im Satz . .

5.5 Satzende und Betonung · 5.6 Intonationsstruktur .

5. 7 Clusters . . . . 5.8 Wortstruktur . . . .

5.8.1 Zahl der unbetonten Nachsilben im Wort 5.8.2 Endposition im Wort . . . . 5.8.3 Anzahl und Position von Wortgrenzen 5.8.4 Anfangsposition im Wort . . . . 5 5 5 7 8 10 12 12 12 12 13 14 15 15 16 18 20 20 22 22 23 25 27 30 30 31 34 34 34 37 41 41 43 44 44 46

46

47

49 49 49 49 50

(7)

5.9 Der Takt als temporale Einheit . . . 5.9.1 Isochronie und Silbenzahl .. 5.9.2 lsochronie und Allophonzahl

5.9.3 Zahl der unbetonten Nachfolgesilben im Takt 5.9.4 Der Auftakt .

5.10 Zusammenfassung . . . . 6 Ein Regelmodell deutscher Diphonsprache

6.1 Bestimmung optimaler Labelwerte 6.2 Das Regelmodell . . . . 7 Perzeptive Uberpriifung des Modells

7.1 Stimulusmaterial

7 .2 Testverfahren

7 .3 Ergebnisse . . . .

8 Schlufifolgerungen, Empfehlungen und Ausblick 9 Literaturverzeichnis

Abstract

Zusammenfassung Samenvatting Anhange

A : Liste der verwendeten Lautzeichen.

Bl : Die 100 Sotscheksiitze in der Rechtschreibung.

B2 Transkription der 80 diphonsprachlich gespeicherten Sotscheksiitze.

B3 : Matrixform der 35 statistisch analysierten Sotscheksatze. Cl : lnstruktionsformular fi.ir den Pilottest.

C2 : lnstruktionsformular fi.ir den AbschluBtest.

D : Labelwerte fi.ir die 20 Sotscheksatze des AbschluBtestes. E : Statistische Analyse fi.ir die einzelnen Allophone.

49 50 50 51 52 53 55 55 56 58 58 58 59 61 65 68 69 70

(8)

1 Einleitung

Zweck dieser Arbeit ist, em Modell mit Dauerregeln fiir synthetisierte deutsche Sprache zu entwickeln. Dazu wird eine bisher noch nicht praktizierte Methode angewandt. Nach dieser Methode wird zunachst die synthetische Sprache selbst mit den nati.irlichen Dauerverhaltnissen real gesprochener Sprache versehen. Aus dieser neuen, zeitlich verbesserten, synthetischen Sprache werden dann in einem zweiten Schritt die temporalen Regularitaten extrahiert.

Dieses einleitende Kapitel introduziert das am IPO benutzte Analyse-Resynthese System (1.1), erklart, welche Grundelemente als Bausteine fi.ir die ki.instliche Sprache verwendet werden (1.2) und wie Satze, die aus diesen Sprachbausteinen zusam-mengesetzt worden sind, intoniert werden (1.3). SchlieBlich wird erlautert, wie solche Satze mit realsprachlichen Dauerverhaltnissen ausgestattet werden konnen (1.4).

Nach diesen einfi.ihrenden Darlegungen kann die in dieser Arbeit verwendete Methodik konkretisiert werden (1.5).

1.1

Analyse und Resynthese gesprochener Sprache

Menschliche Sprache wird als ein kontinuierlicher RedefluB realisiert. Die Dynamik artikulatorischer Ablaufe versucht man am IPO als eine diskrete Aufeinanderfolge von Parametergruppen zu erfassen.

Das dafi.ir benutzte Analyse-Resynthese System wird ausfi.ihrlich in VOGTEN 1983 beschrieben. Kurz zusammengefaBt geschieht folgendes : Das eingegebene Sig-nal wird bei der ASig-nalyse mit einer Abtastfrequenz von 10 kHz digitalisiert. Aus diesem Grunde mi.issen Signalkomponenten i.iber 5 kHz mit einem TiefpaBfilter ent-fernt werden. AnschlieBend wird das Signal mit dem LPC-Verfahren (Linear Pre-dictive Coding) verarbeitet. Durch Pradiktion des nachstfolgenden Abtastwertes im Signal aus vorangegangenen Samples konnen sogenannte a-Koeffizienten (Filter-koeffizienten) errechnet werden. Auf diese Weise werden aus jedem Signalsti.ick von 10 ms 10 a-Koeffizienten extrahiert. Eine mathematische Operation ermoglicht die Ubersetzung jedes a-Koeffizienten in einen p- und einen q-Wert, welche beide eine Filtercharakteristik abgeben, die mit Frequenz und Bandbreite eines Formanten im Sprachsignal vergleichbar (wenn auch nicht identisch) ist.

Dementsprechend wird im Frequenzbereich die spektrale Hi.illkurve aus dem Sig-nal entfernt. Die Feinstruktur bleibt in der Residuale zuri.ick.

Umgekehrt bedeutet das nun, daB bei Verwendung eines egalisierten Spektrums das urspri.ingliche sprachliche Signal durch lnvertierung des Analysefilters wieder-hergestellt werden kann. Aus diesem Grunde brauchen wir jedes Signalsti.ick von 10 ms nicht durch 100 Zahlen zu kodieren (10.000 Hz : .01 s

=

100 Abtastwerte), sondern reichen bei der Verspeicherung bereits 13 Zahlen (Parameter) aus : 5 Filter-frequenzen F1 ... F5, 5 Bandbreiten B1 ... B5 (zusammen 5 'Formanten'), 1 Wert fi.ir die Amplitude, d.h. die Intensitat, 1 Wert fi.ir die Grundperode, und 1 Wert als Schaltkode fi.ir ( quasi- )periodische und nicht-periodische Anregung. Das auf dieser Grundlage basierte Sprachsynthesemodell ist in Fig. 1 abgebildet.

1.2 Diphonsprache

Es ist leicht vorstellbar, daB es besonders attraktiv wird, wenn man einm~l im Be-sitze eines oben skizzierten Analyse-Resynthese Systems ist, jede mogliche AuBerung

(9)

Verstaerkung Grundperiode

Figur 1: Das Sprachsynthesemodell.

Sprach-signal

mittels der Aneinanderreihung einzelner parameterkodierter Signalstiicke zu syn-thetisieren.

Ein grundlegender Aspekt menschlicher Sprache ist, daB sie koartikulativ reali-siert wird, d.h. ein Phonem (als sprachliche Lauteinheit) wird in seiner Realisierung von dem ihm vorangehenden und dem ihm nachfolgenden Lautkontext beeinfluBt. Nun ist es so, daB gerade die koartikulatorischen, transitioniiren Signalteile die wichtigsten Trager der phonemischen Information bilden (siehe z.B. GREEN 1959 und in jiingster Zeit .. FOWLER 1985).

Da, mithin, die Ubergangsphasen zwischen Lautsegmenten von entscheidendem Gewicht sind, wird es empfehlenswert, diese transitionaren Teile als Sprachbausteine zu verspeichern. Zurn Beispiel das Wort FuBball wird dann aus den folgenden Kom-ponenten zusammengesetzt :

[#

F] [F UH] [UH SJ [S B] [BA] [A L] [L

#]

Diese Sprachsegmente nun, die sich also von der letzten Halfte des einen Sprachlautes zu der ersten Halfte des darauffolgenden erstrecken, werden 'Diphone' genannt. 1 Da Diphonsprache die Sprachlaute nicht als statische, sondern als dy-namisch koartikulative Gestaltungsformen, d.h. als Allophone, erfaBt, werden wir die einzelnen Sprachlaute im Diphoninventar 'Allophone' und nicht 'Phoneme' nen-nen. DaB dies eine richtige Bezeichnung ist, geht z.B. auch daraus hervor, daB im Diphonkorpus nicht das Phonem /x/ als solches gespeichert worden ist, sondern seine allophonischen Formen [CH] und

[X],

also der lch- und der Ach-laut. Fiir die symbolische Darstellung diphonisch gespeicherter Sprachlaute wird deshalb eine allophonische und nicht eine phonematische Notation gewahlt, also z.B [UH], nicht

1

Die phonetiBche Um~chrift, die in dieser Arbeit fiir deut~che Diphon~prache verwendet wird, findet man in Anhang A.

(10)

/u:/.

Vor einigen Jahren muBte ein Diphoninventar noch mit der Hand geschnitten werden (ELSENDOORN 1984). Wenn man bedenkt, daB fiir eine Sprache mit 40 Sprach-lauten (40)2

=

1600 Diphone segmentiert werden miissen, versteht man, wie sehr die Automatisierung des Prozesses begriiBt wurde. Diphonkorpora konnen heutzutage in einem Bruchteil der urspriinglichen Segmentierungszeit hergestellt werden.

Es gibt bei der Segmentierung zwei mogliche Ansatze.

Man sucht entweder im Signal nach den stationaren Teilen und legt die Schnitt-stellen jeweils in die Mitte (vgl. die Zentroiden bei KAESLIN 1985), oder man legt die Schnittstellen eben bei der Phonemgrenze und leitet daraus in einem zweiten Schritt Diphongrenzen ab. Eine Beschreibung der ersten Methode findet man in KAESLIN 1985; die zweite, indirekte Methode wird in van HEMERT 1985 behan-delt. Diese zweite Segmentierungsprozedur, welche auch am IPO angewandt wird, hat den Vorteil, daB in Diphonen nicht nur die Diphongrenzen, sondern auch die Allophongrenzen bekannt sind. Dies ermoglicht es dem Forscher nicht nur auf Di-phonebene, sondern auch auf Allophonebene zu arbeiten.

Es wird beim Diphonschneiden nach einer festen Regel verfahren. Der Vokal-schnittpunkt fiir CV Diphone wird so gewahlt, daB der vokalische Tei! in je-dem CV Diphon gleich lang ist. Jeder Vokal ist je-demnach aus einem Anfangsteil von fixierter Lange und einem Endteil von variabler Lange zusammengesetzt. In Diphonsprache wird die Lange eines Vokals demzufolge nur <lurch das VC Diphon, m.a. W. <lurch den Nachfolgekonsonanten bestimmt. Dies entspricht den natiirlichen Verhaltnissen (ELSENDOORN 1984). Auf die Konsequenzen, die diese Schnittweise fiir die vorliegende Untersuchung hat, wollen wir in Kapitel 3 noch zuriickkommen. Mithilfe der automatischen Schnittprozedur wurde auch fiir das Deutsche eine Diphonensammlung angelegt. Weil 44 Sprachlaute beriicksichtigt wurden, besteht dieses Korpus aus mehr als 1600 Diphonen. Ein Diphonkonkatenierungsprogramm sorgt dafiir, daB zu einem Eingabestring, die aus den in Anhang A gegebenen Laut-zeichen besteht, die entsprechenden Diphone zusammengesucht werden.

Die Verstandlichkeit des lnventars ist mit zweisilbigen Logatomstimuli iiberpriift warden. Eine vollstandige Beschreibung dieses Testes findet sich in van den HEUVEL 1986. Die wichtigsten Ergebnisse waren folgende : Im konsonantischen Bereich sind [Bl,

[W],

[Z], [M], [W] und

[H]

schlecht verstandlich. Dies ist zum GroBteil auf Unzulanglichkeiten im Analyse-Resynthese System zuriickzufiihren ( vgl. VOGTEN 1983). Bei den Vokalen liegen die Schwierigkeiten im quantitativen Be-reich vor allem bei den Langvokalen. In qualitativer Hinsicht wird oft [IE] mit

[EH],

[OH] mit [UH] und [E] mit [AE] vertauscht. Es betrifft hier aber eher ein perzeptiv-phonetisches Problem als Unzulanglichkeiten im Analyse-Resynthese System.

1.3 Intonation der Diphonsprache

Deutsche Diphonsprache kann auf eine automatisierte Weise mit einer Intonations-kurve versehen werden. Dazu ist das lntonationsmodell, das ADRIAENS 1984 beschreibt, in stark vereinfachter Form in das Diphonkonkatenierungsprogramm im-plementiert warden. Zur Realisierung der Tonkurven greift das Programm auf einen der in 1.2 erwahnten Frameparameter zu, namlich den Steuerwert fiir die Grundfre-quenz. Das Intonationsmodell hat eine starkere Deklination als das Niederlandische. Semantisch prominente Stellen (Satzakzente) miissen vom Benutzer im

(11)

Eingabe-string apostrophiert werden. Sie werden <lurch eine dreistufige Tonexkursion reali-siert.

Figur 2 gibt eine graphische Darstellung eines diphonkonkatenierten und in-tonierten Satzes. Diese Figur kann man als das akustische Korrelat des in Figur 1 prasentierten Produktionsmodells betrachten.

U.EH ~ ~R ~ 1.f F

"!,.

l E.R W E.H T

--· ...

----.

. .

.-:---·

. .· __ ,,,.._ ..

·-

.. I I I .

---·_, ... _ -_ . .._

·-

.... -

.-

...

---·--,

.

_--.

_ _,. ... _

roo,

soo . ' ~ so

----

---

__

_.,.. _.,,...

---_ _..--

---

--.

---

---,.,

,1'1i I I . 1'01" il'i" ,}1' 11f' ' 111111 , 1\!I 1,1111. 'II\ 1 ,, .i I ,' ,'ilt' 1•1. ,Ii ii I II , I.,

hl,!I,,,,,,, ,,,•'•,,l!IJll,,1,··•'1111•,lllli:Ji1 ' h" 1, I I, I ,,1111, _·,,"!,

,,,

, ,,1111· ',,•'11'1' .sooHz lOO 100 ', 3 l ,, ,•,111 .. , .. ,,·• •• ,, ... , •• , • .,1\1 .. ,1, .. ··11,11111''

r

I /'111 I,,., ,•""•• _{· .• , .... ,,1,,} o.5 /.0

, s

Figur 2: Graphische Darstellung eines Diphon::atzes. Es betrifft

den Satz Ober die Felder welit ein Wind. llber dem oberen Fen-ster sind, mit winzigen Strichen, die Diphongrenzen abgebildet. In dem oberen Fenster sieht man den Intensitatsverlauf (g), im mittleren Fenster die Intonation,:kurve des Satz es (F o). Dazwi-schen werden stimmhafte (V) Signalteile als Leerstellen, stimm-lose Signalteile (UV) mit Horizontalstrichen wiedergegeben. Im unteren Fenster sind fiir jeden Zeitpunkt (Frame = 10 ms) fiinf Striche eingetragen. Das Zentrum jedes St.riches stellt die Forman-ten F1 bis F5 dar. Die vertikale Lange der Striche repriisentiert

nicht die Bandbreiten (B), sondern die Qualitiitsfaktoren (Q) der Formanten (Q

=

F/B).

.,,., _'

·-2 0

t

(.S)

Das bis hi er her

be-schriebene Diphonsprachsystem hat bereits eine Anwendung 1m SPICOS-Projekt gefunden (van HEMERT/ADRIAENS-PORZIG/ADRIAENS 1987).

1.4 Temporale Gliederung von Diphonsprache

Neben der Intonationskurve kann auch die temporale Struktur diphonischer Sprache manipuliert werden. Dazu gibt es einen 14. Steuerparameter : das Framelabel. Im

(12)

Normalfall werden pro Frame 100 Samplewerte ausgegeben (Label

=

100). Dies entspricht auf analytischer Seite der Abtastfrequenz 10 kHz, d.h. 10.000 Abtast-werte pro Sekunde, also 100 AbtastAbtast-werte pro Frame von 10 ms. Dadurch nun, daB das Framelabel auf z.B. 120 erhoht oder auf 80 herabgesetzt wird, kann man die Framedauer auf 12 ms verlangern oder auf 8 ms verkiirzen. Die Dauer von Wort-und Satzsegmenten kann in dieser Weise beliebig variiert werden.

Damit der Effekt natiirlicher Dauerverhaltnisse auf Diphonsprache beurteilt wer-den kann, wurde von M. Niranjan 1984 ein Programm geschrieben, das mittels eines spektralen Vergleichs zwischen einem realgesprochenen, parameterisierten Satz und einem aquivalenten Diphonstandardsatz die realsprachlichen Segmentdauerwerte des ersteren Satzes in den letzteren Satz einbringt (NIRANJAN 1984). Das Programm arbeitet mit auf den Filterkoeffizienten a ( siehe 1. 1) basierenden 'log area para-meters', mit deren Hilfe die Geschwindigkeit der artikulatorischen Bewegungen des Sprechers, wie diese sich in der akustischen Gestalt des Signals manifestieren, <lurch das Programm mathematisch nachvollzogen wird. So wird eine Synchronisierung von Originalsatz und Diphonsatz verwirklicht. Das Programm hat den Namen WARP und wird weiter in dieser Arbeit auc_~ so genannt. Zur Veranschaulichung zeigt Figur 3, wie WARP den Beispielsatz Uber die Felder weht ein Wind verarbeitet.

Die berichtigten Labels, die das Programm in den Diphonsatz einbringt, sind aber an bestimmte Grenzwerte gebunden. Das minimale Label weist einen Stan-dardwert von 50 auf (Framedauer

=

5 ms) und das maximale Label einen Standard-wert von 190 (Framedauer

=

19 ms). Diese Werte liegen darin begriindet, daB der Sprachverstandlichkeit der Sprache geschadet wird, wenn Lauteinheiten um einen groBeren Faktor als zwei beschleunigt oder verlangsamt werden. Fur den Standard-label 100 ergeben sich so als Grenzwerte 50 und 200. Der Wert 200 wurde von Niranjan auf 190 standardisiert. Es ist moglich, diese Limitwerte beliebig zu andern (siehe 2.1).

Nach Angaben von Niranjan fiihrt die Anwendung des Programms zu einer Verbesserung der Diphonsprachqualitat. Auch VERTEGAAL 1987, der iiber einen Perzeptionstest mit u.a. WARP-Satzen berichtet, stellt fest, daB seine Versuchsper-sonen WARP-Satze bevorzugen.

Natiirlich ist fiir ein Diphonsprachproduktionssystem der Einbau des WARP-Programms keine geeignete Alternative, da bei einem solchen System die zu gene-rierenden Satze zunachst eingesprochen und analysiert werden miiBten.

Daher muB nach einem effektiven Regelsatz gesucht werden. Im Hinblick darauf konnen verschiedene Methoden erprobt werden. In Zurich (HUBER et al. 1987) produziert ein Satzgenerator .AuBerungen mit alternierenden syntaktischen und pho-nologischen Strukturen, zu folgendem Zweck :

"Dieser generative ProzeB liefert einerseits den <lurch einen Sprecher vorzule-senden Text, andererseits die phonologische Beschreibung fiir den Anpassungs-prozeB [der Diphonsprache] ... Als Ausgang erhalten wir ein synthetisches Sig-nal und lnformationen dariiber, wie einzelne Diphonsegmente in ihrer Lange veriindert werden miissen, um die bestmogliche Anpassung zu erhalten." (ebd.,

8.32)

Am IPO hat Elsendoorn bereits fiir das Niederlandische em Regelsatz erstellt. Elsendoorn erhielt diesen Regelsatz, indem er die Framelabels in Satzen variierte, beim Abhoren die Resultate beurteilte und, wenn notig, die Labelwerte korrigierte.

(13)

!!!=':"---+---..,... -' .·

:=----==-==-==-=±--==---==---==---==---==--==---==--==---==---··'·· ·

i

~ .-·1·· ) I I .·

•r

(

!

. ~ I l I

I

. i

i

I

~---+--- .. ---.

_,·

-~ .

-

- I

==---+---·_.·

---+---,,··'-·

---·::}--·---!

I

i ... _-t·

-rt

,c---+----,_. . I I ==---+-j-· /

I

!

I

.-_,.

I

_I

i

I i

I

i

I

I I I I

I

I I I I ~.__.,___..._...____.__...__~_ ...

__

.,..._

___

..._

_____________ _

Figur 3: Verarbeitung eines Diphonsatzes durch WARP. Es be-trifft den Satz i.iber die Felder weht ein Wind. Senkrecht das Wellenbild des Diphonsa.tzes. Waagerecht. das Wellenbild des natiirlichen Satzes. Das Programm vergleicht die spektrale St.ruk-tur der verschiedenen Frames in den beiden Siit.zen. AmchlieBend fiihrt. es durch eine Labeliinderung in den Frame1- des Diphon1-at.zes eine Synchronisierung durch. In der Figur sind die Allophongren-zen in den SatAllophongren-zen sichtbar gemacht. Deutlich ist so z.B., daB das \F] in dem Diphonsatz erheblich kiirzer als in dem natiirlichen Satz ist und demnach durch das Programm verliingert werden muB.

Die so ermittelten Regeln - prapausale Dehnung, Akzentdehnung und Dauer-anpassung in Konsonantenverbindungen - wurden perzeptiv iiberpriift (VERTE-GAAL 1987). Sie fiihrten nicht zu einer Verbesserung der Diphonsprache. Beson-ders die Regel fi.ir prapausale Dehnung schnitt nicht gut ab. Die WARP-Version, die auch in den Test einging, wurde vor alien i.ibrigen Versionen bevorzugt.

Mit einer Untersuchung am Vokal

[a:]

in Einzelwi::irtern (ELSENDOORN 1985) wurden positivere Ergebnisse erreicht. Der EinfluB der Akzentuierung, der satz-finalen Dehnung und der Zahl der Nachfolgesilben im Wort konnte deutlich nachgewiesen werden.

1.5 Methodik dieser Arbeit

Im vorigen Abschnitt wurde erlautert, wie ein Diphonsatz <lurch das WARP-Programm mit nati.irlicheren Dauerverhaltnissen versehen werden kann. Daraus ergibt sich eine neue Methode, Dauerregeln zu entwickeln, die darin besteht, aus den mit WARP behandelten Diphonsatzen temporale Regularitaten abzuleiten und diese Regularitaten in einem Modell unterzubringen. Die Dauerregeln werden auf

(14)

diese Weise aus der synthetischen Sprache selbt extrahiert. Diese Arbeit wird sich eingehend mit den Moglichkeiten dieser Methode auseinandersetzen. Dennoch, mehr als einen Ansatz zur Dauerregulierung deutscher Diphonsprache wird sie nicht bieten konnen.

Es ist wichtig, beim Gebrauch des WARP-Programms zwei Typen von tempo-ralen Korrekturen, die das Programm bewirkt, zu unterscheiden, namlich eine Kor-rektur im Sprechtempo und eine KorKor-rektur in den satzinternen Dauerverhaltnissen.

Leider hat VERTEGAAL 1987 diese Unterscheidung nicht gemacht. Es ist des-halb nicht deutlich, worauf die Bevorzugung der WARP- Version, die er konstatiert, beruht. Wir halten es aber fiir notwendig, diese Frage zu klaren. Denn fiir eine Tem-pokorrektur braucht man im Grunde nur <las Standardlabel anzupassen, wahrend fiir Anderungen in der Dauerstruktur eines Satzes vollig andere, namlich satzinterne, Anpassungen vorgenommen werden miissen.

Aus diesem Grund wurden in dieser Untersuchung Tempounterschiede zwischen Standarddiphonsatzen und mit WARP behandelten Diphonsatzen ausgeglichen. In

Kapitel 2 wird beschrieben, wie solches tempokorrigierte Satzmaterial prapariert wurde und wie deutsche Versuchspersonen dieses Material beurteilten.

(15)

2 Materialzubereitung und Pilottest

Dieses Kapitel beschreibt im ersten Tei! (2.1), wie wir unser Sprachmaterial hergestellt haben und wie das WARP-Programm fiir die Zeitkorrektur des Ma-terials eingesetzt wurde. Es wurde dabei eine Temponormalisierung eingeplant und iiberpri.ift, ob auf eine subphonemische und eine diphonische Differenzierung verzichtet werden kann (2.1.4).

In 2.2 wird getestet, ob die so erstellten, zeitmodifizierten Diphonsatze von deutschen Versuchspersonen bevorzugt werden.

2.1

Praparierung der Sotscheksatze

2.1.1 Analyse der Sotscheksatze

Als Satzmaterial benutzten wir die 'Sotscheksatze' (vgl. SOTSCHEK 1984, siehe Anhang Bl). Diese Satze wurden von Sotschek so konstruiert, daf3 die acht Satze in einer jeweiligen Gruppe die Phonemhaufigkeitsverteilung des Deutschen annahernd wiederspiegeln. Die Satze sind kurz und weisen eine syntaktisch einfache Struktur auf, z.B. :

Es ist acht Uhr morgens.

Yater hat den Tisch gedeckt.

Seine Frau macht ein trauriges Gesicht. Die Kartoffeln gehoren zum Mittagessen.

Konnen

wir

nicht Tante Erna besuchen?

Nur in einem Satz liegt ein Teilsatz vor, namlich :

"Zug endet bier" verkiindet die Ansage.

Wir wollen die Satze in dieser Arbeit mit ihrer Satznummer und einem vorangestell-ten 'S' bezeichnen. Die oben abgedruckvorangestell-ten Satze sind die Nummern S10, S11, S36, S49, S54 und S97.

Alie 100 Satze wurden von Herrn Huber (als Berufssprecher beim Bayerischen Rundfunk tatig) auf Band gesprochen. Danach wurden sie digitalisiert. Nur die ersten 75 Satze wurden in parameterkodierter Form (siehe 1.2) gespeichert. (Spater wurden, wegen der in 4.1 zu erlauternden Selektionskriterien, noch sieben Satze hinzugefi.igt : S76, S82, S85, S86, S91, S92 und S96.) S16 wurde wegen seiner sehr unnati.irlichen Intonation ausgelassen. S62 wurde nicht aufgenommen, da er eine Pause nach dahinter aufwies, welche dort im Vergleich zu den iibrigen

Satz-realisierungen des Sprechers inkonsequent war, d.h. sie trat in vergleichbarer Posi-tion sonst nicht auf.

Die verbleibenden Satze wurden nach der Parameterisierung manuell korrigiert, vor allem im Hinblick auf Stimmtonfiihrung.

2.1.2 Transkription der Diphonaquivalentsatze

AnschlieBend wurden Diphonaquivalente der benutzten 80 Sotscheksatze angefer-tigt. Bei der Transkription der Satze wurde dabei nach folgender Regel verfahren. Ein Allophon wurde dann aus der Transkription entfernt, wenn es in dem von dem Sprecher gesprochenen Satz nicht horbar war und dariiberhinaus der betreffende

(16)

Diphonsatz nach der Elision akzeptabel klang. Demzufolge tritt in folgenden Satzen Konsonantenausfall ( vor allem Degeminierung) auf : S20, S27, S28, S40, S48, S49, S66, S71, S76 und S86 (siehe Anhang B2). In S20 und S76 z.B fielen ein oder mehrere [T] aus :

S20 : BAL T GS IS (Tt) DI RH U NQ ERG ESCH TILT

S76 : IS T GS AES N I CH (Tt) TS AI (Tt) TS U M GS AU F BR U X Auf den glottalen VerschluBlaut [GS] konnte in der Mehrzahl der Fa.Ile nicht verzichtet werden. Folglich erwecken Satze, in denen das [GS] mehrmals in zw1-schenvokalischer Stellung erscheint, einen etwas zerhackten Eindruck, z.B. : S10 : AE S GS I S T GS A X T GS UH ER M O R G E N S

Das unbetonte [OH] in S25 ( vor-) wurde <lurch [OJ ersetzt, das unbetonte [UH] in S24 und S86 (du und zur) <lurch [U] (Vokalreduktion), z.B. :

S25 : RAH T F AH R ERZ AU Z EN F (OH-+

)0

RB AI

Assimilation in der Stimmfi.ihrung wurde fi.ir [Z] in SI 7 und S30 durchgefi.ihrt : S17: HANSIS T (Z-+)S OH GAER NEW URS T

S30 : 0 P GS I CH (Z-+ )S UEH S I CH K AI TE N K AU F EN DAR F

2.1.3 Intonation der Diphonaquivalentsatze

Es wurde versucht, die Diphonsatze tonal so zu gestalten, daf3 Satzakzente dart wahrgenommen wurden, wo sie auch in den originalen Siitzen gehort wurden. Das heiBt nicht, daB beide Satztypen eine perzeptiv identische Tonkurve aufweisen soll-ten, sondern nur daB die Satzakzente, also die semantischen Schwerpunkte im Satz, in beiden Satztypen gleich sein sollten.

Da das Intonationsprogramm recht stattliche Tonexkursionen verwendet und nicht zwischen grof3en und kleinen Akzenten unterscheidet, konnten nur die aus-gepragtesten Akzente des Originalsatzes in dem Diphonsatz beibehalten bleiben. Natiirlich entsprechen diese Akzente im allgemeinen den Satzakzenten des Original-satzes, so daB sich keine Probleme ergeben. Manchmal aber war nicht eindeutig, ob eine bestimmte Stelle im Satz einen Satzakzent trug. Es wurden dann einige Diphonsatze mit verschiedenen Satzakzentstellen synthetisiert und nach der Ver-arbeitung <lurch das Intonationsprogramm perzeptiv beurteilt. Die Version, welche dem Originalsatz in der semantischen Schwerpunktbildung am besten entsprach, wurde gewahlt. Auf diese Weise war eine Entscheidung meistens problemlos, da manche zweifelhaften Akzentstellen <lurch das Programm so stark hervorgehoben wurden, daf3 sich die urspriingliche Bedeutung des Satzes anderte.

Das Programm ergab dann und wann fiir alle Alternativen einen unakzeptablen Sprach-Output. In diesen Fallen wurde die Intonationskurve von Drs. L.M.H. Adri-aens manuell korrigiert. (Es betrifft die Satze : S13, S18, S32, S68, S73.)

Die Satzakzentuierung, die den Satzen letztendlich mitgegeben wurde, kann in Anhang B2 nachgeschlagen werden. Die satzbetonten Vokale sind apostrophiert warden.

(17)

2.1.4 Temporale Verarbeitung

Nach der parametrischen Abspeicherung der natiirlich gesprochenen Sotscheksiitze und der Anfertigung ihrer diphonischen Pendante wurde die temporale Angleichung beider Satztypen durchgefi.ihrt.

Zuniichst beschreiben wir die Prozedur, die wir dazu verwendet haben. Danach die Ergebnisse der aktuellen Anwendung dieser Prozedur.

Wir batten mit der temporalen Angleichung folgende Ziele vor Augen :

(1)

eine optimale Erhaltung der satzinternen Dauerverhaltnisse, (2) ein Verzichten auf eine diphonische und auf eine subphonemische Differenzierung, (3) eine Temponorma-lisierung. Die Prozedur sieht irn einzelnen wie folgt aus :

Zuniichst wird mit WARP eine Synchronisierung durchgefiihrt. Frage ist dabei, welche Grenzwerte dem WARP-Programm mitgegeben werden mi.issen (Standard-werte sind hier 50 und 190). Folgende Uberlegung ist von lnteresse.

Die meisten Frames in einem Diphonsatz werden bei der Anwendung von WARP

geki.irzt. Das hat darin seinen Grund, daB fast alle Diphone aus einer betonten, dauerverlangerten Silbe extrahiert worden sind. In einem realen Satz treten viele Diphone aber nicht in betonter Position auf. Diese Diphone werden geki.irzt. Deshalb ist besonders die Spezifizierung der Untergrenze von Gewicht. Da das Programm Differenzierungen unterhalb dieser Grenze nicht aufdeckt, tritt eine um so groBere Realitatsverzerrung auf, je hoher der Labelminimalwert angesetzt wird. Aus diesem Grunde ist es ratsam, die besagte Untergrenze so niedrig wie moglich zu halten. Andererseits darf der Labelminimalwert auch nicht zu stark herabgesetzt werden, weil dann niimlich manche Frames vollig eliminiert oder zu sehr beschleunigt wer-den (vgl. NIRANJAN 1984, S.20). Zurn perzeptiven Vergleich wird das minimale Framelabel in zehn Siitzen (Sl bis Sl0) systematisch variiert und auf folgende Werte fixiert : 30, 40, 50, 60 , 70 und 80.

Nachdem ein Satz <lurch WARP verarbeitet worden ist, werden die Labels eines jeden Allophons in dem neu erhaltenen Satz aufgeziihlt und gemittelt ( d.h. <lurch die jeweilige Framezahl dividiert). Alie Frames des jeweiligen Allophons erhalten diesen Mittelwert als neues Label. Damit bleibt zwar jedes Allophon gleich lang, seine interne Zeitstruktur wird aber geiindert. Die Errechnung eines Mittelwerts ermoglicht es, daB die Dauer eines jeden Allophons nur auf einen einzigen Kennwert (namlich den Mittelwert) reduziert wird . Das betreffende Programm wurde von Ir.

J.P. van Hemert geschrieben und heiBt MIDLAB. Jeweils muB perzeptiv i.iberpri.ift werden, ob der Satz sich <lurch diese temporale Reorganisation im Vergleich zu dem WARP-Satz merkbar geiindert hat. Wenn eine solche Anderung nicht stattfindet, jedenfalls nicht im negativen Sinne, bedeutet das, daB auf eine temporale Steuerung im subphonemischen Bereich, welches das zu entwickelnde Modell viel komplizierter und computorisch viel zeitaufwendiger machen wiirde, verzichtet werden kann. MID-LAB wird sowohl auf Allophonebene wie auf Diphonebene operationalisiert.

Da das Programm WARP in Kombination mit MIDLAB einen Diphonsatz gene-riert, der, ausgedri.ickt in Satzlange, ein vie! hoheres Tempo als der Standarddiphon-satz aufweist, muB eine Tempokorrektur vorgenommen werden.

Damit der temporal bearbeitete Diphonsatz und der Standarddiphonsatz ein vergleichbares Sprechtempo erhalten, werden alle Frames des ersteren Satzes um folgenden Faktor multipliziert :

(18)

mittlere Framelange des Standarddiphonsatzes (

=

8 ms)

F = ~ '

-mittlere Framelange des temporal bearbeiteten Diphonsatzes Die Normalisierung des Sprechtempos wird also dadurch realisiert, daB beide Satztypen dieselbe zeitliche Lange bekommen und zwar die Lange des Standard-diphonsatzes. Fi.ir diese Normalisierung wurde das Programm MUL geschrieben. Satzinterne lmplikationen des Sprechtempos (siehe 3.7) werden bei der Norma-lisierung nicht beri.icksichtigt.

Die aktuelle Durchfiihrung der beschriebenen Prozedur ergab, daB sich fiir WARP

mit der Untergrenze 50 perzeptiv die besten Ergebnisse erzielen lieBen. Die zweifache Anwendung von MIDLAB fiihrte nicht zu perzeptiven Unterschieden, so daB wir zu zwei wichtigen Abstraktionen berechtigt sind : (a) Wir konnen auf eine Diphon-spezifizierung in unserem Analysemodell verzichten. Wir brauchen also nicht zwi-schen mehr als 1600 Elementen (Diphonen) zu unterscheiden, sondern konnen uns auf die 44 Allophonsegmente beschranken; (b) auch auf eine sonstige Differenzierung im subphonemischen Bereich kann verzichtet werden.

Nach der Anwendung der Tempokorrektur stellte sich heraus, daf3 die tempo-rale Verbesserung, die mit WARP und MIDLAB erzielt worden war, zu einem Tei! verschwunden war. Die Verbesserung, die WARP und MIDLAB bewirken, muf3 demnach mit als sprechtempobedingt betrachtet werden. Da Tempo offenbar eine Verbesserungsquelle darstellt, ist es empfehlenswert, dem <lurch Perzeptions-experimente mit deutschen Versuchspersonen weiter nachzugehen, um auf diese

Weise einen moglichst guten Beschleunigungsfaktor fiir die Diphonsprache zu er-mitteln. Dies gehort aber nicht zum Aufgabenbereich der vorliegenden Arbeit.

Das WARP-Programm war wegen eines spektralen 'mismatch' nicht in der Lage, den Diphonsatz S12 mit nati.irlichen Dauerverhaltnissen auszustatten. S22 wurde von den vielen glottalen Verschluf3lauten zersti.ickelt. lnsgesamt verblieben daher noch 78 Satze.

2.2

Pilottest zur Uberpriifung des Materials

NIRANJAN 1984 und VERTEGAAL 1987 stellten beide fest, daB die mit WARP behandelten Diphonsatze vie! besser als die originalen Diphonsatze klangen. Frage ist nun, ob diese Verbesserung sich halt, wenn man, wie wir es getan haben, von Unterschieden im subphonemischen Bereich abstrahiert und auf3erdem eine Tempo-korrektur durchfi.ihrt. Die Beantwortung dieser Frage ist deshalb so wichtig, weil es sinnlos wird, aus unseren WARP-Satzen Dauerregeln abzuleiten, wenn die Verbesse-rung in der temporalen Struktur nach den beiden genannten Operationen verschwun-den ist.

Aus diesem Grunde wurde ein Pilottest konstruiert, in dem beide Satztypen (also Standarddiphonsatz und temporal bearbeiteter Diphonsatz) in Vergleichspaaren auf-traten und jeweils der beste Satz im Paar von den Teilnehmern bestimmt werden muBte. Dieser Test wird unten beschrieben.

2.2.1 Darbietung und Aufbau des Testes

Es wurden zehn Satze als Testmaterial verwendet, und zwar S3, S4, S5, S6, S7, S8, S9, S10, S11 und S13. Fi.ir jeden Satz wurden Vergleichspaare angefertigt.

(19)

Der eine Satz im Paar war der Standarddiphonsatz, der andere Satz der dauer-korrigierte Diphonsatz (nach Labelmittelung und Tempokorrektur). Jedes Vergle-ichspaar wurde zweimal dargeboten, wonach die Versuchspersonen ihre Wahl treffen muBten. Samit war die Abspielfolge :

Version 1 Version 2 Version 1 Version 2

-Nachdem die Versuchspersonen den Satz also viermal hintereinander gehort hatten, schrieben sie die Nummer der bevorzugten Version auf ihr Antwortblatt hinter den betreffenden Satz. Diese Darbietung des Testmaterials entspricht der in VERTE-GAAL 1987 beschriebenen.

Damit die Aufmerksamkeit der Versuchspersonen soviel wie moglich auf die tem-porale Struktur der Siitze gelenkt wurde, trafen wir vier MaBnahmen :

• Den Testteilnehmern wurde auf einem Instruktionsformular mitgeteilt, daB es sich im Test um die Diskriminierung von Dauerverhaltnissen handle (siehe Anhang Cl).

• Bevor der Test anfing, wurden die zehn Siitze einmal vorgespielt. So konn-ten sich die Versuchspersonen an die Satze sowie an die synthetische Sprache gewohnen.

• Der Satz, zu dem die Versuchspersonen sich jeweils ein Urteil bilden sollten, war auf dem Antwortbogen vorgedruckt, so daB sie wuBten, welchen Satz sie horen wiirden. So wurde die Aufmerksamkeit von der Qualitat der Diphone selber abgelenkt und die Verstandlichkeit des Satzes vereinfacht.

• Jedes Vergleichspaar wurde zweimal hintereinander dargeboten, so daB die Teilnehmer nach dem ersten Durchlauf des Paares nicht mehr durch intonative und andere Eigentiimlichkeiten des betreffenden Diphonsatzes beirrt wurden. Die Versuchspersonen batten jeweils etwa 2.5 Sek. Zeit, um eine Wahl zu treffen. Danach klang ein Sinuston. Zur Orientierung horten sie nach jeweils fiinf Items zweimal den Sinuston. Der Test dauerte ungefiihr 30 Minuten.

Der Aufbau des Testes war folgender : Jeder Satz kam achtmal vor und zwar vier-mal in einem AB-Paar und viervier-mal in einem BA-Paar. Dabei ist Ader Standard-diphonsatz und B der temporal angepaBte Diphonsatz. Da zehn Satze verwen-det wurden, ergaben sich auf diese Weise (4

+

4)

x 10

=

80 Vergleichspaare. Diese Vergleichspaare wurden randomisiert. Danach wurden fiinf 'dummy' Stimuli vorgeschaltet und zwei nachgeschaltet. lnsgesamt muBten die Versuchspersonen also 87 Vergleichspaare beurteilen.

2.2.2 Statistische Verarbeitung

Die statistische Analyse der Testdaten soll drei Fragen beantworten :

l. Wird die dauerkorrigierte Version von jeder Versuchsperson (V p) bevorzugt, wenn ein Mittelwert iiber alle Satze fiir die jeweilige Vp errechnet wird ? 2. Wird die dauerkorrigierte Version jedes einzelnen Satzes bevorzugt, wenn ein

(20)

3. Wird die dauerkorrigierte Version bevorzugt, wenn em Mittelwert i.iber alle Vp und alle Satze errechnet wird ?

Da die Vp nur aus zwei Alternativen wahlen konnten, ist die Verteilung ihrer Antworten im Grunde binomial. Sie darf aber bei der Beantwortung der drei oben formulierten Fragen als normal betrachtet werden, weil die StichprobegroBe N je-weils dazu ausreicht. Wenn wir von fi.inf Vp ausgehen, gilt :

- Fi.ir die Beantwortung von l. : N

=

(4 AB+ 4 BA) x 10 Satze

=

80 - Fi.ir die Beantwortung von 2. : N

=

(4 AB+ 4 BA) x 5 Vp

=

40 - Fi.ir die Beantwortung von 3. : N = (4 AB+ 4 BA) x 10 x 5 = 400

Die Konfidenzwerte konnen dann i.iber eine z-Transformation errechnet wer-den. Dabei gilt, in Anbetracht einer Kontinuitatskorrektur (HAYS 1981, S.213-214, S.259) : { P-p-0 5/N t:7p z= P-p+0.5/N t:7p wenn P

2'

p

(1)

wenn P < p

Unsere Null-Hypothese ist, daB die Wahl zwischen den beiden Versionen der Satze nach einer Zufallsverteilung stattfindet.

Dann gilt :

p Die Wahrscheinlichkeit, daB die dauerkorrigierte Version rem zufallsbedingt gewahlt wird, also 0.5;

P die in der Stich probe vorgefundene Wahrscheinlichkeit x/N, wobei x : die Zahl der Entscheidungen fi.ir die dauerkorrigierte Version, und N : die Gesamtzahl der zu treffenden Entscheidungen;

up Standardabweichung m der Wahrscheinlichkeitsverteilung,

up= ✓p(l -

p)/N.

Der Test ist einseitig angelegt. Wir sind nur daran interessiert, ob die dauer-korrigierte Version als besser klassifiziert wird, nicht, ob sie als schlechter beurteilt wird. Dann ist der Unterschied zwischen beiden Satzversionen signifikant, wenn eine Konfidenzrate a < 0.05, also z > 1.65, vorliegt.

Da wir wegen Zeitmangels nur maximal fi.inf Vp befragen wollten, war es fi.ir die Beantwortung der zweiten Frage erforderlich, daB jeder Satz mehrmals im Test vorkam, damit signifikante Aussagen pro Satz moglich waren. Durch die Entschei-dung, jeden Satz achtmal im Test auftreten zu !assen, wurde dies gewah'l"leistet. Dadurch wurde es aber auch notwendig zu iiberpriifen, ob die Responses der Vp nicht <lurch Lerneffekte bedingt waren.

Dies wurde auf folgende Weise untersucht. Die acht Beurteilungen, die jeder der zehn Satze von einer Vp erhielt, wurden in zwei Vierergruppen aufgespaltet. Die ersten vier Responses zu einem Satz gerieten dabei in die erste Vierergruppe

(Vi),

die i.ibrigen vier in die zweite (V2). Danach wurden fi.ir die jeweilige Vp alle Vi-Gruppen zusammengefi.igt und alle V2-Gruppen zusammengefi.igt. So entstanden G1 und G 2, welche beide aus zehn Vierergruppen bestanden. Wir zahlten, wie oft

(21)

und x2) wurden <lurch die Anzahl aller Response in G 1 und G2 ( n1

=

n2

=

40) dividiert. So erhielten wir die Vergleichswerte Pl und p2.

Da Pl und p₂beide stark von 0.5 abweichen konnen, ist die Annahme einer Normalverteilung nicht ohne weiteres gestattet. Sicherheitshalber wurde die Binomialverteilung verwendet.

Die Signifikanz des Unterschieds wurde daher iiber wenn P1

:S

0.5 wenn Pl> 0.5 errechnet, nach der bekannten Binomialverteilungsfunktion :

(2)

Wir machten den Test zweiseitig, weil wir nicht nur bestimmen wollten, ob ein langfristiger Lerneffekt nachweisbar ist, sondern auch, ob Ermiidungserscheinungen bemerkbar sind. Signifikanz liegt vor, wenn a, < 0.025.

SchlieBlich wurde die Wirksamkeit eines Positionseffektes iiberpriift. (Ein Positioneffekt liegt vor, wenn das erste oder das zweite G lied im Satzpaar bevorzugt wird.) Deutlich soil immerhin sein, daB die Wahrscheinlichkeit eines Positionseffektes bei zunehmender Signifikanz des wahrgenommenen Unterschieds zwischen den bei-den Satztypen geringer wird. Weil wir namlich 4 AB und 4 BA Paare fi.ir jebei-den Satz haben, wird die Vorliebe fi.ir eines der beiden Satzpaarglieder sich desto weniger manifestieren, je mehr eine der beiden Versionen bevorzugt wird.

Unsere Null-Hypothese war hier, daB kein Positionseffekt auftritt, m.a. W. daB der erste und der zweite Satz im Paar von einer Vp gleich oft gewahlt werden. Die Wahrscheinlichkeit, daB der erste Satz im Paar gewahlt wird, ist dann p

=

0.5. Die Analyse entsprach deshalb im Prinzip genau der Analyse, die auch zur Beantwor-tung der drei eingangs formulierten Fragen angewendet wurde. Sie konnte wie diese iiber eine z-Transformation erledigt werden. Siebe (1). Diesmal warder Test aber zweiseitig. Signifikanz liegt demnach vor, wenn a, < 0.025, also z < -1.96 oder

z > 1.96. N betragt 8 x 10

=

80. Bei der Berechnung von P gingen wir immer vom ersten Satz im Paar aus.

2.2.3 Ergebnisse und Diskussion

Nachdem der Test auf Band aufgenommen war, wurde er fiinf deutschen Vp vorgelegt. Alle waren Frauen und beteiligten sich ohne Belohnung. Bis auf eine (UA) batten sie keine Erfahrung mit synthetischer Sprache. Der Test erfolgte in einem stillen Raum und mit hochqualitativem Wiedergabematerial.

Die Ergebnisse des Testes werden in Tab. 1 und 2 zusammengefaBt.

Aus den Tabellen geht mit groBer Eindeutigkeit hervor, daB alle V p tempo-ral korrigierte Diphonsatze entschieden vorziehen. Damit ist einerseits der Nutzen einer satzinternen Dauerregulierung und andererseits die Tauglichkeit unseres Satz-materials zu diesem Zweck erwiesen.

Bei keiner der Vp ist ein Lerneffekt festzustellen. Eher lieBe sich von Ermiidungs-erscheinungen reden. Diese bleiben aber weit unter dem Signifikanzniveau. Auch

(22)

Tabelle 1: Ergebnisse des Pilotestes fiir die eiuzeluen Vp. Fur die Bedeutung von P, P1, P2, z und a sehe man 2.2.2. ns = nicht signifikant, hs = hochsignifikant. *

=

einseitiger Test, **

=

zweiseitiger Test

Vp Bevorzugung der temporal Positionseffekt ** Lem- oder

korrigierten Version* Ermiidungseffekt * *

p _z _a p _z _a _Pl ICW 54/80 3.02 < .002 hs 34/80 -1.23 < .111 ns 28/40 2 MD 62/80 4.81

«

.001 hs 46/80 1.23 < .111 ns 32/40 3 BG 60/80 4.36

«

.001 hs 32/80 -1.67 < .047 ns 30/40 4 UA 54/80 3.02 < .002 hs 32/80 -1.67 < .047 ns 27/40 5 AM 53/80 2.80 < .002 hs 41/80 .11 < .456 ns 28/40 Alie 283/400 8.25

«

.001 hs · - - - --· ---- -·· -·--- - - - ~ - - - - -

---·-Tabelle 2: Ergebnisse des Pilotestes fiir die einzelnen Satze. Fiir die Bedeu-tung von P, z und a sehe man 2.2.2. ns = nicht. signifikant, s = signifikant, hs

=

hochsignifikant. Der Test ist einseitig.

P2 a 26/40 < .423 30/40 < .410 30/40 < .700 27/40 < .677 25/40 < .297 - - - · - - · -S3 34/40 4.26 S4 36/40 4.90 S5 S6 S7 26/40 1.74 S8 27/40 2.06 S9 S10 S11 S13 - - - --· - - - ---31/40 23/40 24/40 31/40 p _28/40 _25/40 z 2.37 1.42 3.32 0.79 1.11 3.32 a

«

.001

«

.001 < .01 < .078 < .04 < .02 < .001 < .215 < .134 < .001 hs hs hs ns s s hs ns ns

etwaige Positionseffekte !assen sich nicht verifizieren, obwohl zwei Teilnehmer (BG und UA) einen Vorzug fiir das zweite Glied im Satzpaar aufweisen, den man als signifikanznahe bezeichnen kann.

DaB die zeitlich modifizierte Diphonversion klar bevorzugt wird, heiBt zum SchluB nicht, daB sich dieser Vorzug in alien Satzen manifestiert. S3, S4, S9 und S13 wurden in der temporal modifizierten Version einstimmig iiber den Standard-diphonsatzen vorgezogen. Bei den Satzen S6, S10 und S11 findet man aber keine

Verbesserung. Nie aber wird der Standarddiphonsatz bevorzugt, sogar nicht ten-dentiell.

Es ist daher sinnvoll, die Untersuchung nach dauerregulierenden Faktoren fiir Diphonsprache fortzusetzen. Welche Faktoren dabei beriicksichtigt werden miissen, wollen wir im nachsten Kapitel erortern.

hs ns ns ns ns ns

(23)

3 Relevante Dauersteuerungsfaktoren nach der

Lite-ratur

Der in 2.2.3 besprochene Pilottest hat nachgewiesen, daB eine satzinterne Dauer-strukturierung deutscher Diphonsprache perzeptiv hochsignifikante Verbesserungen erbringt. In diesem Kapitel ziehen wir die phonetische Literatur zu Rate, um Hy-pothesen dari.iber zu bilden, welche Dauerfaktoren der Verbesserung zugrundeliegen konnen. Aus dieser Lekti.ire wird eine Reihe von Untersuchungsaufgaben fi.ir unser Satzmaterial abgeleitet. Diese fassen wir in dem letzten Abschnitt des Kapitels noch einmal zusammen.

Selbstverstandlich wurden nur jene Dauerfaktoren selektiert, die fi.ir Diphon-sprache relevant sind.

3.1

Lautumgebung

Der einem Vokal folgende Konsonant wird von den meisten Autoren als lange-regulierender Faktor dieses Vokals genannt, so z.B. ABERCROMBIE 1967, S.81; DELATTRE 1965, S.64; DIETH 1950, S.433; HEFFNER 1969, S.208-209; NOOTE-BOOM/COHEN 1976, S.105.

Dem dauersteuernden EinfluB dieses Konsonanten liegt das Zusammenwirken dreier phonetischer Parameter zugrunde :

1. Artikulationsort.

Fi.ir das Deutsche formuliert MAACK 1953, S.119 folgende GesetzmaBigkeit : "Ein Sonant ist um so ki.irzer, je naher seine Artikulationsstelle an der des folgenden Konsonanten liegt". So ist nach seiner Ansicht der Vokal am ki.irzesten vor labialen und am langsten vor palatal-velaren Plosiven. AN-TONIADIS /STRUBE 1984 konnten aber in diesem Bereich kaum signifikante Unterschiede feststellen, nur der Langvokal vor [t] war im Mittel 5.5 ms langer als vor [p] oder [k].

2. Artikulationsart.

Vo kale sind vor emem

Frika-tiv langer als vor einem Plosiv (HOUSE/FAIRBANKS 1953; KLATT 1979, S.296; NOOTEBOOM 1979, S.301). Fi.ir deutsche Verhaltnisse konkludiert

MAACK 1953, S.111-115, daB vor [r] der Vokal am langsten ist, vor [I] und [p] am kiirzesten. Letzteres gilt auch dem Vokal vor einem Nasal. Vor Plosiv und Frikativ traten keine nennenswerten Dauerunterschiede auf.

3. Stimmton.

Besonders das Englische ist fi.ir seine groBe Vokaldehnung vor stimmhaften Ob-struenten bekannt (siehe z.B. CRYSTAL/HOUSE 1986, S.2791, KLATT 19736 und KLATT 1976, S.1214). Auch das Deutsche weist eine viel groBere Vokaldauer vor stimmhaften Plosiven auf als das Niederliindische. Van Dommelen stellt in Einzelwortern vor zwischenvokalischem [d] und [t] einen Vokalliingenunterschied von 64 ms fi.ir das Deutsche und 21 ms fiir das Niederlandische fest (van DOMMELEN 1980, S.79-83). DELATTRE 1965, S.64 stoBt fi.ir das Franzosische und das Spanische auf vergleichbare Phiinomene.

(24)

Wenn auch manche der wahrgenommenen Dauerunterschiede signifikant sind, so stellt sich, wenn man sie mit der Differenzierungskapazitat des menschlichen Gehors (JND) 2 vergleicht, doch heraus, daB wenigstens die zwei zuerst genannten Kate-gorien kaum von Gewicht sind und lediglich als produktive oder koartikulatorische Phanomene beurteilt werden miissen. Fiir Beriicksichtigung in dem zu entwickelnden Dauergliederungsmodell kommen sie daher nicht in Betracht. (In den Vokaldauer-formeln von NOOTEBOOM 1972 und RIETVELD 1975 sind diese Einfliisse auch nicht explizitiert word en).

Wichtiger aber ist noch, daB in der Diphonsegmentierungsprozedur diesen Sachverhalten bereits Rechnung getragen ist (siehe 1.2). Aus demselben Grund darf auch die drittgenannte Kategorie im weiteren vernachlassigt werden, so daB fiir die Erstellung des anvisierten Dauerregelsatzes der ganze Komplex der postvokalischen Konsonantumgebung ausscheidet.

Der EinfluB des konsonantischen Kontextes in Clusters auf die Dauerwerte der beziiglichen Konsonanten ist eindeutig nachgewiesen warden und wird in vielen Arbeiten erwahnt (z.B. CRYSTAL/HOUSE 1986, S.2792, KLATT 1976, S.1219, LEHISTE 1979b, S.259, NOOTEBOOM/COHEN 1984, S.128-131, OLLER 1973, S.1242-1243). Diese Information ist aber nicht in den Diphonen selber enthalten. So gibt es z.B. keine spezifischen Di phone fiir [PF] und [TS]. Affrikate wie diese werden zur Zeit aus den Einzellauten zusammengesetzt. Die betreffenden Diphone sind iiberdies nicht aus einer gliicklichen Umgebung geschnitten warden : Zwischen den beiden Konsonantteilen gibt es eine Silbengrenze, z.B. [G AE P F EH T] und [G AE T S EH T]. Beriicksichtigung von Konsonantclusters ist fiir unsere Analyse aus diesen Grunden auBerst sinnvoll. Es soil dabei nach dem Klattschen Modell verfahren werden,

" ... disregarding word boundaries, but not accross phrase boundaries".

(KLATT 1979, S.296)

Auch halten wir es fiir sinnvoll und konsequent, die Daueraspekte von Vokalver-kettungen in Betracht zu ziehen (vgl. KLATT 1979, S.296). Diese Analyse wird sich etwas beschrankter ausnehmen, da Vokale sich im Gegensatz zu Konsonanten maximal nur zu zweiteiligen Clusters aneinanderreihen !assen. So gilt das wenigstens fiir deutsche Diphonsprache. (In Fallen wie Donau-au-aufseher werden glottale Ver-schluBlaute ([GS]) eingefiigt.)

Aus diesen Darlegungen !assen sich also zwei Untersuchungsgegenstande destillieren und zwar die Dauerkiirzung in Konsonantenclusters und in Vokalclusters. Wir wollen dabei nach Phonemtyp (Plosiv, Frikativ, Nasal, Liquid, /H/, /Y /, Lang- und Kurz-vokal) und nach Allophonzahl im Cluster unterscheiden. Die Differenzierung nach den genannten Konsonanttypen erachten wir iibrigens fiir die Gesamtheit der Ana-lysen als ratsam. Welche Vokaltypen wir im einzelnen zu unterscheiden haben, soil im folgenden erlautert werden.

2_{Die JND (Just Noticeable Difference) betra.gt nach KLATT 1976, S.1218-1219 und}

(25)

3.2 Vokalquantitat

Die phonologische Quantitatsopposition weist eine klar temporal-phonetische Reali-tat auf (NOOTEBOOM 1972, S.28-38; RIETVELD 1975, S.250, 253; SIE-VERS 1901, S.255). Die besondere temporale Relevanz dieser Opposition fiir das Deutsche im Vergleich zu anderen Sprachen wird deutlich <lurch DELATTRE 1965, S.63 und van DOMMELEN 1980 demonstriert. Sehr groBe Dauerunterschiede fiir deutsche Lang- und Kurzvokale sind auch bei ANTONIADIS/STRUBE 1984 ver-zeichnet. Extrem kurz ist das grundsatzlich unbetonte Schwa (NOOTEBOOM 1972, S.38-39).

Man brauchte der Varianzquelle Vokalquantitat keine weitere Aufmerksamkeit zu widmen, wenn man sich der Tatsache vergegenwartigt, die auch fiir den Fak-tor 'Umgebungskonsonant' genannt wurde, namlich, daB ihr temporaler EinfluB durch die benutzte Diphonschnittweise bereits in der Lange der vokalischen Diphon-segmente einbegriffen ist.

Aus zwei Grunden wollen wir diese Varianzquelle dennoch in die Analyse ein-beziehen. Erstens, weil die Vokalquantitat als lnteraktionsgroBe interessant ist. So werden Langvokale bei zunehmender Silbenzahl oder bei Betonungsverlust moglich starker als Kurzvokale gekiirzt (NOOTEBOOM 1972, S.66, S.93; RIETVELD 1975, S.254). Zudem ist SIEVERS 1901, S.262 der Meinung, daB nur Langvokale dehnungsfahig sind. In geschlossener Silbe mit Kurzvokal findet, nach seiner An-sicht, die Dehnung nur im postvokalischen Konsonanten statt.

Zweitens, weil die Ergebnisse des Verstandlichkeitstestes, der am vorliegendep. Diphoninventar vorgenommen wurde, zeigte, daB die Langvokale des Korpus im allgemeinen zu kurz sein diirften (van den HEUVEL 1986, S.21).

Aus diesen Grunden wollen wir drei Vokaltypen unterscheiden : Langvokale, Kurzvokale und unbetonbare Vokale. Zu der letzten Gruppe gehort im Deutschen neben dem [E] auch das [ER] von Bier.

3.3 Vokalqualitat

Auch die Klangfarbe, das Timbre, eines Vokals hat temporale Konsequenzen (DE-LATTRE 1965, S.64; DIETH 1950, S.433; KLATT 1979, S.1213). Antoniadis und Strube bemerken :

"Die Tendenz, zungenhohe Vo kale kiirzer auszusprechen, ist . .. deutlich zu erkennen ... , eine Posterioritiitsabhiingigkeit . . . dagegen nicht ... " ( ANTO-NIADIS /STRUBE 1984, S.76, S.78). (Ahnliches bei LEHISTE 1977a, S.18)

Wenn auch die von ANTONIADIS/STRUBE 1984 aufgefundenen Vokaldauer-differenzen auBerst signifikant sind, so sind sie jedoch zugleich minimal (5-8 ms fiir die Kurzvokale und 9-19 ms fiir die Langvokale, ebd., S.85). Diese Unterschiede befinden sich also noch unter der JND.

Wichtiger ist aber, daB die temporale Variabilitat qualitativ verschiedener Vokale bei der Schnittprozedur der Diphone schon mitberiicksichtigt wird (vgl 3.1 und 3.2). Es gibt auch keinen weiteren Grund, die Vokale nach ihren qualitativen Merkmalen zu unterscheiden.

(26)

3.4 Akzentuierung

Im allgemeinen werden zwei Betonungstypen unterschieden : Wortakzent und Satz-akzent. Nur die Funktions- oder Formworter (Prapositionen, Artikel und der-gleichen, weisen keinen Wortakzent auf, wohl aber die Inhaltsworter (z.B. Verben und Substantiven). In einem Satz ist jeder Satzakzent zugleich Wortakzent, das Umgekehrte ist aber nicht der Fall :

(1) Die /kleine Sa/'bine wird /'schwimmen /gehen. 3

Die Stelle des Wortakzentes ist im Deutschen, so KOHLER 1977, S.122-123, weit-gehend vorfixiert. Der Wortakzent ist ein phonologisches Merkmal, welches sich im Satz <lurch eine unterschiedliche Prominenzabstufung manifestiert.

Den Satzakzent betrachten wir als die Neutralform des Kontrastakzentes. So ist (1) eine neutrale Realisierung unseres Beispielsatzes, Kontrastakzente liegen aber vor in : 4

(la)

Die "kleine Sa'bine wird 'schwimmen gehen. (Nicht die groBe)

(lb) Die kleine Sa"bine wird 'schwimmen gehen. (Nicht Fritz)

(le) Die kleine Sa'bine wird "schwimmen gehen. (Nicht tennisspielen)

Nach Kohlers Ansichten besteht ein Satz aus einem "Nukleus" und einem "Pranukleus" (KOHLER 1977, S.203). Der Schnitt liegt bei der "Nukleussilbe", dem letzten Satzakzent im Satz. Kohler nimmt diese Silbe als Referenzpunkt fi.ir die intonative G liederung des Satzes. Die rhythmische Einheit, zu der die Nuk-leussilbe gehort, nennt er "Nukleustakt". Der Satzteil vor dem Nukleustakt ist der Pranukleus, und den Satzteil nach dem Nukleustakt nennt Kohler "Nachlauf' {KOHLER 1977, a.a.O.). Wir demonstrieren das an unserem Beispielsatz:

Die kleine Sabine wird - Pranukleus

schwimmen gehen.

-; Nukleustakt }

-; Nachlauf -; Nukleus Wir wollen diese Kohlerschen Bezeichnungen iibernehmen.

(1) zeigt deutlich, wie sehr die Stellen der Wortakzente mit den Stellen der Takt-hebungen im Satz korrespondieren. Die Annahme aber, daB eine eineindeutige Beziehung zwischen Wortakzenten und Takthebungen vorliegt, ist problematisch, da der Wortakzent vorfixiert ist, die rhythmische Struktur eines Satzes aber nicht. Sie muB jeweils ohrenphonetisch bestimmt werden (Kohler, personliche Kommu-nikation), da sie von u.a. Sprechtempo und Satzakzentuierung abhangig ist. Diese Problematik kann anhand eines Beispiels illustriert werden. Betrachten wir folgende zwei Satze : 5

(3)

/Gib mir /bitte die /B'utter. (S18)

3

Wort;ikzente sind mit / vermerkt, Satzakzente mit '.

4

Kontra.stakzente sind mit " vermerkt.

5

(27)

(4)

Wer /mochte noch /M'ilch?

(S19)

Wenn wir davon ausgehen, daB Wortakzente (WA) a priori festliegen, immer Takthe-bungen darstellen und alle Satzakzente (SA) zugleich Wortakzente sind, so miissen wir folgern, daB mir in (3) und Wer in (4), weil sie keine Takthebungen darstellen, keine Wortakzente tragen und daher auch keine Satzakzenttrager sein ki::innen. Diese Vorstellung ist aber nicht richtig :

(3a) Gib /m'ir /bitte die /B'utter.

(4a) /W'er /mochte noch /M'ilch? (vgl. S52, Anhang B2)

Unsere Arbeitshypothese wird daher folgende sein. Im Gegensatz zum bisher Angenommenen weist jedes Wort einen Wortakzent ( oder mehrere im Falle von Wortzusammensetzungen) auf, auch die Formwi::irter. So vermeidet man erstens die Problematik, definieren zu miissen, welche Worter als Formworter aufzufassen sind, und zweitens legt es auch der Terminus Wortakzent selber nahe, daB jedes Wort einen Wortakzent hat, da andernfalls eine Bezeichnung wie 'Wortgruppenakzent' 6

zutreffender ware.

Als satzakzentuiert betrachten wir diejenigen Silben, die auf Satzebene als die in semantischer Hinsicht prominentesten beurteilt werden und die nicht als Kontrast-akzent interpretiert werden miissen. Einen rhythmischen Akzent bildet nun jede auditiv als Takthebung identifizierte Silbe.

Wir integrieren die drei Akzentformen auf folgende Weise zu einem dreistufigen, hypothetischen Model! (Tabelle 3).

Tabelle 3: Das hypothetisierte dreistufige Akzentuierungsmodell. KA

=

Kontrastakzent; SA = Satzakzent; RA = Rhythmusakzent; WA = Wortakzent.

Akzenttypus KA/SA RA WA Steuerquelle Situation Sprechtempo Lexikon Beziehung c RA c WA ·----~---physikalisches Korrelat Fo Dauer

Aus der Tabelle geht hervor, daB jeder SA ein RA, jeder RA ein WA und mithin jeder SA ein WA ist. Weiter beeinfluBt der Rhythmusakzent nach unserer

Hy-pothese hauptsachlich die Dauer und der Satzakzent hauptsachlich die Grundfre-quenz. Da jede satzakzentuierte Silbe weiter zugleich rhythmisch akzentuiert ist, ist sie schon deswegen dauerverlangert. Dies ist aber nur der rhythmischen, nicht der Satzakzentuierung zuzuschreiben. Die Position des Wortakzents ist, so zeigt die zweite Spalte, lexikalisch bedingt, die Position des Rhythmusakzentes ist vom Sprechtempo abhangig, und die Position von Satz- und Kontrastakzent ist situa-tionsbedingt. Sie hangt vom Redekontext ab.

Es scheint plausibel, daB die Sprechgeschwindigkeit die rhythmische Akzen-tuierung so steuert, daB bei zunehmendem Sprechtempo immer weniger Wortakzente rhythmisch betont werden, so daB im Extremfall RA und SA zusammenfallen.

Eine Aufgabe dieser Arbeit ist nun zu iiberpriifen, ob die Rhythmik auf Dauer-unterschiede zwischen rhythmisch betonten und rhythmisch unbetonten Silben

(28)

zuri.ickzufi.ihren ist, oder ob Dauerverlangerung im gleichen AusmaB auch die an-deren Betonungstypen, SA und WA, charakterisiert.

Nach Angaben von KOHLER et al. 1982 sind rhythmisch betonte Silben im Nach-lauf (s.o.) weniger Jang als solche im Pranukleus und im Nukleustakt. Diese Abhangigkeit von der Intonationsstruktur der AuBerung konnen wir untersuchen, weil die Nukleussilbe hier als Referenzort funktioniert. Diese Nukleussilbe nun ist definiert warden als die Stelle, wo sich die letzte starke - meistens sogar die aus-gepragteste - Fo-Bewegung findet also die Stelle des letzten deutlichen Satzakzentes (vgl. KOHLER et al. 1982, S.4). Daher wird sie auch mit der von uns angewen-deten Akzentanalysemethode doch als Satzakzent klassifiziert werden, obwohl diese Methode, wie gesagt (siehe 2.1.3), vielleicht nicht alle schwachen Satzakzente als solche identifiziert.

Zurn AbschluB dieses Paragraphen listen wir die Dauerfaktoren, die den Gegenstand unserer Analyse bilden werden, noch einmal auf:

• Sind wortakzentuierte Allophone !anger als nicht wortakzentuierte?

• Sind rhythmisch akzentuierte Allophone !anger als nicht rhythmisch akzen-tuierte?

• Sind satzakzentuierte Allophone !anger als nicht satzakzentuierte?

• 1st die eventuelle Verlangerung in satzbetonten Allophonen nur der rhyth-mischen Akzentuierung dieser Allophone zuzuschreiben, oder leistet der Satz-akzent auch einen eigenen Beitrag?

• Sind rhythmisch betonte Allophone im Nachlauf ki.irzer als anderswo im Satz? In Anlehnung an KLATT 1979, S.293-294; OLLER 1973, S.1237 und NOOTE-BOOM 1972, S.59-60 wollen wir bei unserer Analyse nur diejenigen Konsonanten, die vor einem betonten Vokal und zwar in derselben Sil be wie dieser auftreten ( auch Clusters), als betont klassifizieren.

3.5 lsochronie und Silbenzahl

Einen guten Uberblick i.iber die bisherige Forschung hinsichtlich der Art der Rhythmik verschiedener Sprachen bietet BENGUEREL/D'ARCY 1986 an. In der Sprachrhythmik gibt es zwei Haupttypen : Sprachen mit 'stress timing' und solche mit 'syllable timing'. In Sprachen mit 'stress timing' stellt die Intervalldauer zwi-schen der einen betonten Silbe und der darauffolgenden eine zeitliche Konstante dar, in Sprachen, welche 'syllable timed' sind, erweist sich die Dauer jeder einzelnen Silbe als eine konstante GroBe. Die beiden Verfasser referieren, wie in letzter Zeit, jeden-falls im akustischen Bereich, der Unterschied zwischen dem Englischen und dem Franzosischen als Archetypen beider rhythmischen Gestaltungsmoglichkeiten in ho-hem MaBe relativiert worden ist. Auch ihre eigene Untersuchung mit sprachlicho-hem und nicht-sprachlichem Material zeigt, wie sehr das menschliche Perzeptionssys-tem akustisch nicht-isochrone Signalsti.icke zu isochronen Wahrnehmungseinheiten ummodelliert. Fi.ir das Englische haben Donovan und Darwin eine ahnliche an der lsochronie orientierte Rhythmisierung innerhalb intonativ zusammengehoriger