Iets over automatische spraakherkenning

(1)

lets over automatische

spraakherkenning

Vincent J. van Heuven

Summary

In Ms paper l claim that speech has important advantages over typing äs a means of communication with Computers. I will present the various components ofa speech recognizer, and discussproblems relatedto each ofthe tasks identified. More specifically, I will discuss sources of variability in the speech signal, and consider means to deal with them. Finally, I will describe some Systems for automatic speech recognition (ASR) that are (commercially) available. It will appear that research into automatic speech recognition in Dutch that is being carried out in the Netherlands is less developed than is the case in other countries for other languages.

1. Inleiding

Spreken en verstaan leren mensen schijnbaar moeiteloos in de eerste vier jaren van hun leven. Lees- en schrijfvaardigheid daarentegen worden niet vanzelf aangeleerd, maar vergen expliciete instructie. Bij Computers verloopt deze ontwikkeling precies andersom: tot en met de huidige generatie ontvangen Computers hun informatie in de vorm van schriftelijke Symbolen (cijfers, letters, leestekens en andere bijzondere tekens) die de menselijke gebruiker met de band invoert via een toetsenbord. Informatie van de Computer aan de gebruiker wordt, alweer in schriftelijke vorm, verstrekt op een beeldscherm of op een stuk papier. Communicatie met zijn menselijke gebruiker in spraak gaat de Computer voorlopig niet goed af.

De voorkeur van de Computerfabrikanten voor schriftelijke in- en uitvoer is volkomen begrijpelijk. Ook al zouden talloos velen op de meest uiteenlopende toetsenborden de letter V aanslaan, iedere keer opnieuw wordt exact hetzelfde patroon van stroomstootjes (enen en nullen) aan de Computer doorgeven. De herkenning van zulke patronen verloopt dan ook moeiteloos. Compu-terverwerking van handgeschreven boodschappen is veel ingewikkelder. Geen twee personen hebben hetzelfde handschrift, en zelfs een persoon maakt dezelfde letter nooit twee keer precies hetzelfde. De variatie in spraak is nog veel groter, en de verwerking van spraak door Computers navenant moeilijker. Bij de sprekende Computer hebben de ontwerpers het in zo verre gemak-kelijker dat zij slechts rekening hoeven te houden met de eigenaardigheden van een stem. Als die ene stem maar verstaanbaar is en acceptabel klinkt, dan is de informatiestroom van Computer naar gebruiker naar tevredenheid

(2)

geregeld. Maar ook daar zijn de problemen voorlopig nog niet opgelost. In de bijdrage van De Pijper aan dit themanummer wordt uitvoerig ingegaan op de problemen rond de sprekende Computer. Ik beperk me verder tot de problemen rond de ontwikkeling van de luisterende, d.w.z. spraakherkennende, Computer.

In dit stuk wil ik eerst, in meer detail dan hierboven, ingaan op de specifieke voordelen van gesproken boven getypte invoer. In de daaropvolgende sectie zal ik aan de band van een vrij algemeen schema voor een spraakherkenner de belangrijkste onderdelen van zo'n systeem behandelen, elk met zijn eigen, goeddeels nog onopgeloste, problemen. Daarna bespreek ik de problemen die ontstaan bij de automatische spraakherkenning als gevolg van de grote variatie in spraakgeluiden. Ik identificeer verschillende variatiebronnen en geef aan hoe men tracht de bedoelde taalvormen ondanks alle wisselvalligheden in het geluid toch te achterhalen. Tenslotte wil ik proberen vast te stellen wat al wel en wat nog niet mogelijk is op het gebied van automatische spraakherkenning. Daarbij zal blijken dat de automatische spraakherkenning in Nederland, en voor het Nederlands, minder ver gevorderd is dan in veel andere industrielanden voor andere talen.

2. Waarom automatische spraakherkenning?

In weerwil van wat ik in de vorige paragraaf heb gezegd, is spraak in lang niet alle gevallen het superieure communicatiemiddel. Het aanwijzen van een specifieke positie op een beeldscherm gaat veel sneller met de hand (c.q. een muis) dan met spraak. Getallen invoeren gaat stukken efficienter met toets-aanslagen dan met spraak, vooral als de getallen enige lengte krijgen. Ook voor het invoeren van grafische informatie, bijvoorbeeld bij industrieel ontwerpen (CAD/CAM), is een gesproken beschrijving van een diagram of bouwtekening volkomen ongeschikt.

Toch heeft gesproken invoer voor een aantal toepassingen belangwekkende voordelen. Ruwweg liggen deze toepassingen op drie terreinen: (i) bij de invoer van tekst en (ii) bij taken die vereisen dat de gebruiker zijn handen (en ogen) vrij heeft voor andere bezigheden dan het bedienen van een toetsenbord (zogenaamde 'hands-busy/eyes-busy' taken). De derde toepassing die ik op het oog heb, verschilt niet principieel van de twee voorgaande, maar ik verwacht dat juist deze in de nabije toekomst voor iedereen heel belangrijk gaat worden: het raadplegen van databanken via de telefoon. Deze drie klassen van toepassingen zullen worden besproken.

2. L Invoer van tekst

(3)

Jets over automatische spraakherkenning 175

van computerprogramma's moet tekst worden ingevoerd (maar dan in computertaal), en - vaak nog veel meer dan bij tekst in mensentaal - worden gewijzigd en verbeterd.

Tussen schrift en spraak beerst een merkwaardige asymmetrie. Mensen spreken veel sneller dan zij schrijven of typen. Omgekeerd kunnen we in dezelfde tijd veel meer tekst lezen dan beluisteren, ook al zouden we het spreektempo via een electronische ingreep bovenmenselijk opvoeren. Voor tekstverwerking is daarom gesproken invoer gekoppeld aan visuele uitvoer de ideale combinatie: de gebruiker ziet op zijn scherm de tekst die hij net heeft uitgesproken; met de pijltjestoetsen op zijn toetsenbord kan hij des-gewenst de posities in de tekst aanwijzen waar hij veranderingen wil aanbrengen (Brandetti et al. (1988)). Het hinderlijke en tijdrovende terugluisteren van het dictaat is hiermee overbodig ("Wilt u de laatste alinea even herhalen, juffrouw Jansen?")·

Met name voor gebruikers die geen professionele typevaardigheid bezitten, is gesproken invoer een zegen. Spreken is niet alleen sneller dan typen, het is ook veel minder foutgevoelig. Mensen maken nu eenmaal veel meer typefouten dan spreekfouten (Leggett en Williams (1984)). Gesproken invoer van tekst, maar ook van kortere commando's aan het adres van een Computer, is de enige vorm van communicatie die resteert wanneer de gebruiker helemaal niet kan typen, het schrift niet beheerst (bijvoorbeeld een volwassen analfabeet, een kind dat nog moeten leren schrijven en lezen), of niet de beschikking heeft over het gebruik van zijn handen (zoals een rheumapatient of een lijder aan spierziekten).

Bij het schrijven van een tekst is het vaak plezierig als we onze handen vrij hebben, bijvoorbeeld om in onze aantekeningen of in naslagwerken te bladeren. Hiermee zijn we dan aangeland bij de volgende categorie toepas-singen waarvoor spraakinvoer een uitkomst is.

2.2. 'Handen-vrif taken

Bij de uitvoering van talloze taken is het nodig dat we onze handen (en vaak ook ogen) vrij hebben voor belangrijkere functies dan het aanslaan van toetsen of het bedienen van handles. Zo moet een radioloog bij het bestuderen van een röntgenfoto zijn aandacht gericht hebben op de foto terwijl hij zijn bevindingen op schrift vastlegt. Bij het afhandelen van de bagage op vlieg-velden, waar een centrale Computer ervoor zorgt dat uw koffers in het juiste vliegtuig terecht körnen, is het efficient als de baliemedewerker de bestemming van een koffer kan inspreken in een reversmicrofoontje terwijl hij de koffers op de transportband plaatst (zie ook Baker (1981); Nooteboom en Cohen (1984)). Buiten deze beroepssfeer zijn er voor de hand liggende toepassingen ten behoeve van gehandicapten in de vorm van rolstoelen, en zelfs auto's, die met gesproken commando's bestuurd worden.

(4)

draagbaar toetsenbord, in Staat zijn gegevens aan de Computer door te geven terwijl hij vrij rondloopt. Dit blijkt o.a. van groot voordeel bij taken op het gebied van voorraadadministratie en magazijnbeheer, waarbij employees soms grote afstanden moeten afleggen.

2.3. Raadplegen van Computers via de telefoon

Vrijwel ieder Nederlands huisgezin bezit een telefoon. Computers zijn ideaal als vraagbaak of inlichtingenautomaat. Computergeheugens kunnen een enorme hoeveelheid gestructureerd opgeslagen informatie doorzoeken, en de gebruiker in een oogwenk verteilen wat hij wil weten. Diensten als Viditel en Teletekst zijn hier voorbeelden van. Om deze informatiebanken te kunnen raadplegen is een speciaal toetsenbordje bij de telefoon nodig. Het zou veel efficienter werken als de gebruiker zijn verzoek om informatie in normale spraak zou kunnen doen.

De telefoongids van Nederland is lastig te doorzoeken: ca. 10.000 pagina's zeer dicht bedrukte tekst, alfabetisch georganiseerd op plaatsnaam, per plaatsnaam op abonnee, en daarbinnen (1000 maal Jansen) op straat en huisnummer. Er is een inlichtingendienst, maar die functioneert vooral overdag matig ("Er zijn nog ... wachtenden voor u"). Telefoneren zou een stuk aangenamer worden als de gebruiker een telefoonnummer in normale spraak zou kunnen opvragen bij een inlichtingenautomaat die altijd bereikbaar is.

3. Algemene inrichting van een spraakherkenner

Herkennen vooronderstelt kennen. Willen we een Computer spraak laten herkennen, dan moet de Computer over een geheugen beschikken waarin de herkenningseenheden liggen opgeslagen. Herkenning vindt plaats wanneer het ingevoerde spraakgeluid, of een deel daarvan, wordt gekoppeld aan een van de opgeslagen herkenningsmogelijkheden. Herkenningseenheden kunnen de grootte hebben van klanken (fonemen, allofonen), lettergrepen of delen daarvan (demisyllaben, difonen, zie ook de bijdrage van De Pijper), of hele woorden. Over de voor- en nadelen van deze eenheden kom ik later nog te spreken.

De herkenning van eenheden kan op twee manieren bereikt worden. De meest eenvoudige is om van elke eenheid een (of meer) voorbeelden in het geheugen vast te leggen. Door na te gaan op welk voorbeeld (of groepje voorbeelden van dezelfde eenheid) een invoerwoord het meest lijkt, kan, gegeven een verzameling alternatieven, een beslissing over de identiteit van het nieuwe woord worden genomen. In dat geval hoeft de constructeur van de spraakherkenner zieh dus nooit af te vragen in welk opzicht de herken-ningsalternatieven van elkaar verschillen. De beslissing wordt achter zijn rüg om genomen door het systeem.

(5)

lets over automatische spraakherkenning 177

opstelt aan de band waarvan voor ieder invoerwoord beslist kan worden of dit een bepaalde eenheid bevat of niet. Een voorbeeld van zo'n beslis-singsregel zou kunnen zijn: "Is de verhouding tussen de twee laagste re-sonantiepieken (in Hertz gemeten) in het geluid groter dan 7:1, dan is die klank een [ie]". Eventueel kan ook gewerkt worden met een kans-uitspraak: "De meest voor de band liggende herkenningskandidaten zijn in aflopende volgorde [ie], [uu] en [i]". Zo'n aanpak vooronderstelt expliciete kennis van de essentiele eigenschappen van klanken. Voor zover we die kennis niet in huis hebben, dwingt deze aanpak ons om aanvullend onderzoek te doen. In de navolgende algemene beschrijving van een spraakherkennend systeem wordt de nadruk gelegd op deze tweede, interessantere aanpak waarbij getracht wordt klanken te herkennen op basis van kenmerkdetectie, en niet woorden ineens via vergelijking met opgeslagen voorbeelden.

Figuur l identificeert de onderdelen van een algemene spraakherkenner, in hun onderlinge samenhang. Ik licht de diverse componenten van het systeem toe. lexicale zoek-procedure foneem-grafeem omzetting (spellings-correctie) syntactische analyse tekstdisplay

(6)

3. L Spraakinvoer in de Computer

Spraakgeluid uit de mond van de spreker wordt door een microfoon omgezet in een electrische (wissel-)spanning. Daarvan wordt een groot aantal keren per seconde (meestal voor iedere 0,1 ms ofwel per 1/10.000 seconde) het voltage gemeten, en de gevonden waarde wordt als een getal in het geheugen van de Computer geplaatst. Dit proces heet A/D-conversie of analoog-digitaal omzetting. Een seconde spraak wordt aldus opgeslagen als een lange rij van 10.000 getallen. De gemeten voltages als functie van de tijd kunnen we ook als een grafiek op papier of beeldscherm laten zetten. We krijgen dan een zogenaamd oscillogram, zoals in figuur 2 (zie ook Nooteboom en Cohen (1984)).

3.2. Parameterextractie

(7)

lets over automatische spraakherkennmg 179

<K|l· fw 4". ft "fr 1*4

SPBCTRA VAN GESEtECTEERDE KLINKERS

Figuur 2 Oscillogram van een rmcrofoonsignaal en dertien afgeleide parameters als trjdfuncties

voor de telwoorden 'nul', 'een', 'tien', gesproken zonder tussenliggende pauzes en gevolgd door de variant 'zeuven' De vertikale hjnen geven bij benadermg aan waar de grenzen tussen opeenvolgende klanken liggen

Van boven naar beneden het verloop van de intensiteit (luidheid) m decibel Onder het intensiteitspaneel duidt een horizontale streep op stemloosheid van een spraaksegment In het tweede paneel het oscillogram of microfoonstgnaal In het derde paneel het verloop van de penodiciteit (toonhoogte) in Hertz De toonhoogtehjn is onderbroken bij stemloze klanken In het onderste paneel de tien klankkleurparameters de centrumfrequenties van de laagste vi)f resonanties in het spraakgeluid (Fl t/m F5 in kilohertz) en hun bijbehorende bandbreedtes (geen eenheid aangegeven) Onder m de figuur de spectrale omhullenden van zes geselecteerde klmkers, zoals afgeleid uit de 10 kleurparameters op het punt m de tijd waar de pijl naar ledere klmker getrokken is

(8)

benodigde opslagcapaciteit nog drastisch verkleind worden, zonder dat de prestaties van het herkenningssysteem daar noemenswaardig onder lijden (zie bijvoorbeeld Rabiner en Soong (1985)).

Een voorbeeld van zo'n parametrische voorstelling is gegeven in figuur 2, waar onder het oscillogram de tijdvariaties zijn getekend voor de laagste vijf resonantiepieken (formantfrequenties) en hun bijbehorende scherpte (en daarmee hun auditieve opvallendheid). Gesproken zijn de cijfers nul tot en met tien, in lopende spraak, dus niet gescheiden door pauzes. De verschillen tussen de diverse klinkers zijn goed te zien. Let ook op de Sterke overeenkomst tussen 'zeven' en 'negen'. Ter illustratie is naast 'zeven' ook de uitspraak 'zeuven' afgebeeld.

Merkwaardig genoeg wordt in vrijwel geen enkel systeem de moeite genomen om ook het verloop van de toonhoogte te berekenen. Een reden voor deze omissie kan zijn dat toonhoogte in westerse talen vrijwel niets bijdraagt aan de identiteit van klanken en woorden, terwijl zelfs de meest geavanceerde rekentechnieken om de toonhoogte te bepalen nogal foutgevoelig zijn. Wel kan het toonhoogteverloop een bijdrage leveren aan de automatische seg-mentatie van grotere stukken spraak in zinsdelen, maar daar is nog maar weinig onderzoek naar gedaan (Lea (1980); Lacerda et al. (1988)).

De 10 tot 20 parameters die de klankkleur van het geluid karakteriseren, zijn in feite de ingredienten van een wiskundige functie die de spectrale omhullende (zie figuur 2 onderaan) van het spraakgeluid voorstelt. De berekening van deze functie uit het microfoonsignaal is rekentechnisch (voor mij althans) niet eenvoudig, kost nogal wat computertijd, en levert dikwijls resultaten op die niet kloppen met de spectrale omhullende die een foneticus op het blote oog zou tekenen. De gebruikte technieken behoren meestal tot de klasse van Lineair Predictieve Coderingen (L.P.C.-analyses). De liefhebbers verwijs ik graag naar Rabiner en Shafer (1978) of Vögten (1984) en referenties aldaar. Wie minder hecht aan de eis dat de berekende parameters fonetisch interpreteerbaar moeten zijn, kan volstaan met een eenvoudigere bepaling van de spectrale omhullende in de vorm van een zogenaamde bandfilteranalyse (zie bijvoorbeeld Pols (1977)).

In sommige laboratoriumsystemen plaatst men een oormodel, of front-end processor, voor de parameterextractie. In het menselijk oor kunnen sommige tooncomponenten andere gelijktijdig of later klinkende tooncom-ponenten afzwakken, waardoor sommige eigenschappen van het geluid voor het oor zwaarder, of juist lichter, wegen dan we op grond van een louter acoustische overweging zouden vermoeden (voorbeelden van zulke oormo-dellen in Seneff (1986) en Blomberg et al. (1984)). De mens is nog altijd verreweg de beste spraakherkenner ter wereld, reden waarom men hoopt via simulatie van eigenschappen van het menselijk gehoor de prestaties van spraakher-kennende machines op te voeren.

3.3. Segmentatie, kenmerkdetectie en klankbenoeming

(9)

lets over automatische spraakherkenning 181

Willen we toch kunnen beslissen met wat voor klank we te doen hebben, dan moeten we een idee hebben van waar tot waar in het spraakgeluid zieh een klank bevindt. In het algemeen is de kleurverandering in klankmiddens vrij klein. Dat kan gebruikt worden om de kernen van klanken te localiseren. Op de overgang tussen klanken is de kleurverandering juist groot. Aan de hand van Sterke of juist geringe veranderingen in de berekende parameter-sporen kan het systeem een voorlopige opdeling van het spraakgeluid maken in termen van opeenvolgende klanken of onderdelen daarvan (bijvoorbeeld de stilte, respectievelijk explosie van een plofklank).

De logisch volgende stap is om dan ieder afgebakend segment te duiden in termen van de opgeslagen herkenningsalternatieven. Het is waarschijnlijk geen goed idee om te proberen meteen vast te stellen of een klank een [ie], [aa], [p], [s] etc. is. Het lijkt verstandiger na te gaan welke kenmerken tijdens de duur van het klanksegment in het spraakgeluid aanwezig zijn. Zo duidt de aanwezigheid van een brede energieconcentratie op frictie (schuurklank of plofklank), terwijl de aanwezigheid van in smalle frequentiebanden ge-concentreerde energie doet vermoeden dat we met klinkers of sonoranten te maken hebben. Wanneer de afstand tussen de twee laagste energiecon-centraties bij een klinkerachtige klank groot is, hebben we te doen met een voorklinker, anders met een achterklinker. Op deze manier kunnen we voor ieder klanksegment een aantal van zulke kenmerken detecteren. ledere klank in de taal is gedefinieerd als een specifieke combinatie van zulke kenmerken. Een [s] is dan bijvoorbeeld een klank met frictie, met een energieconcentratie in het hoge frequentiegebied, die geleidelijk inzet en gedurende vrij lange tijd wordt aangehouden, zonder sporen van toonhoogte.

Een uitvoerige behandeling van klankkenmerken voor het Amerikaans Engels is te vinden in Stevens en Blumstein (1981). Aan zeer veel laboratoria in verschallende landen wordt gewerkt aan de ontwikkeling van detectie-algoritmen voor individuele kenmerken. Van een ge'integreerd programma voor gelijktijdige detectie van alle relevante kenmerken is, voor zover ik heb kunnen nagaan, tot op dit moment nergens sprake.

Enkele kanttekeningen zijn hier op hun plaats. Door grote verschillen tussen en binnen sprekers (zie ook de volgende paragraaf) is het niet mogelijk zinvolle kenmerkdetectoren te ontwikkelen als die niet'gebruik maken van context-informatie. De criteria aan de hand waarvan het systeem beslist of een kenmerk wel of niet in het geluid aanwezig is·, moeten dus niet absoluut zijn, maar dynamisch kunnen worden bijgesteld onder invloed van de persoonlijke karakteristieken van de spreker en van de context (klankomgeving, spreek-snelheid en articulatorische precisie). De criteria zullen dan ook altijd worden uitgedrukt in relatieve maten (verhoudingsgetallen tussen parameterwaarden in een of meerdere opeenvolgende klanksegmenten), en nooit in absolute fysische grootheden, zoals Hertz en milliseconde.

(10)

basis daarvan bepalen welke aanvullende informatie nog nodig is om een woord te kunnen onderscheiden van zijn concurrenten in het lexicon (Shipman en Zue (1982)). Ik kom hier in paragraaf 3.4 op terug.

Hoewel segmentatie en kenmerkbenoeming logisch gescheiden activiteiten zijn, vallen ze in de praktijk vaak samen. "Snelle kleurverandering" versus "langzame kleurverandering" zijn niet alleen criteria om de grenzen en middens van klanken te bepalen, het zijn ook kenmerken waaraan klanken hun identiteit ontlenen. Conceptueel kunnen we deze taken scheiden, maar in een herken-ningssysteem vormen ze dikwijls een module.

Tot op dit punt is de ontwikkeling van de spraakherkenner grotendeels het werk van Ingenieurs, audiologen en fonetici. In de volgende stadia van het herkenningssysteem gaat de taalkunde een steeds belangrijkere rol speien.

3.4. Lexicale verificatie

Het resultaat van de bewerkingen tot op dit punt is in feite een vrij gedetailleerde fonetische transcriptie van de spraakinvoer. De oorspronkelijke continue stroom spraakgeluid is omgezet in een discrete reeks Symbolen. Er heeft een enorme informatiereductie plaatsgevonden die ons nu in Staat stelt in een fonetisch getranscribeerde woordenlijst na te zoeken welk woord bedoeld kan zijn met het invoerwoord.

De kans dat de "berekende" fonetische transcriptie in identieke vorm aangetroffen wordt in de woordenlijst is uiterst klein. Daar zijn ten minste twee redenen voor aan te wijzen.

(i) Door de grote wisselvalligheid in uitspraak binnen dezelfde en zeker tussen verschillende sprekers, zullen de segmentatie en klankbenoemingsproce-dures heel vaak met verschillende transcripties komen voor wat als hetzelfde woord bedoeld is. Voor zover een getraind foneticus, buiten zinscontext, een betere transcriptie aflevert, kunnen we hier spreken van fouten in het herkenningsalgoritme.

(11)

Bij de vergelijking van de berekende klankvorm en de woorden in het lexicon, moet rekening gehouden worden met dergelijke discrepanties. Dit doel kan weer längs verschillende wegen bereikt worden. Een tamelijk oninteressante oplossing is om elk woord in het lexicon met inbegrip van alle mogelijke uitspraakvarianten op te nemen. De tweede, taalkundig gezien interessantere, mogelijkheid is om de uitspraakvariaties in regels te vangen. De taak is dan om alle niet-verplichte klankaanpassings- en -weglatingsregels van de taal in het herkenningssysteem op te nemen, en bij het opzoeken van de woorden in het lexicon met de effecten van die regels rekening te houden.

Undanks deze voorzorgen zal het echter nog steeds voorkomen dat een invoerwoord niet letterlijk teruggevonden wordt in de woordenlijst. In zulke gevallen zal het woord dat nog het sterkst overeenkomt met het invoerwoord als meest voor de hand liggende oplossing worden aangewezen. Zo'n kans-uitspraak vooronderstelt dat we weten wat voor klankverschillen wel en niet perceptief belangrijk zijn. Over geschikte perceptieve afstandsmaten tussen verschillende klanken en woorden is echter nog weinig bekend (zie verder Pols (1987) en referenties aldaar).

Tot nu toe zijn we er stilzwijgend van uitgegaan dat de woordgrenzen in de transcriptie bekend zijn. In verbunden spraak worden opeenvolgende woorden als regel naadloos aan elkaar vast gesproken (zie ook figuur 2). Dit levert bij de lexicale opzoekprocedure ernstige complicaties op, omdat het systeem voortdurend bedacht moet zijn op de mogelijkheid van alternatieve opdelingen van de klanken in woorden. Deze onzekerheid kan belangrijk verminderd worden als het systeem kennis heeft van de zogenaamde fono-tactische restricties in de taal. Zo kunnen we zeker weten dat in de klank-opeenvolging [...fk...] een woordgrens gepasseerd wordt (als in 'hofkapel'): in geen enkel ongeleed Nederlands woord komt de klankcombinatie [fk] intern voor. Verder kunnen sommige klanken alleen optreden aan het begin, c.q. het eind van een woord, zodat daaruit opgemaakt kan worden dat een woordgrens is bereikt. In de praktijk wordt het onzekerheidsprobleem door woordgrenzen vrijwel altijd omzeild. De herkenningssystemen gaan ervan uit dat de gebruiker zijn woorden scheidt met pauzes. Dit is uiteraard een noodoplossing: deze onnatuurlijke manier van spreken vergt enige concentratie en vertraagt het spreektempo.

(12)

op de combinatiemogelijkheden van woordcategorieen tot zinnen als kennis in te bouwen in het herkenningssysteem, dan nemen de prestaties van de herkenner belangrijk toe. Om deze regels te kunnen toepassen is echter een voortdurende zinsontleding van de invoertekst vereist.

De ontwikkeling van voldoende snelle en trefzekere programma's voor zinsontleding (parsing) is geen eenvoudige zaak, reden waarom een echte syntactische parsing in nog geen enkele commerciele spraakherkenner is ingebouwd. Wel zijn er Systemen met een kunstmatig beperkte syntaxis. Daarin mag de gebruiker alleen maar zinnen spreken met steeds een klein aantal woorden, die ieder moeten voorkomen op een specifieke plaats in de zin. Zo'n mini-grammatica is betrekkelijk eenvoudig op te nemen in het herken-ningssysteem. Een alternatieve aanpak formuleert geen absolute beperkingen in termen van verplichte en verboden opeenvolgingen van woordsoorten, maar bepaalt voor ieder woord in de taal welke andere woorden, met welke kans, daar op kunnen volgen (de "stochastische methode"). Voor deze aanpak moet dan een zeer grote hoeveelheid tekst worden doorgeworsteld, waarbij de frequentie van elk voorkomend woordpaar (de overgangswaarschijnlijkheid) wordt geteld. In het lexicon kunnen we daarna achter ieder woord vermelden welke volgende woorden, of woordcategorieen, met voorrang moeten worden bekeken. Voor een uitgebreidere bespreking van het gebruik van contextuele informatie bij de lexicale verificatie verwijs ik naar Hayes-Roth (1980).

3.5. Foneem-grafeemomzetting

Van een volwaardig systeem voor automatische spraakherkenning, zoals we dat bijvoorbeeld zouden willen gebruiken in een kantooromgeving om brieven te dicteren, verlangen we een foutloze spelling. Heiaas bestaat er in de spelling van veel talen geen een-op-een relatie tussen klanken en letters, en het Nederlands is daar bepaald geen uitzondering op. Bij zeer veel klankreeksen zijn meerdere spellingen mogelijk. Het bestaan van hpmofonen (verschillend gespelde woorden die toch dezelfde uitspraak hebben) vormt het laatste probleem voor de automatische spraakherkenning. Zoals bij alle eerdere Problemen is ook hier de oplossing nog lang niet in zieht.

We kunnen de problemen rond homofonie uitsplitsen in twee categorieen: (i) homofonie in woordstammen: Het aantal lexicaal homofone woorden is in het Nederlands vrij klein. Het gaat om woordparen van het soort 'eis/ijs', 'kauw/kou', 'bond/bont' en 'krab/krap'. In deze gevallen is het veelal mogelijk om op grond van woordsoort of lexicale subcategorie een juiste keus te maken: bijvoorbeeld 'de'-woorden versus 'het'-woorden, werkwoord versus naamwoord. In een aantal resterende gevallen zijn de problemen onoplosbaar.

(13)

Om de juiste keus te maken moet het systeem congruentieregels toepassen voor persoon, tijd en getal. Daarbij moet bekend zijn dat het gaat om een werkwoordsvorm en wat het grammaticaal onderwerp is van dat werkwoord. Alleen al hierom is een syntactische analyse van de invoerzin (zie boven) in een wat geavanceerder spraakherkenningssysteem gewenst. Dergelijke ontleedprogramma's zijn ook nodig voor tal van andere taal-en spraaktechnologische toepassingtaal-en.

Het probleem van de foneem-grafeemomzetting vertoont zeer Sterke over-eenkomsten met automatische spellingscontrole (zie de bijdrage van De Smedt et al. eiders in dit themanummer). Zoals daar terecht gesteld wordt, is het merendeel van de spelfouten (niet de typefouten) homofoon aan de correcte woordvorm. Om die fouten automatisch te herstellen is ruwweg dezelfde programmamodule nodig als in een automatische spraakherkenner.

4. Bronnen van variatie in het spraakgeluid

Hoe meer variatie er optreedt in de spraakvormen, des te moeilijker is de spraakinvoer te herleiden tot een van de reeds gekende objecten. Het grootste probleem van de automatische spraakherkenning is dan ook hoe de spraak-invoer ontdaan kan worden van alle voorspelbare variatie, zodat de relevante, relatief constante, eigenschappen van de taaleenheid overblijven. Ik bespreek hier een aantal factoren die variatie in de hand werken, en al dan niet principiele manieren om die variatie het hoofd te bieden.

4.1. Omgevingslawaai, afstand tot de microfoon

Het spraakgeluid ziet er heel anders uit wanneer de spreker de afstand tot de microfoon verändert. Het spraakgeluid wordt al gauw onherkenbaar wanneer de spreker wordt opgenomen in een ruimte met stoorgeluid (om-gevingslawaai, andere sprekers, galm). De menselijke luisteraar heeft hier verbazend weinig moeite mee. Hij kan wanneer meerdere mensen door elkaar heen praten (op een feestje) zonder veel problemen zijn gesprekspartner blijven verstaan. Van omgevingslawaai, achtergrondgeluiden en galm is de menselijke luisteraar zieh na enige tijd nauwelijks meer bewust.

Er wordt veel inspanning gestoken in pogingen om eigenschappen van het menselijk oor te doorgronden en na te bootsen in de eerste fase van de signaalverwerking ten behoeve van een automatische spraakherkenner. In-derdaad blijken zulke Oormodellen' de prestaties van automatische spraak-herkenners gunstig te be'invloeden, met name wanneer het gaat om herkenning van spraak in achtergrondruis (Ghitza (1986)).

(14)

4.2. V er schulen tussen sprekers

Verschillen in bouw en besturing van de spraakorganen leiden tot grote verschillen in de spraakgeluid uit de mond van verschillende Individuen, zelfs wanneer alle sprekers steeds hetzelfde woord uitspreken. De resonanties waaraan we de spraakklanken herkennen, liggen voor een spreker met een grote keel- en mondholte (bijvoorbeeld een man) lager dan bij iemand met een wat bescheidener maat spraakorganen (bijvoorbeeld een vrouw). Daar-naast is gebleken dat sommige sprekers in hun klinkers meer kleurdifferentiatie aanbrengen dan anderen, die het contrast tussen bijvoorbeeld [ie], [aa] en [oe] juist heel extreem kiezen. Door deze en andere complicaties is het tot nog toe niemand gelukt een transformatie (zogenaamde sprekernormerings-procedure) te ontwikkelen waarmee de linguistisch irrelevante timbreverschil-len tussen verschiltimbreverschil-lende sprekers geelimineerd kunnen worden en die de essentiele kleureigenschappen van de spraak isoleren. Ook bij dit probleem geldt dat nadere bestudering van de menselijke spraakwaarneming belangrijke aanwijzingen kan opleveren over hoe zo'n normeringsprocedure er uit zou moeten zien: de menselijke luisteraar abstraheert zonder merkbare moeite van verschillen tussen sprekers, en hij kan dat al als hij nog maar enkele seconden heeft geluisterd naar een voor hem onbekende spreker.

Vooruitlopend op de ontwikkeling van bruikbare inzichten in sprekernor-mering worden commerciele spraakherkenners veelal afgestemd (getraind) op de eigenaardigheden van alleen de stem van de gebruiker. We noemen dit sprekerafhankelijke herkenningssystemen. Bij zulke Systemen moet iedere nieuwe spreker voor gebruik alle woorden uit het vocabulaire, of in ieder geval een representatief deel daarvan, bij wijze van voorbeeld een paar keer inspreken. Deze voorbeelden worden geparametriseerd en opgeslagen in het geheugen voor latere vergelijking met onbekende woorden. Zo krijgt elke spreker zijn eigen referentieset, waarin ieder woord uit het vocabulaire is opgenomen als een apart sjabloon. Uiteraard hoeft zo'n verzameling sjablonen voor iedere spreker maar een keer aangemaakt te worden. Die kan daarna op achtergrondgeheugen bewaard blijven en bij latere gelegenheden steeds weer opnieuw gebruikt worden.

4.3. Verschillen binnen een spreker

(15)

belangrijke wijzigingen kan ondergaan. In extreme gevallen worden zelfs hele klanken weggelaten, hetgeen latere herkenning natuurlijk ernstig bemoeilijkt. Principiele oplossingen voor dit duur- en timbrenormeringsprobleem zijn voorlopig nog niet in zieht. We zouden dan expliciet moeten weten hoe ieder woord zieh in temporele opbouw, en daaraan gekoppeld in klankkleur, wijzigt bij iedere versnellings- en vertragingsfactor. Voorts zouden we een reken-procedure moeten hebben die vaststelt wat het spreektempo is voor ieder woord in de invoerspraak. Overigens dreigt hier een vicieuze cirkel: om het spreektempo te kunnen schatten moeten we weten hoeveel, en welke, klanken er hebben geklonken in een gegeven tijdsinterval. Daarvoor is dus herkenning een vereiste, maar herkenning kan pas succesvol zijn als we weten wat het spreektempo is.

In bestaande Systemen wordt het tijdnormeringsprobleem voorlopig opgelost met behulp van een technische truc in de vorm van een zogenaamd tijd-krommingsalgoritme (DTW, ofwel Dynamic Time Warping). Hierbij wordt alleen nog maar gelet op overeenkomst in klankkleur, en niet meer in duur, tussen het invoerwoord (of andere eenheid) en de opgeslagen sjablonen (zie verder Hess (1983) en verwijzingen aldaar). Een nadeel van deze methode is dat systematische verschillen tussen körte en lange spraakklanken niet meer kunnen bijdragen aan de herkenning. In veel herkenningssystemen die deze technieken toepassen, moeten woorden los, dus begrensd door pauzes, worden ingesproken. De herkenner wacht totdat het invoerwoord helemaal afgelopen is, en herleidt het dan tot een standaardlengte, dezelfde uniforme lengte waartoe ook alle sjablonen in het geheugen zijn herleid.

4.4. Verschillen op grond van klankomgeving

(16)

algemeen model van coarticulatie vereist.

De problemen rond coarticulatie bij automatische spraakherkenning zijn zo groot, dat men er veelal vanaf ziet ze principieel op te lossen. Een manier om variatie door coarticulatie te omzeilen is simpelweg geen fonemen als herkenningseenheid aan te nemen. In plaats daarvan nemen we dan een eenheid die loopt van ruwweg het midden van een spraakklank tot aan het midden van de eerstvolgende klank, en die daarmee de belangrijkste overgangsver-schijnselen al heeft ingebouwd. Deze uiterst praktische eenheid, difoon genaamd, leidt trouwens ook bij spraaksynthese tot zeer acceptabele spraak-kwaliteit (zie verder De Pijper, dit nummer). Als het vocabulaire niet te groot is (maximaal 1000 woorden) kan het woord gebruikt worden als directe herkenningseenheid, zonder dat eerst de samenstellende klanken worden ge'identificeerd. In dat geval zit alle coarticulatie al in het woordsjabloon, en zijn regels om de klanken te ontdoen van hun coarticulatie overbodig. Een laatste praktijkoplossing, hoewel ik daarmee niet echt recht doe aan deze belangrijke ontwikkeling in de automatische spraakherkenning, betreft het gebruik van "zelflerende" statistische procedures die voor ieder woord in het vocabulaire op basis van een (vrij groot) aantal voorbeelden een optimaal model construeren van de kenmerkende spectrale vormen, hun bijbehorende duren en toelaatbare variaties in beide. Een recente inleiding in het gebruik van deze zogenaamde Verborgen Markov Modellen (HMM: Hidden Markov Models) geven Rabiner en Juang (1986).

5. Enkele werkende Systemen

Er is inmiddels een groot aantal spraakherkenners te koop. In de meeste gevallen gaat het om een insteekkaart voor een Personal Computer, en een paar geheugenschijfjes met de bijbehorende programma's. Deze Systemen zijn typisch bedoeld voor heel beperkte herkenningstaken, waar een vocabulaire van 100 verschillende woorden al gauw het maximum is. In al deze kleine Systemen moeten de woorden onderling gescheiden zijn door pauzes, en dikwijls gaat een trainingsfase vooraf aan het eigenlijke gebruik. Als zo'n systeem sprekeronafhankelijk wil kunnen werken, dan kan dat alleen door nog stringentere voorwaarden te stellen aan de grootte van het vocabulaire (bijvoorbeeld maximaal 12 woorden) en/of de mate van gelijkenis tussen die woorden: vermijd woorden die op elkaar lijken. In zulke beperkte toepassingen kan meer dan 90% van de invoerwoorden correct herkend worden. De prijs van deze Systemen ligt in de regel onder de fl. 2500. Zulke Systemen zijn zonder al te veel moeite inzetbaar in het Nederlands taalgebied. Zolang voor een specifieke toepassing het vocabulaire klein gehouden wordt, en de woorden daarin sterk verschallend gekozen worden, zullen dezelfde hoge prestaties geleverd worden als voor het Engels.

(17)

vergelijkbare Computer. Het systeem is in Staat 20.000 verschilfende woorden te herkennen, die vooral gebruikt worden in kantoorcorrespondentie. Het systeem haalt een herkenningsscore boven de 95% bij een inspreektempo van 70 woorden per minuut, waarbij nog altijd pauzes gemaakt moeten worden tussen de woorden. Voor gebruik is een eenmalige trainingsfase van 20 tot 30 minuten nodig, waarin de gebruiker 500 geselecteerde woorden op com-mando van de herkenner inspreekt. Op basis van deze selectie construeert het programma modeilen voor iedere klank of klankvariant. Woorden worden herkend als specifieke opeenvolgingen van klanken. De zoekruimte voor ieder volgend woord wordt klein gehenden door rekening te houden met de overgangswaarschijnlijkheden binnen opeenvolgingen van drie woorden. Het systeem is ontwikkeld voor het Engels; het kan in beginsel worden aangepast voor gebruik met andere talen, maar niet zonder een forse onderzoeksin-spanning.

Als laatste systeem noem ik VoiceRad van Kurzweil Artificial Intelligence. Dit is een spreker-afhankelijke herkenner voor een vocabulaire van 1000 woorden, die los van elkaar moeten worden uitgesproken. Het systeem is specifiek bedoeld om medische specialisten (met name radiologen) in Staat te stellen routineverslagen te dicteren. Het systeem is inmiddels aangepast voor het Nederlands en ook in ons land verkrijgbaar voor een prijs in de orde van fl. 25.000 met inbegrip van het medisch vocabulaire.

6. Slot

Aan het eind van de jaren 70 werd de verwachting uitgesproken dat er voor spraaktechnologische toepassingen wereldwijd een miljardenmarkt bestond. Nu, een kleine 10 jaar verder, kunnen we constateren dat de sprekende Computer een acceptabel niveau begint te bereiken. De betere Systemen (cf. De Pijper, dit nummer) zijn voor iedereen goed te verstaan, en ze spreken met de zinsmelodieen die kenmerkend zijn voor de taal in kwestie. Dat ze niettemin vrijwel ogenblikkelijk door de mand vallen als niet-menselijk, nemen we dan maar even voor lief.

(18)

met Computers kan communiceren, d.w.z. in natuurlijke taal en via het gesproken woord. Daartoe zullen Ingenieurs en informatici intensief moeten samenwerken met taal- en spraakkundigen. Zulke samenwerkingsverbanden zien we opkomen in vrijwel alle industrielanden, met inbegrip van Nederland. De Nederlandse regering steunt, o.a. via het SPIN (Stimulerings Projectteam Informaticaonderzoek), twee grotere spraak- en taaltechnologische onderzoeksprogramma's met een injectie van 12 miljoen gülden. In EEG-verband wordt de körnende 5 jaar 44 miljoen ECU uitgetrokken voor dit soort ontwikkelingen in het kader van het ESPRIT-II programma. Ook in Engeland, de Verenigde Staten en Japan lopen grote nationaal georganiseerde onderzoeksprogramma's op het gebied van spraak-en taaltechnologie. Het meest vergaande project wordt uitgevoerd in Japan. Daar werkt men aan de ontwikkeling van een automatisch vertaalsysteem dat gesproken Japans verstaat, vertaalt en omzet in gesproken Engels en vice versa, en dat gebruikt kan worden bij (intercontinentaal) telefoonverkeer.

Of de spraak- en taaltechnologie inderdaad zo belangrijk gaat worden als verwacht, zal de toekomst leren. Voor taal- en spraakonderzoekers heeft de geschetste ontwikkeling in ieder geval een belangrijke voordeel: we krijgen de gelegenheid de samenleving te laten profiteren van de enorme ontwikkeling in de fundamentele taal- en spraakwetenschap gedurende de afgelopen 30 jaar. Tevens blijkt bij dergelijke pogingen tot toepassing waar onze kennis en inzichten nog te kort schielen. Lacunes in onze kennis waar we anders nooit aan gedacht zouden hebben, worden genadeloos blootgelegd, en bepalen nieuwe richtingen voor het fundamenteel onderzoek in de körnende jaren.

Referenties

Baker, J.M. 1981, How to achieve recognition: a tutorial/status report on automatic speech recognition. In: Speech Technology, l, 30-43.

Blomberg, M., R. Carlson, K. Elenius, B. Granström 1984, Auditory models in isolated word recognition. In: Proceedings ICASSP, San Diego.

Brandetti, M., P. D'Orta, M. Ferretti, S. Scarci 1988, Experiments on the usage of a voice-activated text-editor. In: Proceedings of the 7th FASE/SPEECH-88 Symposium, Edinburgh: Institute of Acoustics, 1305-1310.

Ghitza, O. 1986, Auditory nerve representation äs a front-end for speech recognition in a noisy environment. In: Computer Speech andLanguage, l, 109-130.

Hart, J. 't 1988, Spraakgeluid. In: M.P.R. van den Broecke (ed.), Ter sprake, Dordrecht: Foris, 40-72.

Hayes-Roth, F. 1980, Syntax, semantics, and pragmatics in speech understanding Systems. In: W.A. Lea (ed.) Trends in speech recognition, Englewood Cliffs, NJ.: Prentice-Hall, 206-234. Hess, W. 1983, Pitch determination of speech Signals, Berlin: Springer.

Heuven, V.J. van 1988, De waarneming van spraak. In: M.P.R. van den Broecke (ed.), Ter

sprake, Dordrecht: Foris, 73-103.

Jelinek, F. 1985, The development of an experimental discrete dictation recognizer. In: Proceedings

IEEE, 73, 1616-1624.

(19)

lets over automatische spraakherkenmng 191

Lea, W A 1980, Prosodic aids to speech recogmtion In W A Lea (ed), Trends in speech

recogmtion, Englewood Chffs, NJ Prentice-Hall, 166-205

Leggett, J en G Williams 1984, An empincal mvestigation of voice äs an mput modahty for Computer programming In International Journal of Man-Machme Studies, 21, 493-520 Nooteboom, S G en A Cohen 1984, Spreken en verstaan, een meuwe mleidmg tot de experimentele

fonetiek, Assen Van Gorcum

Pols, L C W 1977, Spectral analysis and Identification of Dutch vowels m monosyllabic words Dissertatie Vnje Umversiteit, Amsterdam

Pols, L C W 1987, Distance measures, physical and perceptual aspects In Reader Colloqumm

Signaalanafyse en Spraak, Stichting Spraaktechnologie, Utrecht

Rabmer, L R en B H Juang 1986, An mtroduction to Hidden Markov Models In IEEE ASSP

Magazine, 3, 4-16

Rabmer, L R en R W Shafer 1978, Digital processmg of speech Signals, Englewood Chffs, NJ Prentice-Hall

Rabmer, L R en F K Soong 1985, Smgle frame vowel recogmtion usmg vector quantization with several distance measures In AT&T Technical Journal, 64, 2319-2330

Seneff, S 1986, A computational model for the perepheral auditory System apphcation to speech recogmtion research In Proceedmgs ICASSP, Tokyo, 37 8 1-37 8 4

Shipman, D W en V W Zue 1982, Properties of large lexicons implications for advanced isolated word recogmtion models In Proceedmgs ICASSP, 546-549

Shs, I H 1985, The voiced-voiceless distmction and assimilatwn of voice m Dutch Dissertatie Katholieke Umversiteit, Nijmegen

Stevens, K N en S E Blumstem 1981, The Search for invariant acoustic correlates of phonetic features In Eimas en Miller (eds) Perspectives on the Study of Speech, New Jersey

Vögten, L L M 1984, Analyse, zuinige codering en resynthese van spraak Dissertatie Technische Umversiteit, Eindhoven

Zue, V W 1980 Acoustic processmg and phonetic analysis In W A Lea (ed ), Trends m speech

recogmtion, Englewood Chffs, NJ Prentice-Hall, 101-125

Vincent J van Heuven*

Algemene Taalwetenschap/Fonetisch Laboratorium Rijksumversiteit Leiden