Toepassing van Centering Theory in Coreferentieresolutie

(1)

Toepassing van Centering Theory in Coreferentieresolutie

Johan Los, J.Los.1@student.rug.nl

Begeleider: dr. J.K. Spenader, J.K.Spenader@rug.nl

Bachelorproject Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2013

Samenvatting: In coreferentieresolutie wordt nog weinig gebruik gemaakt van psycholingu¨ıstische inzichten. In dit artikel wordt de invloed van het gebruik van centering theory in een methode voor coreferentieresolutie voor de Nederlandse taal onderzocht. Naast eerder gebruikte algemene centering features wordt een gedetailleerde implementatie van Regel 1 uit centering theory (die stelt dat het backward-center van een zin door een voornaamwoord gerealiseerd moet worden als minstens ´e´en van de forward-centers uit de vorige zin als voornaamwoord in de huidige zin voorkomt) gebruikt.

Experimenten met het memory-based-learning-systeem TiMBL en het KNACK-2002-corpus tonen voor voornaamwoordanaforen een verbetering in resultaten: de F-score wordt 0,025 hoger, en een van de centering features heeft met 0,033 de op ´e´en na hoogste gain ratio.

1 Inleiding

Coreferentie is de relatie tussen naamwoordelijke zinsdelen (NP’s) in een tekst die naar dezelfde entiteit in de wereld verwijzen. Voor een goed begrip van een tekst is het belangrijk de coreferenti¨ele relaties te doorzien. Automatische coreferentieresolutie is belangrijk voor zaken als machinaal vertalen, sa- menvatten en het extraheren van informatie uit een tekst.

Een corpusgebaseerde coreferentieresolutiemethode maakt gebruik van een geannoteerd corpus; de verhouding tussen twee NP’s wordt gerepresenteerd door een verzameling eigenschappen (features). Met supervised machine learning worden nieuwe paren NP’s geclassificeerd als wel of niet coreferentieel.

Invloedrijk corpusgebaseerd werk voor de Engelse taal is het werk van Soon et al. [2001], waarin lexi- cale, grammaticale, semantische en positionele features worden gebruikt. Ng & Cardie [2002] hebben hierop voortgebouwd door meer features van deze categorie¨en toe te voegen. Iida et al. [2003] hebben het werk van Ng & Cardie [2002] als basis gebruikt om nul-anaforen in het Japans, vergelijkbaar met voornaamwoorden in het Nederlands, te interpreteren. Hierbij hebben ze o.a. elementen van centering theory toegevoegd, aangezien ze in het eerdere werk het aspect van locale context misten. Centering theory [Grosz et al., 1995] is een psycholingu¨ıstische theorie over lokale samenhang, die invloedrijk is in veel toepassingen. Met centering theory wordt

de verwachting dat aandachtscentra belangrijk zijn voor coreferentieresolutie geoperationaliseerd. Iida et al. [2003] toonden aan dat met behulp van centering features een hogere precisie te verkrijgen is, en ook Kong et al. [2009] vonden verbetering in resultaten op het ACE-2003-corpus.

In [Hoste, 2005] wordt de eerste corpusgebaseerde aanpak voor coreferentieresolutie in het Nederlands gegeven, waarbij de features gebaseerd zijn op o.a.

[Soon et al., 2001] en [Ng & Cardie, 2002]. Hiervoor wordt het KNACK-2002-corpus gebruikt, een verzameling van geannoteerde teksten uit een Vlaams weekblad. In [Hoste, 2005] wordt centering theory echter niet gebruikt.

In dit artikel wordt voortgebouwd op [Hoste, 2005], [Iida et al., 2003] en [Kong et al., 2009]. Er wordt onderzocht wat de invloed is van de toevoeging van centering features aan een coreferentieresolutie- systeem voor het KNACK-2002-corpus m.b.v. het memory-based-learning -systeem TiMBL (zie [Da- elemans et al., 2010]). Terwijl [Iida et al., 2003] en [Kong et al., 2009] alleen gebruikmaakten van algemene centering features wordt in dit onderzoek ´e´en van de regels van centering theory (Regel 1) in de- tail ge¨ımplementeerd. Het blijkt dat de feature die op deze regel gebaseerd is een hoge informativiteit heeft en dat de toevoeging van centering features een verbetering van 0,025 geeft in F-score. Wel valt op dat de invloed van centering features afneemt als er meer andere features gebruikt worden.

(2)

2 Achtergrond

Beschouw het volgende voorbeeld.

(1) a. Alicei komt Bobj tegen.

b. Zei groet de jongenj. c. Hijj loopt zwijgend door.

In (1) is Alice het antecedent van de anafoor Ze. Ook de eigennaam-NP (proper noun) Bob, de soortnaam-NP (common noun) de jongen en het voornaamwoord (pronoun) Hij vormen een coreferentieel keten.

2.1 Coreferentieresolutie

Er zijn verschillende aanpakken om dergelijke ke- tens automatisch te vinden. Veelal werd een kennisgebaseerde aanpak gebruikt, maar corpusgebaseerde aanpakken worden steeds populairder. Bij een kennisgebaseerde aanpak worden er op basis van taalkundige regels beperkingen en voorkeuren op- gesteld (een enkelvoudsanafoor moet bijvoorbeeld een enkelvoudsantecedent hebben); op basis hiervan wordt een antecedent geselecteerd. (E.g. [Hobbs, 1978].)

Bij een corpusgebaseerde aanpak wordt een corpus geannoteerd: de coreferenti¨ele relaties worden erin aangegeven. Vervolgens wordt de verhouding tussen twee NP’s uit het corpus gerepresenteerd door een verzameling features, zoals de afstand tussen de NP’s en of er wel of geen overeenkomst is in geslacht en getal. Zo is in (1) de afstand in zinnen tussen de jongen en Hij gelijk aan 1, en is er overeenkomst in geslacht en getal. De afstand tussen Alice en Hij is echter gelijk aan 2 en er is wel overeenkomst in getal, maar niet in geslacht.

Er is sprake van een positieve instantie als de NP’s coreferent zijn en van een negatieve als dit niet het geval is. Het paar Alice en Hij vormt bijvoorbeeld een negatieve instantie, terwijl het paar de jongen en Hij een positieve instantie vormt. Met behulp van supervised machine learning wordt op de ver- zamelingen features getraind, en kunnen vervolgens ook nieuwe paren NP’s geclassificeerd worden als positief of negatief.

Voor coreferentieresolutie wordt vaak memory- based learning gebruikt. Hierbij worden alle trainingsvoorbeelden opgeslagen en wordt er niet op ge- generaliseerd. Ook uitzonderlijke voorbeelden blijven dus bestaan. Met een k-nearest-neighbors- algoritme worden nieuwe instanties geclassificeerd op basis van de trainingsvoorbeelden die de kleinste afstand tot de nieuwe instantie hebben. In [Daele- mans et al., 1999] wordt gesteld dat deze vorm van

machine learning voor verwerking van natuurlijke taal beter is dan bijvoorbeeld decision trees, onder andere door de grote hoeveelheden clusters en voorbeelden.

In dit onderzoek wordt het memory-based-learning - systeem TiMBL gebruikt.

2.2 Centering theory

Centering theory (zie [Grosz et al., 1995]) is een theorie over aandachtscentra in teksten. In (1-a) en (1-b) staat Alice centraal, in (1-c) verschuift het aandachtscentrum naar Bob. Een van de belangrijkste claims van centering theory is dat een tekst coherenter wordt en dat de moeite die een lezer moet doen om de tekst te interpreteren afneemt als de regels en voorkeuren van centering theory gevolgd worden.

Een center van een uiting (U ) is een element dat de uiting verbindt met andere uitingen in dezelfde tekst. Er wordt uitgegaan van precies ´e´en backward- looking center (C_b, het aandachtscentrum van de uiting) en een reeks op basis van grammaticale eigenschappen gerangschikte forward-looking centers (Cf) per uiting, die aan bepaalde regels gebon- den zijn. CbpUnq wordt gegeven door het element met de hoogste rang uit CfpUn1q dat in Un gerealiseerd wordt, hoewel er bij gelijke rang andere be¨ınvloedende factoren zijn. In [Grosz et al., 1995]

wordt getoond dat de grammaticale rol een grote invloed heeft op de rangschikking van de elementen van Cf: een subject krijgt een hogere rang dan een object, dat weer een hogere rang krijgt dan een een woord met een andere grammaticale rol. In [Strube

& Hahn, 1999] wordt echter (op basis van een onderzoek in de Duitse taal) voor talen met een vrijere woordvolgorde, waaronder het Nederlands ook valt, een rangschikking op basis van de functionele infor- matiestructuur voorgesteld. Entiteiten die al eerder in de tekst genoemd worden krijgen dan een hogere rang dan entiteiten die nieuw zijn. In de experimenten in dit artikel zijn we echter vanwege de beschikbare gegevens uitgegaan van de grammaticale ordening.

In opeenvolgende uitingen kunnen de volgende tran- sities voorkomen:

Center continuation: CbpUn1q CbpUnq en dit is tegelijk het element met de hoogste rang in CfpUnq.

Center retaining: CbpUn1q CbpUnq maar dit is niet het element met de hoogste rang in CfpUnq.

Center shifting: CbpUn1q CbpUnq.

(3)

Centering theory claimt (zie [Grosz et al., 1995]) dat teksten waarin het aandachtscentrum gelijk blijft over het algemeen coherenter zijn dan teksten waarin het aandachtscentrum steeds wisselt.

In [Grosz et al., 1995] worden twee belangrijke regels genoemd:

Regel 1. Als een element van CfpUnq als voornaamwoord in Un 1voorkomt, dan moet CbpUn 1q ook door een voornaamwoord gerealiseerd worden.

In (1-b) bijvoorbeeld, wordt het element Alice uit Cf(1-a) door het voornaamwoord Ze gerealiseerd;

het backward-looking center uit (1-b) moet dus Alice zijn; in (1-b) wordt immers alleen Alice gerealiseerd door een voornaamwoord.

Regel 2. Opeenvolgingen van center continuation worden geprefereerd boven opeenvolgingen van center retaining en die worden weer geprefereerd boven opeenvolgingen van center shifting.

Van (1-a) naar (1-b) vindt er een center continuation plaats; van (1-b) naar (1-c) een center shifting.

Als er hierna weer een zin zou komen waarin Alice centraal zou staan, zou de coherentie van de tekst afnemen.

In dit artikel maken we hoofdzakelijk gebruik van Regel 1. Aan de hand van het volgende voorbeeld wordt duidelijk gemaakt hoe deze regel toegepast kan worden:

(2) a. Jan woont in een klein dorpje.

b. Hij wandelt in het Groningerland.

c. Hij komt zijn opa tegen.

d. Hij geeft de oude man een hand.

In (2-b), (2-c) en (2-d) is Jan het backward-looking center. Verder geldt dat C_f(2-c) tJan,opau.

Omdat er een element van C_f(2-c) voorkomt als voornaamwoord in (2-d) (Hij ), moet volgens Regel 1 ook het backward-looking center van (2-d) door een voornaamwoord gerealiseerd worden. Aangezien er precies ´e´en voornaamwoord in (2-d) voorkomt, moet dit wel Cb(2-d) zijn, en is het dus waarschijnlijk dat Hij uit (2-d) corefereert met het element met de hoogste rang in Cf(2-c), namelijk Hij.

Met behulp van Regel 1 kan ook aannemelijk gemaakt worden dat Hij uit (2-c) niet corefereert met de oude man uit (2-d). Immers, als dit wel het geval zou zijn, zou het element uit Cf(2-c) dat de hoogste rang heeft niet gerealiseerd worden door een voornaamwoord, maar door de soortnaam-NP de oude man.¹ Overigens moet opgemerkt worden

1Deze redenering is niet geldig als ook Hij uit (2-d) naar Hij uit (2-c) zou verwijzen. Echter, het is niet waarschijn-

dat er in deze toepassing wordt aangenomen dat er alleen center continuations voorkomen. In de prak- tijk zal dit niet het geval zijn en zal een implementatie van deze regel dus niet altijd het het juiste resultaat geven.

3 Methode

Er wordt in dit onderzoek gebruik gemaakt van het KNACK-2002-corpus en het memory-based- learning-systeem TiMBL.

3.1 KNACK-2002

Het KNACK-2002-corpus is een verzameling teksten uit een Vlaams weekblad uit de eerste tien we- ken van 2002, met artikelen over economie, poli- tiek, wetenschap en sociaal en cultureel nieuws. In totaal bevat het 267 documenten van verschillende lengte. Hoste en Daelemans (zie [Hoste & Daele- mans, 2004]) hebben 12546 NP’s als coreferentieel gemarkeerd. Deze mentions verwijzen met unieke nummers naar andere mentions, zoals in voorbeeld (3). Verder is in het voorbeeld te zien dat mentions genest kunnen zijn en dat pronouns (zijn), proper nouns (Alfred Heineken) en common nouns (de ontvoerde) als mentions kunnen dienen. Ook langere zinsdelen kunnen een mention zijn, zoals te zien is in Alfred Heineken samen met zijn chauffeur.

(3) a. Op 9 november 1983 werd COREF

ID=183¡ COREF ID=96

TYPE=IDENT REF=75¡ Alfred Heineken /COREF¡ samen met

COREF ID=97 TYPE=IDENT

REF=75¡ zijn /COREF¡ chauffeur /COREF¡ ontvoerd.

b. ... op expliciet verzoek van COREF ID=106 TYPE=IDENT REF=75¡ de ontvoerde /COREF¡ werd COREF ID=107 TYPE=IDENT REF=99¡ het geld /COREF¡ niet van COREF ID=108 TYPE=IDENT

REF=75¡ zijn /COREF¡

priv´erekeningen gehaald.

3.2 Toevoegen van informatie

Om de in het KNACK-2002-corpus als coreferentieel gemarkeerde NP’s van geschikte features te voorzien is gebruik gemaakt van de morfosyntacti- sche parser Frog [Van den Bosch et al., 2007]. Deze

lijk dat iets dergelijks voorkomt: in dergelijke gevallen zal er meestal een reflexief voornaamwoord gebruikt worden.

(4)

levert per woord informatie als woordsoort met enkele eigenschappen (POS)², type eigennaam (NE- type)³, en de relatie met het hoofdwoord van de zin.

Het koppelen van de juiste Frog-gegevens aan een NP leverde enige problemen op:

Bij een mention die uit meerdere woorden be- staat, is in de KNACK-2002-annotatie meestal een hoofdwoord aangegeven. Soms ontbreekt dit echter. Omdat de Frog-gegevens van het hoofdwoord gezocht worden, wordt dan het hoofdwoord vastgesteld op basis van de woordsoort; hierbij wordt de volgende rang aange- houden: zelfstandig naamwoord ¡ eigennaam

¡ voornaamwoord ¡ adjectief; enkele andere woordsoorten staan nog lager in rang. Wanneer er meerdere woorden van dezelfde woordsoort in een mention voorkomen, wordt de eerste er- van als hoofdwoord bestempeld.

Deze methode geeft meestal het juiste woord als hoofdwoord, maar niet altijd.

(4) a. ... de hoeveelheid koolstof die tij- dens de fotosynthese wordt opgeslagen ...

b. ... hij, samen met collega Katrien Devolder ...

In (4-a) wordt op deze manier terecht als hoofdwoord hoeveelheid gevonden. In (4-b) wordt echter collega als hoofdwoord bestempeld, hoewel er hier geen specifiek hoofdwoord aan te wijzen is. Er is echter geen foutloze methode bekend om met de beschikbare gegevens altijd het juiste hoofdwoord te vinden.

Frog geeft soms een verkeerde zinsnumme- ring door onjuist ge¨ınterpreteerde interpunctie.

Hierdoor is het niet meer mogelijk de Frog- gegevens aan de mentions te koppelen, aangezien dit per zin gebeurt. Enkele veelvoorko- mende gevallen konden opgelost worden door ook in de corpusbestanden de onjuiste zins- nummering in te stellen; in de andere gevallen werden de betreffende mentions genegeerd.

Deze ingreep kan enige invloed hebben op de feature die de afstand in zinnen weergeeft, maar het behoud van data weegt hier wel tegen op.

2De belangrijkste woordsoorten zijn naamwoorden, eigen- namen en voornaamwoorden; als eigenschappen worden bijvoorbeeld getal en geslacht genoemd.

3Er wordt onderscheid gemaakt tussen personen, organi- saties en locaties.

De POS-informatie van Frog is niet altijd cor- rect. Zo wordt in (5) het woord zijn bestempeld als werkwoord, waardoor het systeem onjuiste informatie krijgt.

(5) ... werd het geld niet van zijn privereke- ningen gehaald.

Sommige NP’s zijn buiten beschouwing gela- ten omdat het verwerken van koppeltekens en andere symbolen teveel specifiek programmeer- werk op zou leveren.

3.3 Positieve en negatieve instanties

Van alle mentions zijn positieve en negatieve instanties (paren) gevormd. Om het aantal negatieve instanties te beperken is, zoals ook in [Hoste, 2005], elke mention alleen gecombineerd met alle mentions uit de 20 voorgaande zinnen.⁴ Als dit niet gedaan zou worden, zouden er zoveel meer negatieve dan positieve instanties zijn, dat de klassenverde- ling veel te ongebalanceerd is. Voor de positieve instanties is elke mention gecombineerd met de voorgaande mention waarmee hij corefereert. Hoewel in [Hoste, 2005] de positieve instanties worden gevormd door elke mention met alle voorgaande mentions uit de coreferenti¨ele keten te combineren, is er- voor gekozen dat hier niet te doen. Eigenschappen als getal en geslacht zullen in een keten wel gelijk blijven, maar eigenschappen als afstand en grammaticale relatie zullen juist minder informatief zijn als alle mentions uit de keten vergeleken worden.

In totaal zijn er 280037 instanties gevormd, waarvan 8125 positief.

3.4 Features

Van de 12 features genoemd in [Soon et al., 2001]

zijn er 10 ge¨ımplementeerd; zie tabel 3.1.⁵ Hierbij duidt j op de anafoor en i op een mogelijk antecedent. Twee features zijn vanwege de beschikbare gegevens niet ge¨ımplementeerd; dit zijn de features die weergeven of i en j verschillende namen zijn voor dezelfde entiteit (bijvoorbeeld RUG en Rijks- universiteit Groningen) en of j een bijstelling bij i is.

4De meeste corefererende woorden bevinden zich niet niet meer dan 20 zinnen van elkaar af, dus hiermee worden geen belangrijke voorbeelden verwijderd.

5De precieze implementatie wijkt in sommige gevallen enigszins af van het origineel van Soon et al. [2001].

(5)

Tabel 3.1: Overzicht van de ge¨ımplementeerde features uit [Soon et al., 2001].

Naam Waardes Toelichting

DIST SENT 0, 1, 2, . . . De afstand in zinnen tussen i en j. (De waarde is 0 als i en j in dezelfde zin staan, 1 als i en j in direct opvolgende zinnen staan, etc.)

I PRONOUN yes, no De waarde is ‘yes’ als i een voornaamwoord is, anders ‘no’.

J PRONOUN yes, no De waarde is ‘yes’ als j een voornaamwoord is, anders ‘no’.

STR MATCH yes, no De waarde is ‘yes’ als het hoofdwoord van een van de kan- didaten een substring is van het hoofdwoord van de andere, anders ‘no’.

J DEF yes, no De waarde is ‘yes’ als j een bepaalde nominale groep is, anders ‘no’. Een nominale groep is bepaald als er een lid- woord aanwezig is dat als type de Frog-annotatie ‘bepaald’

heeft.

J DEM yes, no De waarde is ‘yes’ als j een aanwijzende nominale groep is, anders ‘no’. Een nominale groep is aanwijzend als er een voornaamwoord aanwezig is dat als type de Frog-annotatie

‘aanwijzend’ heeft.

NUM AGREE yes, no, NA De waarde is ‘yes’ als i en j overeenkomen in getal, ‘no’

als ze niet overeenkomen in getal, en ‘NA’ als het getal van minstens ´e´en van beide niet beschikbaar is. Het getal van een NP wordt bepaald op basis van het Frog-gegeven ‘getal’

van een zelfstandig naamwoord of een voornaamwoord.

SAME NE yes, no, NA De waarde is ‘yes’ als i en j beide hetzelfde NE-type (per- soon, locatie of organisatie) hebben, ‘no’ als de NE-types verschillend zijn, en ‘NA’ als het NE-type van minstens een van beide niet beschikbaar is.

GEN AGREE yes, no, prob1, prob2, NA

De waarde is ‘yes’ als i en j beide mannelijk, beide vrou- welijk of beide onzijdig zijn. De waarde is ‘prob1’ als één van de woorden zijdig is, en het andere mannelijk, vrouwe- lijk of zijdig. De waarde is ‘prob2’ als één van de woorden mannelijk is en het andere onzijdig. De waarde is ‘NA’ als van minstens één van beide woorden geen geslacht bekend is. In andere gevallen is de waarde ‘no’.

IJ PROPER yes, no De waarde is ‘yes’ als i en j beide een eigennaam-NP zijn, anders ‘no’. Een NP wordt als eigennaam-NP beschouwd als de Frog-annotatie spec(deeleigen) voorkomt.

Uit [Hoste, 2005] zijn de features weergegeven in tabel 3.2 toegevoegd.⁶

Op basis van [Iida et al., 2003] en [Kong et al., 2009] zijn vervolgens de centering features zoals weergegeven in tabel 3.3 ge¨ımplementeerd. Iida et al. [2003] gebruiken een feature die de rang van de NP in de Salience Reference List, een variant op C_f, weergeeft. De features RANK I en RANK J zijn hiermee vergelijkbaar. Kong et al.

[2009] gebruiken een feature die weergeeft of een voornaamwoordanafoor de hoogste rang heeft onder alle voornaamwoorden in de zin. De features

6De precieze implementatie wijkt in sommige gevallen enigszins af van het origineel van Hoste [2005].

H RANK I en H RANK J geven de hoogste rang weer; in combinatie met RANK I en RANK J zijn ze dus vergelijkbaar met de feature van [Kong et al., 2009]. Wel zijn de features H RANK I en H RANK J gebaseerd op alle mentions in de zin;

niet alleen op voornaamwoorden.

De RANK-features kunnen dus iets zeggen over de rangschikking van de elementen in C_f. De NR PRONOUNS-features kunnen informatie geven die in Regel 1 belangrijk is. Als de afstand tussen i en j ´e´en zin is (DIST SENT heeft waarde 1) en de anafoor een voornaamwoord is in een zin zonder andere voornaamwoorden (NR PRONOUNS J heeft waarde 1), dan moet j

(6)

Tabel 3.2: Overzicht van de ge¨ımplementeerde features uit [Hoste, 2005].

DIST LT THREE yes, no De waarde is ‘yes’ als de afstand in zinnen tussen i en j minder is dan drie, anders ‘no’.

LEFT WD 1 woord, NA Het woord dat voor de anafoor staat, indien beschikbaar, anders ‘NA’. Evenzo bestaan LEFT WD 2 en LEFT WD 3 voor de woorden 2 resp. 3 posities voor de anafoor en RIGHT WD 1, RIGHT WD 2 en RIGHT WD 3 voor de woorden na de anafoor.

LEFT POS 1 POS, NA De POS-annotatie van het woord in LEFT WD 1 indien beschikbaar, anders ‘NA’. Evenzo zijn er de features LEFT WD 2, LEFT WD 3, RIGHT WD 1, RIGHT WD 2 en RIGHT WD 3.

IJ PRONOUN yes, no De waarde is ‘yes’ als i en j beide voornaamwoorden zijn, anders ‘no’.

J PRON I PROPER yes, no, NA De waarde is ‘yes’ als een voornaamwoordanafoor een eigennaam als antecent heeft, ‘no’ als een voornaamwoordanafoor geen eigennaam als antecedent heeft en ‘NA’ als er geen sprake is van een voornaamwoordanafoor.

BOTH SBJ OBJ su, obj1, obj2, . . ., no

De waarde is gelijk aan de syntactische relatie van i en j als deze gelijk zijn; anders is de waarde ‘no’.

APPOS yes, no De waarde is ‘yes’ als de anafoor een bijstelling is bij een ander deel van de zin, anders ‘no’.

Tabel 3.3: Overzicht van de ge¨ımplementeerde centering features.

NR PRONOUNS I 0, 1, 2, . . . Het aantal voornaamwoorden in de zin waarin het antecedent staat.

NR PRONOUNS J 0, 1, 2, . . . Het aantal voornaamwoorden in de zin waarin de anafoor staat.

RANK I 1, 2, 3, 4 De rang van i op basis van syntactische relatie: subject = 4; object1 = 3; object2 = 2; anders = 1.

RANK J 1, 2, 3, 4 De rang van j op basis van syntactische relatie: subject = 4; object1 = 3; object2 = 2; anders = 1.

H RANK I 1, 2, 3, 4 De hoogste rang die in de zin waarin i staat bij een corefe- rerend woord voorkomt.

H RANK J 1, 2, 3, 4 De hoogste rang die in de zin waarin j staat bij een corefe- rerend woord voorkomt.

RULE 1 APPL yes, no De waarde is ‘yes’ als DIST SENT = 1, NR PRONOUNS J

= 1, RANK I = H RANK I en J PRONOUN = yes; anders

‘no’.

RULE 1 VIOL yes, no De waarde is ‘yes’ als DIST SENT = 1, NR PRONOUNS J

¥ 1, RANK I = H RANK I en J PRONOUN = no; anders

‘no’.

volgens Regel 1 een backward-looking center zijn, en is het waarschijnlijk dat i het antecedent van j is als i een hoge rang heeft. Hierom is de feature RULE 1 APPL toegevoegd; als deze de waarde

‘yes’ heeft, is het waarschijnlijk dat de anafoor en het mogelijke antecedent corefereren. Deze feature zal voor het paar Hij-Hij uit voorbeeld (2-c)-(2-d)

de waarde ‘yes’ krijgen: immers, de afstand tussen anafoor en antecedent is één zin, het antecent is het woord met de hoogste rang uit (2-c) en in (2-d) komt precies één voornaamwoord, namelijk het antecedent, voor.

Ook is er een feature RULE 1 VIOL ge¨ımplementeerd. Als i en j in opeenvolgende

(7)

zinnen voorkomen en i de hoogste rang heeft in die zin, zal i waarschijnlijk het backward-looking center van de volgende zin zijn, en moet dit dus door een voornaamwoord gerealiseerd worden als er voornaamwoorden in die zin voorkomen. Als i en j corefereren, maar j geen voornaamwoord is, wordt Regel 1 dus geschonden. Een waarde

‘yes’ voor de feature RULE 1 VIOL is dus een indicatie dat i en j niet coreferent zijn. De feature RULE 1 VIOL krijgt voor het paar Hij-de oude man uit (2-c)-(2-d) de waarde ‘yes’, en inderdaad zou Regel 1 geschonden worden als dit wel een positieve instantie zou zijn.

De verwachting is dat er door de feature RULE 1 APPL meer positieve instanties die een voornaamwoordsanafoor hebben ook daadwer- kelijk als positief worden geclassificeerd, aangezien de waarde ‘yes’ voor de feature een sterke aan- wijzing is dat Regel 1 toegepast moet worden.

Voor proper nouns en common nouns als anaforen zal deze feature echter geen positieve invloed hebben, aangezien de waarde in dat geval altijd

‘no’ zal zijn. Voor deze anaforen kan de feature RULE 1 VIOL wel een positieve invloed hebben, immers, als deze feature de waarde ‘yes’ heeft is het een indicatie dat de instantie waarschijnlijk als negatief geclassificeerd zou moeten worden.

De feature RULE 1 VIOL is echter niet informatief voor voornaamwoordsanaforen, de waarde is dan immers altijd ‘no’. Merk verder op dat RULE 1 APPL gunstig zal werken bij positieve instanties en RULE 1 VIOL enkel bij negatieve instanties.

3.5 Drie groepen

De paren zijn uiteindelijk in drie verschillende test- groepen verdeeld, zoals ook in [Hoste, 2005] gebeurt, afhankelijk van het NP-type van de anafoor.

Er wordt onderscheid gemaakt tussen pronouns, proper nouns en common nouns. De reden voor deze indeling is het verschil in invloed van features. Be- schouw het volgende voorbeeld.

(6) a. ’Merkwaardig,’ aldus onderzoeker Jan Jansen. Jansen merkt vervolgens op dat ...

b. ’Merkwaardig,’ aldus onderzoeker Jan Jansen. Hij merkt vervolgens op dat ...

In (6-a) is er sprake van een proper noun als anafoor, hier zal bijvoorbeeld de feature STR MATCH wel invloed hebben, terwijl dit bij de pronounana- foor in (6-b) niet het geval is. STR MATCH zal dus niet relevant zijn voor pronouns. Ook andere

features kunnen zo verschillende invloeden hebben op de verschillende groepen.

De gebruikte aantallen instanties per groep staan, uitgesplitst naar train- en testset, in tabel 3.4.

3.6 Beperkingen in methode

Er zijn enige beperkingen in deze methode.

De centering features zijn ge¨ımplementeerd alsof een uiting altijd met een zin correspondeert. In wer- kelijkheid is dit niet altijd het geval, lange zinnen bestaan vaak uit meerdere uitingen. Door bijzin- nen gebeurt het dat er bijvoorbeeld vijf woorden in een zin als subject bestempeld zijn en hierdoor alle- maal de hoogste rang hebben. De centering features zijn hierdoor niet geheel betrouwbaar. Ook de feature DIST SENT zou misschien informatiever zijn als lange zinnen zouden worden opgedeeld.

Voor het bepalen van de hoogste rang in een zin wordt gebruik gemaakt van alle mentions. Dit kunnen dus ook woorden zijn die niet voorkomen in Cf. Verder kan er met deze methode geen coreferentieresolutie plaatsvinden op een corpus waarin geen mentions zijn weergegeven. In een praktische toepassing zou er per zin dus eerst een lijst gemaakt moeten worden van de NP’s die mentions zijn, of nog beter, van NP’s die waarschijnlijk element zijn van Cf.

3.7 Classificatie

Voor de classificatie werd het memory-based- learningsysteem TiMBL gebruikt (zie sectie 2.1 en [Daelemans et al., 2010]). De experimenten zijn gedaan met de standaardinstellingen (een k- nearest-neighbors-algoritme met k =1; zie voor overige details [Daelemans et al., 2010]). De feature DIST SENT en de eerste zes centering features werden bestempeld als numeriek, waardoor de waar- den niet als willekeurige tekens worden beschouwd, maar als betekenisvol gerangschikt.

Er is steeds gebruik gemaakt van een ongeveer even grote training- en testset, zie tabel 3.4.

Er zijn twee types experimenten gedaan. Bij het eerste (type I) werden enkel de features uit de tabellen 3.1, 3.2 en 3.3 gebruikt. Bij het andere type experiment (type II) werden ook alle features gebruikt die voor de samenstelling van de genoemde features gebruikt zijn. Deze bestaan voornamelijk uit de precieze POS-informatie van de NP’s; het aantal zelfstandige naamwoorden uit een mention is bijvoorbeeld een feature, en vervolgens ook het type, het getal, het geslacht, en overige beschikbare eigenschappen van het eerste zelfstandige naamwoord uit

(8)

Tabel 3.4: Aantallen instanties per groep.

Pronouns Proper nouns Common nouns Totaal train test train test train test

Aantal instanties 33429 33783 43593 43541 62684 63007 280037

waarvan positief 1082 1126 1206 1220 1712 1779 8125

de mention. Deze informatie wordt ook gegeven van andere woordsoorten. In de meeste gevallen zullen veel van deze features dus de waarde ‘NA’ hebben.

Het totaal aantal features bij het experiment van type II bedroeg 190.

4 Resultaten

In tabel 4.1 staan de precision, recall en F-score weergegeven van de experimenten van type I.

Hierin is de precision gedefinieerd als het quotiënt van het aantal correcte coreferentiële relaties gegeven door het systeem en het totale aantal corefe- rentiële relaties gegeven door het systeem. De recall is het quotiënt van het aantal correcte coreferentiële relaties gegeven door het systeem en het totale aantal coreferentiële relaties in de tekst. De F-score is een combinatie van beide, en wordt gegeven door het quotiënt van 2 maal de precision maal de recall en de som van de precision en de recall.

In tabel 4.2 staan de resultaten weergegeven van de experimenten van type II.

De informativiteit van de features wordt gerepresenteerd door de gain ratio; dit is een genorma- liseerde maat die per feature bekijkt hoeveel informatie de feature bijdraagt aan het bepalen van de juiste klasse. (zie [Daelemans et al., 2010]). De waardes van de gain ratio van de belangrijkste features zijn weergegeven in tabel 4.3. Ze zijn geordend op de scores voor voornaamwoorden. De features TW GETAL N en TW GRAAD zijn eigenschappen van telwoorden (de eerste betreft de toevoeging van ‘-n’ achter een telwoord en heeft waardes ‘NA’,

‘zonder-n’ en ‘mv-n’; de tweede betreft diminutief- vormen, maar heeft in dit corpus enkel de waardes

‘NA’ en ‘basis’).

In tabel 4.4 staan de aantallen instanties die bij de experimenten met centering features een andere classificatie krijgen dan bij de experimenten zonder centering features. Dit is uitgesplitst naar de aard van de instanties (positief of negatief) en vervolgens naar de aard van de classificatie (bij gebruik van centering features een verbetering in resultaat of juist een verslechtering). In de tabel staan de totale aantallen weergegeven, en apart nog de aantallen anders geclassificeerde instanties die de

waarde ‘yes’ hebben bij de features RULE 1 APPL en RULE 1 VIOL.

5 Discussie

Het blijkt dat de toevoeging van centering features voor pronouns een gunstige invloed heeft als er weinig andere features gebruikt worden: De precision en recall gaan met 0,024 resp. 0,025 omhoog. Voor proper nouns en common nouns is er in precision een negatieve invloed; in recall is er echter een po-

Tabel 4.1: Resultaten voor pronouns, proper nouns en common nouns bij type I.

Precision Recall F-score Prn Geen CF 0.13758 0.10924 0.12178 Wel CF 0.16132 0.13410 0.14646 Prp Geen CF 0.37343 0.34098 0.35647 Wel CF 0.36806 0.34754 0.35750 Cm Geen CF 0.25837 0.21248 0.23319 Wel CF 0.25161 0.21979 0.23462 Tabel 4.2: Resultaten voor pronouns, proper nouns en common nouns bij type II.

Precision Recall F-score Prn Geen CF 0.40428 0.38632 0.39510 Wel CF 0.40469 0.38277 0.39343 Prp Geen CF 0.44527 0.39344 0.41775 Wel CF 0.44373 0.39426 0.41753 Cm Geen CF 0.27831 0.24452 0.26032 Wel CF 0.27848 0.24733 0.26198 Tabel 4.3: Gain ratio voor de belangrijkste features.

Feature Prn Prp Cm

DIST LT THREE 0.054 0.013 0.026

RULE 1 APPL 0.033 0.000 0.000

TW GETAL N 0.025 0.001 0.000

TW GRAAD 0.022 0.000 0.003

DIST SENT 0.012 0.003 0.006

STR MATCH 0.000 0.144 0.104

SAME NE 0.000 0.016 0.009

RULE 1 VIOL 0.000 0.001 0.008

(9)

Tabel 4.4: Aantallen instanties die een verschillende classificatie krijgen bij experimenten zonder en met centering features.

Type I Type II

Instantie Met centering features Prn Prp Cm Prn Prp Cm

In totaal negatief verbetering 124 101 139 49 9 49

negatief verslechtering 138 131 217 42 14 61

positief verbetering 39 55 42 13 11 26

positief verslechtering 11 47 29 17 10 21

Als RULE 1 APPL = yes negatief verbetering 18 0 0 15 0 0

Als RULE 1 VIOL = yes negatief verbetering 0 11 50 0 0 21

sitieve invloed. De F-score voor pronouns neemt toe met 0,025.⁷ Bij proper nouns en common nouns is dit slechts 0,001.

Hoewel er voor proper nouns en common nouns wel een verbetering in resultaten verwacht werd door de feature RULE 1 VIOL, blijkt het verschil miniem te zijn. De duidelijk verbeterde score voor pronouns is wel in overeenstemming met de verwachtingen.

Uit tabel 4.2 blijkt echter dat de invloed van centering features miniem wordt als er meer andere features gebruikt worden. De toevoeging van meer features zorgt echter wel voor een veel hogere score. De vraag rijst in hoeverre de invloed van centering features met deze resultaten betrouwbaar kan worden vastgesteld. Welke andere features er worden gebruikt blijkt de resultaten zeer sterk te be¨ınvloeden.

Een precieze vergelijking met andere onderzoeken is dan ook niet goed mogelijk. Wanneer de resultaten echter globaal vergeleken worden met andere onderzoeken, valt vooral de lage F-score voor pronouns in het experiment van type I op. In baseline III van tabel 4.2 van [Hoste, 2005] komt een verge- lijkbare lage waarde van de F-score voor pronouns voor, maar baseline III van [Hoste, 2005] gebruikt slechts ´e´en feature. In verbeterde experimenten worden in [Hoste, 2005] voor pronouns hogere scores gevonden, evenals in dit onderzoek in de experimenten van type II. Wel zijn de F-scores in dit onderzoek over het algemeen lager dan in [Hoste, 2005], [Iida et al., 2003] en [Kong et al., 2009], waar de F-scores in de buurt van 0,6 liggen.

7De McNemar-test (zie [Dietterich, 1998]) geeft echter geen significant resultaat, maar in de meeste coreferentieon- derzoeken worden geen significanties berekend. In [Hendrickx et al., 2008] bijvoorbeeld, wordt een verhoging van F-score met 0,01 als ‘klein positief effect’ aangeduid.

De hoge gain ratio van 0,033 voor de feature RULE 1 APPL bij pronouns is opvallend.⁸In tabel 4.4 is te zien dat er in het experiment van type I met centering features 26 positieve instanties beter en slechts 2 slechter worden geclassificeerd van de instanties die voldoen aan RULE 1 APPL. Ook in het experiment van type II, waar met centering features in totaal 13 positieve instanties beter worden geclassificeerd en 17 slechter, zijn er 10 van de 13 die voldoen aan RULE 1 APPL, tegenover slechts 5 van de 17. De feature RULE 1 APPL blijkt dus behoorlijk invloedrijk te zijn.

In (7) en (8) zijn de twee positieve instanties uit het experiment van type I weergegeven die voldoen aan RULE 1 APPL, maar toch verkeerd geclassificeerd werden. Het blijkt dat Regel 1 inderdaad toegepast moet worden, immers, in beide b-zinnen komt precies ´e´en voornaamwoord voor dat naar een element in de voorafgaande a-zin verwijst; dat voornaamwoord moet dus wel het backward-center zijn.

Blijkbaar zorgen andere features in deze gevallen voor onjuiste classificatie.

(7) a. Edmund Stoiber is vanzelfsprekend streng katholiek opgevoed.

b. Hij stamt uit een dorp vlakbij de grens met Tirol, Oberaudorf.

(8) a. Maar als aan die middelste laag een reeks cylindrische eilandjes op nano- meterschaal werd toegevoegd, die alle- maal bestonden uit een paar duizend indium- en arseenatomen, konden spe-

8Ook de hoge gain ratio voor de features TW GETAL N en TW GRAAD bij voornaamwoorden is een opvallend resultaat. Een verklaring voor deze hoge waardes is niet bekend.

(10)

ciale quantummechanische effec- ten opgeroepen worden.

b. Die leidden ertoe dat zwakke stroom- stoten telkens een foton uitstootten.

De feature RULE 1 VIOL heeft bij common nouns in vergelijking met de meeste andere features een hoge gain ratio. Uit tabel 4.4 blijkt echter dat er geen specifieke groep van verbeteringen of verslech- teringen kan worden aangewezen. Ook bij proper nouns is dit het geval. We beschouwen uit de proper- groep enkele instanties die door de centering features anders geclassificeerd zijn.

(9) a. Alvast in een kladversie van de Andersen-audit stond te lezen dat adjunct-kabinetschef Renaud Klee, bevoegd voor consumentenzaken en voedselveiligheid, aanwezig was op de fameuze vergadering van 30 januari waarop Houins Cobbaert zou hebben verboden verder naar besmette stalen te zoeken.

b. In de wat cryptische stijl van het rap- port werd zelfs gesuggereerd dat hij Houins steunde.

In (9) corefereert Houins uit (9-a) met Houins uit (9-b). Ten onrechte krijgt echter de feature RULE 1 VIOL de waarde ‘yes’, aangezien Houins Cobbaert het onderwerp is van de bijzin in (9-a) en er in (9-b) pronouns voorkomen. Het gaat hier fout doordat adjunct-kabinetschef Renaud Klee in Cf

een hogere rang heeft dan Houins Cobbaert, maar in de implementatie niet.

(10) a. De Conventie is evenwel niet van toepassing op al-Qaedastrijders omdat zij ‘onwettige strijders’ zijn die tot een terreurorganisatie behoren.

b. De beslissing houdt niet in dat de Taliban de status van krijgsgevangene verwerven, want dan zouden ze meer rechten verkrijgen.

In (10) corefereren zij en de Taliban niet. Het woord zij in (10-a) heeft de hoogste rang, en als de Taliban uit (10-b) hiermee zou corefereren, moest dit volgens Regel 1 geen proper noun zijn, maar een pronoun. Terecht is dus de waarde van RULE 1 VIOL gelijk aan ‘yes’. In het experiment zonder centering features werd de instantie ten onrechte als positief geclassificeerd; in het experiment met centering features werd de instantie wel als negatief geclassificeerd; wellicht door bijdrage van de feature RULE 1 VIOL.

Vaak wordt er echter onterecht gevonden dat Regel 1 wordt geschonden, onder andere doordat er veel lange zinnen zijn. Gezien de totale resultaten heeft RULE 1 VIOL geen grote invloed.

6 Conclusie

In dit onderzoek werden niet, zoals in eerder onderzoek, alleen algemene centering features gebruikt, maar er werd een specifieke implementatie van Re- gel 1 toegepast. Over het algemeen hebben de gebruikte centering features een positieve invloed op de classificatie.

Op basis van gain ratio en F-score kunnen we concluderen dat de toevoeging van de feature RULE 1 APPL voor voornaamwoorden een positief effect heeft. De feature RULE 1 VIOL voor common nouns en proper nouns is op basis van F-score minder informatief, hoewel de gain ratio naar verhouding hoog is.

Wel moet opgemerkt worden dat de invloed van centering features kleiner wordt als er veel andere features gebruikt worden.

Het zou interessant zijn te onderzoeken wat de invloed van het verbeteren van de implementatie van centering features is op de precision, recall en F- score. Als de problemen die in sectie 3.6 genoemd worden verholpen kunnen worden, zullen de resultaten vermoedelijk beter zijn. Vooral het redene- ren per uiting in plaats van per zin (de lange zinnen leken immers een goede werking van de feature RULE 1 VIOL te verhinderen) zou een grote verbetering op kunnen leveren. Verder zou het voor een betere vergelijking met andere onderzoeken goed zijn als centering features worden toegepast in grotere, al bestaande systemen. Ook de invloed van centering features in combinatie met een grotere hoeveelheid andere features zou dan beter onderzocht kunnen worden.

Referenties

Daelemans, W., Zavrel, J., & Van den Bosch, A. (1999). Forgetting exceptions is harmful in language learning. Machine Learning, 34, 11–41.

Daelemans, W., Zavrel, J., Van der Sloot, K.,

& Van den Bosch, A. (2010). Timbl: Til- burg memory-based learner, version 6.3, reference guide. Technical report. ILK Research Group Technical Report Series no. 10-01.

(11)

Dietterich, T. (1998). Approximate statistical tests for comparing supervised classification learning algorithms. Neural Computation, 10, 1895–1923.

Grosz, B., Joshi, A., & Weinstein, S. (1995). Cen- tering: A framework for modeling the local coherence of discourse. Computational Linguistics, 21 (2), 203–226.

Hendrickx, I., Hoste, V., & Daelemans, W. (2008).

Semantic and syntactic features for Dutch coreference resolution. In Proceedings of the CICLing- 2008 conference, (pp. 351–361).

Hobbs, J. (1978). Resolving pronoun references.

Lingua, 44, 311–338.

Hoste, V. (2005). Optimization Issues in Machine Learning of Coreference Resolution. PhD thesis, University of Antwerp.

Hoste, V. & Daelemans, W. (2004). Learning Dutch coreference resolution. In Proceedings of the Fifteenth Computational Linguistics in the Netherlands Meeting (CLIN 2004), (pp. 133–

148).

Iida, R., Inui, K., Takamura, H., & Matsumoto, Y.

(2003). Incorporating contextual cues in traina- ble models for coreference resolution. In Pro- ceedings of the EACL’03 Workshop on The Com- putational Treatment of Anaphora, (pp. 23–30).

Kong, F., Zhou, G., & Zhu, Q. (2009). Employing the centering theory in pronoun resolution from the semantic perspective. In Proceedings of the 2009 Conference on Empirical Methods in Natu- ral Language Processing, (pp. 987–996).

Ng, V. & Cardie, C. (2002). Improving machine learning approaches to coreference resolution. In Proceedings of the 40th Annual Meeting of the As- sociation for Computational Linguistics (ACL), (pp. 104–111).

Soon, W., Ng, H., & Lim, D. (2001). A machine learning approach to coreference resolution of noun phrases. Computational Linguistics, 27 (4), 521–544.

Strube, M. & Hahn, U. (1999). Functional centering - grounding referential coherence in informa- tion structure. Computational Linguistics, 25 (3), 309–344.

Van den Bosch, A., Busser, G., Daelemans, W., &

Cansius, S. (2007). An efficient memory-based morphosyntactic tagger and parser for Dutch. In

Selected Papers of the 17th Computational Lin- guistics in the Netherlands Meeting, (pp. 99–114).