• No results found

Outomatiese Afrikaanse woordsoortetikettering

N/A
N/A
Protected

Academic year: 2021

Share "Outomatiese Afrikaanse woordsoortetikettering"

Copied!
142
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

OUTOMATIESE A F F U W N S E WOORDSOORTETIKE7TERING

deur

Sulkne Pilon

Verhandeling voorgeli? vir &e graad

Magister Artium in Algemene Tad en Literatuurwetenskap a m &e Noordwes-Universiteit, Potchefstroomkarnpus

Studeleier: Prof. G.B. van Huyssteen Medestudieleier: Dr. M.M. van Zaanen

Potchefstroomkampus 2005

(2)

VOORWOORD

Graag word d e volgende persone en instansies bedank:

Gerhard van Huyssteen, omdat niks wat ek saam met jou doen ooit soos werk voel nie! Dankie dat ek o p soveel terreine al so baie by jou kon leer en dat jy in my glo.

Dr. Menno van Zaanen, vir volgehoue ondersteuning, intellektuele stimulasie en ken& wat ek &ens anders sou

kry

nie.

Bertus van Rooy, omdat hy altyd tyd gemaak het om saam te gesels en saam te dmk.

Prof. Hans du Plessis, omdat hy bereid was om te lees en te gesels.

Martin en Roald, cGt is omdat ons n a g e deur saam kon "suffer" in die 'ITL dat ek kans gesien het vir hierde projek.

Die CTexT-span, omdat ek deel kan wees van d e "magic" wat julle ma&, omdat ek in die oggend mag kom koffie haal en omdat julle altyd tyd het vir geselsies!

Almal by die Skool vir Tale en veral die Vakgroep Afrikaans, wat cGt vir my lekker maak om werk toe te kom en wat my tyd en ruimte gun om akademies te groei.

My pa, my ma, Anri en Ilette, baie dankie vir die gemoedsrus wat ek het om- dat ek weet dat julle bankvas a g e r my staan en onvoonvaardelik lief is vir my. Christa, Douwtjie, Franco~s, Jana, Jeanine, Karien, Lianda, Marlies, Marna, Retief en Theo, wat saam met my opgewonde raak oor woordjies en wat na alles nog steeds my pelle is.

Almal wie se name nie herb0 staan nie, maar wat op 'n stadum saam met my aan 'n tafel gesit het by 'n koffiewinkel tenvyl ek einthk moes gewerk het -

dankie vir d e afleidng.

Hierde studle is deel van d e NRF-befondsde projek "Afrkaans Computational Morphology" (GUN 2053435).

(3)

Abstract

AUTOMATIC AFRIKAANS PART-OF-SPEECH TAGGING

by SulCne Pilon

Any community that wants to be part of technological progress has to ensure that the language(s) of that community has/have the necessary human language technology resources. Part of these resources are so-called "core technologies", includmg part- of-speech taggers. The first part-of-speech tagger for Afrikaans is developed in this research project.

It is indicated that three resources (a tag set, a t w n g algorithm and annotated train- ing data) are necessary for the development of such a part-of-speech tagger. Since none of these resources exist for Afrikaans, three objectives are formulated for this project, i.e. (a) to develop a l i n p s t i c d y accurate tag set for Afrikaans; (b) to deter- mine which algorithm is the most effective one to use; and (c) to find an effective method for generating annotated Afrikaans training data.

T o reach the first objective, a unique and language-specific tag set was developed for Afrikaans. The resulting tag set is relatively big and consists of 139 tags. The level of specificity of the tag set can easily be adjusted to make the tag set smaller and less specific.

After the development of the tag set, research is done on different approaches to, and techniques that can be used in, the development of a part-of-speech tagger. The avadable algorithms are evaluated by means of prerequisites that were set and in do- ing so, the most effective algorithm for the purposes of this project, TnT, is identi- fied.

Bootstrapping is then used to generate training data with the help of the TnT algo- rithm. This process results in 20,000 correctly annotated words, and thus annotated training data, the h r d resource which is necessarp for the development of a part-of- speech tagger, is developed.

The tagger that is trained with 20,000 words reaches an accuracy of 85.87% when evaluated. The tag set is then simplified to thlrteen tags in order to determine the

(4)

effect that the size of the tag set has on the accuracy of the tagger. The tagger is 93.69% accurate when using the dunmished tag set.

The main conclusion of this study is that training data of 20,000 words is not enough for the Afrikaans TnT tagger to compete with other state-of-the-art taggers. The tagger and the data that is developed in this project can be used to generate even more training data in order to develop an optimally accurate Afrikaans TnT tagger. Different techniques might also lead to better results; therefore other algorithms should be tested.

Key words:

AFRIKAANS, PART-OF-SPEECH TAGGING, PART O F SPEECH, SYNTAX, MORPHOLOGY, NATURAL LANGUAGE PROCESSING, COMPUTA- TIONAL LINGUISTICS, TNT, TAGSET

(5)

OUTOMATIESE AFRTKAANSE WOORDSOORTETIKETI'ERING

deur Sulene Pilon

Enige gemeenskap wat deel wil wees van tegnologiese vooruitgang moet sorg dat die taal/tale van daarde gemeenskap oor d e nodge mensetaaltegnologehulpbronne beshk. Dee1 van hierde hulpbronne is sogenaamde kerntegnologee, wat onder an- dere woordsoortetiketteerders (WS-etiketteerders) insluit. In hierde navorsings- projek word 'n eerste WS-etiketteerder vir Afrikaans ontwikkel.

Daar word aangetoon dat dne hulpbronne nodlg is vir die ontwikkeling van 'n WS- etiketteerder, te wete 'n WS-etiketstel, 'n etiketteringsalgoritme en geannoteerde afrig- tingsdata. Aangesien geen van hierde hulpbronne vir Afrikaans bestaan nie, word drie doelstellings vir herdle projek gestel, te wete (a) om 'n lingusties akkurate eti- ketstel vir Afrikaans te ontwikkel; (b) om vas te stel watter algoritme dle mees effek- tiewe is om te gebruk; en (c) om 'n effektiewe metode te vind om geannoteerde Afrikaanse afrigungsdata te genereer.

Ten einde dle eerste doelstelling te bereik, is 'n unieke en taalspesifieke etiketstel vir Afrikaans ontwikkel. Die uiteindelike etiketstel is relatief groot en bestaan uit 139 etikette. Die vlak van spesifisiteit van dle etiketstel kan egter makhk aangepas word om dle etiketstel kleiner en rninder spesifiek te maak.

Daar word vervolgens ondersoek ingestel na benaderings en tegmeke tot WS- etikettering. Beslukbare etiketteringsalgoritmes word geevalueer op grond van die vereistes wat vir 'n eerste Afrikaanse etiketteerder daargestel is en sodoende word die mees geskikte algoritme vir die doeleindes van hierdle studle, naamlik TnT, gGdenti- fiseer.

Die TnT-algoritme word daarna ingespan om met behulp van skoenlussteekproef- nerning Afrikaanse afrigungsdata te genereer. Die datagenereringsproses resulteer in 20,000 korrek geannoteerde woorde en dusdanig word die derde hulpbron wat nodlg is vir dle ontwikkehg van 'n Afrikaanse WS-etiketteerder, naamlik afrigtlngsdata, daargestel.

(6)

In che evaluering van die etiketteerder wat met 20,000 woorde afgerig is, behaal dit 85.87% akkuraatheid. Die etiketstel word daarna vereenvoudg tot net dertien euket- te ten einde te bepaal wat die invloed van che grootte van &e etiketstel op die akku- raatheid van die etiketteerder is. Met h e r d e verkleinde etiketstel behaal che etiket- teerder 93.69% akkuraatheid.

Die gevolgtrekkmg van che stuche is dat 20,000 woorde nie genoeg afrigungsdata vir die Afrikaanse TnT-etiketteerder is om met die mees gevorderde etiketteerders te kompeteer nie. Die bestaande data en WS-etiketteerder kan egter nou gebruik word om verdere afrigungsdata te genereer om sodoende die TnT-etiketteerder so akkuraat as moonthk te maak. Daar kan ook in die toekoms met ander etiketteringsalgoritmes geeksperimenteer word, aangesien ander t e p e k e dalk tot beter resultate kan lei.

AFRIKAANS, WOORDSOORTETIKETTERING, WOORDSOORT, SIN- TAKSIS, MORFOLOGIE, NATUURLIKETAALPROSESSERING, REKE- NAARLINGUISTIEK, TNT, ETIKETSTEL

(7)

1.6.1

Ontwikkeling van

'n

doeltreffende en geskikte

etiketstel vir Afrikaans

...

16

1.6.2

Keuse van

WS-etiketteringsalgoritme

...

17

1.6.3

Die ontwikkeling van m a n s e

afrigtingsdata

...

17

1.6.3.1 Fase een

...

17

1.6.3.2 Fases twee tot twintig

...

17

1.6

.

4

Evaluasie van die etiketteerders

...

18

2.2 VERFJSTES VIR 'n ETIKETSTEL

...

21

2.2.1

Herbruikbaarheid

...

23

2.2.2

Toeganklikheid

...

2 7

2.2.3

Doeltreffendheid

...

2 7

2.2.4

Linguistiese akkuraatheid

...

29

(8)

2.3

'n

E T I ~ S T E L

VIRAFRIKAANS

...

31 2.3.1 Naamwoorde

...

32

...

2.3.1.1 Tipe 33 2.3.1.2 Getd ... 34 2.3.1.3 Graad

...

35 2.3.1.4 Samevatting

...

35 2.3.2 Werkwoorde

...

36 2.3.2.1 Status

...

37 2.3.2.2 Werkwoord-tipe

...

37 2.3.2.3 Skeibaarheid ... 38 2.3.2.4 Tyd ... 38 2.3.2.5 Samevatting

...

39 2.3.3 Adjektiewe

...

41 2.3.3.1 Graad

...

41 2.3.3.2 Gebruik

...

41 2.3.3.3 Samevatting

...

42 2.3.4 Voornaarnwoorde

...

42 2.3.4.1 Persoon

...

43 2.3.4.2 Genus

...

44 2.3.4.3 Getal

...

44 2.3.4.4 US

...

44 2.3.4.5 Voornaarnwoord-tipe ... 44 2.3.4.6 Samevatting ... 45

...

...

...

...

...

...

...

...

2.3.5 Lidwoorde 2.3.6 Bywoorde

...

48 2.3.6.1 Graad

...

48 2.3.6.2 Tipe

...

48 2.3.6.3 Samevatting

...

49 2.3.7 Setsels

...

50 2.3.8 Voegwoorde

...

50 2.3.9 Telwoorde

...

51 2.3.9.1 Tipe

...

52 2.3.9.2 Bepaaldheid

...

52

...

2.3.9.3 Funksie 53 2.3.9.4 Samevatting

...

53 2.3.10 Tussenwerpsels

...

54 2.3.11 Uniek/ongespesifiseerd

...

55 2.3.11.1 Tipe

...

56 2.3.11.2 Partikel-tip

...

57 2.3.11.3 Samevatting

...

57 2.3.12 Residu

...

58 2.3.12.1 Tipe

...

58 2.3.12.2 Getd

...

59 2.3.12.3 Samevatting

...

60 2.3.13 Punktuasie

...

60

(9)

3.1

INLEIDING

...

6 4

3.2

VEREISTES

VIR h

W S - E T I ~ E E R D E R

...

65

3.2

.

1

Funksionaliteit ("Functionality")

...

65

3.2.2

Betroubaarheid ("Reliability")

...

6 6

3.2.3

Bruikbaarheid ("Usability")

...

67

3.2.4

Doeltreffendheid ("Efficiency")

...

6 7

3.2.5

Onderhoubaarheid ("Maintainability")

...

68

3.2.6

Draagbaarheid ("Portability")

...

69

3.2.7

Herbruikbaarheid

...

69

3.2.8

Samevatting

...

70

3.3

STAPPE

IN

WS-EIIKET~ERING

...

71

...

Die linguistiese benadering

73

Die data-gedrewe benadering

...

75

N-grammodelle

...

80

Data-gedrewe lokale reels-modelle en besluitnemingsbome

80

Versteekte Markov-modelle (VMM's)

...

82

Neuralenetwerkrnodelle

...

-86

...

Gevalgebaseerde modelle

87

~teunvektormasjiene

("Support Vector Machines")

...

88

Kombinasiemodelle

...

89

.

7.1 Kombinasiestrategiee

...

90

3.3.2.7.2 Kombinasie-afrigtingsmetodes

...

90

...

3.3.2.7.3 Stemmetodes 91

HOOFSTUK 4: GEANNOTEERDE AFRIGTINGSDATA VIR AFRIKAANS

...

4.1

INLEIDING 9 5

-9

(10)

. . . ~~ . . .

4.2

RJT

...

96

4.2.1

Bepaling van frekwensies

...

97

4.2.2

Gladstryking

...

98

4.2.3

Hantering van ongesiene woorde

...

99

4.2.4

Samevatting

...

101

4.3

ONTWIKKELING

VAN AFRIKAANSE AFRIGTINGSDATA

...

102

4.3.1

Die generering van afrigtingsdata

...

102

4.3.2

Evaluasie

...

105

4.3.2.1 Eerste evaluasie: Akkuraatheid op afrigtingsdata

...

106

4.3.2.2 TnT met verskillende hoeveelhede afrigtingsdata

...

109

4.3.2.3 TnT met 'n vereenvoudigde etiketstel

...

114

5.3

AAN~EVELINGS

...

125

5.3.1.

Evaluering van die etiketstel

...

125

5.3.2.

Eksperimenteer met ander benaderings

...

125

5.3.3.

Annotering van afrigtingsdata

...

126

(11)

H O O F S T U K 1

INLEIDING

1.1

KONTEKSTUALISERING

h Belangrike hulpbron ("resource") in dle ontwikkehg van mensetaaltegnologe- toepassings (voortaan M7T-toepassings) is versamelings geannoteerde korpora (Van Halteren, 1999a). Die annotasie van sodanige korpora is 'n ingewikkelde, tydrowende en duur taak en noodsaak gewoonlik heelwat menslike insette. Regoor dle wtreld word navorsing gedoen om hierdle menslike insette te minimahseer deur rekenaar- matige sisteme te ontwikkel wat annotasie net so goed (en selfs beter) as mense kan doen.

Een soon annotasie wat gedoen kan word, is etikettering, wat dle proses is waar- tydens addlsionele desknptiewe inligung aan 'n tekseenheid (hetsy sin, woord, idloom, ensovoorts) in 'n teks toegeken word deur middel van dle een of ander euket. ~ e r - dle euket kan 'n verskeidenheid van inligting bevat, soos byvoorbeeld klemtoon, woordsegmentering, semantiese waarde, ensovoorts. Dit word woordsoortetikette genoem wanneer dit aan 'n woord toegeken word en inlJgang bevat rakende die woordsoort van dle betrokke woord (Voudainen, 1999:3). Voonspruitend hieruit, kan woordsoortetikettering beskryf word as die proses waartydens woordsoorteti- kette (voortaan WS-etikette) rekenaarrnatig (d.i. outomaties) aan woorde toegeken word met behulp van 'n woordsoorteuketteerder (voortaan WS-etiketteerder).

Hoewel Vouulainen (1 999:4) opmerk dat woordsoortkategoriee hoofsaakk van dle sintaksis van 'n tad afhang, kan woordsoortkategoriee egter ook van &e morfologe afhang by tale wat relatief hoe morfologiese produktiwiteit vertoon (soos byvoor- beeld Afrikaans en Turks). Die etiket wat deur 'n WS-etiketteerder aan 'n woord toegeken word, dra dus nie net inligung oor rakende die woordsoort van dle woord nie, maar ook rakende &e sintaktiese en morfologiese eienskappe van dle woord (Jurafsky & Martin, 2000:288). WS-etikette word om hierdie rede soms morfo- sintaktiese etikette ("morphosyntactic tags'') genoem (Vout~lainen (1999: 5).

(12)

WS-etiketteerders is fundamenteel in verskeie M'IT-toepassings (Van Rooy & Scha- fer, 2002; Girninez & Marquez, 2004), aangesien WS-etikette 'n ryk bron van inligtlng bevat. Dit word beskou as 'n belanpke en nuttige vorm van annotasie, rneestal as eerste stap voordat ander natuurliketaalprosesseringsprosesse uitgevoer word (kech

& Smith, 1999:23-36; Lezius, Rapp & Wettler, 1996). Die akkuraatheid van hierdie ander prosesse is dus duek afhankhk van d e akkuraatheid van die WS-etikettering, en

dt is dus van kardnale belang dat 'n etiketteerder met cbe hoogste akkuraatheid moontlik WS-etikette moet kan toeken (Voutilainen, 1999: 5).

Synde dat WS-etiketteerders essensieel is in 'n groot aantal M'IT-toepassings, is &t van kembelang om 'n doeltreffende (d.i. ten volle operasioneel binne 'n rekenaar- matige omgewing, effektief, robuust, vinnig, en goedkoop, met 'n hoe vlak van lin- guistiese akkuraatheid), herbruikbare (d.i. wat met geringe aanpassings ge'integreer kan word binne ander M?T-toepassings) etiketteerder te ontwikkel vir 'n tad soos Afrikaans (PANSALB & DACST, 2000:12). Die doeltreffendheid van M?T- toepassings en -hulpbronne hang grootliks af van d e metodes wat gebnuk word om d t te ontwikkel; deeglike navorsing oor en eksperimentering met verslullende meto- des en tegnieke wat gebruik kan word, is dus noodsaaklik.

O m die herbruikbaarheid van M'IT-toepassings te verseker, moet internasionale standaarde daargestel word vir d e ontwikkelmg van sodanige toepassings en die onderdele daarvan. In die Europese Unie doen l e Expert Adviroty G w on Language

Engineering Standards (EAGI.ES) byvoorbeeld baanbrekerswerk om standaarde te ontwikkel waaraan MTT-hulpbronne moet voldoen. ALhoewel die standaardiserings- proses op hierde stadium nog beperk is tot die Europese Unie, word daar verwag dat hierdie standaard~seringstendens verder deur die w2reld sal versprei om sodoende uiteindelik te verseker dat alle M'IT-modules op her&e standaarde gebaseer is (Leech & Wilson, 1999:56).

Die doeltreffendheid en herbruikbaarheid van spesifiek 'n WS-etiketteerder word verseker deur te sorg dat die komponente (d.i. modules/onderdele) daarvan ook doeltreffend en herbruikbaar is. Vir die ontwlkkeling van 'n WS-etiketteerder is drie komponente noodsaakhk, te wete 'n woordsoortetiketstel (voortaan WS-etiketstel), 'n etiketteringsalgoritme en geannoteerde data. Die ontwikkeling van h e r d e

(13)

komponente vir 'n eerste Afrikaanse woordsoortetiketteerder is Qe sentrale onder- werp van hierche navorsing.

1.2

PROBLEEMSTELLING

Daar bestaan nog geen WS-etiketteerder vir Afrikaans nie, en dusdanig is geen van dle komponente wat nodig is vir dle ontwikkehg van 'n Afrlkaanse etiketteerder beskikbaar nie. Binne hierQe projek moet dus 'n WS-etiketstel vir Afnkaans ontwik- kel word, Qe mees geskikte algoritme vir Qe ontwikkehg van 'n eerste Afrikaanse etiketteerder moet gevind word, en data wat met Qe Afnkaanse \X'S-euketstel gean- noteer is, moet gegenereer word.

Die effektiwiteit en doeltreffendheid van 'n WS-etiketteerder is uiteraard Qrek af- hank& van die volledlgheid en korrektheid van Qe woordsoonetiketstel wat daarin gelmplementeer is ( d i die WS-etikette wat die etiketteerder aan woorde toeken). Dit is vanselfsprekend dat dle etiketteerder onmoontbk die korrekte etiket aan 'n woord kan toeken as herQe etiket nie deel is van Qe etiketstel nie. Dit is dus belangnk om 'n etiketstel te g e b d wat:

O alle moonthke WS-etikette vir 'n spesifieke tad bevat;

6

geen etikette bevat wat nie op dle tad van toepassing is nie;

*:

* lingulsties akkuraat is;

03 voldoen aan internasionale (d.i. EAGLES-) standaarde; en

*:* op verskiUende vlakke van spesifisiteit in &e etiketteerder geiinplementeer kan word om sodoende Qe herbruikbaarheid van Qe etiketstel te verhoog. 'n WS-etiketteerder moet oor die vermoe beskik om, gegrond op die konteks waar- binne 'n ongesiene woord (d.i. 'n woord wat nie bekend is aan die WS-etiketteerder nie) voorkom, akkuraat te voorspel wat dle korrekte etiket vir Qe spesifieke woord binne dle spesifieke konteks is. Die WS-euket van 'n woord wat moontlik in meer as een woordsoortkategorie geklassifiseer kan word en waarvan Qe edket dus meer- duidig is, moet op een of ander manier vereenduidig word sodat daar uiteindelik net een korrekte etiket vir die woord oorbly. O m I t te doen, word daar van verskdlende natuurliketaalprosesseringsbenaderings, -algoritmes en - t e p e k e gebruik gemaak (Vouulainen 1999: 9). 'n Belangnke stap in die ontwkkeling van 'n WS-etiketteerder

(14)

is dus om 'n geskikte woordsoortetiketteringsalgoritrne te kies vir die ontwik- kelingsproses.

Uit &e beskikbare literatuur blyk Qt dat die mees algemeen gebruikte benadering vir WS-etikettering &e data-gedrewe benadering is (die verskillende benaderings word uitvoerig bespreek by 3.3). Binne Qe data-gedrewe benadering word van verskillende tegmeke gebruik gemaak om WS-etiketteerders te ontwikkel; een van herdie tegnieke is masjienleer, waar d e algoritme self "leer" hoe om die korrekte etiket aan 'n woord toe te ken op grond van reeds geannoteerde data (afrigungsdata). Die algoritme maak dan (gewoonhk) van statistiese berekenings gebruik om te bepaal watter euket a m 'n sekere woord toegeken moet word.

Voordat 'n masjienleeralgoritme egter afgerig kan word, moet daar dus genoegsame afrigtingsdata wees. Vir kleiner tale (soos Afrikaans) bestaan daar dikwels nie gem- noteerde data nie. Binne herdle projek moet dus 'n manier gevind word om so- danige data so effektief moontlik te genereer, om sodoende &e afrignng van 'n data- gedrewe WS-etiketteerder moontlik te ma&.

1.3

NAVORSINGSVRAE

Na aanleidng van bogenoemde agtergrond en probleemstelling, ontstaan dle vol- gende navorsingsvrae:

(a) Hoe Ipk 'n Afrikaanse euketstel wat linguistics akkuraat is, wat voldoen aan die EAGLES-standaarde en wat op verskillende vlakke van spesifisiteit in 'n WS- etiketteerder geimplementeer kan word?

(b) Watter algoritme is die mees effektiewe data-gedrewe natuurketaal- prosesseringstegniek om te gebnuk in die semi-outomatiese generering van Afrikaanse afrigungsdata?

(c) Hoe kan geannoteerde afrigungsdata vir 'n data-gedrewe WS-etiketteerder vin-

nig en doeltreffend ontwlkkel word?

Na aanleiding van bogenoemde navorsingsvrae, kan die volgende doelstellings daar- gestel word:

(15)

(a) om 'n lingusties akkurate etiketstel vir Afrikaans te onhvlkkel wat voldoen aan d e standaarde soos deur EAGLES gespesifiseer en wat o p verskillende vlakke van spesifisiteit in 'n WS-etiketteerder gehkorporeer kan word;

@) om vas te stel watter algoritrne d e mees effektiewe data-gedrewe natuurlike-

taalprosesseringstegruek is om te gebruik in d e semi-outomatiese generering van Afrikaanse afrigtlngsdata; en

(c) om 'n effektiewe metode te vind om vinnig en doeltreffend geannoteerde Afri-

kaanse afrigtingsdata te genereer waarmee 'n data-gedrewe WS-etiketteerder af- gerig kan word.

1.5

SENTRALE

TEORETIESE STELJJNG

Op grond van die doelstellings herbo, sal daar in hierde projek twee komponente wat noodsaakhk is vir WS-etikettering ontwikkel word, te wete 'n WS-etiketstel en geannoteerde afrigtingsdata. Daar sal ook 'n derde komponent, naarnhk 'n euket- teringsalgoritme wat geshk is 11r die ontwikkeling van 'n eerste Afrikaanse WS- etiketteerder, gekies word uit reeds bestaande algoriunes. Die WS-etiketstel sal eerste ontwikkel word en daarna sal die gekose etiketteringsalgoritme gebruik word om afrignngsdata met die ontwikkelde etiketstel te annoteer.

Met betrekkmg tot 'n etiketstel word van &e standpunt af uitgegaan dat 'n geskkte taalkundige model die basis van &e etiketstel moet vorm. Die model van Van Huys- stem (2004) bied 'n gekonsolideerde en volledge taksonornie vir Afrikaanse woordsoortkategoriee, en is dus geskik vir gebrulk as taalkundge basis vir d e e ~ k e t - stel. Werde model kan boonop suksesvol aangepas word om te voldoen aan die EAGLES-standaarde ten einde te verseker dat &e etiketstel d e moontlike WS- etikette vir Afrikaans bevat, geen etikette bevat wat nie op Afrikaans van toepassing is nie, lingulsties akkuraat is, voldoen aan internasionale (d.i. EAGLES-) standaarde en wat op verslullende vlakke van spesifisiteit in dte euketteerder geirnplementeer kan word.

Gebaseer op WS-etiketteerders wat ontwikkel is vir ander tale, word hier verder van die standpunt uitgegaan dat 'n data-gedrewe benadering tot woordsoortetikettering ook die beste resultate vir Afrikaans sal oplewer. Die TnT-algoritme ('rants, 2000)

(16)

het in verskeie eksperimente dle beste gevaar wanneer verskillende euketteerders vir spesifiek Nederlands en Engels met mekaar vergelyk is, en sal dus ook goeie resultate vir WS-etikettering in Afrikaans oplewer. Die robuustheid van die algoritme, gegewe min afrigungsdata, tel veral in dle guns van dle TnT-algoritme en maak dit daarom spesifiek geskik vir herdle navorsingsprojek.

Ten slotte word van dle standpunt uitgegaan dat skoenlussteekproefneming ("boot- strapping") 'n geskikte metode is om geannoteerde Afrikaanse afrigtingsdata te gene- reer. Deur steekproewe van 1,000 tekseenhede op 'n slag te annoteer en dan hand- matig te kontroleer, kan 'n geannoteerde korpus stelselmatig opgebou word. So- danige korpus van geannoteerde data kan dan uiteindelik gebruik word om ook ander WS-etiketteerders af te rig.

Na afloop van herdle projek sal daar dus 'n euketstel wees wat lingusties akkuraat is en wat voldoen aan dle EAGLES-vereistes. 'n TnT-etiketteerder wat afgerig is met 20,000 tekseenhede sal beskikbaar wees vir dle verdere semi-outomatiese generering van afrigtingsdata, en 20,000 tekseenhede, waarmee ander algoritmes afgerig kan word, sal korrek geannoteer wees.

Aangesien daar drie komponente is wat ontwikkel gaan word, sal dle navorsing in herdie studle in drie afdelings uiteenval, te wete dle ontwikkeling van 'n etiketstel, die keuse van 'n euketteringsalgoritme en dle annotering van afrigtingsdata. In 'n vierde afdeling sal dle etiketteerders wat hier ontwikkel gaan word, gekalueer word. Hier- dle vier afdelings word vervolgens toegelig.

1.6.1 Ontwikkeling van 'n doeltreffende en

geskikte

eti-

ketstel

vir

Afrikaans.

O p grond van 'n literatuurstude met betrekking tot woordsoorte in Afrikaans, sal 'n WS-etiketstel ontwerp word. Die standaarde wat deur EAGLES uiteengesit word, sal ook deeglik bestudeer word om sodoende te verseker dat die etiketstel (en dusdanig ook die uiteindelike WS-etiketteerder) ten minste aan herdle standaarde voldoen. Hierdle fase moet dle res van dle navorsing voorafgaan, aangesien die masjienleer- tegnieke afrigungsdata nodig het wat reeds met herdle etiketstel geeuketteer is.

4 ,

(17)

1.6.2 Keuse van

WS-etiketteringsalgoritme

Tydens hierdie fase moet daar 'n algoritme gelues word wat, gegewe die gebrek aan afrigtingsdata en &e omvang van d e etiketstel, optimale akkuraatheidsyfers met Afri- kaanse data kan behaal. Om herdie keuse te kan maak, moet 'n deeglike literatuur- stude gedoen word oor beskikbare algoritmes en tegnieke. Daar sal 'n oorsig gegee word oor verskillende benaderings en tegmeke wat gebruik kan word en die algoritme wat gekies word, sal in detad beskryf word.

1.6.3 Die ontwikkeling van Afrikaanse afrigtingsdata

Geannoteerde Afrikaanse afrigungsdata sal gegenereer word met behulp van skoen- lussteekproefneming, waarmee data semi-outomaties geannoteer kan word. Die ontwikkeling van d e afrigtingsdata sal in twintig fases geskied. In elkeen van her&e fases sal 1,000 tekseenhede' geetiketteer word en sodoende sal d e afrigungsdata- genereringsproses resulteer in 20,000 korrek geetiketteerde tekseenhede.

1.6.3.1 Fase een

Aangesien daar geen geannoteerde data vir Afrikaans bestaan nie, sal daar in die eer- ste fase 1,000 tekseenhede per hand geannoteer word. Die handmatige annotasie- proses sal deur linguiste gedoen en gehskontroleer word om te verseker dat dre edkette korrek toegeken word. Nadat 'n klein howeelheid data per hand geannoteer is, sal dit gebruik word om 'n eerste etiketteerder (TnT-A1) af te rig, waarna d e afrig- tingsdatagenereringsproses semi-outomaties voortgaan in fases 2 tot 20.

1.6.3.2 Fases twee tot twintig

Die etiketteerder wat in die eerste fase afgerig is, sal in d e tweede fase gebruik word om 'n verdere 1,000 tekseenhede te etiketteer. Die eukette wat deur dre e~ketteerder toegeken is, sal dan deur 'n linguis gekomgeer word. Daarna sal 'n etiketteerder (TnT-A2) met d e 2,000 korrek geetiketteerde tekseenhede afgerig word wat dan in die derde fase gebruik sal word om 'n verdere 1,000 tekseenhede af te rig. Hierde proses sal voortgesit word totdat TnT-A20 in fase twintig met 20,000 korrek geanno- teerde tekseenhede afgerig kan word.

1 "Tekseenhede" word hier gcbruik in plaas van "woorde" aanpsien die afrigungsdata ook sogenaarnde non- woorde (akortings, akronierne, punktuasie, ensovoorts) insluit.

(18)

-

-1.6.4

Evaluasie van die etiketteerders

Die etiketteerders wat in l e afrigungsdatagenereringsproses ontvJlkkel is, sal op drie maniere gekalueer word:

1. Die akkuraatheid waarmee TnT-A1 tot TnT-A19 telkens 1,000 woorde (d.i. die volgende deel van dle afrigungsdata) geetiketteer het, sal eerstens met mekaar vergelyk word.

2. O m resultate te verkry waarmee dle twintig etiketteerders beter vergelyk kan word, sal dle twintig etiketteerders op dieselfde teks (dle Afrikaanse weergawe van l e Universele Verklaring van Menseregte) getoets word, en h e r l e resultate sal vergelyk word om te bepaal wat dle invloed van die hoeveelheid afrigtingsdata op l e akkuraatheid van 'n WS-etiketteerder is.

3. Om te bepaal wat dle invloed van die vlak van spesifisiteit van die etiketstel op dle akkuraatheid van dle WS-etiketteerder is, sal dle etiketstel op 'n heelwat laer vlak van spesifisiteit in die etiketteerders gei'mplementeer word. Die etiketstel sal van 139 etikette na 13 verminder word, waarna dle twintig etiketteerders met dle- selfde data (wat dan net met dle vereenvoudlgde etiketstel geannoteer is) afgerig sal word VnT-B1 tot TnT-B20). Hierdle etiketteerders word dan ook op dle UVVM geevalueer.

Soos herbo aangetoon, word allereers 'n beskrywing gegee van die ontwikkeling van 'n WS-etiketstel vir Afrikaans. In Hoofstuk 2 sal eerstens aandag gegee word aan die standaarde vir 'n etiketstel, en die fokus sal hoofsaakhk val op dle standaarde wat deur EAGLES uiteengesit is. Daarna word die etiketstel, wat gebaseer is op die woord- soortkategoriseringsnetwerk van Van Huyssteen (2004), gepostuleer. Uitgebreide motiverings vir die uiteindelike etiketstel van 139 etikette sal aangebied word.

In Hoofstuk 3 sal eerstens aandag gegee word aan die vereistes waaraan 'n WS- etiketteerder moet voldoen. Daarna word in meer detail gekyk na die twee verskd- lende hoofstroombenaderings tot WS-etikettering, te wete die ltnpstiese benadering en dle data-gedrewe benadering. Synde dat dle data-gedrewe benadering in hierle projek gebruik word, sal spesifiek aandag gegee word aan verskillende tegnieke binne

(19)

d e data-gedrewe benadering, asook aan d e verskillende etiketteerders wat met be- hulp van hlerdie tegnieke ontwlkkel kan word. Hieruit sal dlt duidelik blyk dat d e TnT-algoritme besonder geskik is vir dle ontwikkeling van 'n Afrkaanse etiketteerder. Die TnT-algoritme word in Hoofstuk 4 in d e t d bespreek, met spesifieke venvysing na hoe dit gebruik kan word vir die ontwikkeling van geetiketteerde Afrikaanse data. Die afrigtingsdatagenereringsproses, wat sal geskied in d e twinug fases soos herb0 beskryf, sal vervolgens aandag geniet. Daama sal dle resulterende etiketteerders gefvalueer word op &e drie maniere wat hierbo genoem is. Die evaluasieproses sal beskryf word en relevante resultate sal bespreek word. Hierhe resultate sal ook tel- kens (waar moonthk en relevant) vergelyk word met die resultate van soortgelyke etiketteerders vir ander tale.

'n Samevatting van d e projek sal gegee word in Hoofstuk 5. Gevolgtrekkings sal daama gemaak word oor die WS-etiketstel, dle etiketteringsalgoriune wat in die data- genereringsproses gebruik is en die geannoteerde afrigungsdata. Aanbevelings oor die ontwikkeling van meer afrigtmgsdata deur gebruik te maak van die etiketteerder en d e afrigtingsdata wat in hlerde projek ontwikkel is, sal gemaak word. Uiteindelik sal voorstelle gemaak word rakende die ontwlkkeling van 'n doeltreffende en her- bruikbare WS-etiketteerder vir Afrikaans met behulp van h e geannoteerde afrigungs- data wat gegenereer kan word met d e hulpbronne wat hier ontwikkel is.

(20)

H o o f s t u k 2

'N WOORDSOORTETIKETSTEL VIR AFRIKAANS

2.1

INLEIDING

In enige tekseenheidetiketteringsproses word etikette ("tags'? deur 'n etiketteerder aan dle tekseenhede wat geetiketteer moet word, toegeken (Van Halteren, 1999a:3). Daar moet dus, voordat 'n etiketteerder ontwikkel word, 'n stel etikette ontwkkel of gekies word wat in die annotasieproses gebruk kan word. Die doeleindes waarvoor die etiketteerder uiteindelik aangewend sal word, dlkteer uit &e aard van die saak dle vorm en inhoud van die etikette. Vir WS-etikettering sal dle etiketstel tipies inligting rakende die WS-kategorie van h woord bevat en word dan WS-etikette genoem. Soos blyk uit die vorige hoofstuk, bestaan daar geen taalspesifieke etiketstel vir Afri- kaans nie. Daar rnoet dus 'n WS-et&etstel vir Afrikaans ontwikkel word voordat 'n W'S-etiketteerder ontwikkel kan word. Die etikette van herdle WS-etiketstel sal d m in die annoteringsproses deur dle WS-euketteerder aan woorde toegeken word. Uit d e aard van d e saak is daar sekere vereistes waaraan so 'n etiketstel moet vol- doen. 'n WS-etiketstel moet byvoorbeeld sodanig taalkundig verantwoord wees dat voorsiening gemaak word vir alle m o o n u e Afrikaanse WS-kategoriee. Die etiketstel moet ook aan internasionale MTT-standaarde voldoen, en dit moet op verskillende vlakke van spesifisiteit gei'mplementeer kan word (sien 2.2.3) om die herbruikbaarheid en doeltreffendheid daarvan te verseker.

Hierdle vereistes word onder 2.2 in hierdle hoofstuk bespreek. Daar sal sterk gesteun word op dle EAGLES-standaarde (EAGLES, 1996), en daar sal getoon word dat 'n etiketstel veral herbruikbaar, toegankhk, doeltreffend en linguistics akkuraat moet wees. In 2.3 sal dan 'n WS-etiketstel vir Afrikaans gepostuleer word op grond van die vereistes wat onder 2.2 bespreek is. herdle etiketstel sal in Hoofstuk 4 gebruik word om afrigtings- en toetsdata vir dle ontwikkeling van die uiteindeke, Afrikaanse WS- etiketteerder te annoteer.

(21)

2.2

VEREISTES

VIR 'n ETIKETSTEL

Die ontwikkeling van MlT-hulpbronne is 'n tydsame, werkintensiewe proses. O m te verseker dat ander navorsers effektiewe toegang het tot, en optirnaal gebruik kan maak van reeds ontwikkelde hulpbronne, het die behoefte aan 'n stel standaarde waaraan MT-hulpbronne moet voldoen, ontstaan (Cloeren, 1993). Die Pan-Suid- Afrikaanse Taalraad (PanSAT) en die Departement Kuns, Kultuur, Wetenskap en Tegnologie het 'n komitee saamgestel om 'n strategiese plan op te trek vir die ont- wikkelmg van M l T in Suid-Afrika. In die aanbevelings wat hierdle kornitee maak, word dle belang van standaarde by die ontwikkeling van MlT-hulpbronne vir Suid- Afrikaanse tale ook beklemtoon (PanSALB & DACST, 2003). Daar word in dit dokumentasie spesifieke klem gel6 op twee noodsaakhke vereistes, te wete herbruik- baarheid en doeltreffendheid.

Cloeren (1993) wend 'n pogmg aan om standaarde vir WS-etiketstelle daar te stel. Hy vergelyk tien bestaande WS-etiketstelle, en op grond van hierdle etiketstelle word dle minimum vereistes waaraan h WS-etiketstel vir enige Gerrnaanse tad moet voldoen, uiteengesit. Die kategoriee wat deur Cloeren (1993) geidentifiseer is en dle vereistes wat uit dle vergelyhng blyk, stem grootliks ooreen met vereistes en kategoriee wat deur EAGLES uiteengesit is. EAGLES is in dle Europese Unie in die lewe geroep omdat daar 'n behoefte aan standaarde vir die ontwikkeling van MlT-toepassings ontstaan het. EAGLES

I t

sistematies en uitgebreid riglyne neer vir dle ontwikkeling van M?T-hulpbronne, waaronder ook WS-etiketteerders, om sodoende te verseker dat hlerdle hulpbronne herbruikbaar is.

EAGLES is dle enigste gesaghebbende internasionale organisasie wat nog gepoog het om standaarde vir dle ontwkkeling van WS-etiketteerders daar te stel (Leech &

Wilson, 1999). Sedert dle standaarde onturlkkel is, word dit ook in die meeste Euro- pese WS-euketstelle geimplementeer (Leech & Wilson, 1999), en reeds bestaande etiketstelle word aangepas om aan dle riglyne gehoor te gee (vergelyk Van Halteren, 1999). Die EAGLES-standaarde blyk dus nie net 'n goeie praktiese basis te wees vir dle ontwikkeling van 'n nuwe etiketstel nie, maar dle standaarde gee ook die intui'sie van navorsers wat etiketstelle ontwikkel het voordat EAGLES in dle lewe geroep is, goed weer (vergelyk dle ooreenkoms tussen dle EAGLES-standaarde en die stan-

(22)

daarde wat deur Cloeren (1993) uit reeds bestaande euketstelle gepostuleer is). Aan- gesien daar geen soortgelyke liggaam in Suid-Afrika bestaan nie, word daar binne hierdie projek sterk gesteun op die EAGLES-riglyne, om sodoende ook die her- bruikbaarheid van l e Afrkaanse WS-etiketteerder, ten rninste in terrne van inter- nasionale standaarde, te verseker. Van Rooy en Pretorius (2003) het 'n soortgelyke besluit geneem tydens l e ontwikkeling van 'n etiketstel vir Setswana.

Meer spesifiek sal l e WS-etiketstel van die Corpus Gespmken Nederlands (CGN), wat ook gebaseer is op l e EAGLES-standaarde (Van Eynde, 2003), as belangrike riglyn by l e ontwikkeling van 'n WS-etiketstel gebruik kan word, en we1 om l e volgende redes:

6

Daar is verskeie ander etiketstelle (WOTAN-2, STTS) as riglyn gebrulk by die ontwkkeling van l e CGN-etiketstel (Van Eynde, 2003). Omdat l e CGN- etiketstel dus op grond van die mees gevorderde ("state of the art") etiketstel- le ontwikkel is, is l e CGN-etiketstel 'n omvattende bron en riglyn by l e ontwikkeling van enige nuwe euketstel.

*:* Daar bestaan nog geen WS-etiketteerder vir Afrikaans nie en dus is daar geen riglyne vir Afnkaanse WS-etikettering nie. Daar moet dus na WS-etiket- teerders vir ander tale gekyk word wanneer spesifiek riglyne vir Afrikaanse WS-etiketstelle neergeli word. Die etiketstel wat gebruik word vir l e etiket- tering van l e CGN het 'n hoe vlak van spesifisiteit (Van Eynde, 2003), en redes vir besluite wat geneem is rakende l e etiketstel is omvattend en duide- lik gedokumenteer in die meegaande dokumentasie. Dit is dus besonder handig om te gebruik by l e neerli van riglyne vir 'n nuwe etiketstel.

*:* Ook is Nederlands en Afrikaans nou verwant aan mekaar en l e riglyne wat vir Nederlandse WS-etikettering geld, kan dus tot 'n hoe mate in aangepaste vorm g e b d word vir Afrikaanse WS-etikettering.

Aangesien die EAGLES-standaarde deur gesaghebbende Europese etiketstelle, en spesifiek in die CGN-et~ketstel, gebrurk word, word hierle standaarde ook gebrurk by die ontwikkeling van h Afrikaanse WS-etiketstel om sodoende te verseker dat l e WS-etiketstel wat hier ontwikkel word herbruikbaar (sien 2.2.1 heronder) is. A d l - sioneel hertoe kan uit die literatuur (Cloeren, 1993; Leech & Wilson, 1999; Leidner,

(23)

2005; Oflazer & Kuruoz, 1994; PANSALB & DACST, 2003; Van Eik, 2003; Van Halteren 1 9 9 9 ~ ) nog 'n aantal vereistes waaraan 'n WS-etiketstel moet voldoen, gel- dentifiseer word, te wete:

*:* toeganklikheid;

*:

* doeltreffendheid; en

*:* linguistiese akkuraatheid

Hierde vier vereistes word vervolgens in meer detad bespreek.

2.2.1

Herbruikbaarheid

Die belang van herbruikbaarheid is voor die hand liggend; veral as die hoeveelheid geld en tyd wat spandeer word tydens die ontwikkelmg van MTT-hulpbronne in ag geneem word. Dit is onekonornies om 'n taaltegnologiese hulpbron te ontwikkel wat net geskik is vir gebruik in een M'IT-toepassing. Volgens PANSALB & DACST (2000) kan M7T-toepassings jare neem om te ontwikkel as daar elke keer van voor af hulpbronne ontwikkel moet word. Dit is dus n o d g om by die ontwikkeling van eni- ge taaltegnologese toepassing of hulpbron, d e herbruikbaarheid daarvan te verseker.

Volgens EAGLES kan 'n M'IT-module op twee maniere herbruikbaar wees.

1. Dit kan herbruikbaar wees in 'n ander toepassing as waarvoor d t aanvankhk ontwkkel is, sonder dat dit die intensie was; of

2. Die module kan doelbewus ontwkkel word met d e doe1 om herbruikbaar te wees.

Die manusknp van 'n boek is tipies herbruikbaar sonder dat dit d e intensie van d e skrywer van d e manusknp was. Dit is geskryf met d e doe1 om gepubliseer te word, maar aangesien d t elektronies beskikbaar is, kan d t as toetsdata vir 'n WS- etiketteerder gebruik word, of by 'n elektroniese korpus ingesluit word. Die boek is dus glad nie geskryf met hlerde moonhkheid in gedagte nie.

Herbruikbaarheid in d e tweede sin is (volgens EAGLES) egter 'n verpligte vereiste vir M'IT-hulpbronne, sodat:

(24)

1. samewerkmg in ontwikkeling en die deel van hulpbronne moonthk is, aangesien geen enkele instansie alle moonthke grootskaalse hulpbronne kan ontwikkel en kan onderhou nie;

2. dle ontwikkelaars van MTT-hulpbronne, wat nie grootskaalse hulpbronne kan/wil ontwikkel nie, herdle bronne elders kan bekom sodat verdere navor- sing en ontwikkeling op dle gebied van M3T moonthk is; en

3. dle M7T-hulpbronne makhk deur ander gebruikers bekom en g e b d kan word.

O m dte herbrulkbaarheid van 'n euketstel en van dle korpora wat uiteindelik met die stel etikette geannoteer sal word, te verseker, vereis EAGLES dat 'n intermediere etiketstel in ooreenstemming met dle WS-euketstel ontwikkel word. Intermedltre etikette word g e b d om passing ("mapping") tussen versldende etiketstelle moont- lik te maak deurdat dlt moonthk is om alle etikette in 'n geannoteerde korpus met intermedltre etikette te vervang. Die intermedltre etikette moet dan s6 gedo- kumenteer wees dat dlt met dte intermedltre etikette van 'n ander etiketstel en uitein- delik met dle WS-etikette van herdle ander etiketstel vervang kan word. Sodoende hoef die hele korpus nie van voor af met 'n ander WS-euketstel geetiketteer te word nie. Deur seker te maak dat dle intermedltre etikette korrek is (volgens EAGLES- spesifikasies), kan die herbdbaarheid van 'n geannoteerde korpus dus verder verse- ker word.

Intermeditre etikette moet nie venvar word met WS-etikette nie. Die WS-euket is dle "afkorting" van dle betrokke woord se woordsoortkategorie, en dlt is herdie etikette wat in dle korpus aangebring word tydens die annotasieproses. Woorde wat presies dleselfde eienskappe en waardes het se WS-etikette kan verskillend lyk in verslullende etiketstelle. In dle Bmwn Copusetiketstel word 'n bywoord byvoorbeeld gemerk met d e WS-etiket <RB>, tenvyl daar in dle Penn Treebanketiketstel met dle WS-euket <ADV> aangedui word dat 'n woord 'n bywoord is (Van Halteren, 1999b). Sodanige woorde se intermedlsre etikette sal, afhangend van dle spesifisiteit van die etiketstel, egter ooreenstem (Leech & Wilson, 1999), en kan byvoorbeeld B1200 wees as dit 'n stellende bywoord van graad is (vergelyk Tabel 13 heronder).

(25)

'n Intermeditre etiket word tipies soos volg saamgestel:

1. Die verpligte WS-kategorie (d.i. een van die demen verpligte kategoriee wat EAGLES stel - sien 2.2.4) word voorgestel deur een of meer van d e letters wat vir die spesifieke WS-kategorie se afkorting gebrulk word, of wat relatief makhk geeien kan word. Dit is wenslik om reeds bestaande etiketstelle vir 'n tad met mekaar te vergelyk om seker te maak dat h e r d e letters so ver as moonthk ooreenstem. Aangesien daar nog geen etiketstel vir Afrikaans be- staan nie, word dit in h e r d e etiketstel soos volg gebruik:

*:* N = Naamwoorde V = Werkwoorde

'

*:* A = Adjektiewe *:* P = Voornaamwoorak *:* L = Lidwoorde *:* B = Bywoorde *:* S = Setsels *:* K

=

Voepoorde *: * T = Telwoorde *:* W = Tussenwerpselr *:* U = Uniekl ongespes@seerd *:* R = Residu *:* Z = Punktuasie

'

2. Die res van die intermediire etiket word voorgestel as 'n linitre reeks nom- mers. Die verfyning van d e WS-etiket word met behulp van twee kategoriee, te wete eienskap en waardes, gedoen. Vergelyk byvoorbeeld die kategoriee wat onderskei word vir d e etikettering van naamwoorde, soos voorgestel word in Tabel 1.

Die eienskap-kolomme word met Romeinse syfers genommer. Hierdie Ro- meinse syfers kom ntrens in d e intermedire etiket voor nie: dit dui slegs d e

2 Vir werkwoorde word "V" gebruik, aangesien werkwoorde in &e internasionale literatuur "verba" genoem word en &e letter "V" dus 'n algemeen bekende atkomng vir werkwoorde is.

3 Net soos by werkwoorde, is "P" 'n internasionaal gebruikte afkorting vir voornaamwoorde (pronomina).

4 Vir voegwoorde (konjunkte), word die letter " K gebruik, aangesien "V" gereserveer is vir werkwoorde.

"2" word gebruik vir punktuasie orndat "I"' vir voornaamwoorde gebruik word.

(26)

plek/gleuf in die suing nommers aan waar die waarde gespesifiseer word. Die eerste nommer in dle reeks venvys dus na tipe, die tweede na genus, l e derde na getal, ensovoorts.

Tabel 1: Eienskappe en waardes van naamwoorde

Eienskap (i) Tipe (ii) Genus (I) Getal Ov) Kasus (v) Telbaarheid (vi) Definitiwiteit (vii) Graad

3. Die waarde van elke eienskap word dan met behulp van 'n getal aangedui op l e plek wat deur die nommer van l e eienskap gespesifiseer is. Waar 'n eien- skap nie van toepassing is nie, word 'n O (nul) in l e gleuf (soos deur dle nom- mer van l e eienskap gelkteer) gesit.

In navolgmg van l e praktyk kan l e intermeditre etiket vir stoel dan soos volg saam- gestel word. Die letter N word gebruik omdat stoel'n naamwoord is. Die eerste getal in die reeks is 'n 1 omdat stoel'n soortnaam is. Die tweede getal is 'n O omdat daar nie genus onderskei word by Afrikaanse naamwoorde nie. Die volgende getal is 1 omdat stoel 'n enkelvoulge naamwoord is. Die kasus-eienskap kry l e waarde 0, aangesien kasus nie by Afrikaanse naarnwoorde gemarkeer word nie. Telbaarheid en definitiwi- teit is nie op Afrikaans van toepassing nie en l e vyfde en sesde getalle is dus albei 0. Die laaste getal is weer 1 omdat stoel dle basisvorm van dle naamwoord is. Die etiket lyk dus uiteindehk so: NlOlOOOl (vergelyk 2.3.1 vir 'n volledlge beskrywing van l C waardes).

Waardes

Die interpretasie van elke intermeltre etiket hang af van l e spesifieke WS-kategorie en die eienskappe/waardes wat aan hlerle WS-kategorie toegeken kan word. Elke intermeditre etiket moet dus op grond van h i e r l e eienskappe/waardes geanahseer word.

Hoofstuk 2: 'n Woordsoortetiketstel vir Afrikaans 26

1. soormaam 1 . manlik 1. enkelvoud 1. nominatief 1. telbaar 1 . detinitief 1. basis 3. massanaam 3. onsydig 3. datief 3. ongemarkeerd 2. eienaam 2, vroulik 2. meervoud 2. gerunef 2. ontelbaar 2. ondetinitief 2. diminutief 6. astrak 6. ondeklineerbaar 4. versamehaam 4. algemeen 4. akkusatief 4. algemeen 5. maamaam 5. vokatief

(27)

2.2.2

Toeganklikheid

Toegankhkheid impliseer dat dit vir enige navorser wat 'n geannoteerde korpus wil gebruik, maklik moet wees om te kan aflei wat met dte etiketkodes (d.i. die WS- edkette) bedoel word (Cloeren, 1993). Die afkomngs wat vir WS-kategoriee gebruk word, moet dus algemeen aanvaarbaar en bekend wees.

O m die etiketstel toegankhk te maak, moet dt deursigtig wees. Dit moet dus vir enigemand makhk af te lei wees wat met dle edket bedoel word (die meegaande do- kumentasie kan natuurlik ook toeligtend wees in herdie verband). Dit is uit die aard van dle saak meer deursigtig om "Naamwoord" of selfs "N" (ter wde van doeltref- fendheid - sien 2.2.3) te gebruik in plaas van byvoorbeeld "4" om aan te dui dat 'n woord 'n naamwoord is. Dusdanig sal eerder van relevante letters gebruik gemaak word om aan te dui wat dle woordsoortkategorie van 'n betrokke woord is.

'n WS-etiketstel moet verder ook analiseerbaar wees. Dit moet duidelik uit die eti- ket af te lei wees uit watter komponente dit bestaan sodat dit vir navorsers wat nie met dle edketstel vertroud is nie, redelik maklik sou wees om geannoteerde korpora te kan gebruik. O m analiseerbaarheid te verseker, kan al die woordsoortkategoriee en -subkategoriee in die etiket ingesluit word. Die woord bed sou dan soos volg gee- tiketteer kan word:

bed Noun, Substantive, Common Noun, Concrete, Singular

Aangesien dle WS-edketteerder spesifiek vir Afrikaans ontwikkel word, word die etikette in Afnkaans vertaa16. Bed sou dan soos volg geedketteer kon word:

bed Naamwoord, Substandef, Soortnaam, Konkreet, Enkelvoud

2.2.3 Doeltreffendheid

Doeltreffendheid het spesifiek te make met twee aspekte, te wete:

*:

* implementeerbaarheid; en

*:

* akkuraatheid.

Qie intermediere etikette verseker steeds die herbruikbaarheid van die etiketstel, aangesien die WS-kategorie presies bepaal kan word ongeag van die taal van die afkortings.

(28)

Dit is moeilik en, afnangend van rekenaargeheue, soms selfs onmoontlik om met reuse teksliers te werk. Die uiteindelike geannoteerde korpus kan dus nie te groot wees nie, om dt sodoende implementeerbaar te maak. O m dus &e doeltreffend- heid van d e woordsoortetiketteerder te verseker, moet d e eukette so b o n d g as moontlik gehou word. Bondge eukette verhoog ook Qe leesbaarheid van 'n geanno- teerde korpus. Na aanleidng van &e Brow Corpmtiketstel (Francis & Kufera, 1982), sal bed byvoorbeeld met < N N > geetiketteer word, aangesien dt die Brow

Copt/s-etiket vir 'n konkrete, enkelvoudge soortnaam is. Implementeerbaarheid is dus direk in konfik met toegankhkheid, aangesien implementeerbaarheid kort en bondge etikette vereis, terwyl daar by toegankhkheid gepoog word om die WS- etikette so uitgebreid as moontlik te hou.

O m verder doeltreffend te wees, moet die euketstel d e akkuraatheid van die WS- etiketteerder verseker (Leech & Wilson, 1999:55). Dit beteken dat d e etiketstel op versldende vlakke van spesifisiteit binne 'n etiketteerder ge'implementeer moet kan word, aangesien d e akkuraatheid van 'n WS-etiketteerder dkwels afneem wanneer d e vlak van spesifisiteit van die WS-etiketstel toeneem. Van Halteren (1999c:W) stel herdie afnarne in akkuraatheid met 'n toename in spesifisiteit gelyk aan che moeilik- heidsgraad van d e WS-etiketteerder se taak: hoe meer moontlike etikette op 'n spesi- fieke plek in 'n sin aan 'n woord toegeken kan word, hoe moeiliker is d t vir d e euket- teerder om te bepaal watter etiket die regte een binne die konteks van die sin sal wees. Die gewenste vlak van spesifisiteit van die etiketstel sal uiteindelik afhang van d e doe1 van die geannoteerde korpus.

Die etiket vir bed kan dus baie spesifiek wees en sou so kon lyk: bed <N SUB SN KON EV>.

Alhoewel cht baie duidelik is presies wat met die etiket bedoel word, en herdic euket baie spesifiek is, word die implementeerbaarheid van 'n korpus wat so geetiketteer is deur die uitgebreide etiket behvloed, aangesien die uitgebreide etikette die geanno- teerde korpus baie groot sal maak en 'n negatiewe invloed kan hf op d e leesbaarheid van d e uiteindelike geannoteerde teks. Die spesifisiteit van che etiket kan ook d e akkuraatheid van d e WS-etiketteerder waarin d e etiketstel ge'implementeer word, verlaag. O m optimaal implementeerbaar te wees en om che akkuraatheid van d e WS-

(29)

etiketteerder te verseker, sal bed se etiket so kan lyk (om net aan te dui dat bed 'n naarnwoord is):

bed <N>.

Alhoewel 'n teks wat s6 geeuketteer is heelwat meer leesbaar sal wees, en daarom ook beter implementeerbaar sou kon wees, is hlerde etikette so vaag dat dit so te s i waar- deloos raak. Die middeweg sou dus wees om 'n etiketstel te ontwikkel wat spesifiek genoeg is om van waarde te wees, maar wat nie die implementeerbaarheid van d e uiteindetike geannoteerde korpus, of &e akkuraatheid van d e WS-euketteerder nega- tief be'invloed nie.

2.2.4

Linguistiese

akkuraatheid

WS-etikettering het ten doe1 om elke woord in 'n korpus van grammatikale intigung te voorsien, en d e etiketstel moet dus voorsiening maak vir linguistics akkurate, rele- vante mhgung rakende WS-kategoriee (Cloeren, 1999:38). Lingulstiese akkuraatheid imptiseer dat daar voorsiening gemaak moet word vir al die WS-kategoriee van 'n tad,

maar ook dat woordsoortkategoriee wat nie in d e tad waarvoor die etiketstel ont- werp word, voorkom nie, ook nie deel van die etiketstel moet wees nie (Leech & Wilson, 1999). 'n Etiketstel vir Afrikaans sal dus byvoorbeeld nie voorsiening maak vir persoonsaanduichg by die werkwoord nie, aangesien daar in Afnkaans nie by werkwoorde onderskeid getref word tussen eerste-, tweede- en derdepersoonvorme nie.

Die etiketstel moet verder algemeen genoeg wees om alle woorde in die tad te kan kategoriseer, maar spesifiek genoeg wees dat woorde uiteindelik in &e regte katego- nee gekategoriseer sal word, om sodoende te verseker dat die korrekte etiket uit- eindelik aan elke woord toegeken kan word. So byvoorbeeld moet &e euketstel al- gemeen genoeg wees dat die, 'n, des, der en den as tidwoorde gekategoriseer moet kan word, maar spesifiek genoeg dat lekke nie as 'n tidwoord gekategoriseer word nie (ver- gelpk &e meisie en lelike meisie)

.

Met betreklung tot linguistiese idgung, spesifiseer EAGLES demen WS-kategoriee wat deel moet vorm van 'n etiketstel.

(30)

Hierdie dertien verpligte kategorief is: 1. Naamwoorde 2. Werkwoorde 3. Adjektiewe 4. Voomaamwoorde 5. Lidwoorde 6. Bywoorde 7. Setsels 8. Voegwoorde 9. Telwoorde 10. Tussenwerpsels 11. Uniek/ongespesifiseerd 12. Residu 13. Punktuasie

Hierdie verslullende kategoriee word hier onder (2.3.1 - 2.3.13) bespreek.

Die verpligte kategorief wat EAGLES spesifiseer, kan verder verfyn word met be- hulp van drie subkategoriee (sien Tabel I), te wete:

.:-

aanbevole eienskappe,

+

opsionele eienskappe, en

.:.

taalspesifieke eienskappe.

Die aanbevole, opsionele en taalspesifieke eienskappe word nie deur EAGLES as verpligte kategoriee beskou nie, en in die EAGLES-dokumentasie word dit duidelik gestel dat d e onnvkkelaars van etiketstelle hlerde kategoriee kan gebruik en kan verander waar nodig. So byvoorbeeld noem EAGLES nie dat grad as eienskap by naamwoorde ingesluit kan word nie. In d e CGN-e~ketstel word die graad-eienskap egter we1 by naamwoorde ingesluit, aangesien dit 'n belangnke eienskap is vir die etikettering van Nederlands (Van Eynde, 2003). Aan d e ander kant noem EAGLES we1 dat telbaarhed 'n opsionele eienskap is. Telbaarheid word egter nie in die CGN- etiketstel verreken nie, omdat dit, volgens Van Eynde (2003), nie waarde toevoeg tot die uiteindelike geannoteerde teks nie.

(31)

2.2.5 Samevatting

Wanneer 'n WS-etiketstel ontwikkel word, is daar sekere vereistes wat van dle begm af in gedagte gehou moet word. Die etiketstel moet herbruikbaar wees sodat &t maklik in ander MTT-toepassings geihtegreer kan word. Dit moet toegankhk wees om te verseker dat ander navorsers dle annotasies kan verstaan, om &e geannoteerde korpus makhk te kan gebruik. 'n Etiketstel moet verder ook doeltreffend wees om sodoende by te dra tot die W-etiketteerder se akkuraatheid, en dlt moet lingusties akkuraat wees sodat dle korrekte etikette makhk aan woorde toegeken kan word. Die etiketstel wat vir Afrikaans ontwkkel word, moet dus aan al hlerdie vereistes voldoen. Vervolgens sal daar h WS-etiketstel vir Afrikaans ontwikkel word. Daar sal gepoog word om 'n etiketstel te ontwikkel wat gebaseer is op dle EAGLES-standaarde en wat op verskdlende vlakke van spesifisiteit in 'n WS-etiketteerder geimplementeer kan word

Daar is in die Afrikaanse literatuur al baie aandag geskenk aan &e kwessie van Afri- kaanse WS-kategorisering (vergelyk byvoorbeeld Botha, 1985; De Vdhers, 1983; Du Toit et a4 1978; Du Toit, 1984; Ponelis, 1979; Van Schalkwyk & Viviers, 1994). Uit die literatuur blyk d t duidelik dat WS-kategorisering in Afrikaans 'n netelige kwessie is. Daar is byvoorbeeld nie ooreenstemming wat die kategoriee betref nie: De Vilhers (1 983) en Botha (1 985) identifiseer albei byvoorbeeld tien woordsoortkategoriee ter- wyl Van Schoor (1983) net nege kategoriee identifiseer. Eersgenoemde twee lingus- te identifiseer ook nie dieselfde den kategoriee nie: Botha (1985) onderskei byvoor- beeld tie 'n voornaarnwoordkategorie nie, tenvyl De Vdhers (1983) &t we1 doen. Boonop bestaan daar in die literatuur geen omvattende, sistematiese kategoriserings- netwerk nie.

Van Schalkwyk & Viviers (1994) stel we1 'n model voor wat toevallig groothks oor- eenstem met &e hoofkategoriee wat deur EAGLES uiteengesit is (EAGLES spesifi- seer drie kategoriee te wete midu, uniek en punktuan'e wat nie deur Van Schalkwyk &

Viviers (1994) identifiseer word nie). Ook Van Huyssteen (2004) postuleer 'n takso- nomie vir Afdaanse WS-kategoriee wat soortgelyk is aan die kategoriee van

Hoofstuk 2: 'n Woordsoortetiketstel vir Afrikaans

-3 1

(32)

EAGLES. f i e r d e taksonomie van Van Huyssteen is spesifiek gerig op die ontwik- k e h g van rYflT-toepassings en is 'n volledige en gekonsolideerde opgawe van Afri- kaanse WS-kategoriee. Die WS-kategoriee wat Van Huyssteen (2004) in die takso- nomie identifiseer is gebaseer op u o m en betekenis eerder as op funhie en kategoriee wat nie morfologies gemarkeerd is nie, is nie by die taksonomie ingesluit nie. Kasus word byvoorbeeld nie morfologies gemarkeer by Afnkaanse naamwoorde nie en dus word dle eienskap kasus nie geinkorporeer in d e naamwoordtaksonomie nie. 'n Afri- kaanse WS-etiketstel wat op

&C

taksonomie gebaseer word, sal dus o p u o m en beteke- nis gebaseer wees, en d t sal geen onnodge kategoriee bevat nie.

Hierdie taksonomie van Van Huyssteen (2004) sal daarom as vertrekpunt gebruk word vir d e ontwikkehg van d e Afrikaanse WS-etiketstel. Waar d e taksonomie nie met EAGLES ooreenstem nie, sal die model van Van Schalkwyk & Viviers (1994) gebruik word om die taksonomie wat deur Van Huyssteen (2004) gepostuleer word, aan te vul. Elkeen van d e hoofkategoriee wat deur EAGLES onderskei word, word vervolgens op basis van dle bovermelde woordsoortkategoriee bespreek.

2.3.1 Naamwoorde

By naamwoorde onderskei EAGLES d e volgende eienskappe: Aanbevole eienskappe: .: * Tipe *: * Genus 4* Getal 4:* Kasus Opsionele eienskappe: Q Telbaarheid Taalspesifieke eienskappe:

6 Definitiwiteit (spesifiek van toepassing op byvoorbeeld Deens)

(33)

Uit die taksonomie vir Afrikaanse naamwoorde wat Van Huyssteen (2004) postuleer (sien Figuur 1) blyk dtt dat slegs die EAGLES-eienskappe tipe en getal relevant is vir 'n Afrikaanse etiketstel. 'n Eienskap wat EAGLES nie noem nie, maar wat we1 in Van Huyssteen (2004) weergegee word, is graad, met Qe waardes bask (bond, vink) en dimi- nutief (hondiie) uinbe). Hierdte eienskap word eksplisiet deur EAGLES vermeld as suiwer morfologies en dus onbelangnk vir WS-etikettering. Aangesien Qe WS- etiketstel wat h e r ontwikkel word, o p vom gebaseer is, en graad morfologes gemar- keer word, word dit we1 in hierdte studte belangnk geag om die graad-eienskap by die etiketstel in te sluit. Graad word ook as eienskap in die CGN-edketstel gebruik. Aangesien CGN (soos reeds in 2.2 verduidelik) 'n belangrike riglyn vir d e ontwikke- ling van Qe Afrikaanse WS-etiketteerder in hierdte studte is, bevestig dtt dat dte graad- eienskap we1 by dte etiketstel ingesluit moet word.

Eiemm

I

I

I

I

I

I

Enkelv M e e n F-nkelv Meem

I

I

Basis Dim B a s s D m

Figuur I : Taksononie van Afrikaanse naamwoorde

Die drie eienskappe wat in Qe Afrikaanse etiketstel by naamwoorde ingesluit word, word vervolgens bespreek.

EAGLES spesifiseer w e e aanbevole waardes onder tipe, te wete soortnaam ('toel, per4 boom) en eienaam (Irma) Johannesburg, Moozrivier). Van Huyssteen (2004) onderskei verder ook dte waardes ma~anaanl (goad, musiek, meer), maatnaam (koppie, emmer, leekper), uer~amehaam (tmp) ikool, wep~e4 en ab'trak (Lefi, baat). Die noodsaak vir herdte verde- re onderskeid kan gemotiveer word o p grond van dte feit dat dte Afrikaanse taal- sisteem dkteer dat twee of meer soortnaamwoorde (boek, rak, skmeJ wat na mekaar in

h sin gebruik word as een woord geskryf moet word (vergelyk boekrahkroyj (AWS 2002142). Wanneer 'n versamelnaam (imp, ~wem) of maatnaam (koppie, emer) en 'n

(34)

soortnaam na mekaar in 'n sin gebruik word, soos in tmp feeus, swerm Lye, koppie meel en emmer water, mag d t egter volgens d e AWS (2002: 142) nie een woord wees nie. Dit is dus belangrk dat 'n WS-euketteerder moet kan onderskei tussen h e r d e verskd- lende naamwoorde.

Dit is ook belangrik dat 'n Afrikaanse WS-etiketteerder onderskeid tussen massanarne en ander soorte naamwoorde moet kan tref. Ander naamwoorde kan deur beide die lidwoorde die en 'n voorafgegaan word (vergelyk die boek en 'n boek, die rak en 'n rak, die skmefen 'n skmefj, tenvyl massaname soos goud, tabak en suurstofegter nie deur d e lidwoord 'n voorafgegaan kan word nie (vergelyk *'n goud, *'n tabak, *'n suurst6. As d e WS-etiketteerder dus byvoorbeeld geintegreer word in 'n gramrnatikatoetser kan h e r d e foute slegs deur die grammatikatoetser opgespoor en verbeter word as daar met behulp van WS-etikettering onderskeid getref is tussen soort- en massaname. Van Huyssteen (2004) onderskei verder ook tussen abstrakte naamwoorde (befde, haat, j a k e ) en massaname (goud, tabak, suurstoj op grond van die domein waarin d t gein- stansieer word: abstrakte naamwoorde word in die emotiewe domein geinstansieer en massaname in d e ruimtedomein. Alhoewel daar geen vorrnlike verskd tussen ab- strakte naamwoorde en massaname is nie, is daar we1 h verskd in betekenis. Hoewel daar nog geen gebruiksgebaseerde navorsing heroor gedoen is nie, sou 'n sin soos E k bet 'n haat/iiefde/jafoesie in my watgeenperke ken nie volgens my korrek kon wees, tenvyl *Ek bet 'ngoud/tabak/suur~tOfnodig ongrarnmatikaal is. O p grond van d e onderskeid wat Van Huyssteen (2004) tref, word abstrakte naamwoorde ook in d e etiketstel verreken.

2.3.1.2 Get&

EAGLES beveel aan dat daar 'n onderskeid getref word tussen enkelvoud en meervoud. Albei herdie waardes is van toepassing op soortname (boeklboeke; t.fef/t.feIr), eiename (Botha/Bothas; Piekr/Ek ken drie Pieters), versamelname (tmpltroppe; swecw/swenns) en maatname (een koppie meef/dne koppies meel). Massaname en abstrakte naamwoorde kan egter nie meervoud neem nie, omdat dit uitsetbaar is en nie repliseerbaar soos byvoorbeeld soortname nie (Van Huyssteen, 2000: 57-58). Ten einde herdie onder- skeid tussen verskdlende naamwoorde te reflekteer, word d e getal-eienskap ingesluit by die Afrikaanse WS-etiketstel.

(35)

2.3.1.3 Graad

Soos reeds genoem, word herdle eienskap nie deur EAGLES aanbeveel as 'n nood- saakhke eienskap nie, maar word dlt we1 in herdie etiketstel gebruik. Dit kan een van twee waardes h t , te wete basis en diminutief: Alle verkleinwoorde kry die waarde dmi- nutid en naamwoorde sonder verkleining kry die waarde basis.

Die graad-eienskap is van toepassing op sowel d e enkel- as d e meervoudsvorme van soortname (boekiej boekies; tafel$ie/ tafeI$es), eiename (Botha$iie/ Botha$ies; Pieter- $e/Piete@es), versamelname (tmppie/tm@ies; swempie/swennpis) en maatname (kop- pieBie/k@e$ies). f i e r d e eienskap is nie van toepassing o p abstrakte naamwoorde en

massaname nie.

2.3.1.4 Sameva tting

Naamwoorde kan geklassifiseer word o p grond van een van drie eienskappe, te wete

tip, getal en graad. Die eienskappe en waardes van naamwoorde kan soos in Tabel 2 opgesom word. (Die eienskappe en waardes wat kursief gedruk is, word deur EAGLES genoem, maar is nie van toepassing op h e r d e etiketstel nie. Dit moet egter we1 in die interrnedtre etiketstel in berekening gebring word met d e oog op herbruikbaarheid. Dieselfde konvensie word ook gebruik in dle heropvolgende ta- belle).

( Eienakap

1

Waatdes

Die intermeQke euketstel en d e WS-etiketstel kan nou m a k k op grond van herdle tabel ontwikkel word. Die WS-etiketstel en Qe interme&&-e etiketstel vir Afrikaanse naamwoorde word in Tabel 3 weergegee.

6) TIP i;;l Genus (i) Getal Kasus @) Telbaarfxid (i) Dc/iitiwite~t (vii) Grand

Hoofstuk 2: 'n Woordsoortedketstel vir Afrikaans 35

Tabel 2: EAGLES-waardes e n -eienskappe van naarnwoorde 1. soormaam I . m d k 1 . enkelvoud 1. normnutie/ 1. b h a r 1. dtjinihcf 1 . basis 3. massanaam 3. onydlg 3. a h i f 3. ongenarkeerd - 2. eienaam 2. tmubk 2. meervoud 2. genit14 2. o n t d b ~ r 2. ondejnihe/ 2. dinlinudef 4. versamelnaam 4. algemeen 4.ukbsahif 4. a & m n 5. maamaam 5. tm&tie/ 6. abstrak 6 ondtkbeerfmar

(36)
(37)
(38)
(39)
(40)
(41)
(42)
(43)
(44)
(45)
(46)
(47)
(48)
(49)
(50)
(51)
(52)
(53)
(54)
(55)
(56)
(57)
(58)
(59)
(60)
(61)
(62)
(63)
(64)
(65)
(66)

Referenties

GERELATEERDE DOCUMENTEN

Omdat dat nog een tijd gaat duren, zullen ze niet op tijd zijn om oma te waarschuwen dat het dinertje niet in Station Zuid is maar bij opa en oma zelf. En dan krijgen ze

Omdat de voor- delen voor werkgevers op langere termijn onze- ker zijn en de nadelen van werknemers evident, slaat de balans voor de samenleving duidelijk naar de negatieve

De vaststelling van beleid (binnen kaders van de wet) is allereerst de verantwoordelijkheid van de gemeente, waarbij het college van B&amp;W beleid ter vaststelling voorlegt aan

Kredietbrief. Dui aan deur middel van flinke sinne wat die betekenis-verskil tussen die volgende woordpare is:- Bele-verle, loon-salaris, bruikbaar-gebruiklik,

Ons het reeds gesien dat nuwe woorde van bestaande woorde afgelei word op drie maniore: (i) deur middt&gt;l van voorvoegsels, (ii) deur midclel van agtervoegsels, en

B -In Italiaans, Spaans, en Sweeds word di ongebruikte letters oek cleur ferwante letters ferfang.. v-alwaysf is used

Omdat de voor- delen voor werkgevers op langere termijn onze- ker zijn en de nadelen van werknemers evident, slaat de balans voor de samenleving duidelijk naar de negatieve

The result of the existence of the Alcohol Levy to date is that some of the companies in the alcohol industry have lost their value and employees have lost