• No results found

KORPUSGEBASEERDE VERTAALKUNDE AS ONDERSOEKRAAMWERK

3.2.1 Definisie en aard van korpusse

Die woord “korpus” is oorspronklik gebruik vir enige versameling geskrifte deur ’n spesifieke outeur (Baker, 1993:225). Deesdae beteken “korpus” in die eerste plek ’n versameling tekste wat in elektroniese formaat bewaar word, wat outomaties of semi- outomaties eerder as per hand geanaliseer kan word. Dit sluit gesproke sowel as geskrewe tekste uit ’n verskeidenheid bronne, onderwerpe en deur baie skrywers en sprekers in (Kruger, 2002:71).

Wanneer ’n navorser ’n “korpuslinguis” genoem word, is die versoeking daar om te dink dat hierdie navorser taal binne ’n spesifieke taalkundeparadigma (korpuslinguistiek) bestudeer, soortgelyk aan ander paradigmas in linguistiek, soos sosiolinguistiek of psigolinguistiek. Volgens Leech (1992:105) is korpuslinguistiek eerder ’n metodologiese basis waarvolgens navorsing in linguistiek verrig word as ’n afsonderlike paradigma binne linguistiek.

Die Expert Advisory Group on Language Engineering Standards (EAGLES) definieer ’n korpus baie algemeen en beweer “it can potentially contain any text type, including not only prose, newspapers, as well as poetry, drama, etc., but also word lists, dictionaries, etc.” (http://www.cs.vassar.edu/CES/CES1-0.html).

Sinclair (1996) definieer ʼn korpus as ’n versameling van taalgedeeltes wat volgens eksplisiete taalkundige kriteria uitgesoek en gerangskik is om as ’n voorbeeld van die taal te dien.

McEnery et al. (2006:3) is van mening dat die term “korpus”, soos dit in die moderne linguistiek gebruik word, die beste gedefinieer word as ’n versameling van voorbeeldtekste (geskrewe of gesproke) in masjienleesbare formaat wat annotasies van verskeie taalkundige inligting kan bevat.

Korpusse word gemanipuleer met behulp van sagteware wat as korpusanalise- instrumente bekend staan. Korpusse is ’n wonderlike bron vir mense wat daarin belangstel om taal te bestudeer en die manier waarop mense op korpusse reageer verskil van die manier waarop daar op gedrukte teks reageer word. Gewoonlik reageer ’n mens op gedrukte tekste deur dit een-vir-een te ondersoek en dit opeenvolgend van die begin tot einde te lees. In teenstelling hiermee sal ’n mens by die ondersoek na ’n korpus gewoonlik na klein fragmente van die teks kyk (soos individuele woorde of ’n enkele teksreël) en daar kan gelyktydig na verskeie fragmente gekyk word (Bowker & Pearson, 2002:1).

Volgens Bowker en Pearson (2002:9–10) moet ʼn korpus die volgende vier elemente bevat:

• dit moet in elektroniese formaat wees

• dit moet outentieke tekste wees (insluitend transkripsies van gesproke data) • dit moet groot wees

• dit moet aan spesifieke kriteria voldoen

Teks in elektroniese formaat kan deur ʼn rekenaar geprosesseer word. Dit kan ʼn teks wees wat uit ʼn tydskrif geskandeer is, of ʼn teks wat op die internet verkry is. Wanneer teks in elektroniese formaat beskikbaar is, kan spesiale sagteware gebruik word om die data te manipuleer.

ʼn Teks is outentiek as dit ʼn voorbeeld van werklike natuurlike taal is en uit werklike kommunikasie tussen mense wat met hul daaglikse aktiwiteite besig is, bestaan. Die

teks kom dus normaal voor en is nie spesiaal geskep vir die uitsluitlike doel om in ʼn korpus ingesluit te word om ʼn spesifieke punt oor grammatika te demonstreer nie.

Aangesien die tegnologie dit maklik maak om korpusse te gebruik, is elektroniese korpusse gewoonlik baie groter as gedrukte korpusse. Die spesifieke grootte van die korpus hang van die doelwit van elke stuk navorsing af. Daar bestaan nie vaste reëls oor die grootte wat ʼn korpus moet wees nie. Dit is egter duidelik dat ʼn elektroniese korpus oor die algemeen groter sal wees as ʼn korpus wat in gedrukte formaat versamel en gelees moet word.

Volgens McEnery en Wilson (1996:29) verskil ’n korpus, as die basis vir empiriese taalkunde, op verskillende maniere van ’n ondersoek na spesifieke tekste. Enige versameling van een of meer tekste kan ’n korpus genoem word (korpus is die Latynse woord vir liggaam, dus is ’n korpus enige liggaam van tekste). Die term “korpus”, soos dit gebruik word binne die konteks van moderne taalkunde, het gewoonlik meer spesifieke konnotasies as bogemelde eenvoudige definisies. McEnery en Wilson (ibid.) verskaf die onderstaande lys om die vier hoofeienskappe van die moderne korpus te beskryf:

• steekproewe en verteenwoordiging • eindige grootte

• masjienleesbare formaat • ’n standaard verwysing

Vir doeleindes van hierdie studie word van die standpunt uitgegaan dat ʼn korpus nie bloot ʼn onwillekeurige versameling van tekste is nie. Tekste in ʼn korpus word na aanleiding van spesifieke kriteria gekies om gebruik te kan word as ʼn verteenwoordigende voorbeeld van ʼn taal of ʼn onderafdeling van ʼn taal. Dit kan ʼn korpus wees wat geskep word om die taal van ʼn spesifieke onderwerpveld, soos die ekonomie, te verteenwoordig. Die korpus kan selfs verder toegespits word om te kyk na ʼn spesifieke tipe teks wat in die ekonomiese veld geskryf is, soos maatskappye se jaarverslae.

Om ʼn korpus meer bruikbaar vir taalkundige navorsing te maak, word dit dikwels onderwerp aan ’n proses van annotasie (annotation). ’n Annotasie is ’n opmerking by inligting in ’n boek, dokument, aanlyndokument, video of sagteware-kode. Dit word in konsepdokumente gebruik, waar ’n ander leser notas oor die gehalte van die dokument by ’n sekere punt in die kantlyn geskryf het, of sinne onderstreep of beklemtoon het. Geannoteerde bibliografieë gee beskrywings van hoe elke bron vir die leser nuttig is in die konstruering van ’n voordrag of van ’n dokument. Die skep van hierdie opmerkings is gewoonlik ’n paar sinne lank en vestig ’n opsomming vir, en druk die verband van elke bron uit. In taalkunde voeg annotasies oor morfologie, sintaksis, semantiek, diskoers en pragmatiek inligting by oor die taalkundige vorm. Ander vorms van annotasies sluit kommentaar en metadata in. Hierdie nie- transkriptiewe annotasies is ook nie-taalkundig. ’n Versameling tekste met taalkundige annotasies staan bekend as ’n korpus (McEnery et al., 2006:29–30).

’n Voorbeeld van annotasie in ’n korpus is woordsoorte etikettering (POS, part of

speech), waar inligting oor elke woordsoort (werkwoord, naamwoord, byvoeglike

naamwoord, ens.) tot die korpus bygevoeg word in die vorm van etikette. Nog ’n voorbeeld is die aanduiding van die lemmavorm (basis) van elke woord. As die taal van die korpus nie ’n werkende taal is van die navorsers wat dit gebruik nie, word interliniêre glossing gebruik om die annotasie tweetalig te maak. Sommige korpusse pas verdere gestruktureerde vlakke van analise toe. Veral kleiner korpusse kan ten volle ontleed word. Sulke korpusse word gewoonlik treebanks of “afgeleide korpusse” genoem. Om te verseker dat die hele korpus volledig en aanhoudend geannoteer is, ontstaan die probleem dat hierdie korpusse gewoonlik kleiner is en ongeveer een tot drie miljoen woorde bevat. Ander vlakke van taalkundig-gestruktureerde analises is moontlik, insluitende annotasies vir morfologie, semantiek en pragmatiek (McEnery et

al., 2006:37).

Korpusse is die vernaamste kennisbasis in korpusgebaseerde vertaalkunde. Die analise en prosessering van verskillende korpusse is ook die onderwerp van baie werk in rekenaarmatige taalkunde, spraakherkenning en masjienvertaling. Dit word dikwels gebruik om versteekte Markov-modelle vir spraaketikettering en ander doeleindes te skep. Korpusse en frekwensielyste wat hieruit afgelei word, word vir taalonderrig gebruik (Olohan, 2004:86).

3.3 Die masjienleesbare korpus en die gebruik van rekenaars in