• No results found

HOOFSTUK 5: NAVORSINGSMETODOLOGIE

5.2 Korpuslinguistiek: ʼn Inleidende oorsig

Basiese korpusstudies is reeds sedert die vroeë twintigste eeu deur veldlinguiste soos Boas en linguistiese strukturaliste soos Edward Sapir, Paul Newman, Leonard Bloomfield en Kenneth Lee Pike onderneem (McEnery et al., 2006:3). Tot en met die laat 1950‟s is die data van sodanige korpusstudies gekenmerk deur klein en eenvoudige versamelings van geskrewe of getranskribeerde tekste. Hierdie tekste is met die hand ontleed vir verskillende fonologiese of grammatikale eienskappe (McEnery et al., 2006:3-4). Aangesien rekenaars toe nog nie

beskikbaar was nie, moes hierdie tekste aan die hand van indekskaarte en woordeboeknotas nagegaan word (Du Preez, 2009:97). Danksy die ontwikkeling van rekenaartegnologie en die voortdurende verbetering daarvan, kon die lang en moeisame proses van handontledings reeds in die 1960‟s vervang word deur meer intensiewe en omvattende korpusstudies. Deur middel van rekenaarsagteware kon ʼn groot aantal tekste nou binne ʼn kort tydsbestek ontleed en beskryf word (Du Preez, 2009:89; Granger, 1998:3; Hunston, 2002:ix; McEnery et al., 2006:4). Hierdie rekenaarmatige korpusstudies het nuwe insigte gebied in die gebruik van taal asook nuwe denke oor taal gestimuleer. Die nuwe opvattings en sienswyses oor taal het direk ʼn invloed gehad op die ontstaan en ontwikkeling van die hedendaagse korpuslinguistiek18 (Granger, 1998:3; Granger, 2002:4).

Korpuslinguistiek behels die studie en beskrywing van ʼn groot aantal geskrewe of gesproke tekste, soos dit oorspronklik deur die skrywers en sprekers binne ʼn bepaalde sosiale konteks geproduseer is. Sodanige studies gaan altyd gepaard met ʼn rekenaarmatige analise deur middel van gespesialiseerde elektroniese sagteware (Biber et al., 1998:4; Biber & Conrad, 2001:332; Cheng et al., 2003:174; Conrad, 2002:76-78; Granger, 2003:538; Gries, 2009:7; McEnery et al., 2006:4; McEnery & Hardie, 2012:1; McEnery & Wilson, 2001:1; Roos, 2009:1; Tardy & Swales, 2008:574; Teubert & Čermáková, 2007:137). In korpuslinguistiek staan hierdie groot databasisse bekend as ʼn korpus of korpora.

5.2.1 Die begrip korpus en korpora

In die vorige afdeling (5.2) is reeds daarop gewys dat die tekste wat in ʼn korpuslinguistiese studie gebruik word, bekend staan as ʼn korpus (enkelvoud) of korpora (meervoud). In die literatuur word ʼn korpus omskryf as ʼn:

 body of text assembled according to explicit design criteria for a specific purpose (Atkins & Clear, 1992:5);

large and principled collection of natural text (Biber et al., 1998:12);

 large collection of authentic texts that have been gathered in electronic form according to a specific set of criteria (Bowker & Pearson, 2002:9);

18

Vir meer inligting oor die geskiedenis van korpuslinguistiek kan die volgende bronne geraadpleeg word: Altenberg (1991); Biber en Finegan (1991); Du Preez (2009); Leech (1992); McEnery en Wilson (2001); Teubert en Čermáková (2007).

 a large, principled collection of naturally-occuring text that is stored in electronic form (Conrad, 2002:76);

 collection of texts (or part of text) that are stored and accessed electronically ... A corpus is planned ... and it is designed for some linguistic purpose (Hunston, 2002:2);

 collection of sampled texts, written or spoken, in machine readable form which may be annotated with various forms of linguistic information (McEnery et al., 2006:345).

Uit die bostaande definisies blyk dit duidelik dat die begrip korpus spesifiek verwys na ʼn groot

aantal outentieke tekste (geskrewe of gesproke) wat volgens bepaalde kriteria saamgestel en

ingesamel word. Hierdie tekste wat met ʼn spesifieke linguistiese doel voor oë ingesamel word, word in ʼn bepaalde elektroniese formaat gestoor en met behulp van elektroniese sagteware ontleed.

5.2.2 Tipes korpora

In Afdeling 5.2.1 is daarop gewys dat ʼn korpus altyd versamel word met die uitsluitlike doel om linguistiese inligting daaruit te bekom (McEnery et al., 2006:4). Daarom word korpora volgens Gries (2009:7), en Jansen van Vuuren (2007:125) gekarakteriseer op grond van die mate waartoe dit verteenwoordigend is van ʼn spesifieke taal, ʼn bepaalde taalvariëteit, ʼn register of ʼn genre. ʼn Korpus word as verteenwoordigend beskou wanneer die inhoud daarvan ʼn juiste weerspieëling is van (1) ʼn taal in sy geheel (byvoorbeeld die British National Corpus en die

Bank of English Corpus), of (2) ʼn sekere aspek van ʼn taal, byvoorbeeld ʼn variëteit, ʼn spesifieke

vakgebied, tekstipe, demografiese groep (byvoorbeeld tienertaal), tydperk, of sosiale milieu (Bowker & Pearson, 2002:48,230,232; McEnery & Hardie, 2012:250).

Uit die voorafgaande blyk dit dat korpora diverse gebruiksmoontlikhede het (Hunston, 2002:13- 14). Aangesien ʼn korpus altyd saamgestel word dienooreenkomstig ʼn spesifieke doel, word korpora ook volgens hulle gebruik in verskillende kategorieë ingedeel (McEnery et al., 2006:59). Hunston (2002:14-16) onderskei tussen agt tipes kategorieë wat oor die algemeen in korpusstudies gebruik word, naamlik gespesialiseerde korpora, algemene korpora,

vergelykende korpora, parallelle korpora, leerderkorpora,19 pedagogiese korpora, historiese of

19 In hierdie studie word daar slegs gefokus op ʼn leerderkorpus (vgl. 5.5.1). Aangesien die ander korpuskategorieë nie binne die bestek van die studie val nie, word ʼn bespreking daarvan nie nodig geag nie. Vir meer inligting oor hierdie kategorieë kan die volgende bronne geraadpleeg word:

diachroniese korpora en monitorkorpora. Die doel van ʼn studie sal ook bepaal of die

voorgenoemde korpora staties of dinamies van aard is.

ʼn Statiese korpus verwys na ʼn korpus wat taal, soos wat dit op ʼn spesifieke tydstip uitgesien het, weerspieël. McEnery en Hardie (2012:9) noem statiese korpora ook snapshot-korpora. Dit kom ooreen met dit waarna Granger (2002:11) verwys as sinchroniese korpora (korpora wat leerders se taalgebruik op ʼn bepaalde tydstip beskryf). Daarenteen verwys ʼn dinamiese korpus na ʼn korpus wat voortdurend uitgebrei word deur meer tekste oor ʼn bepaalde tydperk in te sluit (McEnery & Hardie, 2012:6). Granger (2002:11) verwys weer na hierdie korpora as

longitudinale korpora (korpora wat tred hou met die evolusie van leerdergebruik). Sy wys egter

daarop dat longitudinale korpora skaars is, in die sin dat dit moeilik is om te versamel omdat leerderpopulasies vir maande of selfs jare gevolg moet word.

Ten spyte van konsensus onder taalkundiges oor die voorafgaande omskrywing van

korpuslinguistiek, die begrip korpus en korpora, die verskillende tipes korpora, en die aard

daarvan (staties of dinamies), blyk daar nie eensgesindheid te wees oor die konseptualisering van korpuslinguistiek as ʼn teorie of ʼn metode nie (McEnery et al., 2006:7-8; McEnery & Hardie, 2012:5-6,147-149). Hierdie verdeeldheid het gelei tot die korpusgedrewe variant (induktiewe benadering) en korpusgebaseerde variant (deduktiewe benadering) van korpuslinguistiek (Léon, 2005:36; Tagg, 2009:43; Tognini-Bonelli, 2001:11). Die doel waarvoor ʼn bepaalde korpus gebruik word, en die wyse waarop linguistiese fenomene uit die betrokke korpus geïdentifiseer, onttrek, en geïnterpreteer word, onderskei hierdie twee variante (vgl. 5.2.3 en 5.2.4) van mekaar (Tagg, 2009:42-43; Tognini-Bonelli, 2001:11).

5.2.3 Die korpusgedrewe variant

Voorstanders van die korpusgedrewe variant gaan uit van die standpunt dat korpuslinguistiek ʼn nuwe teoretiese en filosofiese benadering tot die studie van taal is (Leech, 1992:106; Teubert, 2005:2). Xiao (2008:995) is van mening dat hierdie variant, wat sy grondslag vind in die werke van Firth (1968) (vgl. De Beaugrande, 1991), ʼn uiters empiristiese benadering tot korpusanalise

is. McEnery en Hardie (2012:6,148) sluit by Xiao aan wanneer hulle na die korpusgedrewe variant verwys as ʼn “extreme interpretation of the neo-Firthian position ... that nothing but

corpus data can be used as a source of knowledge about the nature of language” [My

beklemtoning – ZM]. Derhalwe word ervaring gesien as dié primêre bron van kennis, en word geen hipoteses of teoretiese standpunte voor die tyd geformuleer nie (McEnery & Hardie,

2012:6; Xiao, 2008:993). In die verband sê Tognini-Bonelli (2001:84-85) dat die korpus as geheel die voorsiener is van bewyse waarop teoretiese aannames gegrond word:

The theoretical statements are fully consistent with, and reflect directly, the evidence provided by the corpus ...The theory has no independent existence from the evidence and the general methodological path is clear: observation leads to hypothesis leads to generalisation leads to unification in theoretical statement.

Aangesien korpusgedrewe linguiste hulle hipoteses en teoretiese standpunte uitsluitlik grond op patrone en kategorieë wat self uit die korpusdata na vore kom (Terblanche, 2011:19; Xiao, 2008:993), verwerp hulle die bestaande kategorieë, verklarings en onderskeidinge van die tradisionele en funksionele grammatika (Terblanche, 2011:19). Die profiel van taalvariëteite word daarom nie gekoppel aan enige bestaande modelle en vooropgestelde menings van wat moontlik uit ʼn bepaalde korpus te voorskyn mag kom nie (Tagg, 2009:56). Aangesien daar gepoog word om ʼn taal in sy totaliteit (holisties) te beskryf, word ook geen onderskeid getref tussen leksis, sintaksis, semantiek of diskoers nie. Daarom word die korpora wat deur korpusgedrewe linguiste gebruik word, ook nie geannoteer nie (d.w.s. nie voorsien van enige verklarende linguistiese inligting nie). Sodanige korpora bestaan ook uit ʼn groot aantal woorde (o.a. die Bank of English Corpus (2004) met ʼn totaal van 524 miljoen woorde), omdat dit op ʼn kumulatiewe wyse groei (d.w.s. toeneem deur opeenvolgende byvoegings) tot ʼn gebalanseerde korpus (McEnery et al., 2006:8-11).

5.2.4 Die korpusgebaseerde variant

In teenstelling met die korpusgedrewe variant, is vooraf geformuleerde hipoteses en standpunte eie aan die korpusgebaseerde variant. Die korpusdata word gebruik om ʼn spesifieke fenomeen of fenomene in taalgebruik te bestudeer, die gestelde hipoteses of standpunte te ondersoek, dit te valideer, te weerlê of te verfyn (Tagg, 2009:44; Tognini-Bonelli, 2001:65; McEnery & Hardie, 2012:6,148-149). Daarom neem korpusgebaseerde linguiste volgens Tognini-Bonelli (2001:66) reeds aan die begin van hul studie ʼn spesifieke standpunt in oor wat moontlik uit die korpus na vore mag kom. Dit beteken dat die empiriese analise noodwendig geskied aan die hand van bestaande taalmodelle, toepaslike kategorieë en spesifiek ontwerpte of bestaande raamwerke (McEnery & Hardie, 2012:149; Tognini-Bonelli, 2001:66). Derhalwe gaan die voorstanders van die korpusgebaseerde variant van die standpunt uit dat korpuslinguistiek eerder ʼn metode is waarvolgens taalverskynsels, soos wat dit op ʼn gegewe oomblik binne ʼn bepaalde sosiale

konteks voorgekom het, ontleed, verklaar en beskryf kan word (Conrad, 2002:77; Granger, 2002:4; Gries 2009:2; Tagg, 2009:43).

Uit die voorafgaande blyk dit duidelik dat studies wat van uit die korpusgebaseerde variant onderneem word, taal as ʼn sosiale fenomeen bestudeer (Teubert & Čermáková, 2007:137). Daarom word korpuslinguistiek as ʼn heterogene veld beskou (McEnery & Hardie, 2012:1), wat volgens Biber et al. (1998:11) toegang verleen tot die bestudering van verskeie onderwerpe binne verskillende linguistiese terreine. Hierdie onderwerpe kan wissel van grammatikale strukture, die gebruik van individuele woorde, verskille tussen mans en vrouens se taalgebruik, die wyse waarop kinders taal aanleer en bemeester, asook outeurstyle en registerpatrone. Dienooreenkomstig is dit moontlik om korpusgebaseerde studies te onderneem vanuit velde soos leksikografie, grammatika, dialek- en taalvariasie, vergelykende- en vertaalkunde, diachroniese grammatika, taalaanleer en -onderrig, semantiek, pragmatiek, diskoersanalise, stilistiek, letterkunde, en forensiese linguistiek (Biber et al., 1998:11; Léon, 2005:36; McEnery et

al., 2006:80-116).