Korpuslinguistiek: ŉ Inleidende oorsig - Koherensie in die argumentatiewe skryfwerk van eerstej

HOOFSTUK 5: NAVORSINGSMETODOLOGIE

5.2 Korpuslinguistiek: ŉ Inleidende oorsig

Basiese korpusstudies is reeds sedert die vroeë twintigste eeu deur veldlinguiste soos Boas en linguistiese strukturaliste soos Edward Sapir, Paul Newman, Leonard Bloomfield en Kenneth Lee Pike onderneem (McEnery et al., 2006:3). Tot en met die laat 1950‟s is die data van sodanige korpusstudies gekenmerk deur klein en eenvoudige versamelings van geskrewe of getranskribeerde tekste. Hierdie tekste is met die hand ontleed vir verskillende fonologiese of grammatikale eienskappe (McEnery et al., 2006:3-4). Aangesien rekenaars toe nog nie

beskikbaar was nie, moes hierdie tekste aan die hand van indekskaarte en woordeboeknotas nagegaan word (Du Preez, 2009:97). Danksy die ontwikkeling van rekenaartegnologie en die voortdurende verbetering daarvan, kon die lang en moeisame proses van handontledings reeds in die 1960‟s vervang word deur meer intensiewe en omvattende korpusstudies. Deur middel van rekenaarsagteware kon ŉ groot aantal tekste nou binne ŉ kort tydsbestek ontleed en beskryf word (Du Preez, 2009:89; Granger, 1998:3; Hunston, 2002:ix; McEnery et al., 2006:4). Hierdie rekenaarmatige korpusstudies het nuwe insigte gebied in die gebruik van taal asook nuwe denke oor taal gestimuleer. Die nuwe opvattings en sienswyses oor taal het direk ŉ invloed gehad op die ontstaan en ontwikkeling van die hedendaagse korpuslinguistiek18 (Granger, 1998:3; Granger, 2002:4).

Korpuslinguistiek behels die studie en beskrywing van ŉ groot aantal geskrewe of gesproke tekste, soos dit oorspronklik deur die skrywers en sprekers binne ŉ bepaalde sosiale konteks geproduseer is. Sodanige studies gaan altyd gepaard met ŉ rekenaarmatige analise deur middel van gespesialiseerde elektroniese sagteware (Biber et al., 1998:4; Biber & Conrad, 2001:332; Cheng et al., 2003:174; Conrad, 2002:76-78; Granger, 2003:538; Gries, 2009:7; McEnery et al., 2006:4; McEnery & Hardie, 2012:1; McEnery & Wilson, 2001:1; Roos, 2009:1; Tardy & Swales, 2008:574; Teubert & Čermáková, 2007:137). In korpuslinguistiek staan hierdie groot databasisse bekend as ŉ korpus of korpora.

5.2.1 Die begrip korpus en korpora

In die vorige afdeling (5.2) is reeds daarop gewys dat die tekste wat in ŉ korpuslinguistiese studie gebruik word, bekend staan as ŉ korpus (enkelvoud) of korpora (meervoud). In die literatuur word ŉ korpus omskryf as ŉ:

 body of text assembled according to explicit design criteria for a specific purpose (Atkins & Clear, 1992:5);

 large and principled collection of natural text (Biber et al., 1998:12);

 large collection of authentic texts that have been gathered in electronic form according to a specific set of criteria (Bowker & Pearson, 2002:9);

Vir meer inligting oor die geskiedenis van korpuslinguistiek kan die volgende bronne geraadpleeg word: Altenberg (1991); Biber en Finegan (1991); Du Preez (2009); Leech (1992); McEnery en Wilson (2001); Teubert en Čermáková (2007).

 a large, principled collection of naturally-occuring text that is stored in electronic form (Conrad, 2002:76);

 collection of texts (or part of text) that are stored and accessed electronically ... A corpus is planned ... and it is designed for some linguistic purpose (Hunston, 2002:2);

 collection of sampled texts, written or spoken, in machine readable form which may be annotated with various forms of linguistic information (McEnery et al., 2006:345).

Uit die bostaande definisies blyk dit duidelik dat die begrip korpus spesifiek verwys na ŉ groot

aantal outentieke tekste (geskrewe of gesproke) wat volgens bepaalde kriteria saamgestel en

ingesamel word. Hierdie tekste wat met ŉ spesifieke linguistiese doel voor oë ingesamel word, word in ŉ bepaalde elektroniese formaat gestoor en met behulp van elektroniese sagteware ontleed.

5.2.2 Tipes korpora

In Afdeling 5.2.1 is daarop gewys dat ŉ korpus altyd versamel word met die uitsluitlike doel om linguistiese inligting daaruit te bekom (McEnery et al., 2006:4). Daarom word korpora volgens Gries (2009:7), en Jansen van Vuuren (2007:125) gekarakteriseer op grond van die mate waartoe dit verteenwoordigend is van ŉ spesifieke taal, ŉ bepaalde taalvariëteit, ŉ register of ŉ genre. ŉ Korpus word as verteenwoordigend beskou wanneer die inhoud daarvan ŉ juiste weerspieëling is van (1) ŉ taal in sy geheel (byvoorbeeld die British National Corpus en die

Bank of English Corpus), of (2) ŉ sekere aspek van ŉ taal, byvoorbeeld ŉ variëteit, ŉ spesifieke

vakgebied, tekstipe, demografiese groep (byvoorbeeld tienertaal), tydperk, of sosiale milieu (Bowker & Pearson, 2002:48,230,232; McEnery & Hardie, 2012:250).

Uit die voorafgaande blyk dit dat korpora diverse gebruiksmoontlikhede het (Hunston, 2002:13- 14). Aangesien ŉ korpus altyd saamgestel word dienooreenkomstig ŉ spesifieke doel, word korpora ook volgens hulle gebruik in verskillende kategorieë ingedeel (McEnery et al., 2006:59). Hunston (2002:14-16) onderskei tussen agt tipes kategorieë wat oor die algemeen in korpusstudies gebruik word, naamlik gespesialiseerde korpora, algemene korpora,

vergelykende korpora, parallelle korpora, leerderkorpora,19_{pedagogiese korpora, historiese of}

19 _{In hierdie studie word daar slegs gefokus op}ŉ leerderkorpus (vgl. 5.5.1). Aangesien die ander korpuskategorieë nie binne die bestek van die studie val nie, word ŉ bespreking daarvan nie nodig geag nie. Vir meer inligting oor hierdie kategorieë kan die volgende bronne geraadpleeg word:

diachroniese korpora en monitorkorpora. Die doel van ŉ studie sal ook bepaal of die

voorgenoemde korpora staties of dinamies van aard is.

ŉ Statiese korpus verwys na ŉ korpus wat taal, soos wat dit op ŉ spesifieke tydstip uitgesien het, weerspieël. McEnery en Hardie (2012:9) noem statiese korpora ook snapshot-korpora. Dit kom ooreen met dit waarna Granger (2002:11) verwys as sinchroniese korpora (korpora wat leerders se taalgebruik op ŉ bepaalde tydstip beskryf). Daarenteen verwys ŉ dinamiese korpus na ŉ korpus wat voortdurend uitgebrei word deur meer tekste oor ŉ bepaalde tydperk in te sluit (McEnery & Hardie, 2012:6). Granger (2002:11) verwys weer na hierdie korpora as

longitudinale korpora (korpora wat tred hou met die evolusie van leerdergebruik). Sy wys egter

daarop dat longitudinale korpora skaars is, in die sin dat dit moeilik is om te versamel omdat leerderpopulasies vir maande of selfs jare gevolg moet word.

Ten spyte van konsensus onder taalkundiges oor die voorafgaande omskrywing van

korpuslinguistiek, die begrip korpus en korpora, die verskillende tipes korpora, en die aard

daarvan (staties of dinamies), blyk daar nie eensgesindheid te wees oor die konseptualisering van korpuslinguistiek as ŉ teorie of ŉ metode nie (McEnery et al., 2006:7-8; McEnery & Hardie, 2012:5-6,147-149). Hierdie verdeeldheid het gelei tot die korpusgedrewe variant (induktiewe benadering) en korpusgebaseerde variant (deduktiewe benadering) van korpuslinguistiek (Léon, 2005:36; Tagg, 2009:43; Tognini-Bonelli, 2001:11). Die doel waarvoor ŉ bepaalde korpus gebruik word, en die wyse waarop linguistiese fenomene uit die betrokke korpus geïdentifiseer, onttrek, en geïnterpreteer word, onderskei hierdie twee variante (vgl. 5.2.3 en 5.2.4) van mekaar (Tagg, 2009:42-43; Tognini-Bonelli, 2001:11).

5.2.3 Die korpusgedrewe variant

Voorstanders van die korpusgedrewe variant gaan uit van die standpunt dat korpuslinguistiek ŉ nuwe teoretiese en filosofiese benadering tot die studie van taal is (Leech, 1992:106; Teubert, 2005:2). Xiao (2008:995) is van mening dat hierdie variant, wat sy grondslag vind in die werke van Firth (1968) (vgl. De Beaugrande, 1991), ŉ uiters empiristiese benadering tot korpusanalise

is. McEnery en Hardie (2012:6,148) sluit by Xiao aan wanneer hulle na die korpusgedrewe variant verwys as ŉ “extreme interpretation of the neo-Firthian position ... that nothing but

corpus data can be used as a source of knowledge about the nature of language” [My

beklemtoning – ZM]. Derhalwe word ervaring gesien as dié primêre bron van kennis, en word geen hipoteses of teoretiese standpunte voor die tyd geformuleer nie (McEnery & Hardie,

2012:6; Xiao, 2008:993). In die verband sê Tognini-Bonelli (2001:84-85) dat die korpus as geheel die voorsiener is van bewyse waarop teoretiese aannames gegrond word:

The theoretical statements are fully consistent with, and reflect directly, the evidence provided by the corpus ...The theory has no independent existence from the evidence and the general methodological path is clear: observation leads to hypothesis leads to generalisation leads to unification in theoretical statement.

Aangesien korpusgedrewe linguiste hulle hipoteses en teoretiese standpunte uitsluitlik grond op patrone en kategorieë wat self uit die korpusdata na vore kom (Terblanche, 2011:19; Xiao, 2008:993), verwerp hulle die bestaande kategorieë, verklarings en onderskeidinge van die tradisionele en funksionele grammatika (Terblanche, 2011:19). Die profiel van taalvariëteite word daarom nie gekoppel aan enige bestaande modelle en vooropgestelde menings van wat moontlik uit ŉ bepaalde korpus te voorskyn mag kom nie (Tagg, 2009:56). Aangesien daar gepoog word om ŉ taal in sy totaliteit (holisties) te beskryf, word ook geen onderskeid getref tussen leksis, sintaksis, semantiek of diskoers nie. Daarom word die korpora wat deur korpusgedrewe linguiste gebruik word, ook nie geannoteer nie (d.w.s. nie voorsien van enige verklarende linguistiese inligting nie). Sodanige korpora bestaan ook uit ŉ groot aantal woorde (o.a. die Bank of English Corpus (2004) met ŉ totaal van 524 miljoen woorde), omdat dit op ŉ kumulatiewe wyse groei (d.w.s. toeneem deur opeenvolgende byvoegings) tot ŉ gebalanseerde korpus (McEnery et al., 2006:8-11).

5.2.4 Die korpusgebaseerde variant

In teenstelling met die korpusgedrewe variant, is vooraf geformuleerde hipoteses en standpunte eie aan die korpusgebaseerde variant. Die korpusdata word gebruik om ŉ spesifieke fenomeen of fenomene in taalgebruik te bestudeer, die gestelde hipoteses of standpunte te ondersoek, dit te valideer, te weerlê of te verfyn (Tagg, 2009:44; Tognini-Bonelli, 2001:65; McEnery & Hardie, 2012:6,148-149). Daarom neem korpusgebaseerde linguiste volgens Tognini-Bonelli (2001:66) reeds aan die begin van hul studie ŉ spesifieke standpunt in oor wat moontlik uit die korpus na vore mag kom. Dit beteken dat die empiriese analise noodwendig geskied aan die hand van bestaande taalmodelle, toepaslike kategorieë en spesifiek ontwerpte of bestaande raamwerke (McEnery & Hardie, 2012:149; Tognini-Bonelli, 2001:66). Derhalwe gaan die voorstanders van die korpusgebaseerde variant van die standpunt uit dat korpuslinguistiek eerder ŉ metode is waarvolgens taalverskynsels, soos wat dit op ŉ gegewe oomblik binne ŉ bepaalde sosiale

konteks voorgekom het, ontleed, verklaar en beskryf kan word (Conrad, 2002:77; Granger, 2002:4; Gries 2009:2; Tagg, 2009:43).

Uit die voorafgaande blyk dit duidelik dat studies wat van uit die korpusgebaseerde variant onderneem word, taal as ŉ sosiale fenomeen bestudeer (Teubert & Čermáková, 2007:137). Daarom word korpuslinguistiek as ŉ heterogene veld beskou (McEnery & Hardie, 2012:1), wat volgens Biber et al. (1998:11) toegang verleen tot die bestudering van verskeie onderwerpe binne verskillende linguistiese terreine. Hierdie onderwerpe kan wissel van grammatikale strukture, die gebruik van individuele woorde, verskille tussen mans en vrouens se taalgebruik, die wyse waarop kinders taal aanleer en bemeester, asook outeurstyle en registerpatrone. Dienooreenkomstig is dit moontlik om korpusgebaseerde studies te onderneem vanuit velde soos leksikografie, grammatika, dialek- en taalvariasie, vergelykende- en vertaalkunde, diachroniese grammatika, taalaanleer en -onderrig, semantiek, pragmatiek, diskoersanalise, stilistiek, letterkunde, en forensiese linguistiek (Biber et al., 1998:11; Léon, 2005:36; McEnery et

al., 2006:80-116).

In document Koherensie in die argumentatiewe skryfwerk van eerstejaarstudente : 'n teksgebaseerde ondersoek (pagina 153-158)