'n Vergelyking tussen sintaksis en semantiek van sekere pre-koördinaatindekseertale

(1)

'n V.ergelyJ<ing tussen

sinJaksis en semaotiek

van sekere pre-koordinaatindekseertale

Maria Andrea Buys

Verhandeling voorgele ter gedeeltelike voldoening aan die vereistes vir die graad M.Bibl. aan die Potchefstroomse Universiteit vir Christe

-like Hoer Onderwys

Leier: Prof. P.J. Schutte Hulpleier: Dr. P.S. de Bruyn

Potchefstroom 1981

(2)

Geldelike bystand van die Rc1ad vir Geesteswetenskaplike Navorsing vir die koste van hierdie navorsing word hiermee erken. Menings in hierdie werk uitgespreek of gevolgtrekkings waartoe geraak is, is die van die skrywer en moet nie beskou word as die van die Raad vir Geesteswetenskaplike Navorsing nie.

(3)

INHOUD

Hoofstuk 1: lnleiding

1.1 Probleemstelling .. ... 1

1.2 Afbakening van studieterrein ... ... 3

1.3 Metode van ondersoek ... 6

Hoofstuk 2: Grammatikale struktuur van indekseertale in die algemeen 2.1 lnleiding ... ... 7

2.2 lndekseertaal as tussentaal ... 8

2.3 Pre- en post-koordinaatindekseertale ... 9

2.4 Woordeskatbeheer .... ... 10

2.4.1 Natuurlike ta al en gekontroleerde ta al ... 10

2.4.2 2.4.3 2.4.4 2.4.5 2.5 2.5.1 2.5.1.1 2.5.1.1.1 2.5.1.1.2 2.5.1.1.3 2.5.1.2 Standaardisering van indekseerterme ... . 11

Spesifiekheid van die woordeskat ... ... 13

Toegangswoordeskat en indekseringswoordeskat ... 14

Die waarde van woordeskatbeheer ... 16

Termverwantskappe ... 17

Semantiese verwantskappe by indekseertale ... 19

Soorte semantiese verwantskappe ... 19

Ekwivalente verwantskap ... 19

Hierargiese verwantskap ... 21

Assosiatiewe verwantskap ... 23

Funksie van semantiese verwantskappe ... 24

2.5.2. Sintaktiese verwantskappe by indekseertale ... 24

2.5.2.1 Soorte sintaktiese verwantskappe .. ... 25

2.5.2.1 .1 Termvolgorde ... ... 25

2.5.2.1.2 Verwantskapsaanduiders ... 26

2.5.2.2 2.6 Funksie van sintaktiese verwantskappe ... 27

Die invloed van grammatikale struktuur by indekseertale op herwinning en presiesheid van inligtings -herwinningstelsels ... ... 27

(4)

2.6.1 2.6.2 2.6.3

Die rol van die woordeskat by indeksering ...

28

Die rol van die woordeskat in die soekproses ... 29

Herwinnings- an presiesheidsapparaat ... 30

Hoofstuk 3: Sintaktiese verwantskappe by LCSH en PRECIS 3.1 3.1.1 3.1.2 3.2

3.2.

1

3 .2.2

3.2 3

3.3 3.3.1 3.3.2 3.4 3.5

3.5.1

3.5.1.1

3.5.2

3.5.3 3.5.4

3.5.5

3.5.6

3.5.7

3 .5.8

3.5.9 lnleiding ...

32

Agtergrondsgeskiedenis van LCSH ... ...

32

Agtergrondsgeskiedenis van PRECIS ... 34

Algemene struktuur en basiese beginsels van LCSH .... ... 36

Gebruiker as fokus ... ... 37

Eenvormigheia van indekseerterme ... . 37

SpesifiekheicJ van indekseerterme ... ... 39

Sintaktiese verwantskappe

by

LCSH ... . 40

Termkoordinasie as sintaktiese apparaat ... 41

Onderverdelings as sintaktiese apparaat ... 47

Algernene struktuur van PRECIS ... ... 52

Sintaktiese verwantskappe by PRECIS .. ... 53

Formaat van indeksinskrywings .. ... 53

Standaardformaat ... 55

Roloperateurs ... 56

Konsepanalise en die gebruik van roloµerateurc .... 59

Saamgestelde terrne ... ... 62

Omgekeerde formaat: operateurs 4, 5 en 6 ... 65

Predikatiewe transformasie: operateurs 3, s en t .... 67

Oper,Heurs p, q, r en g ... ... ... 71

Lokaliteit en roloperateurs ... 73

Slotopmerkiny ... 74

Hoofstuk 4: Semantiese verwantskappe by LCSH en PRECIS 4.1 4.2 4.2.1 4.2.2

4.2.3

lnleiding ... 75

Verskillende semantiese verwantskappe .... ... 76

Ekwivalente verwantskap ... 76

Hierargiese verwantskap ... ... 77

(5)

4.2.4 4.3 4.3.1 4.3.2 4.3.3 4.3.3.1 4.3.3.2 4.4. Samevatting ... 83

Die opbou van semantiese netwerke ... 83

Vasstelling van semantiese verwantskappe ... . 83

Semantiese netwerk van LCSH ... 84

Semantiese netwerk van PRECIS ... 88

Systaproetine ... ... 92

Slotopmerking ... 93

Samevatting: Die interafhanklikheid van sintaksis en semantiek ... 93

Hoofstuk 5: Die pragmatiese opset van LCSH en PRECIS en die invloed daarvan op hulle prestasievermoe 5.1 lnleiding ... 96

5.2 Die pragmatiese opset van die twee indekseertale .. 96

5.3 Die doe! en funksies van indekseertale ... 99

5.4 Die prestasiepotensiaal van LCSH en PRECIS in die lig van vereistes wat gebruikers stel aan 'n inligtingsont -sluiting-en -herwinningstelsel ... 101

5.5 Gevolgtrekking .... ... 106

Summary ... . 109 Bibliografie ... ... 111

(6)

HOOFSTUK 1

INLEIDING

1. 1 Probleemstelling

lnligtingkunde het te make met die ontsluiting, herwinning en oordrag van inligting van enige aard. lnligtingsoordrag is 'n primere menslike aktiwiteit. Die medium waardeur hierdie oordrag geskied, is taal. Daarom kan inligtingkunde en ta al nooit van mekaar geskei word nie. Spark Jones en Kay (1973, p. 1) som dit as volg op: "Linguistics and information science are natural bedfellows". Beide linguistiek en inligtingkunde is gemoeid met tekste in natuurlike taal, maar anders as wat by linguistiek die geval is, het inligtingkunde min te make met gesproke taal. Geskrewe taal is by inligtingsontsluiting sowel as -herwinning van primere belang. Geskrewe inligting word oorspronklik aangebied in 'n teks van natuurlike ta al en om praktiese redes wat later sal blyk (vgl. 2.1) word hierdie teks van natuurlike ta al gekondenseer tot 'n stel simbole wat 'n opsomming is van die oorspronklike teks. Hierdie stel simbole het konseptuele betekenis en inhoud, en dit vorm die indekseertaal (De Grolier, 1972, p. 28). Die indekseertaal is die basiese komponent by alle inligtingsont-sluiting en -herwinning. Beide prosesse geskied deur middel van die indekseertaal. Daarom is die algemene beginsels van die taalkunde noodwendig betrokke by die studie van indekseertale. lndekseertale toon dieselfde probleme en verskynsels as natuurlike taal. 'n Studie van indekseertale steun dus uit die aard van die saak swaar op die metodologie en beskrywingstegniek van die algemene taalkunde. Hutchins (1975, p. viii) meen dat daar oor die algemeen nog te min begrip is ten opsigte van die aard van indekseertale, hoe hulle werk en waarom hulle misluk (indien dit wel die geval is). Daarom kan die inligtingkunde nie anders nie as om te gaan kers opsteek by die linguistiek.

(7)

Dit gaan by inligtingsontsluiting en -herwinning om geskrewe taal 1 ,

dit wil se soos ons dit in gedokumenteerde inligting vind. Dokumente

bestaan uit woorde en navraers wat na dokumente soek, gebruik

woorde. Hierdie woorde kan nie by inligtingsontsluiting en-herwin-ning per se gebruik word nie, omdat dit wat van belang is, die konsepte is wat opgeteken le in die woorde. Die woorde wat 'n

navraer gebruik in sy inligtingsoektog, moet korreleer met die woorde

wat by die indekseerproses gebruik is, anders sal die dokument wat hy soek, nie opgespoor word nie. Dit kan ge"illustreer word met 'n eenvoudige voorbeeld: 'n aantal dokumente handel oor gidshonde,

honde wat blindes lei, hulp aan blindes deur gidshonde, ens. Al

hierdie dokurnente handel oor dieselfde onderwerp, maar as die navraer onder die verskillende woorde gaan soek in 'n katalogus of

bibliografie sal hy nie almal herwin nie, want hy dink miskien nie aan

al die moontlikhede nie, en verskillende woorde staan nie bymekaar

in 'n alfabetiese rangskikking nie. Herwinning kan alleen bevre

-digend plaasvind as die konseptuele inhoud van die dokument

geanaliseer word en 'n interrnediere taal (Needham, 1971, p. 96)

geskep word waardeur die dokumentinhoud geprosesseer word en

waarheen die navraer sy woorde kan omskakel vir die soekproses.

Herwinning van relevante dokumente hang dus baie nou saam met die vermoe van die indekseertaal om die konsepte in dokumente op te som.

lndekseertaal, net soos natuurlike taal, bestaan uit 'n woordeskat en 'n sintaksis. Die woordeskat van die indekseertaal is die stel terme

wat gebruik word om die konseptuele inhoud van dokumente te

L>eskryf, en in die woordeskat le betekenis (semantiek) opgesluit. Die

1. Lancaster ( 1972). Boon (1979) en vele and ere wys daarop dat met die term .. inligtingsherw,nning .. eintlik bedoel word .. dokumentherwinning··. ·n Ware inlig-tingsherwinningstelsel verskaf die inligting self, terwyl 'n dokmentherwinningstelsel slegs verwysings na die inligtingsbronne verskaf. In hierdie studie word die term ""inligtingsherwinning .. vir ··dokumcntherwinning .. gebruik omdat dit algemeen in die litcratuur so voorkom.

(8)

sintaksis is die stel reels vir die verbinding van eenhecfe uit die woordeskat om die konseptuele inhoud op betekenisvolle wyse saam te snoer (Meadow, 1973, p. 21 ). Sintaksis en semantiek by indek -seertale is so vervleg dat die een nie sonder die ander bestudeer kan word nie, veral omdat dit by indeksering gaan om konsepanalise van dokumente. Die sintaktiese opset van die indekseerterme bepaal heel dikwels ook die semantiek van die terme, en anders om. Hierdie twee aspekte van indekseertaal bepaal of die kommunikasieproses tussen die inligtingsherwinningstelsel en die navraer glad verloop of nie.

Die doel met hierdie studie is om sekere taalverskynsels by twee indekseertale uit te lig en te bepaal of die struktuur van die tale 'n invloed kan he op die doeltreffendheid daarvan.

Die belangrikheid daarvan om die noue verwantskap tussen lin -guistiek en inligtingkunde te besef, word veral beklemtoon deur Macdonald (1965, p. 86). Hy se dat enige stelsel waar taal gebruik word, ook die linguistiese struktuur in ag moet neem, anders gaan inligting verlore eerder as wat dit herwin word. As inligting eers een keer verlore is, is dit uiters moeilik om dit te herwin - indien dit wel herwin kan word. In 'n biblioteek word inligting ontsluit met die doel om dit later weer te herwin. By herwinning vind dieselfde intell ek-tuele proses plaas as by ontsluiting, maar net in die teenoorgestelde rigting (vgl. figuur I). Die navraag word ook konseptueel geanaliseer en omgeskakel in die terme van die indekseertaal waarna die leer of katalogus deurgesoek word om die dokument(e) te lokaliseer. Hierdie proses kan vergemaklik word deur die gebruik van ·n doeltreffende i ndekseertaa I.

1 .2 Afbakening van die studieterrein

By alle indekseertale is taalkundige faktore betrokke. Die grammatika van 'n taal ontleed die taal in sy samestellende dele. Dit toon die verwantskap tussen die dele aan en hoe hierdie verwantskap die betekenis van dft wat gebesig is, be·,nvloed. Spark Jones en Kay (1973, p. 32) gee die komponente van 'n grammatika as fonologie,

(9)

8i!t1t.e1 do wou1 dt!::»kat van 1,1.J.:l.:...:~11aol

Omsluit,ng

Anahse ... an k1.,ns!lptuele mhoud

Vt:nlnling m torrne van

die indol,.soemrnl

An,>lise van navraag

Navraag

Hcrw,nrung

Fig. I

Behoordo woordoskat van indeksee,1aal

~ Oo

kument-~ surrogate in kauilogus of Iba,.

(10)

morfologie, sintaksis en semantiek. Die fonologiese aspek is nie by indekseertaal van toepassing nie omdat geskrewe taal gebruik word.

In hierdie studie gaan dit om die sintaktiese en semantiese aspekte van indekseertaal. Dit is egter geensins die bedoeling om 'n diep-gaande studie van die linguistiek as sodanig te maak nie. en ook nie ·n evaluering te doen van die betrokke indekseertale nie. Daar sal slegs sekere eienskappe van die indekseertale uitgelig word en aangetoon word hoe hierdie eienskappe verband hou met hulle prestasie -vermoe. Daar sal ook aangetoon word dat daar 'n noue verband is

tussen die herwinningsprestasie en semantiese struktuur aan die

een kant, en die relevansievermoe en sintaktiese struktuur aan die ander kant.

Daar is besluit om twee verbale, pre-koordinaatindekseertale vir die

studie te gebruik, naamlik Library of Congress subject headings (LCSH) en die Preserved context index system (PRECIS). Pre-koordi

-naatindekseertale bied uit linguistiese oogpunt baie interessanthede vir ondersoek omdat hulle volgens 'n vaste struktuur funksioneer.

Om nie-verbale pre-koordinaatindekseertale, naamlik klassifikasie -stelsels, in te sluit by die studie, sou te omvangryk wees. LCSH en PRECIS is gekies omdat hulle soveel verskil en tog soveel ooreen -koms het. Hulle is ook indekseertale wat wye gebruikersgemeen-skappe het en dus algemeen bekend is. LCSH is 'n voorbeeld van 'n enumeratiewe indekseerta~I waarvan die ontstaansom

-standighede heel uniek was en wat invloed uitgeoefen het op die struktuur daarvan. PRECIS is 'n voorbeeld van 'n moderne, sintetiese indekseertaal wat hoofsaaklik vir rekenaarmatige gebruik ontwerp is en in sy struktuur is hierdie spesifieke funksie ook duidelik te bespeur.

Die studie word in vyf hoofstukke aangebied. Na die inleiding word die tweede hoofstuk gewy aan 'n oorsig oor die taalkundige faktore

wat in die algemeen betrokke is by indekseertale. Daar sal eerstens gel et word op die verskynsel van indekseertale as tussentaal (meta-taal), die verskille tussen pre- en post-koordinaatindekseertale, asook die aangeleentheid van woordeskatbeheer. Vervolgens sal aandag gegee word aan die grammatikale struktuur en in die

(11)

besonder op die semantiese en sintaktiese aspekte en verskillende termverwantskappe sal bespreek word, asook hoe hierdie

verwant-skappe herwinning en presiesheid be·invloed.

In hoofstuk drie en vier sal die sintaktiese en semantiese opset van

die gekose twee indekseertale ontleed word en sekere ooreenkomste

en verskille sal uitgelig word. Dit sal ook aangetoon word hoe hierdie

kenmerke hulle oorsprong het in beide se ontstaansomstandighede.

In die laaste hoofstuk sal aangetoon word dat indekseertale bepaalde funksies het om te verrig en gevolglik 'n sterk pragmatiese inslag het.

Daar sal ook ingegaan word op die vraag of hierdie pragmatiese opset

bydra tot die doeltreffendheid van die twee tale of nie, in terme van

herwinning en presiesheid.

1.3 Metode van ondersoek

Omdat die onderwerp teoreties van aard is, leen hy horn nie tot

"veldwerk" soos die voer van onderhoude, uitstuur van vraelyste, waarnemings, ens. nie, maar eerder tot 'n literatuurstudie en analise

van die indekseertale om sekere kenmerke uit te lig wat vergelyk kan

word. Daar sal dus nie 'n empiriese ondersoek wees nie, maar wel

praktiese gebruik van die indekseertale.

Omdat hier taalkundige faktore betrokke is, moes noodwendig 'n elementere studie van die algemene taalkunde gemaak word om die

basiese beginsels te vind waaraan die indekseertale getoets kan

word.

Heelwat voorbeelde word ter illustrasie gegee. Dit is deurgaans in

Engels omdat die twee indekseertale in Engels opgestel is. lndekseer

-tale funksioneer volgens vaste reels, daarom gebeur dit dat baie

skrywers dieselfde inligting gee. In die teksverwysings word dus nie

naastenby alle skrywers wat oor hierdie onderwerp skryf, aangehaal nie, maar daar sal na hulle in 'n aparte bronnelys verwys word.

(12)

HOOFSTUK 2

GRAMMATIKALE STRUKTUUR VAN

INDEJ<SEER-TALE IN DIE ALGEMEEN

2.1 lnleiding

lndeksering is die proses waardeur die inhoud van die dokument geanaliseer word om sekere konsepte daaruit te identifiseer. Die konsepte word dan in terme uitgedruk wat die woordeskat van die indekseertaal vorm. Die terme kan ontleen word aan natuurlike taat -dan is dit verbaal -en kan bestaan uit een of meer woorde en selfs frases. lndekseerterme kan ook nie-verbaal wees soos die notasie-simbole van ·n klassifikasiestelsel. lndekseertale wat natuurlik taal as woordeskat gebruik, is baie vtoeibaar (vgl. 2.4.1 ). Ander indekseer -tale maak weer gebruik van gekontroleerde woordeskatte en wyk dus in mindere of meerdere mate af van natuurlike taat. Dit is bekend as kunsmatige taal omdat dit dikwels gestruktureerd is, bv.

Libraries, Children's of 027.6

'n Ktassifikasietelsel se notasie is die uiterste vorm van gestruk-tureerde taat.

Kunsmatige ta at stel mens in staat om eerder konsepte as afsonder-like woorde te indekseer. lndekseerterme se betekenis is dikwels meer omvattend as dieselfde woorde in natuurlike taal. Dit maak nie saak hoeveel woorde 'n konsep beskryf nie, maar deur middel van kunsmatige taal kan 'n indekseerterm geskep word wat gelaai is met betekenis. 'n lndekseerterm is dus 'n "opsomming" van die kons ep-tuele inhoud van die dokument.

Vickery (1971, p. 71) beskryf indekseerterme as "boublokke" van die indekseertaat. Verder beweer Spark Jones en Kay (1973, p. 46) dat indekseertale oor die algemeen parasities van aard is ten

(13)

opsigte van natuurlike taal, omdat hulle in so 'n groat mate afhanklik is van natuurlike taal. (Dit geld natuurlik net verbale indekseertale). Hulle is egter meer logies en eenvoudiger as natuurlike taal. Die Jogika van die indekseertaal bepaal grootliks die doeltretfendheid van indeksering. lndekseertale het gewoonlik 'n verminderde woordeskat en die struktuur is vaster as by natuurlike taal, omdat hulle afge -bakende funksies het om te verrig.

2.2 lndekseertaal as tussentaal

Die begrip "indekseertaal" is die eerste keer gebruik deur Cleverdon ec al. ( 1966) in hulle verslag oor die evaluering van sekere indek-seringstelsels aan die Cranfield College of Aeronautics in England.

Boon (1979, p. 6) definieer 'n indekseertaal as '"n kunsmatige tussentaal wat slegs daargestel is om kommunikasie tussen die gebruikers van inligting en die inhoud van inligtingsbronne te bewerkstellig." Hutchins (1975. p. 33) noem dit 'n "metataal". 'n Metataal is die taal wat gebruik word om

ror

'n ander taal - die voorwerptaal - te praat. So kan Afrikaans gebruik word om oor wiskundige simbole - wat op sy beurt 'n simboletaal is - te praat. Afrikaans kan ook sy eie metataal wees, bv. die woord "hond" word met vier letters gespel, dit beteken 'n harige dier met vier pote, 'n stert, wat kan blaf, ens. 'n lndekseertaal kan as so 'n tussentaal beskou word, want dit "praat" of beskryf 'n ander taal, naamlik die natuurlike taal wat in dokumente voorkom. 'n lndekseertaal kan egter nie sy eie tussentaal wees nie, want hy kan homself nie beskryf nie. 'n Ander taal, soos natuurlike taal of 'n ander kunsmatige taal, moet weer optree as die tussentaal van indekseertaal.

Die belangrikste funksie van 'n indekseertaal is om die kommuni-kasieproses tussen 'n dokument en 'n navraer na daardie dokument, te bevorder. Dit moet poog om die inligtingsvloei sonder haakplek te laat verloop. Die praktyk het bewys dat sekere indekseertale beter daartoe in staat is om die inligtingsoordrag glad te laat verloop as ander. Die voor-die-hand-liggende rede hiervoor le daarin opgesluit dat sommige indekseertale struktureel beter geskik is om dit te doen as ander.

(14)

2.3 Pre- en postkoordinaatindel<seertale

By indeksering word sekere terme gekies om die konseptuele inhoud van 'n dokument weer te gee. By post-koordinaatstelsels word die konsepte uitgedruk in 'n aantal enkelvoudige terme of deskriptore.

Elke term kry 'n aparte inskrywing in die leer. Gestel 'n dokument handel oor die ventilering van steenkoolmyne, dan sou die volgende terme daaraan toegeken word: ventilasie, steenkool, myne. Die woorde wat in die teks self voorkom, word hoofsaaklik as indekseer-terme gekies. Post-koordinaatindekseertale gebruik dus natuurlike taal in die woordeskat. Wanneer 'n navraer dokumente soek oor bogenoemde onderwerp, word al die moontlike enkelvoudige terme wat van toepassing sou wees, op mekaar geprojekteer of gekoor-dineer en daardie dokument(e) wat al die terme gemeenskaplik bes it, sal relevant wees ten opsigte van die navraag.

By pre-koordinaatindeksering word gepoog om die hele konseptuele inhoud van die dokument deur middel van 'n enkele term weer te gee, bv.

Steenkoolmyne - Ventilasie, of 622.33:622.41

Die koordinasie van toepaslike terme vind reeds by die indekseer-stadium plaas. Hierdie gekoordineerde term word as indekseerterm toegeken en by die navraag moet die navraer onder daardie term soek om die dokumentte herwin. Dieverskil tussen pre-en postkoordinaatindek

-seertale le dus in die stadium wanneer termkoordinasie plaasvind.

Die intellektuele arbeid verbonde aan die kondensasie van dokument-inhoud in ·n pre-gekoordineerde term is groat. Boon (1979, p. 7) onderskei die volgende stappe in hierdie proses:

*

Analise van dokument en identifisering van inligting;

-II _{identifisering van verwantskappe tussen die verskillende}

inlig-tingseenhede;

*

'n sintaktiese fase waar die orde van die inligtingseenhede bepaal word;

(15)

* normalisering van konsepte wat die inligtingseenhede omskryf: 'n omskakelingsfase (in indekseerterm)

'n semantiese en sindetiese lase waar semantiese en

generiese verwantskappe vasgestel word.

Hoewel die inset baie intellektuele inspanning vereis, geskied die soekproses veel makliker, want termkoordinasie het reeds

plaas-gevind. By post-koordinaattale is die inset weer maklik. Feitlik geen

intellektuele inspanning word vereis om natuurlike taalterme wat in die dokument voorkom, te selekteer as indekseerterme nie. Soms

word egter wel 'n saaktermlys - 'n tesourus - gebruik om terme te

kontroleer, maar hierdie lys bestaan ook uit enkelvoudige,

onge-koordineerde terme. By die soekproses egter word intellektuele inspanning vereis as termkoordinasie plaasvind om die komplekse

konseptuele inhoud te weerspieel. Lancaster (1972, p. 5) noem dat

post-koordinasie dit moontlik maak om terme na willekeur te

mani-puleer by die soekproses, terwyl pre-koordinaatindekseertale nie

hierdie fasiliteit bied nie. By laasgenoemde is die termverwantskappe

vas in die struktuur van die indekseertaal (vgl. 2.5.2.1.1)

2 .

4

Woordeskatbeheer

2.4.1 NATUURLIKE TAAL EN GEKONTROLEERDE TAAL

Meeste natuurlike tale is ryk aan sinonieme en kwasie-sinonieme.

Gestel 'n aantal dokumente gebruik in die teks die term "antennas" en

dit word as indekseerterm gekies. Op 'n ander stadium word

dokumente ge·indekseer wat die term "lugdraad" gebruik en dit word

op sy beurt as indekseerterm gekies. So gebeur dit dat dokumente

wat oor dieselfde onderwerp handel, onder verskillende terme

ge·indekseer is. As daar by herwinning net onder een term gesoek

word, sal net 'n gedeelte van die dokurnente herwin word. Die

herwinningstelsel bly dus in gebreke om alle relevante dokumente

te herwin omdat daar nie kontrole oor die indekseertaal uitgeoefen is nie. Die herwinningsprestasie van die stelsel ly gevolglik onder 10

(16)

onvoldoende terminologiese beheer. As egter besluit word om vir alle

dokumente oor hierdie onderwerp slegs die term "antennas" te gebruik, sal al die dokumente herwin word. Die moontlike terme wat van toepassing is op 'n onderwerp word gekontroleer en 'n lys van sulke terme vorm 'n beheerde of gekontroleerde woordeskat. Vir die

navraer wat onder "lugdrade" soek in die indeks, word 'n verwysing gemaak na die term "antennas".

Die belangrikste rede vir die gebruik van 'n beheerde woordeskat is om die hoeveelheid relevante dokumente wat herwin word deur 'n bepaalde indekseerterm, te verhoog. Die mikpunt van die beheerde

woordeskat is om die veelvuldigheid van woorde in natuurlike taal te

konsentreer in 'n kleiner groep van terme met 'n meer afgebakende

betekenis (Vickery, 1965, p. 47). Terminologiese beheer verseker dat

beide indekseerder en navraer dieselfde term gebruik. 'n Beheerde woordeskat is veral belangrik by konsepindeksering. Needham (1971, p. 240) meen dat die grootste rede vir die swak prestasie van inligtingsherwinningstelsels daarin le dat die verhouding tussen term en konsep soms nie duidelik blyk nie en dat terme dikwels swak gekies is om konsepte te weerspieel. Heelwat navorsing is al gedoen deur persone soos D. Austin, B.C. Vickery, D.J. Foskett, en andere, om

termverwantskappe by konsepindeksering te bepaal. Onlangse werk

deur die Classification Research Group het vasgestel dat daar vyf kategoriee van konsepte ge·identifiseer kan word by indeksering, nl. entiteite (konkrete dinge), handelinge, abstrakte dinge, hoedanig

-hede (kwaliteite, bv. liggaamlike gestremtheid) en heterogene kon

-septe (gewoonlik kon-septe wat opgedeel kan word in meer as een, bv.

demografie

=

statistiek

+

populasie) (Foskett, 1977, p. 59).

2.4.2 STANDAARDISERING VAN INOEKSEERTERME

In 'n beheerde woordeskat word terme gestandaardiseer om te

verseker dat daar ooreenstemming tussen terme sal wees by

indeksering sowel as by die soekproses. Woordeskatbeheer is nodig in die geval van sinonieme, kwasie-sinonieme, woordvorme (ver

-buigings, agtervoegsels, enkel- of meervoud, ens.), antonieme en

(17)

self-standige naamwoorde as indekseerterme, en dan verkieslik in die meervoudsvorm. Werkwoorde word net in die gerundium gebruik, bv.

pollination vs. pollinate dissection vs. dissect

Die gebruik van byvoeglike naamwoorde word gewoonlik beperk, maar soms is hulle onontbeerlik om hoedanighede aan te dui, bv.

airborne mobile

Homograwe se betekenis word gewoonlik tussen hakies aangedui, bv.

Pitch (football) Pitch (music) Pitch (slope)

Hutchins (1975, p. 20) gee die volgende rede vir die voorkeur van selfstandige naamwoorde as indekseerterme: naamwoordelike styl korn meer algemeen in geskrewe taal voor as in gesproke taal en ook meer in wetenskaplike, tegniese en akademiese literatuur as in letterkundige werke. Gebruikers van indekseertale is oor die alge

-meen die lesers van sulke literatuur en hulle het geen probleem om so 'n snoer van selfstandige naamwoorde te interpreteer nie. As 'n tweede rede voer hy aan dat Engels (wat die ta al van die twee gekose indekseertale is) en meeste Westerse tale, makliker selfstandige naamwoorde kan vorm as wat dit die geval is om werkwoorde en byvoeglike naamwoorde te vorm: " ... almost any adjective or verb can be nominalised in some way or another, while on the other hand the formation of adjectives and verbs from nouns is rarely so easy."

Dit is nie die bedoeling om hier 'n gedetailleerde ontleding te gee van alle moontlike rededele wat indekseerterme kan aanneem nie. Dit

(18)

sou te omvangryk wees, want behalwe die paar wat hier genoem is, is daar nag die aangeleentheid van verskillende spelwyses, direkte of indirekte inskrywings, afkortings, punktuasie, ens. Sommige van hierdie sake sal betrek word in hoofstukke drie en vier. Wat op hierdie

stadium egter belangrik is om te beklemtoon, is dat die

standaar-disering van terme saamhang met die spesifiekheid van die indek-seertaal, en dat dit op sy beurt weer invloed het op die prestasievermoe van die indekseringstelsel. Gestandaardiseerde terme verseker dat konsepte duideliker gedefinieer word sodat dubbelsinnighede uit die weg geruim word.

2.4.3 SPESIFIEKHE/0 VAN DIE WOORDESKA T

Spesifiekheid van die indekseerterme be·,nvloed die prestasievermoe van die indekseertaal. As konsepte nie akkuraat en spesifiek gedefi-nieer is nie, lei dit tot die herwinning van nie-relevante dokumente. 'n Redelike mate van spesifiekheid is essensieel by alle

indekseer-tale. Wanneer die indekseertaal slegs dokumente onder bree, alg

e-mene terme kan herwin, is hy waardeloos, want dan moet die gebruiker na herwinning nag 'n klomp dokumente deursoek om relevantes van nie-relevantes te skei. Needham (1971, p. 244) meen dat die graad van spesifiekheid be·,nvloed word deur literere verant -woording, dit wil se dat die indekseerterme wat gekies word uit die woordeskat in die teks van die dokument, 'n hoer mate van spesifiek-heid toon as wat andersins die geval sou wees. Dit is wel waar, maar die probleem van gebrek aan terminologiese beheer kom dan weer ter sprake. 'n Ander faktor wat volgens Needham oak invloed op die spesifiekheid van die indekseertaal het, is gebruikersbehoeftes. ·n Gebruikersgemeenskap wat bestaan uit gespesialiseerde tegnici sal eerder 'n indekseertaal met ·n hoe graad van spesifiekheid verlang as 'n heterogene gemeenskap. Terugvoer na gebruikers bly altyd be-langrik by die bepaling van die graad van spesifiekheid van die indekseertaal.

Aitchison en Gilchrist ( 1972, p. 20) wys egter daarop dat 'n indekseer-taal wat te spesifiek is ook weer probleme bied. Die hoeveelheid indekseerterme neem toe by 'n hoer graad van spesifiekheid en dit

(19)

verg meer intellektuele inspanning en tydsbesteding om dokumente volgens so ·n hoe graad van spesifiekheid te indekseer. Die probleem van termkeuse word groter hoe meer spesifiek die indekseertaal is. Veranderings en aanpassings moet ook gereeld gemaak word om die spesifiekheidspeil te handhaaf (nuwe terme word gevorm vir nuwe ontwikkelings en uitvindings). In sekere omstandighede is 'n laer vlak van spesifiekheid dus meer gewens. Daar sal egter nie in hierdie studie daarop ingegaan word nie.

2.4.4 TOEGANGSWOORDESKAT EN /NDEKSERINGSWOORDESKA T

Meeste natuurlike tale is ryk aan sinonieme en kwasie-sinonieme.

Ware sinonieme is woorde wat presies dieselfde betekenis het, maar vir die doe I van verbale indekseertale word hierdie maatstaf verbreed

sodat verskillende terme wat dieselfde konsep kan omskryf, ook as

sinonieme beskou word. Dit kan as volg ge"illustreer word: as 'n navraer

onder term A soek maar geen dokumente herwin nie, en hy is bereid om dokumente wat deur middel van term B herwin is, as relevant te

aanvaar, kan gese word dat term A sinoniem is aan term B. Term B kan dan vir term A gesubstitueer word.

Uit al die moontlike terme wat 'n konsep kan uitdruk, word een voorkeurterm gekies wat as indekseerterm gebruik word vir alle dokumente wat daardie konseptuele inhoud het. Hierdie

voorkeur-terme vorm saam die

indekseringswoordeskat.

Vanaf die ander

sinonieme terme wat nie gekies is nie word kruisverwysings gemaak

na die voorkeurterm, bv. Footpaths

see

Trails

Al die sinonieme terme plus die voorkeurterme vorm saam die

toegangswoordeskat

.

Dit is die globale woordeskat van die

indekseer-taal waardeur die navraer toegang tot die indekseerterme kry. Kochen en Tagliacozzo (1968, p. 174) onderskei nog 'n

navraag-woordeskat

ook. Dit is die woorde van die natuurlike taal waarmee die

(20)

navraer na die inligtingsherwinningstelsel kom. Baie van hierdie woorde sal in die toegangswoordeskat voorkom, maar soms moet die navraer sy gedagtes herformuleer en op 'n ander wyse uitdruk wat meer in pas is met die terminologie van die indekseertaal. Ashy dan duidelike termdefinisies gevorm het, gaan soek hy daaronder in die toegangswoordeskat.Diagrammaties word hierdie woordskatte voorge

-stel soos in figuur II.

n avra agwoordeskat

toegangswoordeskat

i ndekseri ngswoordeskat

Fig. II

Die indekseringswoordeskat en toegangswoordeskat van 'n indek -seertaal be"invloed grootliks sy herwinnings- en presiesheidspres -tasie. Hoe grater die indekseringswoordeskat, hoe meer unieke klasse of kategoriee dokumente kan ge"identifiseer word en hoe kleiner sal elke klas in omvang wees. 'n lndekseerterm wat so 'n klas beskryf sal dus meer spesifiek wees wat weer veroorsaak dat die

(21)

indekseertaal beter presteer. Die toegangswoordeskat aan die ander kant, reflekteer die mate van uitputtendheid van indeksering, dit wil se of die volledige onderwerpsinhoud van 'n dokument ge"indekseer is of nie. Die toegangswoordeskat beheer dus die herwinningskapa-siteit van die stelsel. Hoe meer uitputtend 'n dokument ge"indekseer is, hoe meer terme sal daar in die woordeskat wees. Die belangrik-heid van 'n ryk toegangswoordeskat word dikwels misgekyk. Die ideaal is dat die toegangswoordeskat alle betekenisvolle woorde en frases moet bevat wat ge·identifiseer is tydens die konseptuele analise van die dokument asook woorde en frases wat in die navraag mag voorkom. Dit is egter prakties nie altyd moontlik nie (Lancaster,

1968, p. 82-83).

2.4.5 DIE WAARDE VAN WOORDESKATBEHEER

Uit die voorafgaande bespreking het die waarde van woordeskat -beheer alreeds geblyk. Samevattend kan hier gese word dat dit belangrik is vir opvolgende herwinning as die toekenning van indekseerterme volgens 'n vaste patroon plaasvind en dat dieselfde onderwerp altyd deur dieselfde term beskryf word. Dit is egter nie net belangrik vir herwinning nie, maar ook vir indeksering self. As geen woordeskatbeheer plaasvind nie, kan verskillende indekseerders of dieselfde indekseerder op verskillende stadiums, verskillende terme toeken aan dieselfde dokurnent. Die indeksering geskied dan nie konsekwent nie. Vickery (1965, p. 33) noem die volgende redes vir

woordeskatbeheer:

" as ekonomiese maatstaf om die omvang van die indekseertaal te beperk;

* as standaardiseringsmaatreel;

* om relevansie te verhoog by herwinning.

Lancaster ( 1972, p. 2) wys daarop dat woordeskatbeheer nie invloed op konseptuele analise van dokurnente behoort te he nie. Die analise vind eers plaas en daarna word die konsepte "vertaal" in die terrne van die indekseertaal.

(22)

2.5 Termverwantskappe

In 2.4.3 is aangetoon dat woordeskatbeheer die relevansie van herwinde dokumente verhoog omdat die indekseerterme duideliker afgebaken en gedefinieer word. Die terrne is dus meer spesifiek. 'n Ander faktor wat die spesifiekheid van 'n indekseertaal verhoog is die aanduiding van verwantskappe tussen indekseerterme (Vickery, 1965, p. 35). Die aanduiding van termverwantskappe verminder die verstrooiing van verwante terme en dit dra ook by tot duideliker termdefinisie. Termverwantskappe is 'n onvermydelike uitvloeisel van woordeskatbeheer en is 'n tipiese eienskap van pre-koordinaatindekseer -tale. By post-koordinaatindekseertale speel termverwantskappe nie 'n rol nie omdat die enkelvoudige konsepte waaronder 'n dokurnent ge"indekseer word, by herwinning eers op mekaar geprojekteer word. Omdat termverwantskappe nie aangedui word nie, kan vals koor-dinasies ontstaan, bv. as 'n dokument wat handel oor "the training of teachers", ge"indekseer word onder die terme "training" en "t ea-chers", sal by herwinning ook dokumente wat handel oor "training by teachers" opgespoor word. Die gebrek aan termverwantskappe lei tot die herwinning van ontoepaslike dokumente. Soergel (1974, p. 4) wys daarop dat onvoldoende aanduiding van termverwantskappe en terminologiese beheer, kan lei tot beide onderherwinning - toepa s-like dokumente word nie opgespoor nie - en oorherwinning - nie -toepaslike dokumente word opgespoor.

Daar word twee tipes termverwantskappe onderskei. Die eerste tipe het te doen met die herkenning van

verwante

terme, of konsepte, waar een term verbind word met 'n klas of groep ander terrne waaraan dit verwant is. Hierdie tipe verwantskap is permanent - a

priori

-

en is by implikasie aanwesig in daardie terrne, bv. leeus is altyd verwant aan tiers orndat hulle aan dieselfde genus, naarnlik karnivore, behoort. Hierdie permanente verwantskap tussen terme is onafhanklik van die dokumente waarin dit voorkorn. Dit le opgesluit in die betekenis van die terme, dit wil se dit is sernanties van aard (Austin, 1972, p. 168).

(23)

terrne of konsepte, dit wil se hoe konsepte saam in 'n dokument voorkom. Hierdie verwantskap is toevallig - a posteriori- en is nie by implikasie aanwesig nie. 'n Dokument handel bv. oor die afrigting van leeus as sirkusdiere. Leeus is nie van nature sirkusdiere nie, maar in die dokument word hierdie twee konsepte saam gebruik en ontstaan daar 'n toevallige verwantskap tussen hulle. Hierdie tipe verwant-skap is sintakties. van aard (Austin, 1976, p. 168).

Heelwat skrywers soos Foskett ( 1977), Austin ( 1976), Hutchins (1975), Needham (1971) en andere, gebruik die terme "paradig-matiese" verwantskap vir die semantiese en "sintagmaties" vir die sintaktiese. Ponelis (1973, p.7) noem die opeenvolging van "taal

-bousels" (morfeme, woorde en woordgroepe) 'n sintagma. Die taalreels bepaal dat die taalbousels in 'n vaste verhouding of volgorde tot mekaar staan, anders het dit nie betekenis nie. Die termvolgorde hou in dat elke taalbousel 'n bepaalde plek in die sintagma inneem

- vandaar die sintagmatiese verwantskap. In die basiese sintagma kom daar 'n reeks plekke voor, bv. "voel siek" het twee plekke.

Gewoonlik kan op 'n bepaalde plek meer as net een moment optree,

bv. in plaas van "voel siek" kan die volgende gebruik word: ervaar krankheid, ondervind olikheid, ly pyn, ens. Die versameling momente wat op 'n bepaalde plek kan voorkom, word 'n paradigma of klas genoem. Die paradigma waarin "siek" voorkom, is dan "siek, krankheid, pyn, olikheid."

Sintaksis en semantiek gaan hand aan hand. Dit behoort beskou te word as twee verskillende aspekte van dieselfde ding. 'n Sin kan aan

elke vereiste vir goeie sintaksis voldoen en nogtans betekenisloos wees. Foskett (1977, p. 94) gebruik Noam Chomsky se klassieke voorbeeld om dit te illustreer:

Colourless green ideas sleep furiously

Netso kan dieselfde woorde met verskillende sintaktiese verhou

-dings, totaal verskillende betekenisse he:

Gidshond vir die blinde Vir die blinde gidshond

(24)

Die trefkrag van 'n indekseertaal en sy sensitiwiteit vir konserte. is dus nie alleen 'n aangeleentheid van woordeskat nie. rnaar ook van sintaksis.

2.5.1 SEMANTIESE VERWANTSKAPPE BY INDEKSEERTALE

As 'n navraer onder 'n bepaalde term soek en geen, of verkeerde dokumente word herwin, ontstaan die vraag dadelik by horn onder

watter ander terme hy kan soek. Daarom is dit gewens om 'n lys van

terme te he wat aantoon watter terme gesubstitueer kan word. Andersyds verlang 'n navraer dikwels leiding in sy soektog. Hy soek moontlik onder 'n bree, algemene term wat nie die verlangde onderwerp spesifiek omskryf nie. As die indekseertaal dan ander

verwante terme aantoon, vind hy miskien een wat beter sou pas by sy

onderwerp. Deur die aanduiding van sulke verwante terme kan 'n

hele semantiese netwerk opgebou word. Kochen en Tagliacozzo (1968, p. 174) stel dit so dat 'n semantiese netwerk nie alleen 'n soekapparaat is nie, maar ook 'n opvoedkundige apparaat. Die aantoon van semantiese verwantskappe stel die navraer in staat om

sy soekstrategie te verbreed of in te kort. Hy kan dan self die

indekseertaal manipuleer al na gelang van sy behoeftes.

2.5.1.1 Soorte semantiese verwantskappe

Semantiese verwantskappe by verbale indekseertale vind uiting in die struktuur van die woordeskat. By nie-verbale indekseertale blyk dit uit die hierargie van die klassifikasiestelsel self. Daar is drie groepe semantiese verwantskappe, nl. ekwivalent, hierargies en nie

-hierargies of assosiatief (Aitchison en Gilchrist, 1972, p. 26; Foskett,

1977, p. 63-66).

2.5.1.1.1 Ekwivalente verwantskap

Dit word aangedui wanneer terme met dieselfde betekenis of wat

dieselfde konsep verteenwoordig, saamgegroepeer word in 'n groep. Een van die ekwivalente terme word as voorkeurterm gekies en vanaf

(25)

die nie-voorkeurterme word kruisverwysings gemaak. Hierdie ver-wantskap word gebruik by sinonieme, kwasie-sinonieme en woord-vorme. In enige taal is ware sinonieme skaars. Daar is gewoonlik 'n subtiele betekenisverskil of verskil in gesigspunt tussen woorde met sogenaamd dieselfde betekenis, bv. jok en lieg, oponthoud en

vertraging. Ware sinonieme kom meer voor in natuurwetenskaplike

terminologie as in algemene taal. Ware sinonieme word volgens Aitchison en Gilchrist (1972, p. 27) in vyf tipes verdeel:

* handelsname, bv. asperien - asetielsa/isielsuur

* verskillende woordstamme, bv. geografie - aardrykskunde * verouderde terme, bv. draadloos - radio

* streekstaal, bv. aalwyn - aa/wee

* populere terme, bv. atletiese voete - tinea pedis.

Wat kwasie-sinonieme betref, is dit in die belang van inligtingsher-winning om die subtiele verskille te ignoreer en sulke terme as ekwivalent te beskou. Dit voorkom die verstrooiing van dokumente wat oar dieselfde tema handel en verhoed dat die navraer onder 'n aantal gelykwaardige terme moet soek. Sodoende bly die konsep-tuele struktuur van die indekseertaal stabiel. Kwasie-sinonieme word bv. in die volgende gevalle aangetref (Aitchison en Gilchrist, 1972, p. 28):

* terme wat verskillende gesigspunte van dieselfde eienskap verteenwoordig, bv. grofheid en gladheid, stabiliteit en onstabi-liteit. Eintlik is hierdie antonieme, maar die een eienskap kan in terme van die ander een uitgedruk word. In die indekseertaal word dit dan as sinonieme beskou en een van hulle as voorkeurterm gekies met 'n verwysing vanaf die ander; * terme wat aansienlik oorvleuel, bv. akkuraatheid en

presies-heid, genetika en oorerwing;

* spesifieke terme wat omvat word deur breer terme, dit wil se konsepte wat te spesifiek is vir die betrokke indekseertaal, kan beskou word as kwasie-sinonieme van die breer konsep, bv. as die term 'graan gewasse· gebruik word vir 'koring·, 'rag·, 'gars', 'hawer·. ens.

(26)

In alle gevalle van kwasie-sinonieme word die ekwivalente verwant -skap aangedui deur kruisverwysings. Ekwivalente verwantskap kan

diagramrnaties voorgestel word soos in figuur Ill. Equestrianism

Equitation Horsemanship

Riding

Fig. Ill 2.5.1.1.2 Hierargiese verwantskap

Hierargiese verwantskappe word in die indekseertaal aangedui met die doel om die regte vlak van spesifiekheid te verkry. Hierdie tipe verwantskap blyk duidelik in terme uit die biologiese wereld, maar ook in ander vakterreine. In der waarheid is 'n klassifikasiestelsel grootliks gebaseer op hierargiese verwantskap. Aitchison en Gil -christ ( 1972, p. 28-30) dee I dit as volg in:

* Ware hierargiese verwantskap. Dit sluit in -genus/ spesieverwantskap, bv. Hond (genus) Labrador (spesie) Virussiekte (genus) Masels Verkoue -entiteit/soortverwantskap, bv. Skole (entiteit) hoerskole (soort) laerskole kleuterskole

(27)

*

Geheel/deelverwantskap. Hoewel dit nie generies van aard is nie, word dit gerieflikheidshalwe ook as hierargiese verwant-skap gereken by indekseertale, bv.

Suid-Afrika (geheel) Pretoria (deel)

Polihierargiee. Dit is terme wat voorkom in meer as een hierargie en dit behoort in die indekseertaal aangedui te word, bv.

l<eyboard instruments

s

e

also

Piano

Percussion instruments

see

alsoPiano

Anders as in die geval van ekwivalente verwantskap, word by hierargiese verwantskap nie 'n voorkeurterm gekies nie, maar al die hierargiese terme word as indekseerterme gebruik.

By verbale indekseertale word hierargiese verwantskappe aangedui deur middel van simbole of afkortings, nl. "sa" (see also) en "xx" (geskakel met 'n breer term) by LCSH en BT ("broader term") en NT ("narrower term") in die PRECIS-tesourus, bv.

Food sa Bread Bread xx Food Food NT Bread Bread BT Food

Die verwantskap word dus multihierargies aangedui, nl. afwaarts en opwaarts in die hierargie. By die uitskryf van die volledige skakel-verwysings, is die verwantskap egter net monohierargies, bv.

Food

'

t

multihierargies Gardening Fig. IV

2.5.1.1 .

3 Assosiatiewe

verwantskap

Hierdie verwantskap bestaan tussen terme wat konseptueel nou aan mekaar verwant is, maar nie hierargies nie. Dit is dus terme wat op dieselfde vlak is en nie breer of enger nie. Hu lie word wel met mekaar geassosieer. Dit moet nie met ekwivalente verwantskap verwar word nie. Daar word ·n voorkeurterm gekies, maar in hierdie geval word al die assosiatiewe terme as indekseerterme gebruik. Aitchison en Gilchrist (1972, p. 29-30) onderskei onder andere die volgende assosiatiewe verwantskappe:

* *

spesies van dieselfde genus, bv. lemoene -

nartjies;

entiteit/deel, bv.

deure -

skarniere

* entiteit/eienskap, bv.

seep -

reiniging

;

* entiteit/proses, bv.

temperatuur -

verhitting

;

* entiteit/toepassing, bv.

foto-elektrisiteit

-

ligmeters

;

*

entiteit/ entiteit as kenmerk, bv.

kernenergie

-

kernkragsentrale

Al die assosiatiewe verwantskappe word in die verbale indekseertaal aangedui deur skakelverwysings wat na weerskante gemaak word. bv.

Oranges Lemons

see

also

Lemons

see

a

lso

Oranges

(29)

Oranges RT Lemons

Lemons RT Oranges By 'n klassifikasiestelsel behoort die notasie die gelykheid van onderwerpe aan te dui, bv.

820 ;

830;

840;

850

In figuur V word assosiatiewe verwantskap diagrammaties voor-gestel.

.__P_lu_m_b_in_g _

__,I< 1

Gas-fitting

l,ErC...--1,..

~ipe-fitting Fig. V

2.5.1.2 Die funksie van semantiese verwantskappe

Die funksie van semantiese verwantskappe het alreeds in 'n sekere mate geblyk uit die voorafgaande uiteensetting. Samevattend kan hier gese word dat 'n netwerk van semantiese verwantskappe in die indekseertaal, die trefwydte van die soekstrategie verbreed deurdat substitute of addisionele terme gesuggereer word. Die funksie van so

'n netwerk is dus om die herwinningsprestasie van die indekseertaal te verhoog. Foskett (1977, p. 71) wys daarop dat hierdie funksie soms uitgevoer word ten koste van relevansie omdat 'n gesubstitueerde term miskien te breed is vir 'n navraer se onderwerp. Aan die anderkant kan dit ook weer relevansie aanhelp wanneer 'n navraer by

'n bree term begin soek en hy op ·n meer spesifieke term in die hierargie afkom.

2.5.2 SINTAKTIESE VERWANTSKAPPE BY INDEKSEERTALE

Sintaktiese verwantskappe dui die verhouding van woorde tot me-kaar aan in 'n saamgestelde term of frase, sodat dubbelsinnighede uitgeskakel word. As 'n dokument bv. ge·indekseer word onder "violence" en "child~en", sal die stelsel dokumente herwin wat handel o "violence to children" sowel as "violence by children", want die sintaktiese verwantskap tussen die terme is nie aangedui

(30)

nie. Sulke vals koordinasies kan grootliks uitgeskakel word deur die gebruik van sintaktiese verwantskapsaanduiders. Pre-koordinaatin -dekseertale leun swaar op sintaksis terwyl dit by post-koordinaat -indekseertale 'n klein rol speel.

2.5.2.1 Soorte sintaktiese verwantskappe

Needham ( 1971, p. 24 7-249), Foskett (1977, p. 79-80) en andere onderskei twee soorte sintaktiese verwantskappe, naamlik die wyse waarop terme gekoordineer word (termvolgorde) en die gebruik van verwantskapsmeganismes by terme, bv. rolaanwysers, funksie-woorde, ens. Die sintaktiese struktuur van 'n indekseertaal kan implisiet of eksplisiet wees. As dit implisiet is, blyk dit uit die termvolgorde self, bv.

Table setting and decoration

Wanneer dit eksplisiet is, blyk dit uit die gebruik van verwantskaps -meganismes soos funksiewoorde of punktuasie, bv.

Cruelty by children Cruelty to children

Jews - Dietary laws

2. 5. 2. 1. 1 T ermvolgorde

By

natuurlike taal is die funksie van woordorde bloot die van betekenisaanduiding. By indekseertaal is dit egter meer. Dit hou ook in die manipulasie van klasse en groepe dokumente om herwinning te vergemaklik, dit wil se die termvolgorde het ook rangskikkings-waarde. (Terrnvolgorde in hierdie verband is ter sake waar saam-gestelde terme in die indekseertaal gebruik word.) Die vraag mag wel ontstaan waarom natuurlike taalfrases nie per se gebruik kan word nie en waarom al die moeite gedoen word om 'n kunsmatige sintaksis te konstrueer. Die antwoord le in die rekbaarheid en vloeibaarheid van natuurlike taal. Dieselfde konsep kan op verskillende wyses weer

(31)

-gegee word soos alreeds voorheen ge·illustreer is (vgl. 2.4.1) en die gevolg hiervan is dat herwinning benadeel word. Dit is dus wenslik, netsoos in die geval van semanties ekwivalente terme, om ook sintakties ekwivalente terme te kontroleer deur die konsekwente gebruik van 'n vaste vermeldingsorde. Dit verseker dat dieselfde saamgestelde konsep altyd met dieselfde term ge·indekseer word, afgesien van hoe dit in die literatuur voorkom. Hierdie konsekwent-heid is belangrik vir die indekseer- sowel as in die soekproses. Termvolgorde as sintaktiese apparaat geld spesifiek ten opsigte van enumeratiewe pre-koordinaatindekseertale. (By post-koordinaatin-dekseertale word enkelvoudige konsepte gebruik vir indeksering). 'n Pre-koordinaatindekseertaal moet voorsiening maak vir enkelvou-dige sowel as saamgestelde konsepte, en poog om vir beide 'n plek in die woordeskat in te ruim. Die gevolg is dikwels lomp indekseerterme soos wat by LCSH voorkom, bv.

Geographical distribution of animals and plants

waar die hele saamgestelde konsep deur 'n enkele pre-gekoordineerde term uitgedruk word. By die soekproses moet dieselfde termvolgorde gebruik word anders sal daardie dokument nie herwin word nie. Vergelyk bv. "teaching career" en "career teacing", of 823 (Engelse fiksie) en 832 (Duitse drama).

2.5.2. 1 .2 Verwantskapsaanduiders

Verwantskapsaanduiders is skakelmeganismes om die toevallige

_'Lerwantskap tussen konsepte wat saam in die dokument voorkom, aan te dui. By sintetiese indekseertale - dit wil se indekseertale waar verskillende fasette van 'n onderwerp bymekaar gevoeg kan word om 'n saamgestelde indekseerterm te vorm - word in ·n groter mate gebruik gemaak van enkelvoudige konsepte as by enumeratiewe indekseertale - indekseertale wat poog om alle moontlike enkel-voudige sowel as saamgestelde onderwerpe in die woordeskat te lys.

(32)

( )

Daarom word reels neergele vir die konstruering van saamgestelde

konsepte deur die gebruik van verwantskapsaanduiders. Hierdie

verwantskapsaanduiders kan funksiewoorde wees, punktuasie, en tekens of simbole bv.

Cataloging of moving-pictures Maoris - Rites and ceremonies

( 1) furniture Si oak S k dark

327(42:44)

=

30 (UDK)

(LCSH) (LCSH) (PRECIS)

2.5.2.2 Die funksie van sintaktiese verwantskappe

Waar semantiese verwantskappe die herwinningsprestasie van die

inligtingstelsel verhoog, VE:rhoog sintaktiese verwantskappe weer

hoofsaaklik die relevantheidsprestasie (presieslleid) van die stels_!:!I

deurdat dit die spesifjekheid van die indekseerterme self, verbeter.

Deur die aanduiding van sintaktiese struktuur word vals koordinasies wat mag ontstaan, uitgeskakel en die moontlikheid dat nie-relevante dokumente herwin word, word verminder. Dit lei tot meer selektiewe herwinning wat inhou dat die stelsel 'n hoer presiesheidsvermoe het.

2.6 Die invloed van grammatikale struktuur by indekseertale op herwinning en presiesheid van inligtingsherwinningstelsels.

Die indekseertaal speel 'n deurslaggewende rol by inligtingsont

-sluiting en -herwinning. 'n lndekseertaal met 'n goed deurdagte konseptuele struktuur verseker dat indeksering plaasvind op 'n

bevredigende vlak van algemeenheid en spesifiekheid, dit verge

-maklik die soekprosedure, en dit verseker dat herwinning suksesvol

plaasvind. Lancaster (1972, p. 185) stel drie basiese vereistes aan 'n indekseertaal:

* om indekseerders in staat te stel om die onderwerpsinhoud van

dokumente op 'n konsekwente wyse weer te gee;

*

om die woordeskat van die indekseerder en navraer in ooreen

(33)

•· om die middele te verskaf waarvolgens 'n navraer sy soekstra-tegie kan moduleer om in verskillende omstandighede 'n hoe mate van herwinning en presiesheid (relevansie) te bereik. Daar sal vervolgens breer ingegaan word op hierdie drie sake.

2.6.1 DIE ROL VAN DIE WOORDESKAT BY INDEKSERING

Dit gebeur dikwels dat die indekseertaal die skuld kry as 'n inligtings-herwinningstelsel in gebreke bly om verlangde dokumente op te spoor. Die algemeenste foute wat ten opsigte van indeksering voorkom is die volgende:

*

die indekseerder verstaan nie die onderwerp in die dokument nie en voer die verkeerde konseptuele analise uit;

* die indekseerder kies die verkeerde indekseerterm om die konseptuele inhoud weer te gee;

*

die indekseerder kyk 'n belangrike aspek in die dokument mis; * die indekseerder kies indekseerterme wat te algemeen is vir die

spesifieke onderwerp van die dokument, hoewel daar meer spesifieke terme in die indekseertaal is;

* die indekseerder snap wel die konseptuele inhoud van die dokument, maar is verplig om dit onder 'n algemener term te plaas omdat die indekseertaal nie spesifiek genoeg is nie (Lancaster, 1972, p. 185).

Meeste van die bogenoemde foute is die oorsaak van menslike swakhede aan die kant van die indekseerder. Eintlik is dit net die laaste fout wat aan die indekseertaal self toegeskryf kan word, hoewel dit ook 'n indirekte bydrae tot die ander foute mag lewer. Duidelike omskrywing en definiering van indekseerterme en 'n voldoende netwerk van kruis- en skakelverwysings om die i ndek-seerder leiding te gee in die keuse van terme, dra baie daartoe by om foute uit te skakel. In hierdie verband is die toegangswoordeskat van die indekseertaal veral belangrik.

(34)

Lancaster ( 1972, p. 186) wys verder daarop dat daar onderskeid gernaak moet word tussen gebrek aan spesifiekheid van die indek -seertaal en gebrek ~an spesifiekheid by indeksering. Die eerste impliseer dat daar geen spesifieke term beskikbaar is in die indek -seertaal. waarmee ·n konsep presies beskryf kan word nie, en daarom word die indekseerder gedwing om 'n algemener term te gebruik. Gebrek aan spesifiekheid by die woordeskat sal beslis veroorsaak dat die presiesheidsprestasie van die inligtingsherwinningstelsel as sodanig laag is. Daarteenoor is 'n gebrek aan spesifiekheid van indeksering die fout van die indekseerder self en kan die indekseer -taal of herwinningstelsel nie die skuld kry nie. Slamecka (1963, p. 224) wys daarop dat 'n beheerde woordeskat beide voorskrywend en suggererend is: voorskrywend in die sin van die voorkeurterm wat gekies word uit 'n aantal sinonieme of ekwivalente terme. en suggererend in die sin dat ander verwante terme voorgestel word in die netwerk van skakelverwysings. In laasgenoernde geval word die aandag van die indekseerder getrek na ander moontlike terrne orn te oorweeg of dit nie miskien meer beskrywend van die konseptuele inhoud sal wees nie.

2.6.2 DIE ROL VAN DIE WOORDESKAT IN DIE SOEKPROSES

Ook in die soekproses speel die woordeskat 'n voorskrywende en suggererende rol. Dit skryf die taal voor wat die navraer moet gebruik en lei horn van nie-aanvaarde na aanvaarde terme. Hierdie voor -skrywende rol word deur die toegangswoordeskat gespeel en ver-seker dat die taal van die navraer ooreenstem met die van die indekseerder. Die suggererende rol word gespeel deur die organi-sasie van die woordeskat, naamlik die hierargiese struktuur en verwysingsnetwerk. Dit help die navraer om die beste soekstrategie te volg wat in ooreenstemming is met sy spesifieke behoeftes, en wat sal verseker dat hy wel relevante dokumente opspoor. Hoe grater die hulp wat die indekseertaal bied deur die duidelike aantoon van semantiese en sintaktiese verwantskappe, hoe minder is die intel -lektuele inspanning wat die navraer hoef te gebruik.

(35)

2.6.3 HERWINNINGS-EN PRESIESHEIDSAPPARAAT

Die term "index language devices" is die eerste keer deur Cleverdon

et al. (1966, p. 41-42) gebruik, en hulle onderskei tussen

her-winningsapparaat en presiesheidsapparaat. Herwinningsapparaat is daardie wat verwante terme saamgroepeer in klasse of kategoriee. Sulke apparaat verminder die omvang van die woordeskat en bevorder gevolglik die herwinningsprestasie van die stelsel. Presies-heidsapparaat is daardie wat, wanneer dit saam met terme gebruik word, die betekenisvolheid van terme verhoog sodat hulle meer

trefkrag het ten opsigte van konsepte~ Hierdie apparaat verhoog die

spesifiseerbaarheid van die woordeskat en gevolglik word optimum

relevansie verkry. So styg die presiesheidsprestasie van die inlig-tingsherwinningstelsel.

Onder herwinningsapparaat ressorteer die volgende (Aitchison en Gilchrist, 1972, p. 7-8):

* toegangswoordeskat (lei na voorkeurterme)

• kontrole oor woordvorme (enkelvoud, meervoud, selfstandige naamwoorde, ens.)

* kontrole oor sinonieme en kwasie-sinonieme * strukturele verwantskap (hierargies en assosiatief) Onder presiesheidsapparaat resorteer:

* spesifiekheid van indekseerterme wat verkry word deur

- termkoordinasie

- skakels en rolaanwysers.

Hulle noem ook nog ander apparaat, soos bondelvorming ("clus-tering") en gewigtoekenning ("weighting"). Dit is nie by hierdie studie van toepassing nie, maar hoofsaaklik by rekenaarstelsels en post-koordi naatstelsels.

(36)

By pre-koordinaatstelsels is sommige van bogenoemde apparaat implisiet in die struktuur van die indekseertaal ingebou (bv. term -koordinasie). Lancaster (1968, p. 88) noem koordinasie die kragtigste presiesheidsapparaat. Koordinasie verminder die ekstensie van die aantal indekseerterme in die taal, maar verhoog die intensie van elke

term. Hy noem die voorbeeld dat waar term A gesoek word slegs in 'n konteks waar dit saam met term B voorkom, clan verminder die omvang tot AB (nie A + B nie) en so verhoog die intensie. Eweneens verminder rolaanwysers die aantal termdefinisies en verhoog die intensie van elk.

Ten slotte moet daarop gewys word dat herwinning en presiesheid altyd in 'n omgekeerde verhouding tot mekaar staan: as 'n stelsel wen aan herwinning, boet dit in aan presiesheid en omgekeerd beteken wins in presiesheidsvlak weer daling in herwinning. Dit kan deur middel van 'n hiperboliese kurwe voorgestel word (figuur VI).

Herwinning

0 I

I I I \ \ Fig. VI

Die ideale herwinningstelsel (vgl. stippellyn) sou beide 'n hoe herwinnings- en presiesheidsvlak he, maar in die praktyk is dit moeilik om te bereik omdat daar altyd sulke faktore soos koste en tyd by betrokke is.

(37)

HOOFSTUI< 3

SINTAl<TIESE VERWANTSKAPPE BY LCSH EN

PRECIS

3.1 lnleiding

Voordat daar in meer besonderhede ingegaan word op die

struktuur van LCSH en PRECIS, is dit nodig om kortliks te let op die

ontstaansomstandighede van elk, want dit het groot invloed uit -geoefen op die struktuur van die twee indekseertale.

3.1.1 AGTERGRONDSGESKIEDENIS VAN LCSH

In 1898 het die Library of Congress besluit om sy

alfabeties-geklassifiseerde katalogus om te skakel na 'n woordeboekkatalogus.

Daar was op daardie stadium geen bestaande lys van saakhoofde by

die Library of Congress wat as basis vir die samestelling van die indekseerterme gebruik kon word nie. Haykin, wat op daardie

stadium hoof van die afdeling vir saakkatalogisering van die Library of

Crongress was, stel dit as volg (V.S.A. Library of Congress. Subject

Cataloging Division, 1943, p. iii): "Such a scheme could not have

been devised at the time the library's dictionary catalogs were

begun, because there was no solid body of doctrine upon which it could be based; the guiding principles which were then in print for all to read and apply were very meager and concerned themselves

with the form of headings and their choice. They did not provide

the theoretical basis for a system of headings."

Ten tye van die besluit van die Library of Congress, het Cutter se

Rules for a dictionary catalog al sy derde druk beleef en dit was

waarskynlik dat sy werk invloed uitgeoefen het op die formulering van saakhoofde in die Library of Congress. Daar kan egter nerens

gedokumenteerde bewyse gevind word dat Cutter se reels wel as basis vir LCSH gebruik is nie. Tog blyk sy invloed duidelik in sekere

fundamentele konsepte van LCSH (Chan, 1978, p. 14). Erkenning aan

(38)

( 1972, p. 143) toe hy melding gemaak het van die invloed van Cutter op die formulering en konstruksie van LCSH. Chan (1978, p. 14) stel dit egter duidelik dat LCSH darem nie in vacuo begin is nie. Die ALA het reeds in 1895 'n List of subject headings for use in dictionary catalogs saamgestel wat as riglyn gebruik kon word. Hierdie lys was grootliks gebaseer op Cutter se beginsels. Verder is naslaanwerke soos die Decimal classification, Hprvard list of subject headings, New South Wales subject index en ander katalogusse, bibliografiee en woordeboeke geraadpleeg in die formulering van indekseerterme.

Die eerste voltooide uitgawe van LCSH is in 1914 gepubliseer en sedertdien het dit nege drukke beleef waarvan die jongste in 1980 verskyn het. Die saaktermlys bevat alle saakhoofde wat vanaf 1897 in die Library of Congress se katalogusse gebruik is. Waar dit aanvanklik nie persoonsname, name van liggame, plekke, nasionaliteite, poli -tieke eenhede, oorloe, verdrae, tale, inrigtings, godsdienstige ge-nootskappe, name van natuurlike spesies in die plant- en diereryk ingesluit het nie, sluit die jongste druk wel heelwat sulke name in. Die lys word bygewerk deur kwartaallikse supplemente wat jaarliks kumuleer. As hierdie kumulasies te omvangryk word,• word dit ge"inkorporeer by die saaktermlys en as 'n nuwe druk gepubliseer. Tans word die lys deur middel van rekenaarbeheerde setwerk gereproduseer en is daarom ook op RUM (rekenaar uitvoer mikro-vorme) beskikbaar.

LCSH het deur die jare gegroei saam met die dokumentversameling van die Library of Congress en gevolglik word die aard van die versameling in 'n groot mate weerspieel in die struktuur en termino-logie van die indekseertaal. Die sterk Amerikaanse inslag wat in die spelwyse van terme gevind word en die wye dekking van Ameri -kaanse letterkunde, geskiedenis en politiek, le daarin dat die Library of Congress as 'n nasionale biblioteek, grootliks Amerikaans geori en-teer is. Haykin (V.S.A. Library of Congress. Subject Cataloging Division, 1943, p. iii) stel dit duidelik dat die lys opgestel is volgens die aanwinste van die Library of Congress en dat dit om daardie rede glad nie aanspraak maak op volledige dekking van alle kennisterreine

(39)

nie. Deur die loop van baie jare het baie mense gebou aan die lys en dit het bowendien plaasgevind sonder 'n duidelike stel reels waar-volgens die indekseerterme geformuleer kon word. Gevolglik het baie eienaardighede en inkonsekwenthede met verloop van tyd ingesluip. Dit is dan ook een van die redes vir die huidige kritiek teen LCSH. Chan ( 1978, p. 17) se dat hoewel Cutter se reels oor die algemeen as riglyn gebruik is, is dikwels kompromiee getref ter wille van praktiese oorwegings, of indekseerders het hulle eie vindingryke formulerings van indekseerterme ingevoer. Die behoefte aan 'n kode vir saak-hoofvorming bestaan al baie jare, maar ongelukkig het niemand nog kans gesien vir die reusetaak nie.

3.1.2 AGTERGRONDSGESKIEDENIS VAN PRECIS

PRECIS is ontwikkel met die doel om rekenaarmatige onderwerps-ontsluiting vir die

British Nation

a

l Bibliography

(BNB) fe doen. Vir 'n hele aantal jare is die kettingindekseringsmetode deur die BNB toegepas, maar teen die laat sestigerjare het dit nie meer voldoen aan die behoeftes van onderwerpsindeksering nie. Daar is toe ondersoek ingestel na 'n nuwe indekseringsmetode. Die behoefte aan 'n nuwe metode het gespruit uit die toetrede van die rekenaar tot die verwerking van bibliografiese data en die ontwikkeling van inter -nasionale bibliografiese uitruilnetwerke.

Die British Library het in die jare sestig betrokke geraak by die internasionale MARC-projek. Met die gebruik van MARC-re kord-strukture het dit duidelik geword dat enige tipe indeks rekenaarmatig vanaf 'n MARC-band saarngestel kan word. Daar is dan ook die behoefte gevoel om ·n onderwerpsindeks vanaf MARC-rekords te lewer. Bestaande indekseringstelsels was nie hiervoor geskik nie en in 1968 het die British Library 'n navorsingspan onder leiding van Derek Austin benoem om navorsing te doen oor die reproduksie van 'n rekenaarmatige onderwerpsindeks. Die resultaat was die

Pre-served context indexing system

wat in 1974 voltooi is (Austin, 1976,

(40)

PRECIS is ontwerp as ·n metode om ·n gedrukte onderwerpsindeks te produseer met data wat in masjienleesbare leers gehou word. Die formaat van hierdie indeksinskrywings word beheer deur sekere kodes (roloperateurs) wat saam met bibliografiese data in die rekenaar ingevoer word. Die roloperateurs bepaal ook die graad van spesifiekheid van die terme. Hoewel PRECIS on twerp is vir rekenaar-verwerking, is die stelsel nie ten voile geoutomatiseerd nie. Die rekenaar se taak le daarin om die sloerwerk te verrig, nl. om groot hoeveelhede data te verwerk, asook in die uitskakeling van menslike foute. Menslike intellektuele inspanning is egter nog nodig vir die onderwerpsanalise van dokumente en die voorbereiding van invoerdata.

PRECIS is gebaseer op 'n onvoltooide ("open-ended") tesourus in die rekenaar en maak van natuurlike taal gebruik by indeksering. 'n Nuwe term kan enige tyd in die tesourus ingevoer word sodra dit in die literatuur voorkom. Die indekseertaal is dus nie gebonde aan ·n standaard saaktermlys met ·n beheerde woordeskat soos wat dit die geval by LCSH is nie. Die indekseerproses geskied egter volgens ·n vaste stel reels en prosedures. Hierdie reels kan op enige onder-werpsterrein toegepas word en op enige tipe dokument. Die na-vorsingspan wou graag sekere spesiale kenmerke in die stelsel inkorporeer en uit die struktuur van PRECIS blyk dit dat hulle wel daarin geslaag het (Austin, 1977a, p. 5). Die kenmerke is:

* elke inskrywing moet die volledige onderwerp van die doku -ment weergee;

* elke inskrywing moet betekenisvol en binne die raamwerk van natuurlike taal wees. Dit beteken dat omgekeerde terme soos wat by LCSH gebruik word, nie by PRECIS toelaatbaar is nie; * die stelsel moet gebaseer wees op ·n enkele stel logiese

beginsels wat op elke onderwerpsterrein toegepas kan word; * elke inskrywing moet ondersteun wees deur die nodige netwerk

van verwysings tussen verwante onderwerpe;

* elke inskrywing moet voldoende spesifiek wees om in enige klassifikasiestelsel slegs aan een voor-die-hand-liggende plek toegeken te kan word;