Ingmar Koopmans Studentnummer: 8411115 Telefoon: 06 - 24842063 [email protected] [email protected]
Onderwerpsontsluiting in een academische bibliotheekcollectie op het vakgebied van de (klassieke) oudheid.
Een systeemevaluatie van de online publiekscatalogus van de Utrechtse Universiteit.
9 juli 2012
Begeleidend docent: Jaap Kamps Universiteit van Amsterdam Faculteit der Geesteswetenschappen
Erfgoedstudies:
Voorwoord
In eerste opzet wilde ik in mijn scriptie onderzoeken of gebruikerstags een toegevoegde waarde hebben bij de ontsluiting van een academische bibliotheekcollectie. Ik wilde daarbij kijken of en hoe gebruik wordt gemaakt van tagging, wat de voor- en nadelen van deze vrij nieuwe zoekmethode (2004) is en of deze een bijdrage levert aan de ontsluiting van informatiepakketten in een online catalogus.
Ik kwam echter al snel tot de conclusie dat ik mijn onderzoek anders moest insteken. Ik wilde door middel van een beperkt evaluerend onderzoek in een academische online catalogus op een specifiek onderwerpsgebied inzicht proberen te krijgen in de
zoekmethode die een goede vangst en een grote precisie zou genereren. Daarbij wilde ik naast een vrije- en gecontroleerde zoekmethode ook naar het nut van tags kijken. Omdat slechts enkele academische bibliotheekinstellingen met tags werken én omdat ik als onderwerpsgebied de ‘Klassieke Oudheid’ wilde gebruiken, viel mijn keuze voor het onderzoek op de online catalogus van de Universiteit van Utrecht.
Ik wil een aantal mensen speciaal bedanken voor hun hulp en steun bij het schrijven van mijn eindopdracht. Ik had mijn scriptie (laat staan deze masteropleiding) niet kunnen afronden zonder de niet aflatende steun, vertrouwen en adviezen van Vanja, mijn vrouw. Zij zorgde er ook voor dat ik de afgelopen maanden (en jaren) ongestoord kon werken aan mijn scriptie. Daarnaast wil ik mijn moeder bedanken voor al haar steun en vertrouwen.
Ook wil ik mijn begeleider, J. Kamps, bedanken voor zijn nuttige adviezen bij de aanpak en de structurering van mijn eindopdracht en zijn tips tijdens de voortgangsgesprekken. Tot slot gaat mij dank uit naar mijn werkgever en in het bijzonder mijn leidinggevende de heer Van Els, die me in staat stelde deze opleiding te gaan volgen.
Mijn, in 1987 overleden, vader zei eens tegen me: ‘je bent een typische laatbloeier’. Ik denk dat deze kwalificatie een compliment inhield. Hij bedoelde ermee dat ik er wel zou komen, maar in mijn eigen tempo. Ik denk dat de afronding van deze academische opleiding hem trots zou hebben gestemd.
Summary
In my thesis I have attempted to paint a picture of the development of the Online Public Access Catalog as an online subject searching tool. In the scientific literature I have done research on how the OPAC has evolved in the last decades and which query techniques are available for library users and more specifically for users of the online catalog of a Dutch university library. I have executed a limited system evaluation experiment in the Online Public Access Catalog of the University of Utrecht.
The aim of my query experiment was to do research on the query technique(s) that presented the best possible results on recall and precision. I have limited my library system evaluation to 30 extensive queries in a specific scientific period within the History faculty, Classic Antiquity. Within that historical period I chose 10 subjects derived from history theses of ancient history students, subjects derived from 10 book reports of recently published historical works and 10 subjects selected from three different
(historical) online forums. Each extensive search consisted of five sub searches; on free (text) terms both Dutch and English, on controlled keywords and on library tags. The results of this limited subject search experiment are presented in this thesis.
Inhoudsopgave
Hoofdstuk 1 6
Inleiding van het onderzoek 6
1.1 Inleiding 6
1.2 Doel van het onderzoek 6
1.3 Probleemstelling 7
1.4 De online catalogus van de universiteit van Utrecht 7
1.5 Gebruikers van de online catalogus 7
1.6 Bronnen voor het evaluatieonderzoek onderwerpsontsluiting 8
1.7 De universiteitsbibliotheek Utrecht algemeen 8
1.7.1 De collectie geschiedenis 9
1.8 Structuur van het onderzoek 10
Hoofdstuk 2 11
Literatuuronderzoek online publiekscatalogus 11
2.1. De online publiekscatalogus 11
2.2 Ontstaansgeschiedenis online publiekscatalogus 11
2.3 Functie online publiekscatalogus 13
2.4 Positie van de online publiekscatalogus als zoekinstrument 13
2.5 Zoeken op onderwerp in de online catalogus 14
2.6 Concurrentie van zoekmachines 15
2.7 Federated zoeksystemen 16
2.8 Deelconclusies literatuuronderzoek OP(A)Cs 16
Hoofdstuk 3 18
Literatuuronderzoek zoekmethoden en gebruikersgroepen 18
3.1 Introductie zoekfaciliteiten online catalogi 18
3.2 Het zoekproces in een online zoeksysteem 18
3.3 Zoeken op keywords in alle velden van de online catalogus 20 3.4 Zoeken met behulp van een gecontroleerd vocabulaire 22
3.4.1 Gecontroleerd zoeken: bevindingen uit de praktijk 22
3.5 Gecombineerd zoeken via vrije velden en een gecontroleerde vocabulaire 24
3.6 Zoeken met tags in de online catalogus 24
3.6.1 Tags en tag clouds 25
3.6.2 Voordelen en nadelen van het zoeken met tags 26
3.7 Zoekgedrag studenten 27
3.7.1 Zoekgedrag wetenschappers 28
3.7.2 Zoekgedrag historici 29
3.7.3 Zoekgedrag amateur-historici 30
3.8 Deelconclusies OPC zoekmethoden en zoekgedrag gebruikersgroepen 31
Hoofdstuk 4 33
Opzet van het onderzoek 33
4.1 De structuur van de bibliotheekwebsite 33
4.2 Zoeken in de online catalogus 33
4.2.1. Het zoekproces 33
4.2.2 Eenvoudig en geavanceerd zoeken in de catalogus 34
4.3 Zoeken in de digitale portal ‘Omega’ 34
4.4 De onderwerpsontsluiting in de online catalogus 35
4.4.1 Zoeken op natuurlijke taal in meerdere velden 35
4.4.2 Gecontroleerde zoeken 35
4.4.3 LibraryThing tags 35
4.4.4 Ondersteunende zoekfaciliteiten 36
4.5 De gekozen zoekmethoden voor het onderzoek 36
4.6 Het selectieproces voor de ‘juiste’ zoektermen 37
4.7 Vijf zoekacties per usercase onderwerp 37
4.8 Algemene versus specifieke usercase onderwerpen 38
4.9 Geselecteerde informatiebronnen voor het onderzoek 39
Hoofdstuk 5 40
Uitvoering van het zoekexperiment 40
5.1 Bevindingen uit de systeemevaluatie 40
5.2 De belangrijkste bevindingen bij het zoeken op onderwerp 41 5.4 Bevindingen usercases 1 t/m 10, percentages relevante hits 43
5.4.1 Bevindingen usercases 1 t/m 10, totalen relevante hits 44
5.5 Bevindingen usercases 11 t/m 20, percentages relevante hits 46
5.5.1 Bevindingen usercases 11 t/m 20, totalen relevante hits 47
5.6 Bevindingen usercases 21 t/m 30, percentages relevante hits 48
5.6.1 Bevindingen usercases 21 t/m 30, totalen relevante hits 49
5.7 Evaluatie beschikbare monografieën collectie(s) ingedeeld op taal 49
5.7.1 Keuzes bij de dataverzameling van publicaties op basis van taal. 50
5.8. Belangrijke bevindingen uit de data bij tabel 1 52 5.9 Inhoudelijke verschillen op basis van usercase onderwerpen 53
5.10 Inhoudelijke bevindingen algemeen 54
5.10.1 Inhoudelijke bevindingen specifiek per usercase 55
5.11 Deelconclusies zoekexperiment 57
Hoofdstuk 6 59
Conclusies en aanbevelingen 59
6.1 Conclusies literatuuronderzoek online publiekscatalogus 59 6.2 Conclusies literatuuronderzoek zoekmethoden en gebruikersgroepen 60
6.3 Conclusies uitgevoerde zoekexperiment 62
6.4 Aanbevelingen 64
Bronnen 65
Hoofdstuk 1
Inleiding van het onderzoek
1.1 Inleiding
Ik ben sinds de start van mijn HBO studie Informatiedienstverlening en management, geïnteresseerd in de ontwikkelingen die zich afspelen in de bibliotheekwereld.
Toen ik met mijn opleiding startte (1993) bestond een deel van de gebruikte vakliteratuur nog uit lesboeken over thesaurusbouw, trefwoorden en het correct leren toepassen van de regels voor titelbeschrijving voor boeken en andere documentaire informatiedragers. Tijdens de practica werd er geoefend met het doorzoeken van databanken zoals bijvoorbeeld ‘LISA’ en ‘ISA’ waarvan de data op cd-roms stond die elk kwartaal werd geüpdatet met een nieuwe versie. Internet bestond wel maar was vooral bekend als netwerk voor universiteiten om via het programma gopher databestanden en
informatiebronnen uit te wisselen. Het world wide web was nog in ontwikkeling. Ik zou dus willen stellen dat er zich de laatste twintig jaar, op het terrein van de (elektronische) informatievoorziening, ingrijpende en revolutionaire ontwikkelingen hebben voorgedaan die tot fundamentele andere inzichten hebben geleid.
Binnen de online informatievoorziening wil ik me voor mijn onderzoek richten op de veranderende rol van de online catalogus van een universiteitsbibliotheek en daarbinnen op de onderwerpsontsluiting voor een vakgebied.
1.2 Doel van het onderzoek
De rol van bibliotheekautomatisering, online publiekscatalogi en het Internet is niet meer weg te denken uit de bibliotheekwereld. Vooral nieuwe Internetontwikkelingen hebben geleidelijk aan ook een praktische toepassing gekregen in openbare, wetenschappelijke en specialistische bibliotheken.
Ik heb er voor mijn afstudeeropdracht voor gekozen een systeemevaluatie uit te voeren bij een Nederlandse universiteitsbibliotheek. Als onderwerp voor de systeemevaluatie richt ik me op een specifiek vakgebied uit de geesteswetenschappen, namelijk de ‘Klassieke Oudheid’. Enerzijds omdat de klassieke oudheid een historische periode is waarin ik zeer geïnteresseerd ben, en die ik goed denk te kennen.
Anderzijds leent de informatie op dit vakgebied zich goed voor zoekacties op onderwerp waarbij ook geografische en periode gebonden aspecten een belangrijke rol kunnen spelen. In een deel van de gevallen zal minder snel gezocht worden in titelvelden omdat deze ambigue of nietszeggend kunnen zijn.
Enkele van de bekendste (populair) wetenschappelijke auteurs en klassieke auteurs daargelaten zal men op dit vakgebied ook minder snel zoeken in het auteursveld. De klassieke oudheid is een onderdeel van de collectie dat qua omvang voldoende groot en complex is voor een evaluerend onderzoek.
1.3 Probleemstelling
Welke zoekstrategie levert een goede vangst en een grote precisie op het vakgebied van de klassieke oudheid in een academische bibliotheekcatalogus?
Deelvragen
a) Wat is een online catalogus en welke rol speelt deze in een universiteitsbibliotheek. b) Welke verschillende zoekmethoden zijn te onderscheiden in een online catalogus. c) Hoe zoeken diverse gebruikersgroepen (volgens de literatuur) in een online
bibliotheekcatalogus.
d) Welke wijze van zoeken in de catalogus levert de beste combinatie van vangst en precisie op bij specifieke en algemenere onderwerpen uit het vakgebied klassieke oudheid.
e) De meeste historische vakliteratuur is in het Engels, in welke andere talen zijn er wetenschappelijke titels beschikbaar in de Utrechtse collectie en zijn er bepaalde zwaartepunten te signaleren op taal.
1.4 De online catalogus van de universiteit van Utrecht
Ik heb voor mijn onderzoek specifiek gekozen voor catalogus van de universiteit van Utrecht. Hiervoor heb ik een aantal belangrijke redenen. De bibliotheek beschikt over een online publiekscatalogus met uitgebreide zoekfaciliteiten ten behoeve van de
onderwerpsontsluiting. De instelling beschikt over collecties over en uit de Middeleeuwen en over de Klassieke Oudheid.
De online catalogus van de universiteitsbibliotheek biedt zowel faciliteiten voor federated searching als voor eenvoudig en geavanceerde zoeken. Met het geavanceerde menu kan o.a. gezocht worden op alle velden, titelwoorden, (corporate) auteur, classificatiecode, persoon als onderwerp, trefwoord, ISBN en oude drukken.
De universiteit van Utrecht is ook een van de vier academische instellingen in Nederland die haar wetenschappelijke bronnen heeft ontsloten met behulp van de, in de
Angelsaksische wereld, veel gebruikte LibraryThing tags.
1.5 Gebruikers van de online catalogus
De catalogus van de universiteitsbibliotheek wordt intensief gebruikt door verschillende gebruikersgroepen binnen en buiten de instelling. Deze gebruikers hebben uiteenlopende informatiebehoeften, die ik graag wilde meenemen in mijn onderzoek.
Ik heb er daarom voor gekozen om de te evalueren onderwerpen af te leiden uit bronnen van drie verschillende gebruikersgroepen: studenten, historici en amateurhistorici. Deze onderwerpen zijn ingedeeld in elk tien usercases. In totaal heb ik voor mijn evaluerend onderzoek dertig uitgebreide zoekacties uitgevoerd.
1.6 Bronnen voor het evaluatieonderzoek onderwerpsontsluiting
De bronnen die ik heb gebruikt voor de onderwerpsontsluiting zijn afkomstig van studenten, wetenschappers en geschiedenis hobbyisten.
Voor de eerste set zoekacties heb ik gebruik gemaakt van de scriptieonderwerpen van studenten van het vakgebied Antieke Cultuur. In de scriptiedatabase Igitur, die staat op de website van de Universiteit van Utrecht, heb ik tien scripties geselecteerd.
Voor de tweede set zoekacties heb ik uit de laatste vier jaargangen van het ‘Tijdschrift voor de Geschiedenis’ tien recensies over gepubliceerde (wetenschappelijke) boeken in de categorie Oudheid geselecteerd. Voor de laatste set zoekacties heb ik onderwerpen
gekozen die werden behandeld in drie online fora. De groep ‘Ancient history’, van
boekensite Librarything, de groepen ‘Oudheid rules’ en ‘Pompeii’ uit Hyves en het online forum van de Vlaamse Geschiedkundige Kring (VGK).
1.7 De universiteitsbibliotheek Utrecht algemeen
De universiteitsbibliotheek is in 1636 ontstaan uit de reeds bestaande stadsbibliotheek (vanaf 1584) gelijk met de opening van de Universiteit van Utrecht. De collectie van de universiteitsbibliotheek bestond in eerste instantie uit zeshonderd handschriften en boeken die tijdens de Reformatie door het stadsbestuur waren geconfisqueerd van de bibliotheken van kerken en kloosters. Deze collectie bestond niet alleen uit theologische geschriften maar bevatte ook medische, filosofische, historische, geografische,
biologische, juridische, literaire- en muziekwerken.
Bij het huidige aanschafbeleid en de collectievorming richt de instelling zich op het verzamelen van wetenschappelijke literatuur die nodig is voor onderzoek en onderwijs van de universiteit voor zover het beschikbare budget dit toelaat. Daarbij geeft men er de voorkeur aan om, bij gelijke bruikbaarheid en kwaliteit, informatiepakketten in digitale vorm aan te schaffen.
De dienstverlening van de universiteitsbibliotheek is gericht op non-stop online toegankelijkheid voor haar gebruikers naast de geboden reguliere openingstijden. Eigen studenten kunnen indien gewenst via een mobiele site met hun smart Phone een studieplek zoeken en reserveren of een zoekopdracht naar de universiteitsbibliotheek sturen. Andere geboden diensten zijn de online platformen voor studenten die samen aan een onderzoek willen werken en de mogelijkheid voor individuele studenten om een persoonlijke bibliotheek in te richten zoals ook al in veel openbare bibliotheken wordt gefaciliteerd. De collecties van de geesteswetenschappen waarbinnen het vakgebied voor mijn systeemevaluatie, ‘de Klassieke Oudheid’ valt beschikt over een eigen uitgebreide boekenverzameling, tijdschriftencollectie, full tekst- en Internetbronnen en de
1.7.1 De collectie geschiedenis
De collectie geschiedenis, in de universiteitsbibliotheek van Utrecht, bevat circa 40.000 boeken op het gebied van historiografie, wereldgeschiedenis, Europese- en niet-Europese geschiedenis. Hoewel de collectie op het gebied van de klassieke talen bescheiden is, vanwege het ontbreken van opleidingen op het gebied van Archeologie en Klassieke talen, wordt er toch actief gecollectioneerd op zes aandachtsgebieden:
• Klassieke taal- en letterkunde (KLA) • Oude geschiedenis (GES)
• Archeologie
• Beeldende kunsten (KUN) • Muziek MUZ)
• Theater en dans (allen uit de Klassieke Oudheid) (THE)
Per (historische) regio zijn er publicaties over diplomatie en politiek, maar ook over economische, sociale en culturele aspecten. De collectie is verder opgedeeld in grote (deels) geografische eenheden:
Rubrieken Archeologie 15.30 – 15.32 Oudheid algemeen 15.51 – 15.52 4890 Griekenland 15.51 Romeinse Rijk 15.52 Wereld 15.60 Europa 15.70
Binnen deze geografische eenheden zijn de banden ingedeeld op aspecten en periodes. In de collectie Kunstgeschiedenis waaronder materiele kunstuitingen zoals
beeldhouwkunst, gebruiksvoorwerpen en wandschilderingen vallen, bestaat er een indeling in verschillende rubrieken. Zo zijn bijvoorbeeld boeken over de algemene kunstgeschiedenis van de oudheid terug te vinden in de rubrieken 20.60 – 20.63. Periodes zijn aangegeven met verschillende codes:
aa oertijden tot heden
ka oertijden tot 500 na Chr. (Oudheid, overzichten) kg 800 v. Chr. – 500 na Chr.
kk 300 v. Chr. – 500 na Chr. (vroegchristelijke kunst)
1.8 Structuur van het onderzoek
In de volgende hoofdstukken ga ik in op de bevindingen in twee uitgevoerde
literatuuronderzoeken, wordt de opzet voor mijn onderzoek toegelicht, bespreek ik de bevindingen en conclusies naar aanleiding van mijn uitgevoerde onderzoek en formuleer ik mijn eindconclusies.
Hoofdstuk 2
Literatuuronderzoek online publiekscatalogus
2.1. De online publiekscatalogus
Online publiekscatalogi bekleden binnen onze maatschappij, naar mijn mening, een centrale rol in de informatievoorziening op vele niveaus ten behoeve van zeer uiteenlopende gebruikersgroepen. Zowel in steden en lokale gemeenschappen, op scholen, in academische- en culturele instellingen, als in professionele organisaties kunnen mensen voor hun informatiebehoeften terecht in de (online) collecties van bibliotheken. De collecties van deze instellingen zijn meestal ontsloten met behulp van tweede of derde generatie publiekscatalogi. Een strategisch voordeel dat online
publiekscatalogi hebben is de betrouwbaarheid van de informatie. Juist op dit vlak scoren online bibliotheekcatalogi veel beter dan het Internet.
2.2 Ontstaansgeschiedenis online publiekscatalogus
De online publiekscatalogus is ontstaan in de jaren tachtig van de vorige eeuw, toen de computer zich had ontwikkeld van een complexe rekenmachine tot een elektronisch hulpmiddel waarmee men steeds meer rekenkundige en administratieve taken kon uitvoeren. De meeste bibliotheken maakten vóór de elektronische ontsluiting van hun collecties gebruik van classificaties en trefwoordsystemen waarmee in kaartenbakken gezocht kon worden naar relevante informatiebronnen.
De eerste generatie online publiekscatalogi waren oorspronkelijk niet veel meer dan elektronische kaartenbakken. De tweede generatie online publiekscatalogi, uit de jaren tachtig, bood al veel betere zoekfaciliteiten zoals keyword searching op titel- en andere velden, zoeken met behulp van de beschikbare gecontroleerde vocabulaire, zoeken met booleaanse operatoren, browsen en online hulpschermen (Large & Beheshti 1997: p. 112) (Mercun en Zumer 2008: p. 244).
De derde generatie online publiekscatalogi wordt in de wetenschappelijke literatuur ook wel de Next-Generation Catalog (NGC) genoemd. Er wordt in de bibliotheekwereld al sinds 2006 gediscussieerd over de derde generatie online catalogi en aan welke eisen deze catalogi, in academische bibliotheekinstellingen, zouden moeten voldoen.
Is er werkelijk sprake van een nieuwe generatie online catalogi met onderscheidende kenmerken en eigenschappen of is er eerder sprake van het toepassen van een aantal oppervlakkige verbeteringen en toevoegingen in de bestaande tweede generatie? Tennant, een Amerikaanse bibliotheekwetenschapper, kwalificeerde de in zijn ogen cosmetische OPAC-verbeteringen als volgt:
“After all, you can put lipstick on a pig, but it’s still very much a pig” (Tennant, 2007)
Om te kunnen bepalen of de online catalogus van een academische bibliotheek kan worden gerekend tot de derde OPAC-generatie zijn twaalf kenmerken en criteria geformuleerd waaraan het zoeksysteem zou moeten voldoen (Yang & Hofmann 2011: p. 267-268).
De twaalf Next-Generation Catalog kenmerken zijn:
1) Een Federated search mogelijkheid, ofwel een enkele zoekingang in de catalogus om in alle informatiepakketten, ongeacht materiaalsoort, te kunnen zoeken.
2) De catalogus moet beschikken over een moderne website interface, vergelijkbaar met e-commerce websites als Amazon.com of Google.
3) Verrijkte content, d.w.z. een catalogus moet door beheerders of gebruikers zijn verrijkt met afbeeldingen van boekcovers, beschrijvingen of commentaar van gebruikers,
toegekende tags en beoordelingen.
4) Gespecificeerde, faceted systeemnavigatie, catalogi moeten gebruikers de mogelijkheid bieden om gevonden resultaten verder te specificeren door voorwaarden te stellen aan de taal van een bron, de materiaalsoort, periode waarbinnen een bron is gepubliceerd, beschikbaarheid, etc.
5) Een vereenvoudigde zoekfaciliteit via een ‘Google-achtig’ zoekvenster op
titelwoord(en) met een link naar geavanceerde zoekfaciliteiten op elke cataloguspagina. 6) Relevantie indeling, boeken waar meerdere kopieën van circuleren en populaire boeken, die frequenter worden uitgeleend dan andere, dienen bovenaan de
resultatenlijsten te verschijnen, op basis van relevance ranking criteria.
7) ‘Bedoelde u misschien..?’, een spelchecker zou onderdeel moeten uitmaken van de nieuwe online catalogus waardoor het ontbreken van hits of een (te) laag aantal hits als gevolg van typefouten wordt voorkomen. Gebruikers zouden alternatieve zoekterm suggesties moeten krijgen via de online catalogus.
8) Aanbevelingen en gerelateerd materiaal, een derde generatie OPC zou gebruikers, op basis van de transactie log-data moeten informeren over verwante boektitels, zoals nu bij Amazon.com en Bol.com gebeurd.
9) Gebruikersbijdragen, de input van bibliotheekgebruikers in de vorm van kritiek samenvattingen, beschrijvingen, commentaren, beoordelingen en toegekende tags zouden moeten (kunnen) worden verwerkt in de online publiekscatalogus.
10) RSS (Really Simple Syndication) feeds, kunnen worden ingezet om over website updates of bibliotheeknieuws te communiceren of gebruikers lijsten met nieuwe aanwinsten te sturen.
11) Integratie met sociale netwerken, stelt gebruikers in staat om links en andere bibliotheekonderwerpen of materiaal te delen met andere gebruikers via Twitter, en programma’s als Delicious enz.
12) Duurzame permanente links; derde generatie catalogi dienen over een stabiel URL adres te beschikken waardoor toegang tot relevante informatie is gegarandeerd.
(Yang, Hofmann, 2011: p. 269-272, 275, 277-278, 280, 287).
2.3 Functie online publiekscatalogus
De online publiekscatalogus is een elektronische (online) bibliotheekcatalogus die gebruikers, op afstand, toegang geeft tot de beschikbare informatiebronnen.
Deze catalogi kunnen tegenwoordig door gebruikers via het internet worden benaderd en geraadpleegd. Veel bibliotheekwebsites stellen hun klanten in staat om online boeken of andere materiaalsoorten te lenen of verlengen of een lijst van favorieten samen te stellen. Een online publiekscatalogus is in feite een online database die over een index beschikt van alle bibliotheekbronnen die in diverse vormen onderdeel uitmaken van de
bibliotheekcollectie van een instituut, zoals een universiteitsbibliotheek. Bij bibliotheekbronnen moet gedacht worden aan elektronische documenten
beschrijvingen van tekstuele-, geluids-, audiovisuele en digitale bronnen (Kani-Zabihi, Ghinea, Chen, 2008: p. 492).
Uit verschillende studies uitgevoerd door gerenommeerde onderzoekers uit het
bibliotheekveld blijkt dat de bouw en het ontwerp van online catalogi niet is gerealiseerd met de belangen van de onervaren gebruikers voor ogen. De meeste catalogi zijn meer geschikt voor professionele bibliothecarissen dan voor ongetrainde eindgebruikers (Mercun en Zumer 2008: p. 244). Vóór de komst van zoekmachines was de populariteit van online publiekscatalogi groot, maar het vinden van de juiste informatie of
documenten bleef een lastige opgave voor veel gebruikers. Daar zijn verschillende oorzaken voor aan te wijzen.
Ten eerste zijn OPAC-gebruikers zelf zeer divers, niet alleen in de formulering van hun zoekvragen maar ook voor wat betreft hun (gebrek aan) domeinkennis en mate van opleiding. De verschillen tussen de structuur en de aangeboden ontsluitingsmethoden van OPAC’s verschillen onderling ook sterk.
Ten tweede beperken veel online catalogi zich in de kern tot het ontsluiten van monografieën. Ten derde dient een online zoeksysteem een breed scala aan
onderwerpsgebieden te ontsluiten, waardoor vaak zeer specifieke zoekvragen moet worden uitgevoerd binnen een systeem met vrij algemene documentaire
inhoudsbeschrijvingen (Large & Beheshti 1997: p. 112).
2.4 Positie van de online publiekscatalogus als zoekinstrument
Een van de structurele problemen waar online publiekscatalogi tegenaan lopen als gevolg van de sterk toegenomen groei en populariteit van elektronische zoekmachines als
Google, Yahoo, Bing en online encyclopedieën zoals Wikipedia is dat veel jonge
informatiezoekers de voorkeur geven aan het gebruik van deze systemen voor het gebruik van de online catalogi van openbare of universitaire instellingen. Gebruikers ervaren online bibliotheekcatalogi regelmatig als zo moeilijk en gebruiksonvriendelijk dat ze hun toevlucht nemen tot commerciële boekenwebsites om relevante boektitels op te sporen (Luong & Liew: p. 376). Uit een Engels onderzoek uitgevoerd tussen 2001 en 2003 in ‘Further Education colleges’ kwam naar voren dat studenten de online bibliotheekcatalogi van hun universiteit veel minder raadpleegden dan andere online informatiebronnen zoals internet zoekmachines (Kani-Zabihi, Ghinea, Chen, 2008: p. 492-493).
Academische bibliotheken bieden studenten een zeer diverse, kwalitatief hoogwaardige hoeveelheden informatiebronnen aan, alleen gebeurt dit vaak met behulp van weinig intuïtieve bibliotheeksystemen (Rowlands, Nicholas, Huntington 2008: p. 292-294). Jaarlijks wordt zo een groot deel van het universitaire budget besteed aan databank abonnementen, elektronische bronnen en boekmateriaal zonder dat studenten zich hiervan bewust zijn. (Rowlands, Nicholas, Huntington 2008: p. 294-295, 297-298).
Studenten maken nog wel gebruik van de bibliothecaire zoekfaciliteiten maar veel minder dan voorheen. Het gebruik van zoekmachines die je van overal kunt benaderen, in
tegenstelling tot de online bibliotheekcollectie, past beter bij de huidige academische gebruikers (Rowlands, Nicholas, Huntington 2008: p. 293).
Uit een wereldwijd onderzoek uitgevoerd door OCLC in 2006, komen een aantal interessante aspecten over informatie zoekgedrag naar voren. Veel van de huidige studenten kunnen worden gerekend tot de Google generatie (geboren na 1993).
Zodra jongeren van deze generatie informatie nodig hebben voor hun studie, start 89% van hen met een zoekactie in een zoekmachine. Slechts 2% van de studenten start met een zoekactie vanuit een bibliotheekwebsite.
De gebruikerstevredenheid van studenten met het zoeken via de online publiekscatalogi scoort lager (84%) dan een zoekactie met behulp van een online zoekmachine (93%). Het zoekgedrag kan omschreven worden als ‘horizontaal’, studenten grasduinen in korte tijd langs veel schermpagina’s op een academische site of in een online catalogus en nemen weinig tijd om de informatie te evalueren of om de validiteit of relevantie te bepalen. Vooral jonge gebruikers hebben er moeite mee om een goede zoekstrategie op te zetten. Ze geven er de voorkeur aan een zoekactie te starten in een natuurlijke taal, in plaats van te moeten beslissen met welke gecontroleerde termen ze informatie kunnen zoeken. Deze voorkeur bij studenten is deels ingegeven door de gedachte dat
zoekmachines hun zoekacties ‘begrijpen’. (Rowlands, Nicholas, Huntington 2008: p. 294-295, 297-298).
2.5 Zoeken op onderwerp in de online catalogus
Het zoeken op onderwerp is een van de meeste problematische zoekacties in een online publiekscatalogus. Gebruikers vinden het veel lastiger om de juiste onderwerpstermen te formuleren dan om te zoeken op een bekend document, een auteur of titelwoord.
Dit lijdt ertoe dat bijna de helft van de zoekacties op onderwerp nul resultaten genereert. Volgens bibliothecarissen leveren zoekacties op titelwoorden vaak ook geen gewenste resultaten op, regelmatig leveren dergelijke zoekacties juist veel te veel resultaten of een nul resultaat op (Antell & Huang 2008: p. 68).
De complexiteit van de bibliografische structuren wordt maar door weinig gebruikers begrepen, men weet vaak onvoldoende welke verschillende en gecombineerde zoekacties mogelijk zijn binnen een online catalogus. Yu en Young in “The impact of Web Search Engines on Subject Searching in OPAC” hebben voor de periode 2000 - 2002
geconstateerd dat het aantal succesvolle zoekacties op onderwerp sterk is afgenomen als gevolg van de toegenomen voorkeur bij gebruikers voor web-georiënteerde zoekmachines en de wijze waarop deze systemen zoeken. Er kan echter bepaald niet gesteld worden dat gecontroleerde (onderwerps)termen overbodig zijn of dat onderwerpsontsluiting te
Hoewel bij veel bibliotheken de standaard zoekmethode het zoeken op titelvelden is, zouden veel van de zoekacties op titelwoorden significant minder succesvol zijn bij het ontbreken van onderwerpsontsluiting (Antell & Huang 2008: p. 69-71).
De problemen die veel studenten in Universiteitsbibliotheken ondervinden bij het gebruik van het gecontroleerde vocabulaire in catalogi houd verband met de beperkte dekking van gecontroleerde termen waardoor de vele relevante aspecten van een begrip
onvoldoende worden ondervangen (Voorbij, 1998: p. 466).
Een andere tekortkoming is de inflexibiliteit van gecontroleerde systemen. Een nieuwe politieke of geografische realiteit (bijvoorbeeld het uiteenvallen van de Sovjetunie) of nieuwe begrippen en categorieën moeten vaak met veel vertraging en extra (personele) kosten worden ingevoerd in een gecontroleerd vocabulaire. Verder is er een verschil in het referentiekader en de domeinkennis van bibliotheekprofessionals enerzijds en gebruikers anderzijds. Het gevolg is dat gebruikers, die zoeken naar een onbekend
onderwerp in de catalogus, veel tijd nodig hebben om de juiste zoektermen te achterhalen om relevante documenten te kunnen vinden (Antell & Huang 2008: p. 74).
2.6 Concurrentie van zoekmachines
Als een universiteitsbibliotheek succesvol de concurrentie wil kunnen aangaan met de bekende zoekmachines dan dient de online publiekscatalogi zich te kunnen
onderscheiden door middel van een zeer toegankelijk gebruikersinterface ontwerp, goede en uitgebreide zoekfaciliteiten, kwalitatief goede zoekresultaten, waarbij informatie binnen een kort tijdsbestek beschikbaar wordt gesteld in het juiste (document)format. Verder moet er een effectief hulp(scherm) systeem beschikbaar zijn om gebruikers te assisteren om zo goed en efficiënt mogelijk de gewenste informatie te kunnen
achterhalen. De gedeeltelijke integratie van de wensen en behoeften van gebruikers spelen daarom een essentiële rol bij de realisatie van een efficiënte online
publiekscatalogus die tot een betere toegankelijkheid, acceptatie en intensiever gebruik zullen leiden (Kani-Zabihi, Ghinea, Chen, 2008: p. 493).
Uit een OCLC studie van 2005 komt naar voren dat bibliotheken, willen ze relevant blijven voor gebruikers, moeten zorgen dat hun zoeksystemen zoveel mogelijk Internet zoekmachines moeten benaderen in gebruiksgemak en zoekfaciliteiten. De
vereenvoudigde zoekfaciliteiten en de collocatie van alle typen informatiepakketten sluiten aan bij de zoekbeleving van de gemiddelde gebruiker. Deze gebruikers willen graag dat bibliotheeksystemen net zo gemakkelijk te gebruiken zijn als Google. (Prabha, Connaway, Olszewski, Jenkins, 2007: p. 88).
Een van de online zoeksystemen die daarom steeds vaker zijn intrede doet in
academische bibliotheken is het Federated Searching. De universiteitsbibliotheek Utrecht beschikt over een variant van zo een zoeksysteem. Alle boeken en papieren publicaties kunnen worden doorzocht via een zoek-menu getiteld ‘Catalogus’ en alle digitale publicaties kunnen worden benaderd via het zoek-menu ‘Omega’. Onder digitale publicaties vallen niet alleen elektronische artikelen uit verschillende databanken met wetenschappelijke tijdschriften, maar bijvoorbeeld ook digitale encyclopedieën.
Opvallend gegeven is dat via de optie ‘catalogus’ ook elektronische (dus digitale) boeken worden gevonden.
2.7 Federated zoeksystemen
Een federated zoeksysteem (of meta search systeem) is een zoekmachine die tot doel heeft het doorzoeken van meerdere databases mogelijk te maken via een en dezelfde interface. Er wordt na een zoekopdracht door het systeem één resultatenlijst gepresenteerd.
De grote voordelen van federated searching zijn tijdsbesparing en de vereenvoudiging van het zoekproces. Nadelen zijn er echter ook, door slechte samenwerking tussen systemen laat de integratie van de gevonden resultaten uit de verschillende bronnen te wensen over en duurt het vaak lang(er) voor de resultaten gepresenteerd worden.
Daarnaast zijn de geavanceerde zoekmogelijkheden beperkt. Federated zoeken leent zich daarom het beste voor brede meer algemene zoekvragen in meerdere databases.
De populariteit van federated search systemen in universiteitsbibliotheken is te verklaren vanuit de wens van studenten om in een Google-achtig zoeksysteem te zoeken.
Universiteiten proberen hierop in te spelen. Studenten willen direct een zoekactie kunnen starten, zonder uitleg of zoekinstructies (Korah & Cassidy, 2009: p. 325-326).
Uit gebruikerstests komt echter naar voren dat de gebruikersproblemen die door federated zoeksystemen worden gegenereerd in drie categorieën uiteenvallen: problemen met de interface, het zoeken en een gebrek aan (vak)kennis. Studenten begrijpen de navigatie-elementen van de interface niet en kunnen op basis van de resultatenlijst niet bepalen of een gevonden titel een boek, artikel of elektronische bron is, én ze zijn onvoldoende in staat om gerichte relevante zoektermen te formuleren (Gibson, Goddard & Gordon, 2008: p. 120-121,124).
Doctoraal- en masterstudenten hebben wel behoefte aan meer geavanceerde
zoekfaciliteiten zoals booleaanse operatoren en zoeken in meerdere velden. Dit komt omdat ze meestal beter bekend zijn met een specifiek onderwerp, vertrouwd zijn met de zoekmethodieken en ook beter weten welke databanken de beste zoekresultaten
genereren (Korah & Cassidy, 2009: p. 327, 329).
2.8 Deelconclusies literatuuronderzoek OP(A)Cs
Uit de geraadpleegde literatuur over online public Access Catalogs (OPAC’s) komt naar voren dat deze systemen vaak niet of onvoldoende gebruikersvriendelijk zijn. Oorspronkelijk waren online catalogi ontworpen om bibliotheekmedewerkers en professionals te bedienen. Deze ervaren gebruikers zijn bekend met classificaties, thesauri, trefwoordsystemen en andere gecontroleerde zoeksystemen.
De meeste bibliotheekgebruikers zijn geneigd om in systemen te zoeken met natuurlijke taal termen. Ze beschikken over onvoldoende (domein)kennis en ervaring en hebben grote moeite om een informatiebehoefte zo te formuleren dat dit tot een gewenst zoekresultaat lijdt, laat staan dat alle relevante informatie over een onderwerp wordt gevonden. Dit probleem wordt deels veroorzaakt door de beperkingen van een online catalogus, die oorspronkelijk alleen werd gebruikt voor het ontsluiten van
boekencollecties en die later ook werd ingezet om andere materiaalsoorten te ontsluiten. Daarnaast blijkt het lastig om het onderwerp of hoofdthema van een boek in al haar facetten ‘weer te geven’ met slecht een of twee kernachtige zoektermen.
De populariteit van zoekmachines zoals Google, opgekomen in de jaren negentig, is te verklaren vanuit de intuïtieve zoekfaciliteiten die deze systemen bieden. Zoekmachines komen tegemoet aan de wensen van gebruikers die geneigd zijn een of meer vrije (zoek)termen in te voeren. Ze willen een overzichtelijke lijst met resultaten op hun beeldscherm ontvangen waarin de meest relevante informatiepakketten bovenaan op de eerste schermpagina te zien zijn.
Zoals in een studie van het OCLC naar voren kwam moeten de professionals van
bibliotheken goed luisteren naar de wensen van hun gebruikers willen zichzelf niet uit de markt prijzen. De nieuwe online catalogi dienen het gebruiksgemak van zoekmachines te bieden inclusief relevance ranking capaciteiten en deze te combineren met de kwalitatief hoogwaardige informatieproducten die onderdeel uitmaken van de bibliotheekcollecties. Het ontwerp van zo een zoeksysteem moet gebruiksvriendelijk zijn met effectieve
hulpschermen, spellingscorrectie, zoeksuggesties (bedoelt u, probeer ook..) en een
zoekregel om in alle beschikbare collecties te kunnen zoeken. Kortom alle mogelijkheden en faciliteiten die de next generation catalog worden toegedicht zouden direct toegankelijk en beschikbaar moeten zijn voor elke informatiezoeker en bibliotheekgebruiker.
De huidige online publiekscatalogus van de Utrechtse universiteitsbibliotheek beschikt over meer zoekfaciliteiten dan de meeste online catalogi. Deze academische catalogus voldoet echter niet aan alle twaalf kenmerken waarmee een Next Generation Catalog zich onderscheidt van oudere versies van een online catalogus. De derde generatie online catalogusfaciliteiten die ontbreken zijn:
a) De catalogus beschikt niet over een volledige Federated search capaciteit, maar splitst de doorzoekbare informatiebronnen in twee searchboxen, een voor alle papieren bronnen en een voor alle digitale bronnen (1).
b) Relevance ranking, bij de presentatie van gevonden zoekresultaten worden de meest recente titels bovenin het scherm getoond, niet de titels waarnaar het meest gezocht is of die het meest worden aangevraagd of uitgeleend (6).
c) Een spellingschecksysteem en suggesties vanuit de online catalogus voor synonieme zoektermen ontbreekt (7).
d) Gebruikersbijdragen en input van gebruikers worden niet verwerkt in de OPC (9). e) Er worden in de catalogus geen RSS feeds gebruikt of weergegeven (10).
Hoofdstuk 3
Literatuuronderzoek zoekmethoden en gebruikersgroepen
3.1 Introductie zoekfaciliteiten online catalogi
De meeste online publiekscatalogi die in gebruik zijn bij Nederlandse universiteiten beschikken over uitgebreide zoekmogelijkheden. In zoeksystemen kan in alle (niet administratieve) velden gezocht worden op keywords, auteursnaam en uitgever, ook bieden online catalogi toegang tot hun collecties via gecontroleerde zoekmethoden zoals zoeken op onderwerp met de Gemeenschappelijke Onderwerpsontsluiting (GOO) of de Nederlandse Basisclassificatie (NBC) of op een persoon als onderwerp.
Twee Nederlandse universiteitsbibliotheken bieden daarnaast ook nog de optie om via gebruikers-tags te browsen op onderwerp met behulp van aan boektitels toegekende Librarything tags. Met een beknopt literatuuronderzoek wil ik achterhalen welke zoekopties veel gebruikt worden en door welke gebruikersgroepen. Daarnaast wil ik dankzij de literatuur enig inzicht verschaffen in de mate waarin de bekendste
zoekmethoden van invloed kunnen zijn op de totale vangst, opbrengst, ruis en precisie bij zoekopdrachten.
3.2 Het zoekproces in een online zoeksysteem
Het zoeken van relevante informatie via online zoeksystemen is vaak een complex proces. Een zoeksysteem genereerd lang niet altijd de informatie waar de gebruiker naar op zoek is. Hier zijn een aantal redenen voor aan te wijzen. Een zoekvraag kan
onduidelijk of niet precies genoeg geformuleerd zijn omdat een gebruiker moeite heeft met het vertalen van zijn informatiebehoefte naar vrije- en gecontroleerde termen die via booleaanse operatoren gecombineerd kunnen worden. Het einddoel van een zoekactie kan op meerdere manieren interpretabel zijn of te uitgebreid zijn. Ook kan de bibliotheek zoek-software moeite hebben met het vertalen van een ingevoerde zoekactie naar een of meer relevantie informatiepakketten (Kreymer, 2002: p. 30). In een case study uitgevoerd aan de Universiteit van Washington werd geconcludeerd dat een gebruikersvraag
uiteenvalt in een semantisch en een pragmatisch aspect. Het semantische aspect heeft betrekking op het onderwerp van een informatiebehoefte en het pragmatische aspect is het doel of het nut van de gevonden informatie.
Een klant kan genoeg hebben aan enkele relevante documenten of juist een zo volledig mogelijke beeld willen krijgen van een bepaald onderwerp.
De drie essentiële onderdelen die onontbeerlijk zijn bij een online zoekactie zijn; het definiëren van de zoekstructuur, het selecteren van zoektermen en het controleren van de feedback.
Er zijn twee soorten zoekopties in een online catalogus, natuurlijke termen die worden gebruikt bij het zoeken op vrije velden en de descriptoren van een gecontroleerd systeem. Het selecteren van een zoekterm(en) kan worden gebaseerd op het gegeven dat een term een algemene zoekterm is of een term met één enkele betekenis voor een gebruiker. De enkele zoekterm leent zich goed voor het zoeken op vrije velden.
Een algemene term is echter ongeschikt voor zoeken in vrije velden omdat dit een te hoge recall geeft. Gebruikers kunnen tijdens een zoeksessie echter ook gebruik maken van vrije termen of synoniemen om de opbrengst te vergroten. Een gecontroleerd vocabulaire is zo ontworpen dat deze gebruikers assisteert bij problemen en bij het beschrijven van een concept of onderwerp in het systeem. Zo zal het af te raden zijn om met een te algemene zoekterm, een titelwoord, te zoeken en geniet het de voorkeur gebruik te maken van een gecontroleerde zoekterm, een descriptor.
Een zoekopdracht kan wel met een of meer termen uit de natuurlijke taal worden gebruikt om de gecontroleerde vocabulaire te testen. Aan de hand van de resultatenlijst kan gekeken worden met welke trefwoorden of thesaurustermen bepaalde onderwerpen zijn ontsloten. Zo kan bepaald worden welke gecontroleerde termen zich meer of minder goed lenen voor vervolgzoekacties.
Gebruikers kunnen er ook voor kiezen om een zoekactie te starten zonder eerst de thesaurus te raadplegen omdat ze quick and dirty willen zoeken of omdat ze zich willen oriënteren door te browsen op een of meer keywords. Andere gebruikers kunnen ervoor kiezen om de precisie te vergroten door uitsluitend te zoeken met gecontroleerde termen. Een extra mogelijkheid om de precisie verder te verhogen is om de gevonden resultaten met behulp van catalogusopties als documenttype, jaar van uitgave en taal in te perken (Fidel, 1991: p. 490-497).
Een veel voorkomend probleem bij zoeken op onderwerp is de onbekendheid van minder ervaren gebruikers met gecontroleerde zoektermen. Uit een presentatie van de ALA conferentie van 1994 kwam naar voren dat zoekacties op onderwerp gemiddeld in iets minder dan de helft van de gevallen een nul procentscore genereerden. De overige zoekacties leverde maar een zeer beperkt aantal relevante hits op of juist veel te veel hits als gevolg van een te breed geformuleerde zoekopdracht. Slechts in 12% van de gevallen werden een tot twintig relevante titels gevonden. Als een gebruikersvraag teveel hits oplevert zal een klant zelden meer dan twee schermen met resultaten doorzoeken. Probleem hierbij is dat gevonden resultaten meestal worden getoond in alfabetische volgorde en niet worden geordend op basis van meeste naar minst relevante titels. Als gebruikers iets over een bepaald onderwerp willen vinden ongeacht de kwaliteit of informatiebron dan is zoeken op keywords de beste aanpak. Het probleem met zoeken op vrije velden is de in-accuraatheid van deze zoekmethode. Veel woorden hebben meerdere betekenissen. Onderlinge verbanden met andere termen en concepten worden vaak niet weergeven of liggen in het systeem te ver uit elkaar. Een wetenschapper zal er echter de voorkeur aan geven de meeste relevante titels te vinden of zal zich een zo volledig mogelijk beeld willen vormen van wat er allemaal in de collectie aanwezig is over een specifiek onderwerp. Een groot probleem bij online catalogi is dat de technische aspecten van het systeem en het zoekproces, zoals maskering, truncatie en spellingcheckers, een belangrijkere rol spelen dan intellectuele aspecten.
Bij intellectuele aspecten moet o.a. gedacht worden aan het onderhoud van de
gecontroleerde vocabulaire en de structurele verbanden tussen (MARC) records (Taylor, 1995: p. 484, 486, 488).
Het uiteindelijke doel van elke online bibliotheekcatalogus is om gebruikers in staat te stellen om relevante informatiebronnen te kunnen vinden. In een case study van de
universiteit van Nebraska, waarbij drie gecontroleerde zoeksystemen over waterkwaliteit werden vergeleken, werd gekeken hoe gecontroleerd zoeken zich verhield tot het zoeken in vrije velden. Uit een eerste evaluatie kwam naar voren dat beide zoekmethoden van nut waren voor gebruikers. Meer dan de helft van de studenten startte een zoekactie met een keyword om vervolgens na enige tijd op onderwerp te zoeken met behulp van de beschikbare gecontroleerde vocabulaire. Dit leverde aanvullende relevante hits op. Zoekacties die met vrije zoektermen worden uitgevoerd hebben een aantal voordelen. Men kan direct starten met zoeken, er wordt gezocht in vele velden tegelijk en de kosten zijn relatief laag. Nadelen zijn er ook, gebruikers moeten enige kennis van een onderwerp hebben om bruikbare zoektermen te kunnen formuleren en algemenere en meer
specifieke termen geven geen onderlinge verbanden weer in het systeem.
Bij een zoekacties waarin gebruik wordt gemaakt van een natuurlijke taal zal de intentie van een gebruiker niet direct begrijpelijk zijn voor een online zoeksysteem maar wel voor een persoon.
Gecontroleerde systemen bieden juist wel de gelegenheid om op broader of narrower terms te zoeken op onderwerp. Verder zijn alle relevante titels over een specifiek onderwerp geclassificeerd onder dezelfde onderwerpsterm. Verrijking van bestaande metadata-velden zou kunnen worden gerealiseerd door automatische zoekcapaciteiten van zoeksystemen verder te ontwikkelen of door klanten gebruik te laten maken van de aanwezige geavanceerde zoekopties.
Nadelen van gecontroleerde systemen zijn o.a. de hoge onderhoudskosten en het gegeven dat indexeerders ook fouten maken bij de toekenning van gecontroleerde termen, wat de terugvindbaarheid van relevante titels frustreert. Deze case study toonde aan dat het combineren van gecontroleerd en vrije zoektermen ertoe kan leiden dat gebruikers goede zoekresultaten boeken. Verder wordt gesuggereerd dat verrijking van de document-beschrijvingen gebruikers beter in staat zou stellen om relevante informatie te
achterhalen. Dit laatste zou vooral het zoeken op onderwerpen, die niet of onvoldoende worden ontsloten door het bestaande zoeksysteem, beter toegankelijk maken (Nowick, Mering, 2003: p. 17-19, 26, 30).
3.3 Zoeken op keywords in alle velden van de online catalogus
In 2004 werd aan de Pennsylvania State University Libraries, in 2004, een onderzoek gedaan naar het catalogusgebruik. Hierbij werden nieuwe gebruikers en ervaren studenten gevraagd mee te doen. Een interessant gegeven dat uit het onderzoek naar voren kwam was dat zowel gevorderde als onervaren catalogusgebruikers even veel moeite leken te hebben met het zoeken op onderwerp. Beide groepen studenten hadden grote moeite om meerdere synonieme zoektermen te bedenken waarmee op bepaalde onderwerpen gezocht kon worden.
Hoewel de online catalogus beschikt over een geavanceerd zoek-menu waarmee op meerdere typen zoektermen, gecombineerd met behulp van booleaanse operatoren kan worden gezocht, bleef de meerderheid van de studenten zich bedienen van ‘zoekzinnen’. Meerdere zoektermen werden achter elkaar geplakt zonder gebruik van booleaanse operatoren.
Daarnaast bleken veel studenten moeite te hebben met het verzinnen van synoniemen voor zoektermen die weinig of geen relevante zoekresultaten hadden opgeleverd. Vaak willen studenten zonder al teveel inspanning te leveren snel een aantal (mogelijk) bruikbare titels vinden om aan de slag te kunnen met hun opdracht(en). Als ze tegen problemen aanlopen tijdens een zoekproces wordt niet getracht te achterhalen waarom een zoekactie is mislukt of geen hits opleverde.
Studenten nemen zelden de moeite om zich in een zoeksysteem te verdiepen, ze passen vaak een trial-and-error methode toe bij het zoeken in de online catalogus (Augustine & Greene 2002: p. 360). Onervaren gebruikers zochten over het algemeen quick and dirty in de catalogus. Lang niet alle mogelijkheden van het zoeksysteem werden herkent, laat staan gebruikt. Er werd met enkele zoektermen gezocht, vervolgens browsde men door een of meer schermen met resultatenlijsten en pikte er enkele, op het oog, relevante titels uit. De meeste studenten namen niet de tijd om alle gevonden resultaten goed te
bekijken en dan een afgewogen keuze te maken over de mate van relevantie van een of meer gevonden titels, zo bleek uit de evaluatie. De onervaren gebruikers waren vooral bezig op verschillende manieren bruikbare titels te zoeken in plaats van eerst goed na te denken wat de beste zoekstrategie of zoektermen zouden kunnen zijn.
Information retrieval feedback
In een onderzoek naar informatie retrieval door Spink en Saracevic wordt de feedback na een zoekactie in online catalogi onderverdeeld in een vijftal categorieën:
Content relevance feedback: na een zoekactie worden de gevonden titels door de gebruiker beoordeeld op relevantie, gevolgd door een nieuwe zoekactie of een herformulering van de zoekvraag. Gedurende een online zoekactie wordt de zoekstrategie beïnvloed door de afweging tussen de mate van relevantie en de totale hoeveelheid gevonden titels.
Term relevance feedback: na een zoekactie wordt de relevantie van de gevonden titels beoordeeld en maakt de gebruiker een selectie uit nieuwe termen die uit de resultaten naar voren zijn gekomen. Deze informatie wordt gebruikt om gerichte vervolg zoekacties uit te voeren.
Magnitude feedback: na een zoekactie bepaald een gebruiker op basis van de hoeveelheid gevonden titels of de zoekactie moet worden verruimd of de precisie moet worden
vergroot. Gebruikers worden regelmatig geconfronteerd met een teveel of juist een gebrek aan gevonden titels in de online catalogus of databank.
Tactical review feedback: na een zoekactie blikt een gebruiker terug in de zoekgeschiedenis van de databank of catalogus die hij raadpleegt om te bepalen welke voorafgaande zoekterm(en) hij heeft gebruikt.
Term review feedback: is als een gebruiker na een uitgevoerde zoekactie besluit om in de gevonden resultaten een nadere presentatie op te vragen van een specifiek onderdeel uit een gevonden beschrijving, bijvoorbeeld op de naam van een auteur.
Positieve of negatieve feedback in de informatie retrieval houdt in dat een gebruiker van mening is dat gevonden documentatie relevant of niet relevant is en wel of juist geen bijdrage levert aan zijn informatiebehoefte (Spink & Saracevic 1998: p. 257, 259-262).
3.4 Zoeken met behulp van een gecontroleerd vocabulaire
Een gecontroleerd vocabulaire is een georganiseerde verzameling woorden, zinnen of namen die zo zijn gestructureerd dat relaties tussen termen en concepten wordt
weergegeven. Een gecontroleerd vocabulaire is gericht op een bepaald domein of groep concepten en kent één voorkeursterm toe voor elk concept, persoon of entiteit (Mendes, Quinonez-Skinner & Skaggs, 2009: p. 31-32). Een groot voordeel van een gecontroleerd vocabulaire is de duurzaamheid. Een gecontroleerd vocabulaire als de Library of
Congress Subject Headings (LCSH) beslaat vele tientallen miljoenen boektitels en is bij veel bibliotheekinstellingen in de V.S. de standaard. Een gecontroleerd vocabulaire doet de gebruiker na een eerste zoekactie een suggestie aan de hand via een ‘authority file’, waarmee problemen met synoniemen, polysemie en enkel- versus meervoudsvormen worden voorkomen. Zoeken met behulp van gebruikers-tags zoals sinds enkele jaren mogelijk is via folksonomies, verkeerd in veel bibliotheekinstellingen nog in de projectfase. Bij een gecontroleerd systeem zijn de gebruikers, voor het zoeken van relevante titels, wel aangewezen op trefwoorden of thesaurustermen die zijn toegekend door een
bibliothecaris, een indexeerder of auteur. Een informatieprofessional zal trachten de inhoud van een informatiebron te matchen met een representatieve zoekterm uit het gecontroleerde vocabulaire, zoals de GOO of de Amerikaanse Library of Congress Subject Headings.
De zo gevormde meta-data wordt beschouwd als een vorm van hoogwaardige ontsluiting van informatie. Een nadeel is echter dat dergelijke gecontroleerde termen als erg
technisch worden ervaren door gebruikers. Vaak worden deze meta-data ook beschouwd als jargon, vooral ervaren gebruikers of zoekexperts bedienen zich van de beschikbare gecontroleerde zoektermen. Een ander minpunt van een gecontroleerd systeem of ontologie is de traagheid waarmee nieuwe begrippen en concepten worden geïntegreerd in bestaand vocabulaire. De reden hiervoor is dat alvorens nieuwe termen kunnen worden opgenomen in het systeem, deze eerst moeten worden onderworpen aan een zorgvuldig evaluatie en selectieproces door de catalogusbeheerder (Lu, Park, Hu, 2010: p. 764-765).
3.4.1 Gecontroleerd zoeken: bevindingen uit de praktijk
Uit een evaluatie van de online catalogus van de Koninklijke bibliotheek (1998) waarbij een vergelijkend onderzoek werd uitgevoerd tussen het zoeken op onderwerpen in de monografieën van de collecties van de geesteswetenschappen en menswetenschappen wees uit dat, door gebruik te maken van gecontroleerde onderwerpstermen, meer dan 80 procent van de relevante titels werd gevonden.
Uit een nadere analyse bleek dat slechts een beperkt deel van de relevante documenten wordt weergegeven in de resultatenlijst bij een zoekactie op titelwoorden, simpelweg omdat een dergelijke zoekactie op titelwoorden vaak te weinig aanknopingspunten biedt om door het zoeksysteem te worden gevonden.
Het kan echter zo zijn dat titelwoorden precies lijken te passen bij de titel van een
document, maar dan nog is het zeer wel mogelijk dat een gecontroleerde onderwerpsterm beter correspondeert met de inhoud van een document.
Hoe nuttig een titel ook kan zijn, vaak kan deze nog beter terug vindbaar worden gemaakt door er nog een of meer onderwerpstermen uit het gecontroleerde vocabulaire aan toe te kennen (Voorbij 1998: p. 468, 470). Als gezocht wordt op boektitels met een zeer specifieke inhoud mag verwacht worden dat de weergave hiervan duidelijk(er) in de titel tot uiting komt. Het vinden van zo een boektitel zal dan met behulp van
titelwoorden een grotere kans van slagen hebben. Hoe specifieker een onderwerp is hoe effectiever het zoeken op titelwoorden zal zijn.
Het omgekeerde is het geval bij het zoeken met een gecontroleerde zoekterm. Hoe breder het onderwerp van te vinden documenten is hoe effectiever het gebruik van
gecontroleerde termen zal zijn bij het zoekproces. De meeste gebruikers zullen echter geen duidelijk beeld hebben van bruikbare en veel gebruikte gecontroleerde termen van een online catalogus. Gebruikers zullen daarom meestal geneigd zijn een eerste zoekactie uit te voeren met behulp van een of meer titelwoorden, om daarna de meest relevante resultaten uit de lijst in te zien. Zo kan bepaald worden welke gecontroleerde termen uit de catalogus het beste gebruikt kunnen worden voor een zoekactie.
De kans is namelijk groot dat een gebruiker zelf niet of slechts deels op eigen kracht op een of meer van deze termen gekomen zou zijn. Uit het onderzoek van Voorbij kwam overigens naar voren dat de gevonden resultaten voor beide zoekprocessen, dus zowel op brede als op specifieke onderwerpen procentueel een hogere en betere score lieten zijn bij het zoeken met behulp van gecontroleerde zoektermen. Gecontroleerde zoektermen scoorden bij 11 op 12 van de brede en 8 op de 13 van de specifieke zoekacties op onderwerp beter dan vrije termen, zoals titelwoorden in het onderzoek van Voorbij. In veel gevallen zullen gebruikers afwisselend gebruik maken van vrije zoektermen, titelwoorden en gecontroleerde termen, op basis van gevonden zoekresultaten.
Bij geringe vangst kan daarbij ook nog worden teruggevallen op truncatie of maskering als extra hulpmiddel om de vangst te verbeteren. Aan de hand van de zoekresultaten, en na beoordeling van de hoeveelheid ruis en de mate van precisie, kan vervolgens worden bepaald op welke wijze en met welke zoekmethoden verder wordt gezocht in de online catalogus. Het online zoekproces is een flexibel proces waarin op basis van gevonden resultaten of het gebrek aan gevonden relevante documenten kan worden bijgestuurd en worden gekozen voor een alternatief zoektraject. (Voorbij 1998: p. 471-473).
Het evaluatieonderzoek uitgevoerd door Voorbij heeft aangetoond dat zoeken met behulp van gecontroleerde zoektermen valt te verkiezen boven zoekacties op basis van vrije termen of titelwoorden, al dan niet met gebruikmaking van methoden als trunceren en maskeren. Hoewel weinig boektitels volledig betekenisloos zullen zijn, is de kans toch groot dat het aantal aanknopingspunten voor retrieval in veel gevallen te beperkt is voor de online catalogus.
Voordelen gecontroleerde onderwerpsontsluiting in online publiekscatalogi:
a) Door middel van onderwerpsontsluiting wordt de bibliografische record van een document verrijkt.
b) De groepering van synoniemen, de alternatieve manieren om een onderwerp te benaderen en beschrijven en het ondervangen van documenten in verschillende talen. c) Andere ingang-suggesties door middel van verwijzingen.
d) Het verminderen van het aantal irrelevante hits bij een zoekactie. (Voorbij 1998: p. 475-476).
3.5 Gecombineerd zoeken via vrije velden en een gecontroleerde vocabulaire Door laagdrempelige toegang en flexibele aspecten van een tag-systeem met zijn
browsecapaciteiten te combineren met de kwaliteiten van een gecontroleerd vocabulaire, waarmee gerichte en specifieke vragen kunnen worden beantwoord en collocatie
mogelijk is, kan ‘the best of both worlds’ worden benut.
De combinatie van een gecontroleerd systeem aangevuld met een folksonomy wordt wel een hybride systeem genoemd (Guy & Tonkin, 2006: p. 12). Deze combinatie kan een waardevol hulpmiddel zijn voor een klantgericht, op maat gemaakt catalogussysteem. Uit onderzoek, waarin tags en LC subject headings bij de vijf populairste boektitels in WorldCat toegekend door Amazon- en LibraryThing-gebruikers werden vergeleken, kwam naar voren dat respectievelijk 31% en 20% van de tags objectief was. Objectieve tags ontsluiten het boek-onderwerp, subjectieve tags zijn termen als ‘te lezen’, ‘humor’. De objectieve tags bleken vaak waardevol voor verdere ontsluiting. Het gemiddeld aantal subject headings bij titels is maximaal slechts drie, synergie loont dus (Lawson, 2009: p. 578, 580). Wel zal een balans moeten worden gecreëerd tussen beide systemen. Een gecontroleerd vocabulaire fungeert daarbij als zoeksysteem dat precisie en kwaliteit waarborgt, terwijl gebruikers tags en gecontroleerde zoektermen benutten om eigen informatie te organiseren. Een andere studie (Lu, Park en Hu, 2010: p. 763) geeft aan dat door gebruikers gegenereerde LibraryThing tags in combinatie met gecontroleerde termen elkaar goed aanvullen bij titelgerichte zoekacties.
3.6 Zoeken met tags in de online catalogus
De verrijking van de bibliotheekcollecties door toekenning van gebruikers tags, wordt in het bibliotheekjargon Folksonomy’ genoemd. Deze term is een samenvoeging van de woorden folk en taxonomy en is geïntroduceerd door Thomas van der Wal in 2004. De Folksonomy is een sociaal classificatie- of woordsysteem waarbij zoektermen niet zijn toegekend door bibliotheekprofessionals maar door gebruikers (Lu, Park, Hu, 2010: p. 764). Tags sluiten meestal beter aan bij het basale kennisniveau van de meerderheid van de bibliotheekgebruikers. Verder zijn tags meer ‘bij de tijd’, veranderingen en nieuwe termen worden meteen opgenomen. Daar waar een bibliotheekcatalogus probeert een informatiebron uit de collectie in een hoofdonderwerp te classificeren, stelt een tag-systeem de gebruiker in staat om een bepaalde informatiebron in meerdere
onderwerpscategorieën in te delen en te indexeren.
Gebruikers voor wie het van belang is alle informatie over een bepaald onderwerp in de catalogus te achterhalen zijn juist meer gebaat bij een hiërarchisch zoeksysteem.
Gebruikers die met tags willen zoeken moeten een bruikbare gecontroleerde zoekterm verzinnen, voor een resultatenlijst. Daarbinnen kunnen dan tags worden geselecteerd om te browsen. Veel gebruikers hebben echter moeite om zinnige zoektermen te formuleren (Steele, 2009: p. 69-70).
De folksonomy onderscheidt zich door vier kenmerken:
i) Het toekennen van tags wordt autonoom gedaan; gebruikers worden niet gedwongen termen uit een bepaald woordsysteem te selecteren. ii) Gekozen tags moeten allen worden gegenereerd via het automatiseringsproces; er mag dus geen voorselectie plaatsvinden. iii) de relatie van de tag is gebaseerd op het gebruik, niet op een strikte definitie van het onderwerp; een gebruiker bepaald zelf de betekenis van een tag. iv) elke ‘motiveringsmethodiek’ voor het toekennen van tags is valide, gebruikers zelf bepalen welke systematiek ze gebruiken (Gene Smith, 2008).
Folksonomies kunnen voor bibliotheekgebruikers een toegevoegde waarde genereren bij het organiseren en terugvinden van eigen relevante catalogusitems via tags. De
mogelijkheid om met tags extra meta-data toe te kennen aan bepaalde catalogusitems naast de bestaande gecontroleerde trefwoorden van het catalogussysteem, stelt hen in staat om zoektermen te kiezen die aansluiten bij het eigen opleidingsniveau en
belevingswereld (Lu, Park, Hu, 2010: p. 764).
Verder kunnen gebruikers door tagging online gemeenschappen creëren waarin met gelijkgestemde gebruikers informatie kan worden uitgewisseld uit de catalogus (Spiteri, 2006 : p. 76-77, 79). Er zijn ‘smalle’ en ‘brede’ folksonomies te onderscheiden. Smalle folksonomies worden gecreëerd door individuele gebruikers die alleen informatie ontsluiten voor eigen gebruik. De website LibraryThing is een voorbeeld van een brede folksonomy. Gebruikers kennen tags toe aan eigen boeken en voegen eventueel een waardering toe. LibraryThing neemt deze over en maakt ze doorzoekbaar voor andere gebruikers, deze kunnen de tags zien en overnemen of zich erdoor laten inspireren bij het creëren van eigen tags (Steele, 2009: p. 69). Zowel gebruikers als groepen kunnen vrije zoektermen, ‘tags’, toekennen aan online items zoals teksten, foto’s, bookmarks, filmpjes (Thomas, Caudle & Schmitz, 2010: p. 223). Folksonomy-systemen zoals Delicious, Flickr,
Technorati en LibraryThing for libraries richten zich op verschillende bestandsformaten; hyperlinks, digitale fotobestanden, blogs of boektitels en tijdschrifttitels van
bibliotheekcollecties (Sinclair & Cardew-Hall, 2008 : p. 15-17).
3.6.1 Tags en tag clouds
Een tag is in feite een hyperlink die een (zoek)term aan een object uit de catalogus verbind. Door te klikken op een link in een titelbeschrijving wordt men naar een titeloverzicht geleid waarin objecten uit de online catalogus worden weergegeven waar eenzelfde tag aan is toegekend. Naarmate meer gebruikers tags toekennen aan objecten in een publiekscatalogus ontstaat er een tag lijst of tag cloud.
Meestal worden tag-termen gepresenteerd op alfabetische volgorde of op basis van gebruiksfrequentie. De visuele weergave in de vorm van een tag cloud is een methode om ‘zwaardere termen’ d.w.z. termen die frequenter worden gekozen als zoekterm óf
frequenter zijn toegekend aan een object meer te laten opvallen door ze in een andere kleur of groter lettertype weer te geven (Lawson, 2009: p. 574). Golder en Huberman, die onderzochten wat voor tags leden van de site Del.icio.us zoal toekenden, identificeerden zeven verschillende tag-functies: identificatie wat het onderwerp is, wat voor bron het is, wie eigenaar van de informatiebron is, verfijning van categorieën, het identificeren van kwalificaties, toekenning van zelfreferenties en taakorganisatie. (Thomas, Caudle & Schmitz, 2009: p. 412-413, 416-422).
Door gebruik te maken van statistische analyses om groepen tags te bundelen kan het onderscheid tussen populaire en eenmalig toegekende termen duidelijk worden
gesignaleerd. Deze informatie kan worden aangewend om precisie en recall bij gerichte zoekacties of browsen in de catalogus te vergroten zonder afbreuk te doen aan de laagdrempeligheid en het intuïtieve karakter van het zoeken met tags.
3.6.2 Voordelen en nadelen van het zoeken met tags
Toekenning van tags kan een nuttige aanvulling vormen op het gecontroleerde vocabulaire van de publiekscatalogus omdat reguliere content en meta-data voor
aanwinsten in de collectie vaak later beschikbaar zijn. Door tagging wordt de druk op de catalogiseringsafdeling verlicht (Lu, Park, Hu, 2010: p. 764). Bovendien kan de
toevoeging van gebruiker gegenereerde meta-data aan de catalogusbestanden de vangst vergroten, vooral in bepaalde cataloguscategorieën zoals fictie, die moeilijk met een trefwoord of thesaurusterm zijn te ontsluiten (Mendes et al., 2009 : p. 38-39).
Uit een LibraryThing-onderzoek concludeerde Rolla (2009) dat 76% van tags en onderwerpswoorden weliswaar hetzelfde onderwerp hadden, maar dat tags en subject headings verschillende termen gebruikten (Thomas et al., 2010: p. 224).
In Sinclairs’ experiment moesten 89 studenten elk tien artikelen van tags voorzien, zonder maximum. Daarna moesten ze tien vragen beantwoorden met behulp van getagde
artikelen uit de collectie van 1074 artikelen. Ze mochten gebruikmaken van een searchbox of tag cloud. Respondenten beantwoordden de meeste vragen met de tag cloud.
Controleerde men echter de laatste toetsaanslag van een zoekactiesessie, dan bleek dat zes op de tien studenten het gebruik van de searchbox prefereerden.
De searchbox bleek vooral effectief te zijn bij specifieke zoekacties. Na verder onderzoek bleek dat er twee situaties waren waarin respondenten de tag cloud prefereerden. Bij brede of niet-specifieke zoekacties en bij zoekacties waarin de tag cloud een zoekterm bevatte, relevant voor de vraagstelling. Tag clouds zijn zeer bruikbaar voor browsen of het zoeken van non-specifieke informatie. Het ‘scannen’ van termen in een tag cloud vergt minder kennis dan zelf zoektermen formuleren. Tags bieden een visuele samenvatting van de inhoud van collectieonderdelen. De tag cloud is minder bruikbaar bij specifieke
zoekopdrachten en beantwoording van een vraag vergde meer zoekacties per vraag. Een interessante observatie uit het onderzoek was dat respondenten, waarbij Engels de tweede taal was, de tag cloud als een handig zoekmiddel ervoeren. Zij ondervonden juist problemen met het formuleren van gerichte zoekvragen in het zoeksysteem (Sinclair et al., 2008 : p. 26-27). Het toevoegen van tags aan informatieproducten in een online publiekscatalogus heeft ook zwakke kanten.
Tags zijn brede zoektermen, categorienamen of meta-data die zijn aangemaakt door leken, ze voldoen niet aan de meest elementaire formele richtlijnen. Onderwerpen in de collectie kunnen worden aangeduid met elke (zoek)term die, in de perceptie van de gebruiker, een logisch verband legt tussen de online bron en een begrip.
Gebruikers die tags toevoegen maken regelmatig spelfouten waardoor verkeerde, niet bestaande woorden voorkomen in een tag lijst (bijv. bilbiotheek, famlie), er worden enkelvoudige en meervoudige woordvormen door elkaar gebruikt (hond, honden). Persoonlijke tags worden frequent toegevoegd, de perceptie erachter is voor andere gebruikers vaak onduidelijk. Slechte tagcodering, zoals ongebruikelijke samenvoegingen, komt ook voor (Guy & Tonkin, 2006: p. 5).