Name That Book: het terugvinden van een boek dat je ooit gelezen hebt

(1)

Name That Book

Het terugvinden van een boek dat je ooit gelezen hebt

Mater Erfgoedstudies: Culturele Informatiewetenschap Naam: Luciën Tull / Studentnummer: 10868437 Begeleider: Dr. Jaap Kamps

Tweede lezer: Dr. Kaspar Beelen Datum 29-06-2018

(2)

Inhoudsopgave

Samenvatting 2 Summary 3 1 Inleiding 4 1.1 Probleemstelling 5 1.2 Onderzoeksdoelstelling en -vraag 5

1.3 Name That Book 5

1.4 Onderzoeksopzet 8

1.5 Leeswijzer 9

2 Literatuuronderzoek 10

2.1 Zoek- en beoordelingsfase 10

2.1.1 Zoekproces 10

2.1.2 Beoordelen van relevantie 10

2.2 Relevance aspecten 11

2.2.1 Relevance dimensies 11

2.2.3 Boekselectie 12

2.3 Conclusie 13

3 Onderzoeksopzet 15

3.1 Uitvoering van het onderzoek 15

3.1.1 De selectie 16

3.1.2 Scoren van aspecten 16

3.2 Conclusie 18

4 Uitkomsten en analyse 19

4.1 Relevance aspecten in informatieverzoeken 19

4.1.1 Content dimensie 21

4.1.2 Metadata dimensie 22

4.1.3 De relatie tussen aspecten 23

4.1.4 Overlap van dimensie 25

4.2 Conclusie 27

5 Eindconclusie 29

Literatuur 34

(3)

Samenvatting

De zoektocht naar informatie kan worden gekarakteriseerd als een cycli die mediagebruikers doorlopen om tot potentiële relevante informatie te komen. Relevante informatie wordt

gekenmerkt als een beleving tussen de mediagebruiker en het document. Het zoeken en vinden van documenten wordt steeds vaker gebaseerd op esthetische aspecten die een relatie legt tussen de leesvoorkeur en de emotionele band bij de mediagebruiker. Esthetische factoren hebben invloed op de emotionele beleving die mediagebruikers bij een boek ervaren. Deze methode behoort echter niet tot de mogelijkheden van traditionele zoekmachines, want het zoeken gebeurd op grond van formele boekkenmerken. In dit onderzoek wordt aandacht besteedt aan de wijze waarop mediagebruikers een boek terugvinden op het Name That Book forum. Hier wordt antwoord gegeven op de volgende onderzoeksvraag: hoe kun je een boek dat je ooit gelezen hebt terugvinden? Om deze hoofdvraag te beantwoorden wordt allereerst antwoord gegeven op de volgende deelvragen 1) Hoe hangt relevance aspect samen met de keuze voor een boek?, 2) Hoe kunnen we relevance aspecten in informatieverzoeken classificeren? en 3) Welke relevance aspecten hebben informatieverzoeken op het Name That Book forum? De focus wordt gelegd op het identificeren van aspecten die verklaren op welke wijze de community van het Name That Book forum een boek in een informatieverzoek identificeren.

Om ervoor te zorgen dat boeken terugvindbaar zijn, wordt hier aanbevolen om social data te verenigen met de formele boekkenmerken. Deze vereniging zorgt grotendeels ervoor dat mediagebruikers de opgegeven kenmerken, op grond van eigen interesses, waarden of lezerscriteria sneller herkennen. Zelfs wanneer de formele metagegevens ontbreken kan de bibliotheek een proactieve rol spelen door een boek terug te vinden op grond van de esthetische factoren. Hier is de verwachting dat deze vorm van het terugvinden van documenten, wellicht een nieuwe dimensie zal toevoegen aan de manier waarop huidige zoeksystemen functioneren. Bovendien kan de combinatie van formele boekkenmerken met esthetische factoren wellicht meer inzicht bieden in de complexe informatiebehoefte van mediagebruikers.

(4)

Summary

Information seeking can be characterised as a process or a cycle, that represents a serie of events that users endure in their quest to discover potential relevant documents. Relevance is an

important factor that is considered to be fruitful when the results, in the form of a set of

documents, matches to the query of a user. Therefor, relevance is characterized as the affection that envelopes the emotional experience of user that a esthetic document emits. However, this method does not endorse the classical form of refinding information that mainly is based on the recollection of access points. In addition, the personal preferences of users is strongly related to the reading behavior that characterizes the types of books users usually read. This research pretty much focuses on the way users find a book on the Name That Book forum. To understand this phenomenon, an answer will be provided on the following research question: how can you find a book you have once read? This question is also accompanied by three individual questions 1) How does the relevance aspect relate to the choice of a book? 2) How can we classify relevance aspects in information requests? and 3) What relevance aspects do information requests have on the Name That Book forum? The focus is on identifying aspects that explain how the community of the Name That Book forum identifies a book in an information request.

In order to ensure that books can be successfully retrieved, a recommendation is to combine social data with the classical access points. There are a couple of quick wins to be achieved here. The first will be the proactive roll library will play in the process of refinding books that are based on the aesthetic factors. In worst case scenario the user will have no recollection of the access points and will be basing the search purely on the request. The expectations are that this new method of document retrieval may add a new dimension to the way current search systems function. Moreover, the use of social data will insure the sharing of knowledge in which a collectivity of users will recognize the specified characteristics, based on their own interests, values or reader criteria. The combination of formal book characteristics with aesthetic factors may provide more insight into the complex information needs of media users.

(5)

1 Inleiding

De titel van dit onderzoek karakteriseert een maatschappelijk probleem dat, nog steeds veel wordt besproken: het terugvinden van informatie. Dit onderzoek haakt hiermee in op een praktisch probleem dat juist groter is geworden, sinds de grootschalige digitalisering voor een complexere informatielandschap heeft gezorgd (Koolen et al, 2012; Kazai en Doucet, 2008). Informatie is in dit landschap een spin in het web dat op een gedegen manier geborgd moet worden. Maar de actualiteit leert dat het over het algemeen slecht is gesteld met de kennisborging van informatie (Protime, 2018). Uit dit onderzoek blijkt dat informatie onvoldoende geborgd en geadministreerd wordt of de informatie wordt versnipperd opgeslagen. De onderzoekers hebben tevens ontdekt dat medewerkers geen idee hebben waar de informatie is opgeslagen, waardoor ze veel tijd kwijt zijn aan het terugvinden van informatie. Deze tijdsverspilling wordt duidelijk, wanneer blijkt dat ruim een kwart van de medewerkers grofweg tussen één en drie uur per dag naar bedrijfsinformatie zoekt. De falende kennisborging zou als laatste leiden tot problemen die ontstaan bij de uitstroom van medewerkers. Dit fenomeen wordt gekarakteriseerd als braindrain, omdat waardevolle kennis niet wordt opgeslagen wanneer medewerkers de organisatie verlaten.

In dit huidig onderzoek wordt een specifieke benadering gekozen die niet veel afwijkt van de problemen die zich op een maatschappelijke schaal voordoen. De gekozen benadering richt zich specifiek op het terugvinden van een boek op het Name That Book forum. De

bibliotheekcatalogus wordt idealiter ingezet voor het terugvinden van een boek, waarvan de formele boekkenmerken bekend zijn. De bibliotheekcatalogus is in dit geval een traditioneel zoeksysteem dat voornamelijk toegang verleent tot documenten die in de bibliotheek zijn ontsloten. Het uitgangspunt van dit traditioneel zoeksysteem is gebaseerd op formele

boekkenmerken zoals de titel, auteur en/of onderwerp van een document (Lee, & Schleyer, 2012). Gebruikers hebben baat bij het gebruik van formele boekkenmerken, want hiermee kan gericht naar de relevante documenten worden gezocht. De taak van het traditioneel zoeksysteem is om een associatie te leggen tussen de kenmerken waarop de gebruiker zoekt, met de vooraf gedefinieerde kenmerken of trefwoorden. De gebruiker kan daarnaast de resultatenlijst

beïnvloeden door bijvoorbeeld op meerdere formele boekkenmerken te zoeken of kenmerken te combineren. Het nut hiervan is om tot een resultatenlijst te komen, waarin de relevante

documenten hoger worden gerankt ten opzichte van de zwakke treffers (irrelevante documenten).

Maar de constatering is dat de bibliotheek, wellicht door het hybride aanbod van informatie, een kleine groep van bezoekers niet kan bedienen bij het terugvinden van een boek. Deze kleine groep van gebruikers valt net buiten de boot, omdat zij zich deze expliciete formele

boekkenmerken niet meer kunnen herinneren. Deze kleine groep maakt gebruik van alternatieve oplossingen om een boek terug te vinden. Deze gebruikers maken intensief gebruik van social media om andere gebruikers met hetzelfde leesgedrag op te zoeken. Het leesgedrag omvat in dit specifiek geval de leesvoorkeuren van individuen, die als selectiecriteria dient bij de keuze voor een boek. De leesvoorkeur kan worden gezien als het samenvoegen van de formele

(6)

1.1 Probleemstelling

De herinnering aan de expliciete formele boekkenmerken, waarmee toegang tot een boek wordt verleend, lijkt bij een kleine groep van bibliotheekgebruikers te zijn ontgaan.

1.2 Onderzoeksdoelstelling en -vraag

Dit onderzoek heeft tot doel te onderzoeken hoe een kleine groep gebruikers van het Name That Book forum een boek terugvinden, waarvan de formele boekkenmerken ontbreken. De relevance aspecten worden voor dit doel ingezet om de informatieverzoeken van het Name That Book forum te analyseren. De relevance aspecten moeten belichten welke kenmerken wel helpen bij het terugvinden van boeken.

Aan de hand van het bovenstaande onderzoeksdoel zal antwoord worden gegeven op de onderstaande onderzoeksvraag en deelvragen:

● Hoe kun je een boek dat je ooit gelezen hebt terugvinden?

○ Hoe hangt relevance aspect samen met de keuze voor een boek?

○ Hoe kunnen we relevance aspecten in informatieverzoeken classificeren?

○ Welke relevance aspecten hebben informatieverzoeken op het Name That Book forum?

1.3 Name That Book

In dit proces wordt gekeken naar de praktijk: het Name That Book forum. Het forum draait voornamelijk om informatieverzoeken die door menselijke activiteiten tot stand zijn gekomen en waarin opvattingen, interesses, opinies en gevoelens worden geuit. Het betreft een verzameling van vraagstellingen of discussies op het forum waar geen of heel weinig formele boekkenmerken in zitten. Opvallend aan deze informatieverzoeken is dat formele kenmerken geen rol spelen bij het achterhalen van een boek. Een informatieverzoek kan worden geïllustreerd aan de hand van Topic 256612, waarin een gebruiker op zoek is naar een fictief boek van het genre roman: “Couple decided to divorce bur found that wife was pregnant. Husband became against

marriage. Wife ran a boutique shop or something. Husband was rich. There was something about a jealous secretary who pushed the wife almost at the end. Wife had a business partner /friend”. Na het lezen van dit informatieverzoek is het helder dat informatieverzoeken aanduiden dat gegevens van een boek wel blijven hangen, maar niet toereikend zijn om het boek in het traditioneel zoeksysteem terug te vinden.

(7)

Dit forum is een concreet voorbeeld van een social media portaal dat boekdelen spreekt (zie Figuur 1). In de openingszin van het platform wordt meteen duidelijk waar het platform voor staat: het terugvinden van een boek dat een gebruiker ooit eens heeft gelezen. Het platform richt zich hiermee specifiek op een kleine groep die een specifieke zoekvraag heeft, wellicht omdat de formele boekkenmerken ontbreken om een specifieke query te formuleren. Om dit doel kracht bij te zetten, wordt het forum neergezet zich als een intermediair in de vraag/aanbod verhouding op het moment dat een informatieverzoek wordt geplaatst. Met andere woorden, de leden van het platform werken samen om de informatieverzoeken van individuen te beantwoorden. Hiervoor worden variabelen zoals de achtergrond, kennis en interesses van de geregistreerde leden ingezet.

Figuur 1 Schermafdruk van het Name That Book forum.

Het platform bevat drie uitgewerkte punten of tips, waaraan aandacht wordt besteedt. In deze richtlijnen wordt de kunst van een gedegen informatieverzoek uitgelegd. Het doel hiervan is om de gebruiker zo veel mogelijk op weg te helpen, terwijl de lezer de concrete informatie krijgt om het boek in kwestie te achterhalen. De eerste tip richt zich primair op het vermelden van een pakkend onderwerp. Het advies luidt daarom dat een onderwerp moet worden gekozen waarmee de aandacht van de juiste forumleden wordt getrokken: een showstopper. Dit is van essentieel belang om te garanderen dat het verzoek door de leden van het platform in behandeling wordt

(8)

genomen. Om die reden wordt gewezen op het slim gebruik van een onderwerp waarin op zijn minst een genre en een beschrijving (‘clue’) voorkomen.

De plot (gedetailleerde beschrijving van een boek) is het tweede punt van aandacht. De tip luidt hier dat gebruikers (de zoeker) zoveel mogelijke details van het boek vermelden die wellicht anderen aanspreken en motiveren om het boek op te zoeken. Deze tip lijkt te garanderen dat een uitgebreide plot zowiezo leidt tot het succesvolle identificatie van een boek, maar dit is vooralsnog een tip.

De mediagebruiker is als laatste zelf verantwoordelijk om de voortgang te monitoren. Hiermee is de taak van de mediagebruiker om met enige regelmaat de respons op het geplaatste informatieverzoek, in de gaten te houden.

Figuur 2 De verkeerde omgang met de richtlijnen (Topic 241545).

Een concreet voorbeeld van de verkeerde omgang met de richtlijnen wordt gedemonstreerd aan de hand van een voorbeeld (zie Figuur 2). Topic 241545 bevat een informatieverzoek waarin een gebruiker op zoek is naar een boek: “I believe the setting is in Utah. The main characters are two older children about 12 I believe and one young boy, none of which are siblings. I only remember smatterings of the plot. I believe there was some type of alien encounter had by the youngest boy's mother while she was pregnant. Now the youngest child is mute but can communicate using mental pictures or colors. I believe the word "lights" was in the title, and the cover may have had children on a carnival ride. I also think one of the main scenes in the book takes place at a carnival. The older children need the younger child to lead them somewhere or to do something. I would have read this some time in the 1980s. Any help would be great”. Op dit informatieverzoek volgen logischerwijs reacties van de forumleden, waarna een andere gebruiker in het respons gedeelte hiervan zelf een informatieverzoek plaatst: “Looking for a book I read years ago. A woman who's a scholar... no personal life.. afraid of relationship. . Meets her long lost friend who's an aspiring writer. She invites our lead role to her home. This friend s family consists of husband and two children. When the friend gets a new writing job, she asks our lead role to come help with her family. She does cooking, gardening.. bonds with the family well.. helps with the girl child to lose weight.. husband falls in love with our lead.. friend knows about all this.. lead

(9)

role goes back to her old life.. she falls jn love with an acquaintance she met from a country side or so.. friend calls her and asks her details of her new love... this is all I remember”. Dit is typisch een voorbeeld waar gebruikers vaak de mist in gaan, om de reden dat het makkelijker is om de aandacht van de lezers op te eisen door een bestaand onderwerp te vervolgen met een nieuw verzoek.

Een verstandige keuze zou daarom zijn om de tips wat specifieker te maken met het doel gebruikers erop te attenderen dat ieder informatieverzoek een unieke vraagstelling is.

1.4 Onderzoeksopzet

In dit onderzoek werd gebruik gemaakt van een sample data, afkomstig van het Name That Book forum. De sample werd in de periode van 26 mei 2017 verzameld, door de onderwerpen en de URL’s van dit platform naar een spreadsheet te kopiëren (zie Bijlage II). In totaal werden 8.818 onderwerpen inclusief de URL naar het betreffende informatieverzoek van het Name That Book forum verzameld.

De trefwoorden werden vervolgens uit de verzameling gefilterd. Hier betrof het de trefwoorden in de verzoeken, die niet conform de richtlijnen van het platform waren opgesteld: ‘crazy’, ‘name *’ (‘name that book’, ‘name the author’ et cetera). Na deze ronde bleven 7.800 onderwerpen over.

De lijst werd hierna opnieuw genummerd, door gebruik te maken van de ingebouwde random formule van Microsoft Excel. Een nieuw kolom werd hiervoor aangemaakt. De nieuwe kolom kwam precies tussen de bestaande nummering en het eerste onderwerp in de spreadsheet te staan. De random formule werd vervolgens gebruikt om, de tot nu toe lege kolom, van een volledig willekeurig nummer te voorzien. Dit willekeurig nummer werd hierna naar de overige 199 lege kolommen gekopieerd. Hierna verviel het gebruik van de eerste kolom en werd de kolom met de willekeurige nummering leidend. De willekeurige nummers werden oplopend gesorteerd, wat resulteerde in een volledig willekeurig gerankte lijst met onderwerpen.

Het materiaal werd opgesplitst in twee groepen van elk 100 informatieverzoeken, namelijk een aanpak waarbij de richtlijnen van het forum invloed hadden op de selectie van verzoeken. Dit wil zeggen dat om in aanmerking te komen voor selectie, de verzoeken moesten voldoen aan de richtlijnen van het forum. Een voorwaarde was, dat een verzoek was voorzien van een duidelijk onderwerp en een plot (‘clues’ ). Verzoeken die niet aan deze voorwaarde voldeden werden overgeslagen, totdat het aantal van 100 verzoeken werd bereikt. Een eis was wel dat deze selectie van verzoeken van een touchstone waren voorzien. Een touchstone verwijst in deze context naar een titel dat het best past bij de uiting, het informatieverzoek, van de gebruiker. Verzoeken die geen touchstones hadden, werden overgeslagen.

Bij de selectie van het tweede deel verwijst de aanpak naar de hoge frequentie van relevance aspecten. Hier speelden de richtlijnen van het forum geen rol. Met andere woorden, de richtlijnen werden bij de samenstelling van het tweede deel volledig in de wind geslagen. Hier wordt gedoeld op de richtlijnen die betrekking hadden op de vermelding van het onderwerp, de plot (‘clue’) en de touchstone. De doelstelling was om een realistisch beeld te schetsen van de manier waarop de verzoeken werkelijk eruit zien.

(10)

De onderwerpen werden na deze voorbereidingen aan de hand van de acht dimensies gescoord. Een score (‘1’) werd toegekend, wanneer een aspect in een verzoek werd aangetroffen. De scores werden in de individuele kolomen van de aspecten bijgehouden. Deze vorm van etikettering werd op alle 200 onderwerpen toegepast.

De relevance aspecten werden voor classificatie doeleinden, naar het type

informatieverzoek ingedeeld. In het bestaand overzicht, ontleent aan Koolen et al (2015), werden labels aangemaakt om de onderwerpen te groeperen.

De onderwerpen werden tenslotte onderworpen aan een gedetailleerde analyse, waarbij de scores van alle tabellen werden opgeteld om de scores te interpreteren.

1.5 Leeswijzer

Dit document is als volgt gestructureerd:

Het theoretisch gedeelte van het onderzoek wordt geopend met hoofdstuk 2. In dit hoofdstuk zullen de theoretische overwegingen nader worden toegelicht en uitgewerkt. In dit hoofdstuk staat het beoordelen van relevantie en het toepassen van relevance aspecten centraal. Deze theoretische benadering ligt ten grondslag aan het onderzoeksproject en belicht de traditie van zoeken naar informatie op het terrein van leesgedrag en leesvoorkeur.

De onderzoeksopzet en uitvoering komt in hoofdstuk 3 aan de orde. De vraagstelling in dit hoofdstuk verwijst naar de relevance aspecten die zich manifesteren in de informatieverzoeken en de relatie tussen leesvoorkeur en esthetische relevantie. In dit hoofdstuk wordt ingegaan op de handelingen van dataverzameling en -analyse.

In hoofdstuk 4 worden de resultaten van de statistische analyse gepresenteerd. Daarbij wordt besproken of de relevance aspecten aansluiten bij de verwachtingen van dit onderzoek.

(11)

2 Literatuuronderzoek

In dit hoofdstuk wordt antwoord gegeven op de eerste deelvraag: hoe hangt het relevance aspect samen met de keuze voor een boek?

2.1 Zoek- en beoordelingsfase

2.1.1 Zoekproces

Het zoekproces is de onmisbare eerste stap in het terugvinden van informatie. Het zoeksysteem wordt in deze fase benaderd met het doel om informatie op te zoeken of terug te vinden. De traditionele zoekmachine van de bibliotheek wordt gewoonlijk geraadpleegd, om gebruikers met behulp van de formele boekkenmerken toegang te verlenen tot ontsloten informatie. De handeling van het zoeken en vinden van informatie, kan in essentie omschreven worden in de volgende vraag: “hoe is het mogelijk om relevante informatie te vinden die voldoet aan de

informatiebehoefte van de gebruiker?” De doelstelling is om gebruikers toegang te verlenen tot gestructureerde en ongestructureerde informatie (Wondergem et al, 1999). Deze gestructureerde informatie onderscheidt zich van de ongestructureerde variant, vanwege de zorg en aandacht die wordt besteedt aan het proces van ontsluiting. In het ontsluitingsproces worden documenten gekarakteriseerd of indices samengesteld. Het samenstellen van indices valt te definiëren als het proces waarbij kenmerken in de documenten worden belicht (Hagler, 1997 p31). De

samenstelling van indices kan ook worden gedefinieerd als het toewijzen van termen aan documenten (informatie) (Lee & Schleyer, 2012). Deze werkzaamheden zijn duurbetaalde handelingen (Voorbij, 1997) die nodig zijn om te garanderen dat de zoekvraag van de gebruiker relevante informatie oplevert (Wondergem et al, 1999).

2.1.2 Beoordelen van relevantie

Het beoordelen van relevantie is een belangrijke fase in het proces van het terugvinden van informatie. Kenmerkend aan deze fase is dat gebruikers de resultaten van het zoekproces vergelijken met de zoekvraag. Hier gaat het om een vergelijking tussen de documenten in de resultatenlijst met de zoekwoorden die een afspiegeling zijn van de eigen informatiebehoefte. Bij de vergelijking wordt in het bijzonder aandacht besteedt aan overeenkomsten tussen het

zoekwoord en de documenten die een sterke relevantie vertonen met de zoekvraag (Cooper, 1971). Het proces wordt herhaald, wanneer de gebruiker ontevreden is over de resultaten of wanneer nieuwe zoekwoorden wordt toegevoegd die de informatiebehoefte beter omschrijven.

Een terechte opmerking van Cooper (1971) is, dat deze vorm van het beoordelen van relevantie in het nadeel van de gebruiker kan werken. Cooper (1971) doelt op de onjuiste

formulering van een query: verkeerde zoekwoorden om de informatiebehoefte uit te drukken. Het gevolg hiervan is een resultatenlijst waarin de irrelevante treffers juist dominant aanwezig zijn, in plaats van andersom.

(12)

Relevantie omvat veel meer dan slechts een document met de juiste combinatie van zoekwoorden vinden. De ranking (weging) van documenten is een andere uitdaging die Behnert, Lewandowski (2017) aankaarten. Relevantie wordt gemeten door de trefwoorden in een

document te wegen en op grond daarvan deze documenten hoger in de resultatenlijst weer te geven. Het gevaar is hier dat irrelevante documenten hoger in de lijst verschijnen, vanwege het feit dat de trefwoorden een valse overlap vertonen met de documenten. De boosdoener is hier de populariteit van een onderwerp: hoe populair, hoe hoger de ranking van een document.

2.2 Relevance aspecten

Het relevance assessment (ook wel relevance aspect genoemd) is inzetbaar als onderzoeksmodel om het proces van de document- of boekselectie in beeld te brengen (Reuter, 2007). Het

relevance assessment wordt gedefinieerd als de aspecten die in een informatieverzoek of

vraagstelling worden genoemd, waardoor de leesvoorkeur voor een boek duidelijk wordt (Bogers en Vivien, 2017). Het relevance assessment en het concept van esthetische relevantie wordt in Reuter’s (2007) onderzoek toegepast om te belichten welke aspecten invloed hebben op de selectie van een boek bij kinderen. Een concreet voorbeeld van esthetische relevantie is het beoordelen van een boek op grond van een geschikte leeservaring of emotionele waarde. Het relevance assessment verschilt ten opzichte van andere benaderingen zoals van Cooper (1971): relevantie wordt gemeten door de juiste zoekwoorden te formuleren. Met andere woorden, de kans op relevante documenten wordt vergroot, wanneer de juiste query wordt geformuleerd (Cooper, 1971).

2.2.1 Relevance dimensies

Reuter (2007) heeft 46 factoren geïdentificeerd die van invloed zijn op de selectie van digitale boeken en op het beoordelen van esthetische relevantie bij kinderen. Deze 46 factoren zijn tevens onder te verdelen in zeven dimensies (zie Tabel 1). Deze dimensies brengen de formele

boekkenmerken met esthetische aspecten samen (zoals associaties, emoties of leeservaringen die boeken oproepen). De dimensies geven meer inzicht in de kenmerken die mediagebruikers in de informatieverzoeken verwerken. Dit is een goed uitgangspunt omdat meerdere lezers worden geïdentificeerd, die dezelfde emotionele reacties op boeken hebben. Deze emotionele associaties worden gelegd op grond van de aspecten die in het informatieverzoek voorkomen.

De dimensies zijn vervolgens door Koolen et al (2015) verrijkt met het known-item dimensie. Deze verrijking is interessant, omdat hiermee wordt onderzocht hoe gebruikers op social media portalen naar gelijkgestemde boeken zoeken. De leesvoorkeur is in dit geval interessant, want gebruikers baseren hun leesgedrag op verschillende factoren: auteur, stemming, bekende boeken of een leeservaring die gerelateerd is aan esthetische factoren. Het Known-Item dimensie belicht hierdoor hoe de leesvoorkeur van een gebruiker is afgestemd op de relevance aspecten die in een verzoek worden vermeld.

(13)

# Dimensie Relevance aspecten

1 Accessibility The language, length, or level of difficulty of a book

2 Content Topic, plot, genre, style, or readability of a book

3 Engagement Affective types of reading experiences evoked by books

4 Familiarity Books similar to known books or related to a previous experience

5 Known-item Descriptions of known books to identify the title and/or author

6 Metadata Aspects like title, author, publication year and format

7 Novelty Books related to the user’s socio-cultural background or values, have (had) a particular cultural or social impact, or are popular or obscure.

8 Socio-cultural Books that are unusual or quirky, or have novel content

Tabel 1 De relevance factoren inclusief de dimensies van Reuter (2007).

2.2.3 Boekselectie

De rode draad in Reuter’s (2007) onderzoek is een alomtegenwoordig maatschappelijk probleem: de neerwaartse trend in het leesgedrag van kinderen. Reuter (2007) haakt hiermee precies in op een maatschappelijk probleem dat zich vooral voordoet onder jonge kinderen van het

basisonderwijs. De constatering is dat het aantal kinderen dat in hun vrije tijd leest, sterk terugloopt. Deze waarneming is ongetwijfeld een van de effecten van een gedigitaliseerd medialandschap waarin jonge kinderen opgroeien. Reuter (2007) heeft als reactie op deze berichtgeving, de aandacht gevestigd op de wijze waarop basisschoolkinderen een boek in een digitale bibliotheek selecteren: welke factoren beïnvloeden de keuze voor een boek. De informatiebehoefte en het zoekgedrag van 136 basisschoolkinderen werd met behulp van observatietechnieken in kaart gebracht. Uit de resultaten blijkt dat basisschoolkinderen de keuze voor een boek voornamelijk baseren op de metadata de fysieke dimensies van een boek. Bij metadata spelen de kenmerken zoals de titel, de auteur, het publicatiejaar en het formaat een rol. Kinderen letten bij de keuze voor een boek tevens op andere aspecten zoals de taal, de lengte of het moeilijkheidsgraad van een boek (accessibility dimensie) en de content dimensie; het onderwerp, de plot, de schrijfstijl en de leesbaarheid van een boek.

(14)

De beoordeling van relevante informatie is grotendeels afhankelijk van het leesgedrag van gebruikers. Dit betekent dat de keuze voor een boek grotendeels wordt bepaald door het leesgedrag en de leesvoorkeuren van gebruikers (Mikkonen en Vakkari, 2016). De leesvoorkeur kan worden gezien als het samenbrengen van de formele boekkenmerken met de esthetische aspecten (Reuter, 2007). Deze leesvoorkeur criteria is afgestemd op de interesse voor een bepaald boek uit te drukken (Mikkonen en Vakkari, 2016). De onderzoekers hebben de afstemming van de interesse op een bepaald boek, met behulp van een experiment, op de proef gesteld. In totaal namen 80 participanten deel aan het experiment, die allemaal een sterke interesse delen in fictie boeken. De participanten hadden elk vier taken toebedeeld gekregen die in een traditioneel zoeksysteem werden uitgevoerd. Het ‘think-aloud’ protocol werd tijdens het experiment toegepast. Dit protocol is vooral handig omdat participanten of proefpersonen alle handelingen die ze uitvoeren, voor de onderzoeker, mondeling toelichten. Deze interactie werd voor onderzoeksdoeleinden opgenomen. Voor de data-analyse hebben de onderzoekers gebruik gemaakt van de gespreksopnames en de logbestanden van de participanten. De resultaten laten zien dat de meest toegepaste interessecriteria bij de selectie van fictie boeken, de familiarity en de metadata dimensies zijn. Gebruikers kunnen met behulp van de familiarity dimensie de eerdere leeservaring overbrengen om zodoende soortgelijke boeken te benoemen. De familiarity dimensie is tevens gerelateerd aan het known-item dimensie. De relatie wordt gelegd, omdat de selectie van een boek wordt gedaan op basis van een bekende auteur of door te zoeken op een bekende titel.

De methode van relevance aspecten is onlangs in de studie van Koolen et al (2015) verwerkt. In deze studie wordt expliciet gekeken naar de manier waarop LibraryThing forumgebruikers gelijkgestemde boeken zoeken en vinden. De insteek van de studie is om in kaart te brengen welke leesvoorkeuren in de expliciete informatieverzoeken zijn verwerkt. De onderzoekers hebben een willekeurige sample van 2.646 onderwerpen van het LibraryThing forum geselecteerd en geannoteerd. De onderzoekers hebben uit deze sample 944 onderwerpen gecategoriseerd als zijnde een informatieverzoek. In elk van deze informatieverzoeken werd tevens meerdere relevance aspecten waargenomen. De onderzoekers hebben geleerd dat bij het zoeken naar gelijkgestemde boeken, gebruikers de content en de familiarity dimensies frequenter in een informatieverzoek verwerken. De content dimensie is gerelateerd aan het onderwerp, de plot, de schrijfstijl en de leesbaarheid van een boek. De familiarity dimensie is gerelateerd aan een eerdere leeservaring die gebruikers overbrengen om zodoende suggesties te krijgen voor soortgelijke boeken. Minder frequent geïdentificeerde dimensies zijn metadata, engagement en known-item.

2.3 Conclusie

In dit hoofdstuk is gezocht naar een antwoord op de eerste deelvraag: hoe hangt het relevance aspect samen met de keuze voor een boek?

Het relevance assessment (ook wel relevance aspect genoemd) is inzetbaar als onderzoeksmodel om het proces van de document- of boekselectie in beeld te brengen (Reuter, 2007). Het

relevance assessment wordt gedefinieerd als de aspecten die in een informatieverzoek of

vraagstelling worden genoemd, waardoor de leesvoorkeur voor een boek duidelijk wordt (Bogers en Vivien, 2017).

(15)

Het beoordelen van relevante informatie is allereerst geen exclusieve taak van een zoeksysteem. Zoeksystemen vergelijken de zoekwoorden in een query met de trefwoorden die vooraf aan documenten zijn toegekend. Gebruikers hebben de taak om de resultatenlijst van een zoekopdracht op relevante documenten te beoordelen. Deze exercitie omvat een eigen

vergelijking waarbij de query met de relevante treffers worden vergeleken. De informatiebehoefte van de gebruiker is in deze context een uniek aanknopingspunt, want deze behoefte wordt tijdens het zoeken omgezet in een query. Relevantie is om deze reden een verschijnsel dat onderdeel is van een beleving die gebruikers ervaren. Relevantie kan zo worden beoordeeld op basis van de esthetische factoren zoals de emotionele beleving. Dit hoofdstuk leverde tevens inzicht in de factoren die de beleving van relevantie kunnen beïnvloeden. Het beoordelingsvermogen wordt aangetast wanneer de informatiebehoefte met behulp van de onjuiste zoekwoorden wordt geuit. Cooper (1971) noemt dit zorgelijk want hierdoor loopt de gebruiker de relevante treffers mis, terwijl de resultatenlijst wordt vervuilt met irrelevante treffers. Een aspect dat invloed heeft op het beoordelen van relevantie, is het verschijnsel dat in verband wordt gebracht met de

gebeurtenissen of personen, waardoor deze in populariteit toenemen. Populariteit van onderwerpen treffen de verhouding van relevante en irrelevante treffers om de reden dat de ranking (het gewicht dat aan een document wordt toegekend) in het voordeel valt van de populaire onderwerpen. Documenten die gerelateerd zijn aan populaire onderwerpen komen hierdoor hoger te liggen. Irrelevante treffers worden om deze reden hoger gerankt, vanwege de sterke pseudo overeenkomsten. Interpretatieproblemen liggen hier ten grondslag om deze taak volledig te automatiseren.

Deze paragraaf leverde tevens inzicht in het onderzoeksmodel, dat de relatie legt tussen het beoordelen van relevante documenten en de keuze voor een boek. Relevance aspecten of ook wel relevance assessment genoemd zijn aanwijzingen voor het opsporen van de leesvoorkeur van gebruikers. Hiermee kunnen we een uitspraak doen over de samenhang tussen formele

boekkenmerken en esthetische factoren. Opvallend is dat de keuze voor een boek wordt gebaseerd op enkele belangrijke invloedsfactoren. Dit valt op wanneer de relatie tussen het beoordelen van relevante documenten in verband wordt gebracht met de voorkeur voor een boek (leesvoorkeur) bij een gebruiker. De keuze wordt allereerst beïnvloed door de metadata en de accessibility dimensie (Reuter, 2007). Bij metadata spelen de kenmerken zoals de titel, de auteur, het publicatiejaar en het formaat van een boek. De keuze wordt verder gebaseerd op andere dimensies zoals de taal, de lengte of het moeilijkheidsgraad van een boek (accessibility dimensie) en de content dimensie; het onderwerp, de plot, de schrijfstijl en de leesbaarheid van een boek. De tweede factor is de familiarity en de metadata dimensie (Mikkonen en Vakkari, 2016). Gebruikers kunnen met behulp van de familiarity dimensie de eerdere leeservaring overbrengen om zodoende soortgelijke boeken te benoemen. De familiarity dimensie is volgens Mikkonen en Vakkari (2016) verwant aan de known-item dimensie. De relatie wordt gelegd, omdat de selectie van een boek wordt gedaan op basis van een bekende auteur of door te zoeken op een bekende titel. De derde invloed is de familiarity en content dimensie (Koolen et al, 2015). De

onderzoekers hebben geleerd dat bij het zoeken naar gelijkgestemde boeken, gebruikers de content en de familiarity dimensies frequenter in een informatieverzoek verwerken. De content dimensie is gerelateerd aan het onderwerp, de plot, de schrijfstijl en de leesbaarheid van een boek. De metadata, engagement en known-item dimensies zijn de minder waargenomen dimensies in het onderzoek van Koolen et al (2015).

(16)

3 Onderzoeksopzet

In deze paragraaf volgt een uitwerking van het onderzoek teneinde antwoord te geven op de tweede deelvraag van dit onderzoek: hoe kunnen we relevance aspecten in informatieverzoeken classificeren?

3.1 Uitvoering van het onderzoek

Het onderzoeksmateriaal bestond primair uit informatieverzoeken van het Name That Book forum. De focus werd in eerste instantie gelegd op het bijeenbrengen van alle verzoeken in een spreadsheet. Het doel hiervan was om de relevance aspecten te classificeren. De

informatieverzoeken werden in de periode van 26 mei 2017 naar publicatiedatum verzameld, waarbij per item het onderwerp en de URL naar een spreadsheet werd gekopieerd (zie Bijlage II voor de selectie). In totaal ging het om een verzameling van 8.818 onderwerpen.

Figuur 3 Een voorbeeld van een non-request (Topic 161010).

Het onderwerp, het genre en de ‘clue’ ontbraken in meerdere onderzoeken. Deze constatering werd gedaan nadat de dataverzameling was voltooid. Achteraf werd, op basis van deze

(17)

opgesteld. Deze exercitie leverde al gauw een overzicht op van de trefwoorden die vervolgens uit de selectie werden gefilterd. Topic 252109 is een concreet voorbeeld van een verzoek zonder het onderwerp, het genre en de ‘clue’ aspecten: “Help! Cant remember the name!!”. Bij de filtering zijn de meest opvallende trefwoorden uit de selectie verwijderd: ‘crazy’, ‘name *’ (‘name that book’, ‘name the author’ et cetera), ‘find the book’, ‘stumped’ en ‘help’ en ‘suggest’, ‘looking’ (‘looking for’) en ‘which books’. Bij het toepassen van de filtering werden 1.017 onderwerpen uit de verzameling verwijderd, waarna 7.800 onderwerpen overbleven.

De lijst werd hierna opnieuw genummerd, door gebruik te maken van de ingebouwde random formule van Microsoft Excel. Een nieuw kolom werd hiervoor aangemaakt, precies tussen de bestaande nummering en de kolom van de onderwerpen. De random formule van Microsoft Excel werd vervolgens gebruikt om, de tot nu toe lege kolom, van een volledig willekeurig nummer te voorzien. Dit willekeurig nummer werd hierna naar de overige 199 lege kolommen gekopieerd. Het gebruik van de eerste kolom verviel, waardoor de kolom met de willekeurige nummering leidend werd.

De willekeurige nummers werden vervolgens oplopend gesorteerd, wat resulteerde in een volledig willekeurig gerandomiseerde lijst met onderwerpen.

3.1.1 De selectie

Het materiaal werd geselecteerd door twee verschillende aanpakken te hanteren. De richtlijnen op het forum behoorden tot het uitgangspunt van de eerste criteria (zie paragraaf 1.3). Dit houdt in dat elk informatieverzoek werd gecontroleerd op grond van de richtlijnen die op het forum staan. Dit kwam concreet erop neer dat de informatieverzoeken voorzien moesten zijn van een duidelijk onderwerp, ‘clue’ en een plot om voor selectie in aanmerking te komen. Met andere woorden, de verzoeken die niet conform de richtlijnen waren opgesteld, werden structureel overgeslagen. Dit proces werd herhaald totdat een aantal van 100 verzoeken werd bereikt. Een aanvullende criteria was dat de verzoeken tevens van een touchstone waren voorzien. Een touchstone verwijst in deze context naar een titel dat het best past bij de uiting, het informatieverzoek, van de

mediagebruiker. Verzoeken die geen touchstones hadden, werden overgeslagen.

Bij de selectie van het tweede deel was de gehanteerde aanpak erop gericht een realistisch beeld te schetsen van de informatieverzoeken. Zo werd minder gelet op de aanwezigheid van het onderwerp, de ‘clue’, de plot en de touchstones. De verwachting was hier dat in de tweede selectie de frequentie van relevance aspecten hoger zou uitvallen.

3.1.2 Scoren van aspecten

De onderwerpen werden na deze voorbereidingen aan de hand van de acht dimensies gescoord. Een score (‘1’) werd in de kolom van het relevance aspect toegekend, wanneer dit aspect in een verzoek werd aangetroffen. Deze vorm van etikettering werd op alle 200 onderwerpen toegepast.

De relevance aspecten werden voor classificatie doeleinden, naar het type

informatieverzoek ingedeeld. In het bestaand overzicht, ontleent aan Koolen et al (2015), werden labels aangemaakt om de onderwerpen te groeperen.

(18)

Uit de verzameling die werd geëtiketteerd, hadden drie verzoeken (een procent) betrekking op aanbevelingen (zie Figuur 1), 197 verzoeken (99 procent) werden getypeerd als expliciete verzoeken. In elk verzoek werd het genre volgens drie labels gecategoriseerd. Hieruit bleek het forum populairst bij het terugvinden van een fictief boek (192 verzoeken of 96 procent). In deze sample was de vraag non-fictie boeken minder populair (vijf verzoeken of drie procent). Een combinatie van beide genres kwam het allerminst voor, want in slechts drie verzoeken (twee procent) werd het platform ingezet bij het terugvinden van boeken van dit genre.

De onderwerpen werden tenslotte onderworpen aan een gedetailleerde analyse, waarbij de scores van alle tabellen werden opgeteld om de scores te interpreteren. In elk

informatieverzoek werden meerdere relevance aspecten geïdentificeerd. Een voorbeeld hiervan was Topic 247342 van het forum (in Figuur 2 weergegeven). De gebruiker was in deze

vraagstelling op zoek naar een basisschool geschiedenisboek (accessibility en genre) om nostalgische redenen (socio-cultural aspecten). Daarbij beschreef de gebruiker de plot (content aspecten) en beschreef daarbij de omslagillustratie (metadata).

(19)

3.2 Conclusie

In dit hoofdstuk is antwoord gegeven op deelvraag twee: hoe kunnen we relevance aspecten in informatieverzoeken classificeren?

Het onderzoeksmateriaal bestond primair uit informatieverzoeken van het Name That Book forum. De data werd van dit platform naar een spreadsheet gekopieerd en gerandomiseerd. Een sample van 200 onderwerpen werd vervolgens willekeurig geselecteerd. Deze sample werd daarna aan de hand van de relevance aspecten gescoord.

Wat als eerst opviel was dat de verzoeken allereerst niet conform de richtlijnen worden opgesteld. Structureel ontbrak de vermelding van het onderwerp, het genre en de ‘clue’ in de verzoeken. Daarnaast werden ook verzoeken aangetroffen met onderwerpen zoals ‘crazy’, ‘name *’ (‘name that book’, ‘name the author’ et cetera). Deze trefwoorden werden voor het proces van randomiseren uit de spreadsheet verwijderd. Tevens werden de richtlijnen van het forum (zie paragraaf 1.3) opgevat als een constructie aan de hand waarvan de verzoeken werden

geselecteerd. Het doel was tweeledig: enerzijds voor de volledige willekeurige samenstelling van de verzoeken en anderzijds om de praktijk te reflecteren. Hier werd een strikte methode

gehanteerd bij de samenstelling van de willekeurige selectie van verzoeken. Naast deze strikte methode werd het tweede deel van de verzoeken (100 verzoeken) gebaseerd op de werkelijkheid. Deze werkelijkheid reflecteert wat gebruikers in hun verzoeken vermelden en wat precies mis kan gaan bij het terugvinden van een boek.

Met enige verbazing werd geconstateerd dat gebruikers een boek gedetailleerd kunnen beschrijven, zonder gebruik te maken van de formele boekkenmerken. Bij de etiketting en ordening van informatieverzoeken, kan een uitspraak worden gedaan over de manier waarop gebruikers het forum gebruiken. De constatering is dat gebruikers verschillende doelstellingen hebben die in de verzoeken worden geuit. Dit wordt bevestigd bij het categoriseren en etikettering van de verzoeken. Het valt op dat de verzameling geëtiketteerd kan worden in verzoeken die betrekking hadden op aspecten die een relatie leggen met aanbeveling doelstelling van gebruikers (Koolen et al, 2015) en expliciete doelstelling: terugvinden van een boek. Hier bleken de

relevance aspecten een goede aanknopingspunt voor het labelen van informatieverzoeken. De onderwerpen werden hierna, voor onderzoeksdoeleinden begrijpelijk. Er zijn zelfs situaties te belichten waarbij gebruikers doelgericht op zoek gaan naar fictieve boeken op basis van gevoelens die tijdens het lezen ervaren worden.

Tenslotte werd het scoren van de verzoeken grotendeels als een subjectieve handeling beschouwd. Hier werd de mening toegedaan dat het proces van het belichten van de relevance aspecten in de verzoeken een subjectieve handeling is. Deze handeling wordt grotendeels gebaseerd op de beschrijvingen van Reuter (2007) en de interpretatie van de onderzoeker.

(20)

4 Uitkomsten en analyse

In dit hoofdstuk wordt antwoord gegeven op de derde deelvraag van dit onderzoek: welke relevance aspecten hebben informatieverzoeken op het Name That Book forum?

4.1 Relevance aspecten in informatieverzoeken

De content dimensie is in de context van het terugvinden van boeken, de meest belangrijke factor voor de gebruikers van het forum (577 aspecten of 67 procent). Deze dimensie bestaat uit de inhoudelijke aspecten waar een boek over gaat, waaronder het onderwerp, de plot, het genre, de illustraties, de samenvatting, de schrijfstijl en de leesbaarheid van het boek (zie tabel 2). Illustratief voor deze dimensie is Topic 257690 van het forum: “book most likely published late 80s-90s. Woman discovers that the very wealthy and eccentric older lady she befriended passed away, and included her in her will. The immediate family is upset because they are greedy and there are rumors that she has a large treasure that is hidden somewhere in the house. the woman discovers a letter written on the inside of a lampshade from the old lady. it is a letter to her confirming that there is indeed a huge treasure hidden somewhere, but that she must solve a series of clues to find it. if she does not complete the hunt within a certain time limit then the treasure will be divided equally among the family. While all this is going on she meets a

neighbor/family friend with either a french or italian sounding name. They spend the majority of the book flirting and falling for each other. the final clue for the treasure is found in the spine of a novel that is kept in the library of his house.” Het bovenstaand verzoek bevat de inhoudelijke aspecten waar een boek over gaat. Deze uiting is karakteriserend voor het Name That Book forum, omdat de formele boekkenmerken te fragmentarisch zijn.

Dimensie Relevance aspecten Totaal %

Accessibility The language, length, or level of difficulty of a book

31 4

Content Topic, plot, genre, style, or readability of a book 577 67

Engagement Affective types of reading experiences evoked by books

30 4

Familiarity Books similar to known books or related to a previous experience

(21)

Known-item Descriptions of known books to identify the title and/or author

30 4

Metadata Aspects like title, author, publication year and format

126 15

Novelty Books that are unusual or quirky, or have novel content

17 2

Socio-cultural Books related to the user’s socio-cultural background or values, have (had) a particular cultural or social impact, or are popular or obscure

31 4

Totaal 861 100

Tabel 2 De waarneming van de dimensies over de 200 informatieverzoeken De controverse dimensie is metadata (125 relevance aspecten of 26 procent) die wordt

geïllustreerd door uitingen van relevance aspecten zoals de titel, de auteur, het publicatiejaar en het format. Deze dimensie komt minder frequent voor in de verzameling van

informatieverzoeken. Een concreet voorbeeld van de vermelding van de metadata dimensie in een informatieverzoek is te vinden in Figuur 5. In dit voorbeeld beschrijft de gebruiker de illustratie op de cover van een boek, die een jeugdsentiment heeft opgehaald. Daarbij is de gebruiker op zoek naar het boek uit zijn jeugd, waarvan slechts een deel van de titel hem nog bijstaat.

Uit de data kan verder worden vastgesteld dat de accessibility dimensie (31 aspecten) die gerelateerd is aan de aspecten zoals taal, de lengte, het moeilijkheidsgraad, minder invloed heeft op het terugvinden van een boek op het forum. Hetzelfde geldt voor de engagement dimensie (30 aspecten) die gerelateerd is aan aspecten zoals de leesvoorkeur, de emotionele betrokkenheid bij de plot, eigen interesses en eerdere leeservaringen. Deze dimensie laat wel zien dat gebruikers zich veel aspecten nog herinneren, maar de aspecten zijn echter niet beslissend genoeg om het terugvinden van een boek te garanderen.

De familiarity dimensie (20 aspecten) wordt in de data minder frequent aangetroffen. Deze dimensie zou een meerwaarde hebben om een boek terug te vinden op grond van voorbeelden van vergelijkbare boeken of boeken die gerelateerd zijn aan een eerdere leeservaring.

Volgens de relevance aspecten die gerelateerd zijn aan de known-item dimensie, ligt hier een potentie om boeken te identificeren door eerdere werken van de auteur te benoemen. In de selectie van informatieverzoeken heeft deze potentie zich weinig geuit, aangezien gebruikers hier te weinig van gebruik hebben gemaakt (30 aspecten).

Tevens heeft de socio-cultural dimensie (31 aspecten) te weinig aanknopingspunten in de sample van informatieverzoeken. Aspecten in deze dimensie zijn vaak gerelateerd aan de

(22)

culturele achtergrond van gebruikers. Figuur 4 bevat een een concreet voorbeeld van een informatieverzoek met een sociale en culturele impact. De inhoud van dit boek heeft een zekere impact gehad op de identiteit van de gebruiker, inclusief de persoonlijke interesse in de selectie van boeken: de geschiedschrijving.

Als laatste kan met enige zekerheid worden gezegd dat de novelty content (17 aspecten) niet bijdraagt aan het terugvinden van een boek. De social-cultural dimensie slaat op de

inhoudelijke aspecten in een boek die ongebruikelijk zijn en daardoor de nieuwsgierigheid van gebruikers prikkelen.

Figuur 5 Een verzoek waarin een gedeelte van het formele boekkenmerk is vermeld (Topic 246443).

4.1.1 Content dimensie

Er zijn twee dimensies aan deze resultaten waar in dit onderzoek bij wordt stilgestaan. De eerste invloed is de content dimensie (577 aspecten) die een belangrijke factor blijkt bij het terugvinden van boeken op het forum (zie Tabel 3). Het betreft de afzonderlijke aspecten in de content

dimensie die gerelateerd zijn aan de Topic (185 verzoeken), de Plot (190 verzoeken) en het Genre (178 verzoeken). Minder belangrijk blijken de aspecten zoals de style (13 verzoeken) en de readability (11 verzoeken). De schrijfstijl en de leesbaarheid van een boek zijn wellicht moeilijker over te brengen als de gebruiker geen vergelijkbare boeken heeft. Dit kan worden gedemonstreerd aan de hand van Topic 70638: “I read this in the very late 80's I think it was a new book at the time but I could be wrong. In the story a group of people travel across the universe to find God supposedly on a remote planet. There is a lot of dry social commentary kind of humour in the book. For some reason I keep thinking it's part of the Frederik Pohl Heechee saga but I can't find any in that series that match this story but things like the description of the Heechee spaceship interiors remind me of the space ship in this book.” In het bovenstaand verzoek associeert de

(23)

gebruiker de humor in het boek met de schrijfstijl van de auteur. Om die reden wordt die schrijfstijl geassocieerd met een bepaalde boekenreeks.

Het andere aspect dat opvalt bij het bekijken van de resultaten is dat er sprake is van een sterke samenhang tussen de Plot, de Topic en de Genre aspecten. Ook was hier de

veronderstelling dat het Plot aspect te subjectief of onderhevig is aan valse herinneringen van gebruikers.Neem bijvoorbeeld het Topic aspect dat in dit gestelde kader gerekend wordt tot een van de factoren waarmee een boek wordt teruggevonden. Bij deze dimensie werd eerder tegenin gebracht dat de vermelding van de topic (het onderwerp) in het kader van het plaatsen van een informatieverzoek meer betrekking had op het trekken van aandacht van forumleden en daardoor minder een rol zou spelen bij het terugvinden van een boek. Op grond van de bevindingen, kan nu worden gesteld dat het topic aspect wel degelijk een rol speelt bij het terugvinden van een boek. Hier is het verzoek dat in Figuur 4 wordt geïllustreerd een concreet voorbeeld van. De Topic (het onderwerp) in dit verzoek wordt duidelijk gespecificeerd als een educatief basisschool

geschiedenisboek dat in de Verenigde Staten van Amerika wordt gebruikt.

Relevance aspecten Totaal %

Topic 185 32% Plot 190 33% Genre 178 31% Stijl 13 2% Readability 11 2% Totaal 577 100%

Tabel 3 De relevance aspecten die gerelateerd zijn aan de content dimensie.

4.1.2 Metadata dimensie

Het tweede aspect dat invloed heeft op het terugvinden van een boek is de metadata dimensie. Wanneer we kijken naar Tabel 4 en daarbij een vergelijking doen tussen de content en metadata dimensie, dan valt op dat de metadata factoren minder frequent voorkomen. De illustratie

aspecten (35 verzoeken) zijn hierbij een voorbeeld van de factoren die in deze dimensie het meest worden genoemd. De illustratie van een boek in Figuur 5 is een concreet voorbeeld hiervan. Tevens zijn de aspecten zoals het formaat (31 verzoeken) en de cover (32 verzoeken) na de illustratie aspecten ook waargenomen. De minder benoemde aspecten zijn echter de titel (10 verzoeken), publicatiejaar (13 verzoeken), en de auteur (4 verzoeken). Van deze aspecten mag worden vastgesteld dat dit nauwelijks van invloed is op het terugvinden van een boek.

Een opmerking die bij deze resultaten geplaatst kan worden, is dat ondanks de afwezigheid van de formele boekkenmerken in het merendeel van de categorieën, er ook categorieën zijn waar de titel en auteur aspecten wel aanwezig zijn. Echter, is het onduidelijk welke rol deze aspecten spelen bij het terugvinden van een boek.

(24)

Relevance aspecten Totaal % Title 10 8 Author 4 3 Publication year 13 10 Format 31 25 Cover 32 26 Illustrations 35 28 Totaal 125 100

Tabel 4 De relevance aspecten die gerelateerd zijn aan de metadata dimensie

4.1.3 De relatie tussen aspecten

Voor de lezer van een informatieverzoek spelen verschillende factoren een rol. Onder de factoren wordt hier verstaan de dimensies en de relevance aspecten die eerder in de resultaten zijn

gepresenteerd. Eerder zijn deze dimensies aan bod gekomen: de content en metadata dimensies. Deze dimensies worden beschouwd als de motiverende aspecten die de lezer zelf beweegt om het informatieverzoek te lezen en het boek op te zoeken. Hier is eerder een samenhang geconstateerd tussen de content en de metadata dimensie die nu uitvallen in het voordeel van de content

aspecten.

Het resultaat (zie Tabel 5) van de accessibility dimensie blijft ongewijzigd vanwege het feit dat deze aspecten niet met een andere dimensie wordt vergeleken. Echter, wordt een overlap geconstateerd wanneer de content met de accessibility dimensie wordt vergeleken. Hier is het opvallend dat de relevance aspecten in 24 verzoeken voorkomen. Het betreft hier een overlap tussen de aspecten zoals het onderwerp, de plot, het genre, de stijl en de leesbaarheid van een boek (content dimensie) en de metadata aspecten zoals de titel, de auteur, het publicatiejaar en het formaat.

De reden dat de engagement overlapt met de content dimensie (30 verzoeken) is

grotendeels te verklaren met de argumenten die in paragraaf 2.1.3 zijn besproken. Hier wordt met argumenten onderbouwd dat de relevantie van informatie wordt gebaseerd op het leesgedrag en de leesvoorkeur van gebruikers (Mikkonen en Vakkari, 2016). Wat erg overeenkomt met de theorie van Mikkonen en Vakkari (2016), is de uiting van de leesvoorkeur (content dimensie) en de samenhang hiervan in de vorm van een selectiecriteria (engagement dimensie). De laatste dimensie is gerelateerd aan aspecten zoals de leesvoorkeur, de emotionele betrokkenheid bij de plot, eigen interesses en eerdere leeservaringen. In dit licht biedt de content dimensie meer inzicht in de aspecten die de leesvoorkeur bepalen en die worden versterkt door de aspecten die (in een boek) de lezer relateert aan de eigen voorkeur: het leesgedrag en de emotionele verbintenis met een boek.

(25)

Afgezien van de resultaten is een betekenisvolle overlap waar te nemen tussen de content en de known-item dimensie (31 verzoeken). Deze dimensie heeft de potentie om een boek te identificeren door eerdere werken van de auteur te benoemen. In het licht van de theorie van Mikkonen en Vakkari (2016) is hier een mogelijkheid om de overlap van de content en de known-item dimensie te verklaren. De behoefte van een boek wordt geuit in een leesvoorkeur die vaak leidt tot het kiezen van een boek of boekenreeks van een auteur waar de gebruiker het meest vertrouwd mee is.

Tenslotte levert de vergelijking van de content en de metadata dimensie een overlap op die heel controverse is (73 verzoeken). Met name omdat het zoekproces (zie in paragraaf 2.1.1) wordt gekarakteriseerd als een handeling waarbij een specialistisch zoeksysteem moet worden geraadpleegd om boeken te raadplegen. Deze handeling is erg in beweging gekomen sinds de digitalisering het medialandschap sterk heeft veranderd (Koolen et al, 2015). Op grond hiervan geldt de veronderstelling dat het zoeken naar boeken zonder metadata bijna onmogelijk is. Hier wordt gedoeld op de irrelevante treffers waarmee een gebruiker wordt overspoeld. In het betoog van paragraaf 2.1.2 werd hier op ingegaan. In dit stuk wordt de ernst van het beoordelen van relevantie duidelijk, wanneer de gebruiker wordt overspoeld met irrelevante treffers, omdat de zoekwoorden niet exact uitdrukken wat de informatiebehoefte is (Cooper 1971). Hier is het dan niet verbazend om te constateren dat de content dimensie overlapt met de metadata dimensie. Dit heeft puur te maken met de constatering dat gebruikers niet exact weten wat de feitelijke

metadata aspecten zijn, maar slechts fragmentarische herinneringen hebben aan een boek. Een concreet voorbeeld hiervan is Topic 223811: “Hi. Looking for a book I read in the late 80's, the main character was Called "Strawberry" based on her hair color strawberry blonde. When she was young her Dad was abusive Drunk! She ran out of her house to escape him, and got gang raped by her brothers friends that beat her and put a bag over her head sayg she was too ugly to look at during! And Yes, brother Allowed it to happen! He was there! After she ran away! Got a job at hair Salon! They nicknamed her Strawberry because her hair was a beautiful color ppl paid lots to get! She ends up becoming very famous high demand fashion model! Her brother suffered w guilt! And in the end, I don't remember, if he was a fashion photographer, or if she took photography, but I think he was cuz that's how they meet again! Also fuzzy if she allowed him to commit suicide in the end! I thot it was called Red! Or Red lipstick! Thot there was red lipstick on cover, but I've had No Luck finding it! All help welcomed! TY!” De rol van de content dimensie is in bovenstaand verzoek om de onnauwkeurigheden van de metadata dimensie te ondervangen, door de plot uit te werken.

A C E F K M N S

A 31 24 6 1 9 15 4 8

C 198 30 18 31 73 17 22

(26)

F 20 5 0 1 4

K 30 4 1 10

M 125 7 16

N 17 4

S 31

Tabel 5 De overlap van relevance aspecten in de 200 informatieverzoeken.

4.1.4 Overlap van dimensie

Wat opvalt wanneer we terugkijken naar de resultaten (Tabel 5) van de vergelijkingen van de dimensies, is dat de samenhang van de categorieën frequenter voorkomen in de

informatieverzoeken. Met andere woorden, waar de content en de metadata dimensie in een informatieverzoek expliciet wordt genoemd, is de overlap groot. In deze resultaten zijn de relevance aspecten in de informatieverzoeken dominerend, waardoor het verschil nu in het voordeel valt van deze twee categorieën. Dit terwijl de overige dimensies ook in de informatieverzoeken zijn ontdekt.

De resultaten van de overlap-analyse (Tabel 5) ondersteunen de eerdere bevindingen dat de content en de metadata dimensie de hoogste frequenties hebben opgeleverd. Op enkele

categorieën van de vergelijking tussen relevance aspecten echter, verschillen de scores nauwelijks van elkaar. Bij de vergelijking met de content dimensie vloeit de overlap min of meer voort uit de onderliggende relevance aspecten: de leesvoorkeur/ het leesgedrag van de gebruiker (Mikkonen en Vakkari, 2016). Hier springen bij de vergelijking de factoren die gerelateerd zijn aan de content dimensie meteen uit het oog. Het betreft de samenhang tussen content dimensie met de andere factoren zoals de metadata, de known-item, de engagement en de familiarity dimensie. De samenhang van de categorieën content en de metadata aspecten en de content met de known-item dimensie zijn hier het grootst. In de overlap tussen de content en de known-item dimensie zijn de aspecten zoals het onderwerp, de plot, het genre en de schrijfstijl van een boek in combinatie met de titel in de meeste van dit type informatieverzoeken voor te komen (Topic 177402): “Hi! I'm not actually looking for a book, but an online short story series available on the (female, sci-fi) author's website. I'm pretty sure she mentions on her site that she writes other sci-fi mostly. The series is a steampunk alternate history, set in the 19th century, Victorian England, about two people, a man and a woman, who travel around the world searching for ancient/alien/space technologies. The man is an airship captain/pirate/thief, and the woman is the daughter of the English monarch (who I think is Queen Victoria, or King Albert). She goes on expeditions with the captain wearing pants, and the episode I remember, she climbs around the outside of the ship before coming back inside to change into a dress and go to a court function/audience with the

(27)

queen. Her adventures are hidden from most, if not from the monarch, I can't remember. The title might be something like "Adventures of (Captain's name) and (Princess's name)". Thanks in advance!”

Uit de vergelijking (zie Tabel 6) blijken dat de aspecten die gerelateerd zijn aan de accessibility dimensie, zoals de moeilijkheidsgraad en de lengte van een boek dominant aanwezig te zijn in de verzoeken die zich in het rechterhelft van de tabel bevinden. Zo blijkt bij de

vergelijking tussen deze twee factoren, specifieke aspecten zoals de taal in het linkerhelft dominanter te zijn, terwijl de moeilijkheidsgraad en de lengte van een boek, minder dominante factoren zijn. Dit kan het best met behulp van een verzoek worden gedemonstreerd. In Topic 202325 is de zoeker op zoek naar een boek waar de taal het beste aanknopingspunt is: “I'm trying to track down a UK (?) children's book I read in the 1960s. It involves two boys or young men finding a maze or labyrinth from which various exits allow them to explore the past. I seem to recall them meeting a caveman within and following him to explore his time and world. At the end they encounter someone from their future who bars their way. The book title may include the term 'maze' or 'labyrinth'. The book was a hardback and available in late 1960s England. I can’t find ‘hide nor hair’ of this excellent novel on the web and would love to read it one more time. Any help to that end would be enormously appreciated.” Daarnaast wordt, in het licht van de ontdekking van specifieke aspecten in de verzoeken, stilgestaan bij Topic 171901. In dit verzoek zijn dominante aspecten aanwezig die gerelateerd zijn aan de moeilijkheidsgraad van een boek (content dimensie) en de illustraties (metadata aspecten).

Overlap 1 - 100

Overlap 101 - 200

S

N

M

K

F

E

C

A

C

E

F

K

M

N

S

3

5

1

2

11 14 A

17 13

2

1

7 10 1

5

7

7 29 5

4

3

271 C

306 15 14 25 44 10 17

4

1

7

2

1

13 E

17 0

7 12 1

6

1

5 F

15 3

5

0

3

2

0

3

5 K

25 21 1

9

3

43 M

82 4

13

2

7 N

10 2

7 S

24

(28)

4.2 Conclusie

In dit hoofdstuk is antwoord gegeven op deelvraag drie: welke relevance aspecten hebben informatieverzoeken op het Name That Book forum?

Uit de data-analyse blijkt dat nostalgische herinneringen of jeugdsentimenten vaak de

belangrijkste reden zijn voor het terugvinden van een boek. Dit geldt voor de meeste verzoeken van het Name That Book forum. Een eerste constatering is dat verzoeken het meest bestaan uit de content dimensie. Deze dimensie bestaat uit de inhoudelijke aspecten waar een boek over gaat, waaronder het onderwerp, de plot, het genre, de illustraties, de samenvatting, de schrijfstijl en de leesbaarheid van het boek. Deze bevinding past geheel in lijn met de verwachting van het onderzoek, omdat de formele boekkenmerken te fragmentarisch in verzoeken worden genoemd. Daarnaast was de veronderstelling dat de aspecten die in de verzoeken worden genoemd te subjectief zouden zijn of tenminste aan valse herinneringen onderhevig waren. De data-analyse heeft juist bewezen dat er sprake is van een sterke samenhang tussen de onderliggende aspecten in de content dimensie. Hier gaat het om de aspecten zoals de plot, topic en genre. Hieruit is ook gebleken dat sommige aspecten moeilijker zijn om over te brengen in een verzoek. Naast de content dimensie blijkt de metadata dimensie een wezenlijk onderdeel uit te maken van de verzoeken. Dit bevestigd dat de inhoudelijke aspecten van een boek (plot) het meest blijft hangen onder de gebruikers van het forum, in plaats van de formele boekkenmerken zoals de titel en auteur (metadata dimensie). Deze dimensie wordt geïllustreerd door uitingen van relevance aspecten zoals de titel, de auteur, het publicatiejaar en het formaat. Wat betreft het benoemen van afzonderlijke aspecten in een verzoek, blonk het illustratie aspect uit. De minder frequente dimensies waren het formaat en de cover van een boek. Wat echt uit het oog springt is de aanwezigheid van de formele boekkenmerken zoals de auteur en de titel van het boek. Een opmerking die bij deze resultaten geplaatst kan worden, is dat ondanks de afwezigheid van de formele boekkenmerken in het merendeel van de categorieën, er ook categorieën zijn waar de titel en auteur aspecten wel worden genoemd. Alle overige dimensies komen in mindere mate voor dan de deze twee. Het gaat om de accessibility, de engagement, de familiarity, de known-item, de socio-cultural dimensie en de novelty content.

Het onderscheid in de hoge frequentie van de content en de metadata dimensie laat een duidelijke relatie zien. In het bijzonder de relatie tussen de beleving van de inhoud van een boek met de herinneringen aan identificerende factoren. Een overlap analyse toont hier het contrast aan tussen de content en de metadata dimensie, waarbij de verschillen tussen de onderliggende aspecten binnen deze dimensie tot uitdrukking komen. Deze constatering wordt als verbazing ervaren aangezien gebruikers juist het platform gebruiken bij gebrek aan de formele

boekkenmerken. Wat ook aan het licht kwam, was dat de content dimensie wordt gebruikt om de onnauwkeurigheid van de metadata aspecten te ondervangen. Deze waarneming komt vooral terug bij het gebruik van 'clues' of de plot van een boek (content) in combinatie van gedeeltelijke formele boekkenmerken (metadata dimensie). Daarnaast blijkt de relatie tussen de content en metadata dimensie niet zo ver te zijn dan eerder werd gedacht. Zo bleek de content dimensie meer de uiting te zijn van de intrinsieke emotionele aspecten van gebruikers, maar bleven in veel gevallen beperkt bij afwezigheid van formele metadata aspecten. Daarnaast bleken op dit niveau de verschillen tussen de dimensies kleiner te worden als gevolg van de criteria bij de selectie van het materiaal. Wat opvalt is dat de scores van de aspecten bij het toepassen van de richtlijnen afneemt, terwijl de aspecten in de samenstelling zonder criteria hoger liggen. Op kleine

(29)

verschillen na kan worden geconcludeerd dat de gebruikers wellicht onder druk worden worden gezet om een perfect informatieverzoek te plaatsen.

(30)

5 Eindconclusie

In dit hoofdstuk wordt antwoord gegeven op de onderzoeksvraag en de deelvragen zoals die aan het begin van dit onderzoek zijn vastgesteld. Allereerst wordt op iedere afzonderlijke

onderzoeksvragen een antwoord gegeven en als laatste volgt de conclusie op de hoofdvraag van dit onderzoek.

De eerste onderzoeksvraag van dit onderzoek, luidt:

Hoe hangt relevance aspect samen met de keuze voor een boek?

De insteek van dit onderzoek is gebaseerd op een maatschappelijk fenomeen: het terugvinden van informatie. Hoewel er hier sprake is van informatie in een algemene zin, wordt in dit onderzoek specifiek ingegaan op het terugvinden van boeken. Deze handeling zou idealiter in een

bibliotheek worden verricht, want een meer specialistisch zoeksysteem verleent toegang tot een hele inventaris aan ontsloten documenten. Hier ontstaat precies het probleem dat een kleine groep gebruikers zich gedupeerd voelen, omdat zij weinig herinneringen hebben aan de formele

boekkenmerken. Deze formele boekkenmerken zijn noodzakelijk om de juiste en vooral relevante boeken boven water te krijgen. Daartoe wordt gebruik gemaakt van een kleine selectie van informatieverzoeken die afkomstig zijn van het Name That Book forum. Voor de data-analyse werd gebruik gemaakt van de methode van relevance aspecten die oorspronkelijk werd toegepast om te achterhalen welke factoren invloed hebben op de keuze van een boek (Reuter, 2007). Hoewel dit onderzoek gericht was op het achterhalen van de informatiebehoefte van kinderen in een digitale bibliotheek, ontleent deze methode zich uitstekend voor het belichten van de manier waarop mediagebruikers een boek terugvinden. Tevens is deze methode toegepast om de informatiebehoefte van mediagebruikers te achterhalen (Koolen et al, 2015). In het verlengde hiervan is de studie van Mikkonen en Vakkari (2016) gebaseerd op deze methode om de invloeden van fictieve boeken te onderzoeken. Deze drie studies hebben in gemeen dat de informatiebehoefte van mediagebruikers niet op een conventionele manier kan worden achterhaald. Hier spelen achterliggende invloeden een rol zoals esthetische factoren die wel worden benadrukt in een informatieverzoek, maar niet in een query. Bovendien kan een query niet overweg met emotionele uitingen van mediagebruikers.

De sample informatieverzoeken en de rubricering uit de methode van relevance aspecten werden in een spreadsheet verwerkt, waarna op basis van de beschrijvingen van de relevance aspecten werd gescoord. Door de informatieverzoeken uitgebreid te analyseren, werd het

mogelijk om de factoren die van invloed zijn op de keuze van een boek (leesvoorkeur) en evenals de factoren die invloed hebben op de beleving van relevantie (esthetische factoren), te

verhelderen.

Relevantie wordt allereerst beoordeeld door zoekwoorden in een query te vergelijken met de trefwoorden die vooraf aan documenten zijn toegekend. Om die reden wordt relevantie hier getypeerd als een verschijnsel dat onderdeel is van een beleving die gebruikers ervaren. Zo kan relevantie worden beoordeeld op basis van de esthetische factoren zoals de emotionele beleving. Daarnaast zijn er factoren die de beleving van relevantie kunnen beïnvloeden. Het gebruik van