Invulling inhoudsanalyses - Al doende leert men

3. METHODE

3.3 Invulling inhoudsanalyses

3.3.1 Automatische inhoudsanalyse op post-niveau in opening-posts en reactie-posts

Aanvankelijk was het de bedoeling om het aantal woorden, het aantal zinnen, de begrijpelijkheid, de woordvariëteit en een op een lexicon gebaseerde subjectiviteitsscore voor de opening-posts en reactie-posts te meten. Dit zijn gangbare tekstmetingen, die onder andere in het onderzoek van Patil

VRAAG (Opening-post) Datum Quote

Beste Fokkers, Ik ben niet zo goed in wiskunde en heb een vraag waar ik niet mee uit kom. Kan iemand mij hiermee helpen? Klaas stortte op 1 april 2014 een bedrag van 3300 op een

spaarrekening. Tot welke bedrag zal dit zijn aangegroeid op 1 april 2028 bij 2,1% interest per kwartaal? Antwoord is 10567,09

19-mrt-18

ANTWOORDEN (Reactie-posts) Datum Quote

1 Moet over 2028 zijn excuses 19-mrt-18 TS 2 Het antwoord is 10567,09. Ooit iets geleerd over groeifactoren? 19-mrt-18 1 3 Hoe ben je aan de berekening gekomen als ik vragen mag? 19-mrt-18 Het antwoord is

10567,09. Ooit iets geleerd over groeifactoren?

4 Wat heb je zelf al geprobeerd? 19-mrt-18 Hoe ben je aan de berekening gekomen als ik vragen mag?

5 Ja veel maar ik kom er gewoon niet op uit 19-mrt-18 Wat heb je zelf al geprobeerd?

TS 6 Hoeveel kwartalen zijn er tussen 1 april 2014 en 1 april 2028? 19-mrt-18 Ja veel maar ik kom er

gewoon niet op uit

2 7 Belangrijke eerste stap ja 19-mrt-18 Hoeveel kwartalen zijn

er tussen 1 april 2014 en 1 april 2028?

8 42 kwartalen geloof ik 19-mrt-18 Hoeveel kwartalen zijn er tussen 1 april 2014 en 1 april 2028?

9 Een kwartaal is een kwart jaar, dat betekent dat er 12/4=3 maanden in een kwartaal zitten.

19-mrt-18 42 kwartalen geloof ik 2 10 56 Heb het antwoord al gevonden! Echt een sukkel ben ik ook he

bedankt voor jullie hulp!

24 en Lee (2015) zijn verricht om de kwaliteit van antwoorden van gebruikers te beoordelen.

Uiteindelijk is bewust gekozen om de begrijpelijkheid en woordvariëteit in dit onderzoek niet te meten. Het meten hiervan wordt bemoeilijkt door een standaardisatieprobleem. De begrijpelijkheid en woordvariëteit van een post berusten mede op het aantal woorden. Het woordaantal van de posts op het FOK!-forum is divers, waardoor het lastig is de begrijpelijkheid en woordvariëteit van (zeer) korte posts te vergelijken met die van uitvoerige posts.

3.3.1.1 Meting aantal woorden

Het aantal woorden per post is berekend door middel van een Excel-formule (=ALS(LENGTE (SPATIES.WISSEN(X))=0;0;LENGTE(SPATIES.WISSEN(X))-LENGTE(SUBSTITUEREN(X;" ";""))+1)). Deze uitkomst is gecontroleerd aan de hand van een Linux-commando (find .-name ‘*.txt’ | xargs wc -w). Wanneer de uitkomst en de controle niet overeenkwamen, is het woordenaantal handmatig geteld. 3.3.1.2 Meting aantal enkelvoudige zinnen

Het aantal enkelvoudige zinnen is handmatig geteld. Er is gekozen om interpunctie én de aanwezigheid van expliciete of elliptische persoonsvormen te gebruiken om zinnen te definiëren. Dit is gedaan omdat interpunctie in CML kan ontbreken en de zin een samenstelling kan zijn. De uiting: “Heb je tips en ervaring?”, bestaat in dit onderzoek bijvoorbeeld uit twee enkelvoudige zinnen, door de aanwezigheid van één expliciete en één elliptische persoonsvorm (“Heb je tips en (heb je) ervaring?”).

3.3.1.3 Meting op een lexicon gebaseerde subjectiviteit

Voor enkel deze meting, die automatisch is uitgevoerd, zijn bepaalde woorden in posts aangepast, omdat een apostrof (‘’’) resulteert in een foutmelding. Woorden die dit teken bevatten, zijn handmatig aangepast naar de volledige vorm (‘zo’n’ wordt ‘zo een’) of de apostrof is handmatig verwijderd (meervoudsvormen en ‘‘sochtends’). De handmatige aanpassing heeft geen invloed op de subjectiviteitsscore, omdat de score zich baseert op een lexicon van Nederlandse adjectieven en bijwoorden.

De subjectiviteitsscore is gemeten met behulp van de Python-module Pattern9. Een score varieert van 0,00 tot 1,00. Des te hoger de score, des te subjectiever de post. Het programma kent gradaties. Een post met het woord ‘verschrikkelijk’ krijgt bijvoorbeeld een hogere subjectiviteitsscore dan wanneer in deze zelfde post dit woord wordt vervangen door het woord ‘vervelend’. De nauwkeurigheid van het programma is ongeveer 82% voor boekrecensies.

3.3.2 Handmatige inhoudsanalyses op zinsniveau in opening-posts en reactie-posts

3.3.2.1 Analyseren van type vragen in opening-posts

Om de vragen te analyseren zijn twee stappen ondernomen. Eerst is het aantal directe vraagzinnen geïdentificeerd in de opening-posts. Vervolgens zijn de vragen als geheel geclassificeerd, op basis van syntactische en semantische kenmerken en pragmatische kenmerken.

3.3.2.1.1 Identificatie vragen in opening-posts

De opening-post bevat (ten minste) één directe vraagzin, te herkennen aan een aantal syntactische kenmerken: vragende vorm, vraagwoorden en/of vraagtekens (Mazeland, 1992; Englert, 2010). Net als bij de tekstmeting van het aantal zinnen, wordt verder de aanwezigheid van een expliciete of elliptische persoonsvorm gebruikt om handmatig afzonderlijke vraagzinnen te definiëren (Sectie 3.3.1.2).

3.3.2.1.2 Classificaties type vragen in opening-posts

De communicatieve functie van de vragen in de opening-post is informatie of confirmatie verzoeken (Seuren et al., 2015; Englert, 2010). Aan de hand van syntactische en semantische kenmerken wordt iedere vraag geclassificeerd als een 1) vraagwoord-vraag, 2) keuze-vraag of 3) ja/nee-vraag, zoals gedefinieerd door Mazeland (1992) en Englert (2010).

25 Aan de hand van pragmatische kenmerken wordt iedere vraag geclassificeerd als 1) objectief, 2) subjectief of 3) beide, op basis van het verwachte antwoord, zoals gedefinieerd door Liu en Jansen (2015). De categorie ‘beide’ is toegevoegd, omdat vragen als “Is het redelijk van de zorgverzekeraar om een verjaarde vordering niet te willen afboeken?” zowel subjectieve als objectieve antwoorden kunnen uitlokken. ‘Redelijk’ kan hier zowel op een geopinieerde (subjectief) als feitelijke (objectief) manier worden benaderd door de antwoordende geregistreerde gebruiker.

Een vraag bestaat uit ten minste één vraagzin. De vraag “Kun je je in Amsterdam bij verschillende studentenverenigingen aanmelden of alleen de verengingen waar je studie bij betrokken is?”, bestaat bijvoorbeeld uit twee vraagzinnen door de aanwezigheid van één expliciete en één impliciete persoonsvorm. De vraag als geheel wordt naar semantische kenmerken geclassificeerd als een keuze-vraag; de vraagsteller stelt twee keuzes voor waaruit één optie gekozen dient te worden. Op basis van het aantal geclassificeerde vragen kan het aantal vragen in de opening-post worden afgeleid.

3.3.2.2 Communicatieve doelen in reactie-posts

De verschillende communicatieve doelen (verder ‘handelingen’ genoemd) worden toegekend aan de afzonderlijke zinnen van reactie-posts. Dit wordt gedaan aan de hand van een codeerflowchart (zie Bijlage 4), gebaseerd op de taal-en teksthandelingstheorie (Sectie 2.2.1.3.1). Aan één zin kan maximaal één handeling worden toegekend.

3.3.2.1.1 Codeerflowchart communicatieve doelen

In totaal is een set van 20 handelingen gedefinieerd, die is verwerkt in een codeerflowchart. De set handelingen is opgesteld aan de hand van een pilotstudie en eerder onderzoek (zie Bijlage 5). De codeur wordt met behulp van de codeerflowchart geleid naar een (keuze voor een) handeling, door consistent per zin eenzelfde serie van vragen te beantwoorden. De vragen worden toegelicht in een toelichtingsdocument (zie Bijlage 6). In dit document zijn verder de handelingsbeschrijvingen, linguïstische kenmerken van een zin die duiden op een specifieke handeling en voorbeelden van posts waarin de desbetreffende handeling tot stand wordt gebracht opgenomen.

Iedere handeling is ondergebracht in een handelingsthema. De codeerflowchart is naar thema ingericht. In totaal zijn er drie thema’s onderscheiden, op basis van eerder onderzoek (Benamar et al., 2017; Pfeil et al., 2011):

1 - ‘Informatief’; het delen of verzoeken van kennis, het kennisdelingsproces. 2 - ‘Sociaal’ of ‘community life’; het uitvoeren van sociale interacties.

3 - ‘Egoïstisch’ of ‘narcistisch’; het delen van eigen informatie.

In Tabel 3.2 wordt weergegeven hoe het codeerproces wordt doorlopen voor een reactie-post aan de hand van een voorbeeld-post. De voorbeeld-post is afkomstig uit het voorbeeld in Tabel 3.1 (reactie-post 2).

Tabel 3.2: Uitwerking keuzeproces voor handeling(en) in een reactie-post

Reactie-post Handeling per zin

Pad codeerflowchart per zin

Aanwezige linguïstische kenmerken

Het antwoord is

10567,09. // Ooit

iets geleerd over groeifactoren?

Informatief

Wedervraag

Ja > Thema informatief > Nee > Nee > Opvullen > Keuze uit zeven

Ja > Thema informatief > Ja

-Bevat feitelijke informatie die geverifieerd kan worden - Stellige vorm (‘het is’) - Cijfers

- Verzoekt om nieuwe

informatie naar aanleiding van OP

- Vragende vorm (elliptisch: ‘Heb je’)

26 In de tabel wordt de scheiding tussen zinnen aangegeven door de ‘//’ en de verschillende kleuren. De reactie-post bestaat uit twee zinnen, omdat het beschikt over 1) interpunctie die de zinnen scheidt en 2) twee persoonsvormen. In de twee zinnen worden verschillende handelingen tot stand gebracht: een ’informatief’ en een ‘wedervraag’. De informatief is gekozen door het volgende pad in de codeerflowchart te doorlopen: de eerste vraag (‘Is de inhoud van reactie r gericht op (de reactie van) een andere gebruiker?’) wordt met ‘ja’ beantwoord, de tweede (‘Heeft de inhoud van reactie r een informatieve functie of een sociale functie?’) met ‘informatief’, de derde (‘Is de reactie r een wedervraag?’) met ‘nee’, de vierde vraag (‘Bevat reactie r meta-communicatie die dient als correctie/verklaring?’) met ‘nee’ en ten slotte (‘Vult reactie r een kennistekort aan of op?’) ‘opvullend’. Dit leidt tot een keuze uit zeven handelingen. Uit de opties wordt de ‘informatief’ gekozen, omdat de posts de linguïstische kenmerken bezit die door het document worden gekenmerkt als ‘informatief’. Namelijk: de uiting is stellig geformuleerd, bevat feitelijke informatie die geverifieerd kan worden en bevat cijfers. Bij de ‘wedervraag’ wordt een ander pad in de codeerflowchart gevolgd.

3.3.2.1.2 Tweede codeur

Een tweede codeur heeft een willekeurige selectie van 36 reactie-posts uit de pilotstudie gecodeerd om de betrouwbaarheid van het onderzoek te verhogen. De tweede codeur heeft een talige achtergrond. Voor het coderen verkreeg de tweede codeur een instructie (zie Bijlage 7) over de werking van de codeerflowchart en de definitie van wat als ‘zin’ wordt beschouwd. De intercodeurbetrouwbaarheid is acceptabel (K=0.77). De onderlinge verschillen van de tweede codeur en onderzoeker zijn mondeling besproken, waarna consensus is bereikt over de uiteindelijke codering. Na dit gesprek zijn de instructie en het toelichtingsdocument bijgesteld:

1 - Het concept ‘enkelvoudige zin’ is uitgebreider toegelicht in de instructie.

2 - De voorbeelden zijn aangepast in het gehele toelichtingsdocument. Enkel de enkelvoudige zin die de desbetreffende handeling tot stand brengt is het voorbeeld.

3 - Dat antwoorden op de handeling ‘wedervraag’ als ‘opvullende kennis’ worden beschouwd, is toegelicht in het toelichtingsdocument.

In document Al doende leert men (pagina 32-35)