Filmsuggesties
op basis van gemoedstoestand
3
Februari 2017
Onderzoeksverslag
Thema III
Interdisciplinair
Onderzoeksproject
Abstract - Het Recommendation Systems (RS) van Netflix doet aanbevelingen voor films op basis van eerdere
beoordelingen van gebruikers. In dit onderzoek wordt gekeken in welke mate gemoedstoestand als parameter kan bijdragen aan het verbeteren van dit systeem. Dit is onderzocht onder respondenten middels een real-time
algoritme waarbij zowel beoordelingen van films als gemoedstoestand van gebruikers mee werd gewogen. Hoewel gemoedstoestand een indicator is voor filmvoorkeur, werd geen positief effect gevonden op de kwaliteit van de filmsuggesties gegenereerd door het algoritme. Het wegen van beoordelingen van andere films leidt wel tot betere filmsuggesties.
Simon
Kemmere; Brein
&
Cognitie
10798250
Max
de Raad; Kunstmatige
Intelligentie
10760970
Martijn
Messanella; Politicologie
10760148
Inhoudsopgave
1.
Inleiding
2
2.
Interdisciplinair theoretisch kader
3
2.1
Cognitieve Psychologie
4
2.2
Kunstmatige Intelligentie
5
3.
Methoden
7
3.1
Introductie enquêteonderzoek
7
3.2
Werking recommendation system
7
3.3
Opbouw enquête
9
4.
Resultaten
12
4.1
Hoofdresultaten
12
4.2
Demografische gegevens deelnemersgroep
13
5.
Conclusie
14
6.
Discussie
15
6.1
Vervolgonderzoek
15
6.2
Terugkoppeling naar interdisciplinair theoretisch kader
15
7.
Literatuurlijst
17
8.
Bijlagen
18
8.1
Gekozen films
18
8.2
Samenvatting Interview
19
1.
Inleiding
In 2006 kondigde de online videostreamingdienst Netflix de zogeheten Netflix Prize aan. Deze prijs was bestemd voor het team dat het Cinematch systeem van Netflix het beste kon verbeteren met als beloning een prijs van 1 miljoen dollar. Cinematch is het recommendationsystem (RS) dat Netflix gebruikt om suggesties voor films en series te doen voor haar gebruikers. Wanneer een consument van Netflix films en series beoordeelt, worden deze beoordelingen opgeslagen in een dataset en vervolgens bepaalt dit
Cinematch systeem welke films en series worden aangeraden voor deze gebruiker (‘Netflix’, n.d. 2016). Bij deze wedstrijd werd echter alleen gekeken naar de beoordelingen die gebruikers aan films gaven. In 2010 kondigde Netflix daarom een tweede competitie aan die meerdere parameters mee zou nemen in het genereren van suggesties. De bestaande algoritmes die Cinematch gebruikt wegen de
gemoedstoestand van de gebruiker niet mee terwijl andere online streamingdiensten, zoals bijvoorbeeld Spotify, dit in verschillende mate al wel doen. Ook binnen de wetenschappelijke literatuur wordt zowel in cognitieve psychologie als de informatiewetenschap gekeken naar de rol van gemoedstoestand bij het kijken van films, en hoe een RS, zoals Cinematch, hier rekening mee kan houden. Het meewegen van gemoedstoestand zou mogelijk van grote invloed kunnen zijn op filmvoorkeur, omdat gemoedstoestand een belangrijke rol speelt bij het nemen van beslissingen (Loewenstein & Lerner, 2003). Gebruikers selecteren hun entertainment (zoals muziek, films, boeken, etc.) niet alleen omdat ze erin geïnteresseerd zijn, maar ook omdat ze in de stemming zijn om ervan te genieten (Winoto & Tang, 2010).
Om dit soort recommendation systems te verbeteren en meer te baseren op de gemoedstoestand van gebruikers, is een interdisciplinaire aanpak noodzakelijk. Een RS is een systeem opgebouwd uit
algoritmes die de beste suggesties voor een gebruiker bepalen. In dit onderzoek wordt met technieken uit de kunstmatige intelligente een experimenteel RS ontworpen dat suggesties doet voor films. De
gemoedstoestand van een individu wordt door theorie uit de psychologische- en cognitieve wetenschap bepaald aan de hand van de veelgebruikte PANAS-X (Positive and Negative Affect Schedule -X. Deze schaal voor gemoedstoestand wordt gebruikt zodat deze later meegewogen kan worden in het RS (Watson & Clark, 1994). Hierbij worden vanuit de literatuur uit de cognitie en psychologie aannames verkregen voor het koppelen van gemoedstoestand aan voorkeur voor een specifiek genre film. Deze aannames uit de cognitieve psychologie worden daarna geïmplementeerd in de verkregen algoritmes uit de kunstmatige intelligentie. Dit is de kern van het interdisciplinaire aspect van dit onderzoek: de resultaten uit de cognitie worden gebruikt als input voor de methoden van de kunstmatige intelligentie.
Dit onderzoek focust zich op de invloed van de gemoedstoestand van een individu op zijn voorkeur voor films en hoe dit eventueel bij kan dragen aan het verbeteren van recommendation systems, zoals
Cinematch. De centrale onderzoeksvraag van dit onderzoek is daarmee:
Leidthetmeenemenvandehuidige(on)bewustegemoedstoestand vaneenpersooninhetdoenvan suggestiesvoorfilmstoteenaanbevelingdiebeterbijdezepersoonpastdanwanneerditniet meegenomenwordt?
De hoofdhypothese die in dit onderzoek getoetst zal worden is: aanbevelingen waarbij gemoedstoestand meegewogen wordt krijgen een betere beoordeling van gebruikers dan wanneer dit niet meegewogen wordt. Hiervoor zijn op basis van literatuur uit de cognitieve psychologie subhypotheses opgesteld die de gemoedstoestand van individuen koppelt aan specifieke genres films (sectie 2.1). Deze subhypotheses en literatuur uit de kunstmatige intelligentie zijn gebruikt om algoritmes op te stellen die suggesties doen voor films (sectie 2.2).
Voor dit onderzoek is een experiment uitgevoerd om te bepalen of het meenemen van gemoedstoestand effect heeft op de suggesties van het recommendation systeem. In dit experiment hebben respondenten eerst 15 films beoordeeld, waarna ze een enquête hebben ingevuld waaruit hun gemoedstoestand op dat moment kan worden bepaald. Er zijn vier algoritmes opgesteld die elk een suggestie voor drie films doen. Het eerste algoritme doet een willekeurige suggestie, dit is onze nullijn. Het tweede en derde algoritme doen een suggestie voor drie films ofwel gebaseerd op de beoordelingen van films door het individu, ofwel gebaseerd op de gemoedstoestand van het individu. De voorkeur wordt gemeten door
respondenten een aantal films te laten beoordelen. Hiermee wordt de werking van een ‘klassiek’ RS geïmiteerd, zodat de uitkomst hiervan vergeleken kan worden met de uitkomst van het RS gebaseerd op gemoedstoestand. Het vierde algoritme doet een suggestie op basis van zowel de gemoedstoestand van het individu als de beoordelingen van films door het individu. Dit experiment wordt uitgebreid besproken in sectie 3.2 en 3.3.
De resultaten van het experiment worden gepresenteerd in sectie 4. De conclusies die uit de resultaten kunnen worden getrokken en de beantwoording van de hoofdvraag worden gedaan in sectie 5. De
verbeterpunten van dit onderzoek en consequenties voor eventueel vervolgonderzoek worden behandeld in sectie 6.
2.
Interdisciplinair theoretisch kader
2.1
Cognitieve Psychologie
Zillmann (1988) ontdekte met de moodmanagementtheory dat een brede hoeveelheid informatie (consumptie van nieuws, documenten, sport, komedies, drama’s en muziek) wordt beïnvloed door de gemoedstoestand van de gebruiker. Deze gemoedstoestand haakt in op het irrationele aspect van het nemen van beslissingen, waardoor het maken van keuzes door het onderbewustzijn beïnvloed wordt. Ook willen mensen volgens de theorie deels bewust en deels onbewust een bepaalde vorm van homeostase behouden. Dat betekent dat het hebben van een positieve stemming neigt naar het ondergaan van
negativiteit en het hebben van een negatieve stemming neigt naar het tegenovergestelde. Dit wordt in het onderzoek van Winoto en Tang (2010) onderbouwd: entertainment selectie is in het bijzonder
gekenmerkt door hedonistische motivaties. Enerzijds wil men de positieve gemoedstoestand behouden of anderzijds hun negatieve gemoedstoestand repareren in termen van intensiteit en duur. In dit verband dient de gemoedstoestand van een gebruiker als cruciale bruikbare voorspeller van hun entertainment beslissingen (Winoto & Tang, 2010). Strizhakova & Krcma (2007) vulden deze theorie aan met onderzoek te doen naar de correlatie tussen de huidige gemoedstoestand en het willen zien van verschillende genres films. De resultaten hiervan zijn weergegeven in figuur 1 hieronder.
SamenvattingresultatenvanStrizhakova &Krcma(2007)
Figuur 1. Bron: Strizhakova & Krcma (2007). “+” Geeft een indicatie voor een grotere waarschijnlijkheid voor het kiezen van een specifiek genre; “-“ geeft een indicatie voor een lagere waarschijnlijkheid voor het kiezen van een specifiek genre; +” en “-“ zijn niet significant maar geven een waarde aan voor 0.05<p<0.10. * Effecten zijn significant bij p<0.05;** Effecten zijn significant bij p<0.01.
Oliver (2003, aangehaald in Strizhakova & Krcmar (2007)) beargumenteert dat mensen ook kunnen kiezen voor het kijken van films die ingaan tegen de hedonistische wijze waarop de mood management theory zich toelegt. Er wordt namelijkgeredeneerd dat mensen met een negatieve stemming nog steeds voor een negatieve film kunnen kiezen. De verklaring voor dit gedrag kan worden uitgelegd op basis van de socialcomparisontheoryvan Festinger (1954). Wanneer deze theorie toegepast wordt op filmkeuze wordt duidelijk dat mensen een negatieve film kiezen, omdat zij zich gaan vergelijken met de personages in de film, die slechter af zijn. Hierdoor wordt negatieve stemming in retrospect gezet en voelt men zich na het kijken van het drama weer positiever, hetgeen uiteindelijk een hedonistische effect teweeg brengt waar de mood management theory om draait.
Op basis van de correlaties die te vinden zijn in Figuur 1 zijn de subhypotheses van dit onderzoek
geformuleerd: de specifieke correlaties tussen de voorkeur voor bepaalde genres en gemoedstoestanden. Vervolgens is er gekeken naar de manier waarop correlaties tussen de filmgenres en de gemoedstoestand van gebruikers geïmplementeerd kunnen worden in een vragenlijst. Hierbij is gebruik gemaakt van de PANAS-X, gecreëerd door Watson en Clarke (1994). Deze vragenlijst bezit een Cronbach’s Alfa tussen de .83 en .90, wat betekent dat de interne consistentie van de PANAS-X van hoog niveau is. Op basis van de PANAS-X en de resultaten van Strizhakova & Krcmar (2007) is er een koppeling gemaakt die tot uiting komt in de zelf geconstrueerde enquête. Verdere uitleg en verantwoording is te vinden in sectie 3. In de volgende sectie wordt de achtergrond en theorie gegeven voor de opbouw van het RS.
2.2
Kunstmatige Intelligentie
Collaborative filtering is een veelgebruikte techniek bij recommendation systems om aanbevelingen aan een gebruiker te doen op basis van de voorkeur van andere, vergelijkbare gebruikers. Zo zullen
bijvoorbeeld mensen met vergelijkbare leeftijd, opleidingsniveau en geslacht vaker van dezelfde films houden als mensen waarbij deze persoonlijke eigenschappen verschillend zijn (Sarwar, 2001). Als mensen met vergelijkbare persoonlijke eigenschappen dezelfde soort films hoog beoordelen, zullen zij waarschijnlijk van dezelfde soort films houden en suggesties uit het betreffende genre krijgen.
Hetzelfde geldt dus, zoals hierboven beschreven, mogelijk ook voor mensen met vergelijkbare gemoedstoestand. Een dergelijke parallel kan daarom ook getrokken worden tussen de filmkeuze afhankelijk van gemoedstoestand. Een manier van vergelijken van persoonlijke eigenschappen met collaborative filtering is het gebruik van een feature vector en cosinus-similarity (Sarwar, 2001). Door de hoek tussen vectoren in een multidimensionale ruimte te bereken kan de mate waarin de
objecten(vectoren), bijvoorbeeld films, vergelijkbaar zijn door overeenkomende
eigenschappen(variabelen) zoals genre. Deze benadering lijkt erg goed te werken en is erg populair om aanbevelingen te doen voor diverse doeleinden (muziek, films, webshops ect.) (Zhao, 2002). De formule voor cosinus-similarity ziet er als volgt uit:
imilarity(A, )
cos(A, )
s
B =
B =
||A|| ||B||A·BHier zijn A en B feature vectoren. De uitkomst van de formule is een waarde tussen -1 en 1, waarbij bij waarde 1 de vectoren exact hetzelfde zijn (hoek van 0 graden) en bij -1 het tegenovergestelde. In dit onderzoek zal deze waarde alleen variëren tussen 0 en 1, omdat er nooit een negatieve waarde voor een genre toegekend zal worden. Dit is een maat voor vergelijkbaarheid die in een recommendation algorithm gebruikt kan worden om de beste aanbeveling te selecteren.
Het volgende voorbeeld (weergegeven in figuur 2) illustreert de werking van een cosinus-similarity. Neem een vector die een ‘object’ beschrijft als zijn mate van actie en drama. Als een individu vervolgens bijvoorbeeld dramafilms gemiddeld met een 2.5 beoordeeld en actiefilms gemiddeld met een 7.5, en dit genormaliseerd wordt (dus naar 0.25 en 0.75), zal de hoek tussen een actiefilm (met waarde 1 voor actie en 0 voor drama) en de voorkeur van deze persoon kleiner zijn dan tussen zijn voorkeur en een
Figuur 2. Voorbeeld van collaborative filtering met cosinus similarity. Hier zijn twee films uit verschillende genres als voorbeeld genomen. De vectoren in de figuur staan voor de genres: ( komedie , actie , drama , horror , crime ). James Bond Casino Royale is gekozen als actiefilm, vandaar de waarde 1 voor genre actie in de vector; Titanic heeft als dramafilm een waarde 1 voor drama. Uit de enquête is bij de persoon in dit voorbeeld gebleken dat hij/zij een grotere voorkeur heeft voor actie (0,75) en een kleinere voorkeur voor drama (0,25). Deze persoon heeft uiteraard ook voorkeuren voor andere genres (in totaal 5 dimensies), maar we kijken in dit voorbeeld slechts naar twee genres. Vandaar de waarden a,b en c in de vector (normalisatie zou hier betekenen dat
). Vervolgens wordt de cosinus similarity berekend tussen de vector van de persoon en de √a²+ 0 7 + 0 2 + b + c = 1, 5² , 5² ² ²
3.
Methoden
3.1
Introductie enquêteonderzoek
Om de hypotheses te toetsen is gekozen voor empirische onderzoek in de vorm van een ‘interactieve’ enquête. Respondenten geven hierin hun voorkeur voor films en hun ervaring van bepaalde
gemoedstoestanden aan, en op basis hiervan worden real-time aanbevelingen gedaan voor films. Respondenten worden tot slot gevraagd deze aanbevelingen te beoordelen. Deze beoordelingen van de aanbevelingen worden gebruikt om de effectiviteit van het recommendation-system (RS) gebaseerd op gemoedstoestand te meten, en daarmee de hoofdvraag te beantwoorden. De exacte werking van het RS wordt behandeld in sectie 3.2
Panacek (2008) beschrijft surveys (enquêtes) als een betrouwbare en gevestigde methode van
wetenschappelijk onderzoek. De punten die door hem zijn opgesteld vormden de basis voor de enquête die in dit onderzoek is gebruikt. Het belangrijkste uitgangspunt voor een dergelijk onderzoek is dat de beantwoorde vragen betrouwbaar genoeg zijn om vervolgens met statistische analyses de opgestelde hypotheses te ontkrachten of conclusies te trekken. De vragen moeten duidelijk zijn en er moet zo min mogelijk ruimte voor interpretatie mogelijk zijn. Met dit argument is rekening gehouden bij het
opstellen van de interactieve enquête. De exacte opzet en vraagstelling van de enquête wordt behandeld in sectie 3.3. Een overzicht van de opmaak van de enquête is te vinden in bijlage 1 in sectie 8.3.
3.2
Werking recommendation system
Technische werking recommendation systemDe enquête met het recommendation system staat op een webserver (link: mxdr.synology.me) en is geprogrammeerd in de programmeertaal PHP. Stijl-output (de visuele content op de website) in HTML en CSS wordt deels automatisch gegenereerd met PHP-scripts, zoals het weergeven van blokken met films in willekeurige volgorde. Alle data over gemoedstoestanden en films, die in sectie 3.3 toegelicht worden, zijn opgeslagen in een relationele SQL database, ook respons van de respondenten wordt weer in deze
database opgeslagen. Het berekenen van de cosinus similarity werkt door vectoren als PHP-arrays te representeren, en daar bewerkingen op uit te voeren.
Collaborative filtering
Door zowel de gemoedstoestand als de filmvoorkeur van de gebruiker in twee verschillende feature vectoren te kwantificeren en de cosinus similarity te berekenen met overeenkomende vectoren van films worden er films geselecteerd die het best aansluiten op de gemoedstoestand of voorkeur van de
gebruiker. Door deze vectoren te combineren kunnen gemoedstoestand en filmvoorkeur afzonderlijk meegewogen worden in een aanbeveling. Dit is de implementatie van collaborative filtering (Sarwar, 2001).
Feature vector voor voorkeur
De feature vector voor voorkeur wordt gegenereerd door beoordelingen van films op een 10-punts Likertschaal (deel 1 enquête) op te slaan als voorkeur-vector waarbij de voorkeur voor een genre de gemiddelde score uit de drie films van het betreffende genre bedraagt. Als een respondent bijvoorbeeld 3 verschillende actiefilms met een 6, een 7 en een 8 beoordeeld. Zal de waarde in zijn voorkeurs-vector voor het genre actie het gemiddelde, een 7 zijn.
Feature vector voor gemoedstoestand
Voor de gemoedstoestand-vector wordt de mate waarin een respondent een gemoedstoestand ervaart (deel 2 enquête) direct omgerekend naar een vector met de betreffende correlaties tussen deze
gemoedstoestand en genrevoorkeur. De correlaties die hiervoor gebruikt zijn zijn te vinden in tabel 1 in sectie 3.3 deel 2, en zijn gebaseerd op het onderzoek van Strizhakova & Krcmar (2007). waarbij zeer significante (p<0,01) correlaties een vermenigvuldigingsfactor van 1.5 krijgen. Hiermee wordt de significantie van deze correlatie benadrukt bij het doen van aanbevelingen. De ervaring van gemoedstoestanden wordt gemeten op een 5-punts Likertschaal. Hierbij wordt uitgegaan van een correlatie van 0 met een genre als de respondent de ervaring van een gemoedstoestand als neutraal (score 3 op de Likertschaal) beoordeelt, een recht evenredige negatieve correlatie met het genre als de beoordeling lager is (oneens), en recht evenredig positief als de beoordeling hoger is (eens). Ook hier worden voorkeurs-scores voor genres opgeteld en in een feature vector gekwantificeerd.
Bijvoorbeeld: de gemoedstoestand ‘Energiek’ correleert positief met het genre ‘actie’. Als een respondent een score 4 (eens) geeft aan zijn energieke gevoel, krijgt zijn voorkeur voor het genre actie een score van 4 - 3(baseline) = +1. Als hij zich absoluut niet energiek voelt en een 1 (zeer oneens) invult, wordt zijn voorkeur voor actie berekend als 1 - 3(baseline) = -2. Zou ‘actie’ een zeer significante correlatie hebben met energiek dan zouden deze scores dus nog met 1.5 vermenigvuldigd worden.
Aanbevelingen
Vervolgens wordt met de cosinus similarity voor zowel de beoordelings-vector als de
gemoedstoestand-vector twee films geselecteerd uit het genre dat het best scoort in de betreffende vector, en één film uit het tweede beste genre. Deze selectie van drie films vormt de basis voor één set suggesties. Er wordt ook nog een set suggesties gedaan waarbij zowel rekening gehouden wordt met zowel
aangegeven filmvoorkeur als ervaring van gemoedstoestand. De gecombineerde vector is hierbij een gewogen gemiddelde van beide vectoren.
De sets met 3 suggesties zijn dus als volgt:
- Een set suggesties gebaseerd op de beoordeling van andere films de respondent - Een set suggesties gebaseerd op de gemoedstoestand van de respondent
- Een set suggesties gebaseerd op zowel de beoordeling van de respondent als zijn/haar gemoedstoestand - Een willekeurige set suggesties (deze is totaal willekeurig gegenereerd)
De willekeurige set suggesties dient om te controleren dat de set suggesties gebaseerd op de initiële beoordeling tot een significant beter beoordelingscijfer leidt dan een willekeurige set, oftewel: het test of het algoritme goed presteert. De gecombineerde vector dient om te testen of een combinatie van een
recommendation system gebaseerd op gemoedstoestand gecombineerd met een klassiek RS gebaseerd op voorkeur mogelijk nog effectiever zou kunnen zijn.
3.3
Opbouw enquête
IntroductieDe respondent krijgt eerst een korte introductie:
“Bedanktdatuwiltdeelnemenaanditonderzoek naarfilmvoorkeur!Voorhetonderzoekishet belangrijkdatudeantwoordenzoeerlijkmogelijkinvult.Degegevens zullenanoniemworden verwerktenuhoeftgeen persoonlijkegegevensteverstrekken.”
Hier wordt dus benadrukt dat eerlijkheid belangrijk is, dit om sociaal wenselijke antwoorden te voorkomen. Daarom wordt ook vermeld dat respons anoniem verwerkt wordt.
Deel 1: Films
Er zijn twee poules met films samengesteld voor dit onderzoek. In pool 1 staan 15 films uit 5
verschillende genres waarvan de respondent op een 10-punts schaal beoordeelt hoe goed deze bij hem passen; hiervoor wordt een beschrijving, titel en cover getoond zoals op IMDB. De tweede poule, ook bestaande uit 15 films uit drie genres, is de recommendation-poule. Enkele films uit deze poule worden uiteindelijk aangeraden aan de respondent. De respondent geeft dus aan of deze suggesties bij hem passen in deel 3 van de enquête.
De films voldoen aan de volgende criteria:
-
Ze zijn onderdeel van de IMDB-database. Dit medium is gekozen voor de grote toegankelijk en het maandelijkse gebruik van 250 miljoen unieke gebruikers, waaronder Netflix-gebruikers (‘IMDB’, n.d. 2016)-
De gekozen films bevatten allemaal een rating van minimaal een 7,5 en maximaal een 8,5 om te controleren voor de kwaliteit van de film. Deze algehele kwaliteit komt tot stand door het gewogen oordeel van experts en alledaagse gebruikers.-
Het laatste criterium is dat de gekozen films minstens 150.000 ratings moeten hebben om in aanmerking te komen voor de selectie. Dit gebeurd om, net als het bovenstaande criterium, te controleren voor een goede representatie van de meningen van de IMDB bezoekers (en de Netflix-gebruikers)De gekozen films zijn te vinden in de bijlage in sectie 8.1.
Alle 15 films uit 5 verschillende genres worden in willekeurige volgorde getoond. De respondent krijgt de volgende opdracht:
“Wewillenueerstvragenomeenaantalfilmstebeoordelen ophoegoeddefilm bijupast.U
krijgthiervoorslechtseentitel,eenkortebeschrijvingeneenfotovandefilmcovertezien,enukunt eencijferopeen10puntsschaalgeven.Wemoedigenuhierbijaanvooralopuwgevoelaftegaan,u hoefthiernietlangovernatedenken.“
Hiermee proberen de onderzoekers de respondent te sturen om aan te geven hoe hij een film normaal gesproken waardeert, om beïnvloeding van de huidige gemoedstoestand te minimaliseren. De
aansporing voor de gebruiker om op zijn gevoel af te gaan dient om de tijd die het onderzoek de respondent kost te beperken, hij moet immers 15 films beoordelen. Als de respondent na het verplicht
invullen van beoordelingen voor alle films op ‘Volgende’ klikt wordt de feature vector voor zijn voorkeur opgeslagen.
Deel 2: Gemoedstoestanden
De gekozen filmgenres zijn gebaseerd op een aantal gemoedstoestanden uit het onderzoek van Strizhakova & Krcmar (2007) die correleren met voorkeur of afkeur voor deze genres. De gekozen genres zijn:actie,horror,drama,comedyencrime. De correlatie tussen de ervaring van een bepaalde gemoedstoestand en voorkeur voor een bepaald genre is hieronder in tabel 3.1 uiteengezet. Dit is dus een selectie van genres en gemoedstoestanden uit de tabel van Strizhakova & Krcmar (figuur 1) die relevant is voor ons onderzoek:
CorrelatiestussenGemoedstoestandenenFilmgenres
Gemoedstoestandalsin
Strizhakova&Krcmar(2007): Energiek Nerveus Boos Verdrietig Kalm
Correlerende voorkeur voor genres:
+ Actie -- Comedy - Crime
++ Horror - Drama + Crime ++ Drama
+ Comedy
Tabel 3.1. +,- betekent significantie van p<0,05. ++,-- betekent significantie van p<0,01 (Deze wordt dus vermenigvuldigd *1.5).
De gemoedstoestanden uit Strizhakova & Krcmar (2007) vallen onder een overkoepelende
gemoedstoestand uit de PANAS-X, waarvan aangenomen wordt dat zij ook op dezelfde manier correleren met de voorkeur voor genres als de gemoedstoestanden in figuur 1. Per overkoepelende
gemoedstoestand zijn vervolgens twee gemoedstoestanden gekozen die ook onder deze
gemoedstoestand vallen en die respondenten ook moeten beoordelen. Dit zodat een uitgebreider beeld van de gemoedstoestand van een respondent gevormd kan worden. Hier volgen dus 15
gemoedstoestanden uit met bijbehorende correlatie. Een specificatie is hieronder in tabel 3.2 te vinden:
ToewijzingvanPANAS-Xgemoedstoestandenondergemoedstoestanden vanStrizhakova&Krcmar(2007) Gemoedstoestandalsin
Strizhakova & Krcmar (2007): Energiek Nerveus Boos Verdrietig Kalm
PANAS-Xgemoedstoestand
waardezeondervalt:
Joviality Fear Hostility Sadness Serenity
Anderegemoedstoestanden
dieonderdePANAS-X
gemoedstoestandvallen: Vrolijk Gelukkig Bezorgd Onzeker Geïrriteerd Vijandig Neerslachtig Eenzaam Gemakzuchtig Ontspannen
Tabel 3.2. Gemoedstoestanden uit de PANAS-X emotieschaal worden vertaald uit het Engels gelinkt aan de gemoedstoestanden in Strizhakova & Krcmar (2007). De niet dikgedrukte gemoedstoestanden worden gebruikt in de enquête.
In dit deel van het onderzoek moeten de respondenten, opnieuw in willekeurig volgorde, aangeven in hoeverre zij de 15 gemoedstoestanden (weergegeven in tabel 3.2) ervaren. Dit geven zij aan op een 5 punts schaal tussen zeer oneens en zeer eens. De beschrijving hierbij is als volgt:
“Wegaanunuvrageninhoeverreueenaantalgemoedstoestandenervaart. Probeerhierzoeerlijkmogelijk antwoordoptegeven.”
“Ikvoelmijop ditmoment(...)”
Nogmaals wordt benadrukt dat eerlijk antwoord belangrijk is, omdat de respondent mogelijk gesloten is over zijn gemoedstoestand. Als de respondent na het verplicht waarderen van alle gemoedstoestanden op volgende klikt wordt de feature vector voor zijn voorkeur gebaseerd op zijn gemoedstoestand opgeslagen.
Deel 3: Suggesties
De derde feature vector, de combinatie van de vector voor voorkeur en de vector voor gemoedstoestand, wordt op de achtergrond berekend en worden 4 sets suggesties gegenereerd met films uit pool 2. De kandidaat moet deze suggesties beoordelen met een cijfer tussen 1 en 10. Deze suggesties komen uit een tweede pool van 15 films die weer in sets van 3 uit 5 verschillende genres komen.
“Ditishetlaatstedeelvanhetonderzoek.Wewillenuvragenomde volgendesetssuggestieste beoordelenopgrondvanhoegraagudezefilms nuzouwillenkijken. Hetkandatverschillende setsdezelfdefilmsbevatten.”
In iedere set wordt ook de volgende informatie gegegeven:
“Devolgendefilmswordengesuggereerdopbasisvanuwvoorkeuren:” *Filmsonderelkaar*
Dezesetsuggestiesspreektmij opditmomentaan: *Tienpuntsbulletpoints*
Vervolgens wordt de respondenten nog enkele gegevens gevraagd die mogelijk bruikbaar zijn voor meta-analyse:
● Geslacht (man, vrouw) ● Leeftijd
● Hoogst genoten opleidingsniveau (VMBO/MBO, HAVO/HBO, VWO/Universitair)
De beoordelingen op de vier verschillende sets en de persoonlijke gegevens worden opgeslagen in de database en het onderzoek is afgerond.
“Hetonderzoekisafgerond,wewillenuhartelijkbedanken vooruwtijd.U kunthetvensternu sluiten.”
4.
Resultaten
4.1 Hoofdresultaten
Op basis van de gebruikte onderzoeksopzet is er gekozen voor het gebruik van One-wayANOVA.Om de verkregen resultaten te verduidelijken zullen eerst de beschrijvende statistieken besproken, daarna wordt duidelijk gemaakt welke gemiddelden significant van elkaar verschilden. Deze statistieken worden weergegeven in Tabel 4.1 hieronder.
GemiddeldeScorevoordegegevenAanbevelingenStandaarddeviaties(tussenhaakjes)weergegevenper Algoritme
Algoritme N Gemiddelde (sd) Minimum Maximum
_______________________________________________________________________________________________________________________ Random 32 4,88 (2,22) 1 8 Gemoedstoestand 32 5,34 (2,25) 1 9 Gecombineerd 32 5,84 (2,30) 1 9 Beoordeling 32 6,81 (1,60) 4 10 ________________________________________________________________________________________________________________________
Tabel 4.1. ‘Gemoedstoestand’: algoritme enkel o.b.v gemoedstoestand. ‘Beoordeling’: algoritme enkel o.b.v. beoordeling van deelnemer. ‘Gecombineerd’: combinatie tussen het Gemoedstoestandsalgoritme en het Beoordelingsalgoritme. ‘Random’: algoritme wat willekeurige aanbevelingen doet. N = aantal deelnemers.
Vervolgens is er voor het uitvoeren van deze ANOVA gekeken of de assumptie van gelijke variantie geschonden werd; dit was niet het geval. Er was een significant hoofdeffect F(3,127) = 5,003, p= 0,003. Vervolgens is er om de hypothese te toetsen gebruik gemaakt van geplande contrasten: beoordelingen op verschillende sets aanbevelingen zijn onderling getoetst op significant verschil in gemiddelden. De algoritmes die zijn vergeleken worden beschreven in Tabel 4.2. Hierin komt naar voren dat alleen het gemiddelde van het gemoedstoestand-algoritme significant afweek van het gemiddelde van het voorkeur-algoritme t(124) = -2,800, p = 0,006. Dit significante verschil bestaat tussen de gemiddelden 5,34 en 6,81, respectievelijk toebehorend aan gemoedstoestand en beoordeling. Dit is niet in lijn met onze hypothese, waarin gesteld werd dat gemoedstoestand hoger zou scoren dan beoordeling. Ook kreeg de aanbeveling gebaseerd op gemoedstoestand en de combinatie van gemoedstoestand en beoordeling geen significant betere beoordeling dan een willekeurige aanbeveling. De scores toebehorend aan alle andere aanbevelingen verschillen ook niet significant van elkaar. Dit is te zien in Tabel 4.2.
ResultatenvandeGeplandeContrastenwaarbijdet-waardes,VrijheidsgradenenSignificantieworden weergegeven
Contrast t df Sig. (2-tailed)
____________________________________________________________________________________________________________________ 1 -2.627 124 .010 2 -2.800 124 .006 3 .894 124 .373 4 -1.847 124 .067 5 .953 124 .342 6 1.847 124 .067 ______________________________________________________________________________________________________________________
Tabel 4.2. Contrast staat voor de groepen die met elkaar vergeleken zijn. Voor contrast 1 geldt dat alle groepen onderling vergeleken zijn. In contrast 2 zijn de resultaten van het gemoedstoestandalgoritme vergeleken met de resultaten van het voorkeursalgoritme. In contrast 3 is de gemoedstoestand vergeleken met de random. In contrast 4 werd gecombineerd met voorkeur vergeleken. In contrast 5 werd gecombineerd met emotie vergeleken. In contrast 6 werd gecombineerd met random vergeleken. df = aantal vrijheidsgraden. Sig. (2-tailed) = de tweezijdige significante met een alpha van 0.05.
4.2 Demografische gegevens deelnemersgroep
De gemiddelde leeftijd van de correspondenten was 33,9 jaar, waarvan de grote meerderheid vwo/havo als hoogst afgeronde opleiding had. Opvallend was het hoge aantal deelnemers met een (voorbereidend) wetenschappelijke achtergrond, en slechts één respondent die VMBO aangaf als de hoogst genoten onderwijs. De man-vrouw verhouding leunde sterk naar de mannelijke kant: 10 van de 32 respondenten was vrouwelijk.
5.
Conclusie
De onderzoeksvraag luidde als volgt:
Leidthetmeenemenvande(on)bewustegemoedstoestandvaneenpersoonin hetdoenvan suggestiesvoorfilmstoteenaanbevelingdiebeterbijdezepersoonpastdanwanneerditniet meegenomenwordt?
Op grond van de resultaten van het uitgevoerde experiment kunnen we concluderen dat het meenemen van de (on)bewuste gemoedstoestand van een persoon niet leidt tot een aanbeveling die significant beter bij deze persoon past dan wanneer dit niet meegenomen werd. Daarmee kunnen we stellen dat uitgaande van de gevonden resultaten een recommendation system als Cinematch geen baat zou hebben bij het toevoegen van de parameter gemoedstoestand van de gebruiker bij het genereren van suggesties.
Binnen het uitgevoerde experiment is ook gekeken naar het effect van het meenemen van de beoordelingen van films door een persoon in het generen van adequate suggesties. We zien dat de suggesties enkel op basis van beoordelingen van films door het individu wel significant beter worden beoordeeld dan de willekeurige sets suggesties. Dit betekent dus dat filmsuggesties op basis van de beoordelingen van de gebruiker beter zijn dan willekeurige suggesties. Dit betekent dat een klassiek recommendation system gebaseerd op deze parameter goed werkt.
Cinematch gebruikt op dit moment enkel de beoordelingen van gebruikers. We kunnen concluderen op basis van de resultaten dat een RS op basis van de beoordelingen van gebruikers beter werkt dan een RS op basis van de gemoedstoestand van gebruikers. Ook kunnen we concluderen dat een RS die beide parameters meeneemt niet beter werkt dan een RS dat slechts de beoordelingen van gebruikers meeneemt. Dit betekent dus dat Cinematch op grond van dit onderzoek geen verbetering zal ondervinden als het de gemoedstoestand van haar gebruikers mee zal gaan nemen in het doen van filmsuggesties voor haar gebruikers.
6.
Discussie
6.1 Vervolgonderzoek
Hoewel het resultaat van dit onderzoek niet significant bleek te zijn, is het wel een belangrijk gegeven dat de gevonden resultaten zijn verkregen uit slechts 32 respondenten. De gemiddelde beoordeling (5,34) van de film-suggesties bepaald aan de hand van gemoedstoestand is wel hoger dan het gemiddelde van de set met gerandomiseerde filmsuggesties (4,88). Echter, de significantie van dit verschil was niet aan te tonen. Dit valt mogelijk te verklaren door het geringe aantal deelnemers en heeft op zodanige wijze het trekken van het trekken van sluitende conclusies beïnvloed. Bij vervolgonderzoek moet rekening gehouden worden met de steekproefgrootte. Ook bleek het achteraf gezien erg moeilijk om de server snel op gang te krijgen en de website bereikbaar te houden, waardoor in een zeer korte tijdsduur respondenten moesten worden gezocht. Bovendien kan een grotere poule van films gebruikt worden om willekeurige sampling te bevorderen, zodat een mogelijk effect op beoordelingen door voorkennis over films ook beperkt blijft.
Ook zijn gemoedstoestanden mogelijk moeilijk te meten en bij veel mensen aan weinig variatie onderhevig (pers. comm., Maarten van Someren, 30 november 2016). Bovendien zijn deze moeilijk te vatten in een enquête en is de collaborative-filtering techniek mogelijk minder geschikt voor het
vergelijken van gemoedstoestanden. Voor vervolgonderzoek zouden andere manieren tot het meten van gemoedstoestand in beschouwing kunnen worden genomen. Ook voor de implementatie van een
eventueel RS gebaseerd op gemoedstoestand is een goede methodiek tot meting hiervan van belang. Om dit real time te kunnen meten zou een versimpelde vorm van meting van gemoedstoestand moeten worden gebruikt; een die voor de gebruiker niet of minder tijdsintensief is. Een andere mogelijkheid is het geautomatiseerd meten van gemoedstoestand door bijvoorbeeld een camera (webcam).
6.2 Terugkoppeling naar interdisciplinair theoretisch kader
Zoals in het theoretisch kader besproken bestaat er tegenspraak in de literatuur over de correlatie tussen gemoedstoestand en voorkeur voor genre. Voor toekomstig onderzoek is het belangrijk dat deze tegenspraak wordt overwogen. In het theoretisch kader werd demood-managementtheory van Zillmann (1988) gebruikt als onderbouwing voor het uitgevoerde experiment. Echter, ook werd desocial
comparisontheory (Festinger, 1954) aangehaald die niet in consensus is met de mood management theory. Gezien de niet significante resultaten raden wij daarom aan om in een vervolgonderzoek hiermee rekening te houden.
De aangenomen correlatie tussen genres en films was complex, mede door het feit dat geen enkele film zich binnen één genre laat definiëren. Een filmgenre is een erg flexibel begrip; het heeft geen
wetenschappelijke kaders en staat daardoor volledig open voor interpretatie. Een oplossing hiervoor was het selecteren van films die door IMDB werden omschreven als vallende binnen een specifiek genre, maar nog steeds kunnen de ‘resterende’ of onbehandelde genres die bij dezelfde film horen
ongewenste/onbewuste associaties veroorzaken bij de proefpersonen. Een mogelijke oplossing hiervoor is het aanpassen van het algoritme. Als deze namelijk zodanig aangepast wordt dat een film op basis van meerdere genres meegenomen kan worden dan kunnen er meer specifieke suggesties worden gedaan voor de gebruikers.
Ook is collaborative filtering met feature vectoren in termen van voorkeur voor een genre mogelijk een minder geschikte methode om aanbevelingen te doen. Gebruikelijk is om met collaborative filtering aanbevelingen voor producten of specifieke items te doen. Een genre is zoals beschreven een minder afgebakend begrip, wat het mogelijk moeilijk maakt om hier overeenkomt in voorkeur van gebruikers in te vinden.
Aan de andere kant is het mogelijk dat de gebruiker films in een ander genre indeelt dan dat het programma doet. Omdat het begrip filmgenre zo open staat tot interpretatie is het moeilijk te bepalen welk genre iemand interessant vindt zonder van tevoren te bepalen hoe iemand films indeelt op genre en welke hiërarchische verhouding deze met elkaar hebben. Andere vormen van toetsing zouden gebruikt kunnen worden, zoals bijvoorbeeld interviews afnemen, om nauwkeuriger te bepalen hoe mensen films indelen in genres en hoe dit vervolgens gebruikt kan worden om voorstellen te optimaliseren.