Filmsuggesties op basis van gemoedstoestand

(1)

Filmsuggesties op basis van gemoedstoestand

3 Februari 2017

Onderzoeksverslag Thema III

Interdisciplinair Onderzoeksproject

Abstract _{- Het Recommendation Systems (RS) van Netflix doet aanbevelingen voor films op basis van eerdere}

beoordelingen van gebruikers. In dit onderzoek wordt gekeken in welke mate gemoedstoestand als parameter kan bijdragen aan het verbeteren van dit systeem. Dit is onderzocht onder respondenten middels een real-time

algoritme waarbij zowel beoordelingen van films als gemoedstoestand van gebruikers mee werd gewogen. Hoewel gemoedstoestand een indicator is voor filmvoorkeur, werd geen positief effect gevonden op de kwaliteit van de filmsuggesties gegenereerd door het algoritme. Het wegen van beoordelingen van andere films leidt wel tot betere filmsuggesties.

Simon Kemmere;

Brein & Cognitie

10798250

Max de Raad;

Kunstmatige

Intelligentie

10760970

Martijn Messanella;

Politicologie

10760148

(2)

Inhoudsopgave

1. Inleiding

2 2. Interdisciplinair theoretisch kader

3 2.1 Cognitieve Psychologie

4 2.2 Kunstmatige Intelligentie

5 3. Methoden

7 3.1 Introductie enquêteonderzoek

7 3.2 Werking recommendation system

7 3.3 Opbouw enquête

9 4. Resultaten

12 4.1 Hoofdresultaten

12 4.2 Demografische gegevens deelnemersgroep

13 5. Conclusie

14 6. Discussie

15 6.1 Vervolgonderzoek

15 6.2 Terugkoppeling naar interdisciplinair theoretisch kader

15 7. Literatuurlijst

17 8. Bijlagen

18 8.1 Gekozen films

18 8.2 Samenvatting Interview

19

(3)

1. Inleiding

In 2006 kondigde de online videostreamingdienst Netflix de zogeheten Netflix Prize aan. Deze prijs was bestemd voor het team dat het _Cinematch systeem van Netflix het beste kon verbeteren met als beloning een prijs van 1 miljoen dollar. Cinematch is het recommendation system (RS) dat Netflix gebruikt om suggesties voor films en series te doen voor haar gebruikers. Wanneer een consument van Netflix films en series beoordeelt, worden deze beoordelingen opgeslagen in een dataset en vervolgens bepaalt dit

Cinematch systeem welke films en series worden aangeraden voor deze gebruiker (‘Netflix’, n.d. 2016). Bij deze wedstrijd werd echter alleen gekeken naar de beoordelingen die gebruikers aan films gaven. In 2010 kondigde Netflix daarom een tweede competitie aan die meerdere parameters mee zou nemen in het genereren van suggesties. De bestaande algoritmes die Cinematch gebruikt wegen de

gemoedstoestand van de gebruiker niet mee terwijl andere online streamingdiensten, zoals bijvoorbeeld Spotify, dit in verschillende mate al wel doen. Ook binnen de wetenschappelijke literatuur wordt zowel in cognitieve psychologie als de informatiewetenschap gekeken naar de rol van gemoedstoestand bij het kijken van films, en hoe een RS, zoals Cinematch, hier rekening mee kan houden. Het meewegen van gemoedstoestand zou mogelijk van grote invloed kunnen zijn op filmvoorkeur, omdat gemoedstoestand een belangrijke rol speelt bij het nemen van beslissingen (Loewenstein & Lerner, 2003). Gebruikers selecteren hun entertainment (zoals muziek, films, boeken, etc.) niet alleen omdat ze erin geïnteresseerd zijn, maar ook omdat ze in de stemming zijn om ervan te genieten (Winoto & Tang, 2010).

Om dit soort recommendation systems te verbeteren en meer te baseren op de gemoedstoestand van gebruikers, is een interdisciplinaire aanpak noodzakelijk. Een RS is een systeem opgebouwd uit

algoritmes die de beste suggesties voor een gebruiker bepalen. In dit onderzoek wordt met technieken uit de kunstmatige intelligente een experimenteel RS ontworpen dat suggesties doet voor films. De

gemoedstoestand van een individu wordt door theorie uit de psychologische- en cognitieve wetenschap bepaald aan de hand van de veelgebruikte PANAS-X (Positive and Negative Affect Schedule -X. Deze schaal voor gemoedstoestand wordt gebruikt zodat deze later meegewogen kan worden in het RS (Watson & Clark, 1994). Hierbij worden vanuit de literatuur uit de cognitie en psychologie aannames verkregen voor het koppelen van gemoedstoestand aan voorkeur voor een specifiek genre film. Deze aannames uit de cognitieve psychologie worden daarna geïmplementeerd in de verkregen algoritmes uit de kunstmatige intelligentie. Dit is de kern van het interdisciplinaire aspect van dit onderzoek: de resultaten uit de cognitie worden gebruikt als input voor de methoden van de kunstmatige intelligentie.

Dit onderzoek focust zich op de invloed van de gemoedstoestand van een individu op zijn voorkeur voor films en hoe dit eventueel bij kan dragen aan het verbeteren van recommendation systems, zoals

Cinematch. De centrale onderzoeksvraag van dit onderzoek is daarmee:

Leidt het meenemen van de huidige (on)bewuste gemoedstoestand van een persoon in het doen van suggesties voor films tot een aanbeveling die beter bij deze persoon past dan wanneer dit niet meegenomen wordt?

(4)

De hoofdhypothese die in dit onderzoek getoetst zal worden is: aanbevelingen waarbij gemoedstoestand meegewogen wordt krijgen een betere beoordeling van gebruikers dan wanneer dit niet meegewogen wordt. Hiervoor zijn op basis van literatuur uit de cognitieve psychologie subhypotheses opgesteld die de gemoedstoestand van individuen koppelt aan specifieke genres films (sectie 2.1). Deze subhypotheses en literatuur uit de kunstmatige intelligentie zijn gebruikt om algoritmes op te stellen die suggesties doen voor films (sectie 2.2).

Voor dit onderzoek is een experiment uitgevoerd om te bepalen of het meenemen van gemoedstoestand effect heeft op de suggesties van het recommendation systeem. In dit experiment hebben respondenten eerst 15 films beoordeeld, waarna ze een enquête hebben ingevuld waaruit hun gemoedstoestand op dat moment kan worden bepaald. Er zijn vier algoritmes opgesteld die elk een suggestie voor drie films doen. Het eerste algoritme doet een willekeurige suggestie, dit is onze nullijn. Het tweede en derde algoritme doen een suggestie voor drie films ofwel gebaseerd op de beoordelingen van films door het individu, ofwel gebaseerd op de gemoedstoestand van het individu. De voorkeur wordt gemeten door

respondenten een aantal films te laten beoordelen. Hiermee wordt de werking van een ‘klassiek’ RS geïmiteerd, zodat de uitkomst hiervan vergeleken kan worden met de uitkomst van het RS gebaseerd op gemoedstoestand. Het vierde algoritme doet een suggestie op basis van zowel de gemoedstoestand van het individu als de beoordelingen van films door het individu. Dit experiment wordt uitgebreid besproken in sectie 3.2 en 3.3.

De resultaten van het experiment worden gepresenteerd in sectie 4. De conclusies die uit de resultaten kunnen worden getrokken en de beantwoording van de hoofdvraag worden gedaan in sectie 5. De

verbeterpunten van dit onderzoek en consequenties voor eventueel vervolgonderzoek worden behandeld in sectie 6.

(5)

2. Interdisciplinair theoretisch kader

2.1 Cognitieve Psychologie

Zillmann (1988) ontdekte met de mood management theory dat een brede hoeveelheid informatie (consumptie van nieuws, documenten, sport, komedies, drama’s en muziek) wordtbeïnvloed door de gemoedstoestand van de gebruiker. Deze gemoedstoestand haakt in op het irrationele aspect van het nemen van beslissingen, waardoor het maken van keuzes door het onderbewustzijn beïnvloed wordt. Ook willen mensen volgens de theorie deels bewust en deels onbewust een bepaalde vorm van homeostase behouden. Dat betekent dat het hebben van een positieve stemming neigt naar het ondergaan van

negativiteit en het hebben van een negatieve stemming neigt naar het tegenovergestelde. Dit wordt in het onderzoek van Winoto en Tang (2010) onderbouwd: entertainment selectie is in het bijzonder

gekenmerkt door hedonistische motivaties. Enerzijds wil men de positieve gemoedstoestand behouden of anderzijds hun negatieve gemoedstoestand repareren in termen van intensiteit en duur. In dit verband dient de gemoedstoestand van een gebruiker als cruciale bruikbare voorspeller van hun entertainment beslissingen (Winoto & Tang, 2010). Strizhakova & Krcma (2007) vulden deze theorie aan met onderzoek te doen naar de correlatie tussen de huidige gemoedstoestand en het willen zien van verschillende genres films. De resultaten hiervan zijn weergegeven in figuur 1 hieronder.

Samenvatting resultaten van Strizhakova & Krcma (2007)

Figuur 1. Bron: Strizhakova & Krcma (2007). “+” Geeft een indicatie voor een grotere waarschijnlijkheid voor het kiezen van een

specifiek genre; “-“ geeft een indicatie voor een lagere waarschijnlijkheid voor het kiezen van een specifiek genre; +” en “-“ zijn niet significant maar geven een waarde aan voor 0.05<p<0.10. * Effecten zijn significant bij p<0.05;** Effecten zijn significant bij p<0.01.

Oliver (2003, aangehaald in Strizhakova & Krcmar (2007)) beargumenteert dat mensen ook kunnen kiezen voor het kijken van films die ingaan tegen de hedonistische wijze waarop de mood management theory zich toelegt. Er wordt namelijkgeredeneerd dat mensen met een negatieve stemming nog steeds voor een negatieve film kunnen kiezen. De verklaring voor dit gedrag kan worden uitgelegd op basis van de _{social comparison theory}van Festinger (1954). Wanneer deze theorie toegepast wordt op filmkeuze wordt duidelijk dat mensen een negatieve film kiezen, omdat zij zich gaan vergelijken met de personages in de film, die slechter af zijn. Hierdoor wordt negatieve stemming in retrospect gezet en voelt men zich na het kijken van het drama weer positiever, hetgeen uiteindelijk een hedonistische effect teweeg brengt waar de mood management theory om draait.

(6)

Op basis van de correlaties die te vinden zijn in Figuur 1 zijn de subhypotheses van dit onderzoek

geformuleerd: de specifieke correlaties tussen de voorkeur voor bepaalde genres en gemoedstoestanden. Vervolgens is er gekeken naar de manier waarop correlaties tussen de filmgenres en de gemoedstoestand van gebruikers geïmplementeerd kunnen worden in een vragenlijst. Hierbij is gebruik gemaakt van de PANAS-X, gecreëerd door Watson en Clarke (1994). Deze vragenlijst bezit een Cronbach’s Alfa tussen de .83 en .90, wat betekent dat de interne consistentie van de PANAS-X van hoog niveau is. Op basis van de PANAS-X en de resultaten van Strizhakova & Krcmar (2007) is er een koppeling gemaakt die tot uiting komt in de zelf geconstrueerde enquête. Verdere uitleg en verantwoording is te vinden in sectie 3. In de volgende sectie wordt de achtergrond en theorie gegeven voor de opbouw van het RS.

2.2 Kunstmatige Intelligentie

Collaborative filtering is een veelgebruikte techniek bij recommendation systems om aanbevelingen aan een gebruiker te doen op basis van de voorkeur van andere, vergelijkbare gebruikers. Zo zullen

bijvoorbeeld mensen met vergelijkbare leeftijd, opleidingsniveau en geslacht vaker van dezelfde films houden als mensen waarbij deze persoonlijke eigenschappen verschillend zijn (Sarwar, 2001). Als mensen met vergelijkbare persoonlijke eigenschappen dezelfde soort films hoog beoordelen, zullen zij waarschijnlijk van dezelfde soort films houden en suggesties uit het betreffende genre krijgen.

Hetzelfde geldt dus, zoals hierboven beschreven, mogelijk ook voor mensen met vergelijkbare gemoedstoestand. Een dergelijke parallel kan daarom ook getrokken worden tussen de filmkeuze afhankelijk van gemoedstoestand. Een manier van vergelijken van persoonlijke eigenschappen met collaborative filtering is het gebruik van een feature vector en cosinus-similarity (Sarwar, 2001). Door de hoek tussen vectoren in een multidimensionale ruimte te bereken kan de mate waarin de

objecten(vectoren), bijvoorbeeld films, vergelijkbaar zijn door overeenkomende

eigenschappen(variabelen) zoals genre. Deze benadering lijkt erg goed te werken en is erg populair om aanbevelingen te doen voor diverse doeleinden (muziek, films, webshops ect.) (Zhao, 2002). De formule voor cosinus-similarity ziet er als volgt uit:

imilarity(A, )

cos(A, )

s

B =

_{||A|| ||B||}A·B

Hier zijn A en B feature vectoren. De uitkomst van de formule is een waarde tussen -1 en 1, waarbij bij waarde 1 de vectoren exact hetzelfde zijn (hoek van 0 graden) en bij -1 het tegenovergestelde. In dit onderzoek zal deze waarde alleen variëren tussen 0 en 1, omdat er nooit een negatieve waarde voor een genre toegekend zal worden. Dit is een maat voor vergelijkbaarheid die in een recommendation algorithm gebruikt kan worden om de beste aanbeveling te selecteren.

Het volgende voorbeeld (weergegeven in figuur 2) illustreert de werking van een cosinus-similarity. Neem een vector die een ‘object’ beschrijft als zijn mate van actie en drama. Als een individu vervolgens bijvoorbeeld dramafilms gemiddeld met een 2.5 beoordeeld en actiefilms gemiddeld met een 7.5, en dit genormaliseerd wordt (dus naar 0.25 en 0.75), zal de hoek tussen een actiefilm (met waarde 1 voor actie en 0 voor drama) en de voorkeur van deze persoon kleiner zijn dan tussen zijn voorkeur en een

(7)

Figuur 2. Voorbeeld van collaborative filtering met cosinus similarity.Hier zijn twee films uit verschillende genres als voorbeeld genomen. De vectoren in de figuur staan voor de genres: ( komedie , actie , drama , horror , crime ). James Bond Casino Royale is gekozen als actiefilm, vandaar de waarde 1 voor genre actie in de vector; Titanic heeft als dramafilm een waarde 1 voor drama. Uit de enquête is bij de persoon in dit voorbeeld gebleken dat hij/zij een grotere voorkeur heeft voor actie (0,75) en een kleinere voorkeur voor drama (0,25). Deze persoon heeft uiteraard ook voorkeuren voor andere genres (in totaal 5 dimensies), maar we kijken in dit voorbeeld slechts naar twee genres. Vandaar de waarden a,b en c in de vector (normalisatie zou hier betekenen dat

). Vervolgens wordt de cosinus similarity berekend tussen de vector van de persoon en de

√a²+ 0 7 + 0 2 + b + c = 1, 5² , 5² ² ²

(8)

3. Methoden

3.1 Introductie enquêteonderzoek

Om de hypotheses te toetsen is gekozen voor empirische onderzoek in de vorm van een ‘interactieve’ enquête. Respondenten geven hierin hun voorkeur voor films en hun ervaring van bepaalde

gemoedstoestanden aan, en op basis hiervan worden real-time aanbevelingen gedaan voor films. Respondenten worden tot slot gevraagd deze aanbevelingen te beoordelen. Deze beoordelingen van de aanbevelingen worden gebruikt om de effectiviteit van het recommendation-system (RS) gebaseerd op gemoedstoestand te meten, en daarmee de hoofdvraag te beantwoorden. De exacte werking van het RS wordt behandeld in sectie 3.2

Panacek (2008) beschrijft surveys (enquêtes) als een betrouwbare en gevestigde methode van

wetenschappelijk onderzoek. De punten die door hem zijn opgesteld vormden de basis voor de enquête die in dit onderzoek is gebruikt. Het belangrijkste uitgangspunt voor een dergelijk onderzoek is dat de beantwoorde vragen betrouwbaar genoeg zijn om vervolgens met statistische analyses de opgestelde hypotheses te ontkrachten of conclusies te trekken. De vragen moeten duidelijk zijn en er moet zo min mogelijk ruimte voor interpretatie mogelijk zijn. Met dit argument is rekening gehouden bij het

opstellen van de interactieve enquête. De exacte opzet en vraagstelling van de enquête wordt behandeld in sectie 3.3. Een overzicht van de opmaak van de enquête is te vinden in bijlage 1 in sectie 8.3.

3.2 Werking recommendation system

Technische werking recommendation system

De enquête met het recommendation system staat op een webserver (link: mxdr.synology.me) en is geprogrammeerd in de programmeertaal PHP. Stijl-output (de visuele content op de website) in HTML en CSS wordt deels automatisch gegenereerd met PHP-scripts, zoals het weergeven van blokken met films in willekeurige volgorde. Alle data over gemoedstoestanden en films, die in sectie 3.3 toegelicht worden, zijn opgeslagen in een relationele SQL database, ook respons van de respondenten wordt weer in deze

database opgeslagen. Het berekenen van de cosinus similarity werkt door vectoren als PHP-arrays te representeren, en daar bewerkingen op uit te voeren.

Collaborative filtering

Door zowel de gemoedstoestand als de filmvoorkeur van de gebruiker in twee verschillende feature vectoren te kwantificeren en de cosinus similarity te berekenen met overeenkomende vectoren van films worden er films geselecteerd die het best aansluiten op de gemoedstoestand of voorkeur van de

gebruiker. Door deze vectoren te combineren kunnen gemoedstoestand en filmvoorkeur afzonderlijk meegewogen worden in een aanbeveling. Dit is de implementatie van collaborative filtering (Sarwar, 2001).

(9)

Feature vector voor voorkeur

De feature vector voor voorkeur wordt gegenereerd door beoordelingen van films op een 10-punts Likertschaal (deel 1 enquête) op te slaan als voorkeur-vector waarbij de voorkeur voor een genre de gemiddelde score uit de drie films van het betreffende genre bedraagt. Als een respondent bijvoorbeeld 3 verschillende actiefilms met een 6, een 7 en een 8 beoordeeld. Zal de waarde in zijn voorkeurs-vector voor het genre actie het gemiddelde, een 7 zijn.

Feature vector voor gemoedstoestand

Voor de gemoedstoestand-vector wordt de mate waarin een respondent een gemoedstoestand ervaart (deel 2 enquête) direct omgerekend naar een vector met de betreffende correlaties tussen deze

gemoedstoestand en genrevoorkeur. De correlaties die hiervoor gebruikt zijn zijn te vinden in tabel 1 in sectie 3.3 deel 2, en zijn gebaseerd op het onderzoek van Strizhakova & Krcmar (2007). waarbij zeer significante (p<0,01) correlaties een vermenigvuldigingsfactor van 1.5 krijgen. Hiermee wordt de significantie van deze correlatie benadrukt bij het doen van aanbevelingen. De ervaring van gemoedstoestanden wordt gemeten op een 5-punts Likertschaal. Hierbij wordt uitgegaan van een correlatie van 0 met een genre als de respondent de ervaring van een gemoedstoestand als neutraal (score 3 op de Likertschaal) beoordeelt, een recht evenredige negatieve correlatie met het genre als de beoordeling lager is (oneens), en recht evenredig positief als de beoordeling hoger is (eens). Ook hier worden voorkeurs-scores voor genres opgeteld en in een feature vector gekwantificeerd.

Bijvoorbeeld: de gemoedstoestand ‘Energiek’ correleert positief met het genre ‘actie’. Als een respondent een score 4 (eens) geeft aan zijn energieke gevoel, krijgt zijn voorkeur voor het genre actie een score van 4 - 3(baseline) = +1. Als hij zich absoluut niet energiek voelt en een 1 (zeer oneens) invult, wordt zijn voorkeur voor actie berekend als 1 - 3(baseline) = -2. Zou ‘actie’ een zeer significante correlatie hebben met energiek dan zouden deze scores dus nog met 1.5 vermenigvuldigd worden.

Aanbevelingen

Vervolgens wordt met de cosinus similarity voor zowel de beoordelings-vector als de

gemoedstoestand-vector twee films geselecteerd uit het genre dat het best scoort in de betreffende vector, en één film uit het tweede beste genre. Deze selectie van drie films vormt de basis voor één _{set suggesties.} Er wordt ook nog een set suggesties gedaan waarbij zowel rekening gehouden wordt met zowel

aangegeven filmvoorkeur als ervaring van gemoedstoestand. De gecombineerde vector is hierbij een gewogen gemiddelde van beide vectoren.

De sets met 3 suggesties zijn dus als volgt:

- Een set suggesties gebaseerd op de beoordeling van andere films de respondent - Een set suggesties gebaseerd op de gemoedstoestand van de respondent

- Een set suggesties gebaseerd op zowel de beoordeling van de respondent als zijn/haar gemoedstoestand - Een willekeurige set suggesties (deze is totaal willekeurig gegenereerd)

De willekeurige set suggesties dient om te controleren dat de set suggesties gebaseerd op de initiële beoordeling tot een significant beter beoordelingscijfer leidt dan een willekeurige set, oftewel: het test of het algoritme goed presteert. De gecombineerde vector dient om te testen of een combinatie van een

(10)

recommendation system gebaseerd op gemoedstoestand gecombineerd met een klassiek RS gebaseerd op voorkeur mogelijk nog effectiever zou kunnen zijn.

3.3 Opbouw enquête

Introductie

De respondent krijgt eerst een korte introductie:

“Bedankt dat u wilt deelnemen aan dit onderzoek naar filmvoorkeur! Voor het onderzoek is het belangrijk dat u de antwoorden zo eerlijk mogelijk invult. De gegevens zullen anoniem worden verwerkt en u hoeft geen persoonlijke gegevens te verstrekken.”

Hier wordt dus benadrukt dat eerlijkheid belangrijk is, dit om sociaal wenselijke antwoorden te voorkomen. Daarom wordt ook vermeld dat respons anoniem verwerkt wordt.

Deel 1: Films

Er zijn twee poules met films samengesteld voor dit onderzoek. In pool 1 staan 15 films uit 5

verschillende genres waarvan de respondent op een 10-punts schaal beoordeelt hoe goed deze bij hem passen; hiervoor wordt een beschrijving, titel en cover getoond zoals op IMDB. De tweede poule, ook bestaande uit 15 films uit drie genres, is de recommendation-poule. Enkele films uit deze poule worden uiteindelijk aangeraden aan de respondent. De respondent geeft dus aan of deze suggesties bij hem passen in deel 3 van de enquête.

De films voldoen aan de volgende criteria:

-

Ze zijn onderdeel van de IMDB-database. Dit medium is gekozen voor de grote toegankelijk en het maandelijkse gebruik van 250 miljoen unieke gebruikers, waaronder Netflix-gebruikers (‘IMDB’, n.d. 2016)

-

De gekozen films bevatten allemaal een rating van minimaal een 7,5 en maximaal een 8,5 om te controleren voor de kwaliteit van de film. Deze algehele kwaliteit komt tot stand door het gewogen oordeel van experts en alledaagse gebruikers.

-

Het laatste criterium is dat de gekozen films minstens 150.000 ratings moeten hebben om in aanmerking te komen voor de selectie. Dit gebeurd om, net als het bovenstaande criterium, te controleren voor een goede representatie van de meningen van de IMDB bezoekers (en de Netflix-gebruikers)

De gekozen films zijn te vinden in de bijlage in sectie 8.1.

Alle 15 films uit 5 verschillende genres worden in willekeurige volgorde getoond. De respondent krijgt de volgende opdracht:

“We willen u eerst vragen om een aantal films te beoordelen op hoe goed de film bij u past. U

krijgt hiervoor slechts een titel, een korte beschrijving en een foto van de film cover te zien, en u kunt een cijfer op een 10 puntsschaal geven. We moedigen u hierbij aan vooral op uw gevoel af te gaan, u hoeft hier niet lang over na te denken.“

Hiermee proberen de onderzoekers de respondent te sturen om aan te geven hoe hij een film normaal gesproken waardeert, om beïnvloeding van de huidige gemoedstoestand te minimaliseren. De

aansporing voor de gebruiker om op zijn gevoel af te gaan dient om de tijd die het onderzoek de respondent kost te beperken, hij moet immers 15 films beoordelen. Als de respondent na het verplicht

(11)

invullen van beoordelingen voor alle films op ‘Volgende’ klikt wordt de feature vector voor zijn voorkeur opgeslagen.

Deel 2: Gemoedstoestanden

De gekozen filmgenres zijn gebaseerd op een aantal gemoedstoestanden uit het onderzoek van Strizhakova & Krcmar (2007) die correleren met voorkeur of afkeur voor deze genres. De gekozen genres zijn:_{actie, horror, drama, comedy}en_crime. De correlatie tussen de ervaring van een bepaalde gemoedstoestand en voorkeur voor een bepaald genre is hieronder in tabel 3.1 uiteengezet. Dit is dus een selectie van genres en gemoedstoestanden uit de tabel van Strizhakova & Krcmar (figuur 1) die relevant is voor ons onderzoek:

Correlaties tussen Gemoedstoestanden en Filmgenres

Gemoedstoestand als in

Strizhakova & Krcmar (2007): Energiek Nerveus Boos Verdrietig Kalm Correlerende voorkeur voor

genres:

+ Actie -- Comedy - Crime

++ Horror - Drama + Crime ++ Drama

+ Comedy

Tabel 3.1. +,- betekent significantie van p<0,05. ++,-- betekent significantie van p<0,01 (Deze wordt dus vermenigvuldigd *1.5).

De gemoedstoestanden uit Strizhakova & Krcmar (2007) vallen onder een overkoepelende

gemoedstoestand uit de PANAS-X, waarvan aangenomen wordt dat zij ook op dezelfde manier correleren met de voorkeur voor genres als de gemoedstoestanden in figuur 1. Per overkoepelende

gemoedstoestand zijn vervolgens twee gemoedstoestanden gekozen die ook onder deze

gemoedstoestand vallen en die respondenten ook moeten beoordelen. Dit zodat een uitgebreider beeld van de gemoedstoestand van een respondent gevormd kan worden. Hier volgen dus 15

gemoedstoestanden uit met bijbehorende correlatie. Een specificatie is hieronder in tabel 3.2 te vinden:

Toewijzing van PANAS-X gemoedstoestanden onder gemoedstoestanden van Strizhakova & Krcmar (2007) Gemoedstoestand als in

Strizhakova & Krcmar (2007):

Energiek Nerveus Boos Verdrietig Kalm

PANAS-X gemoedstoestand waar deze onder valt:

Joviality Fear Hostility Sadness Serenity

Andere gemoedstoestanden die onder de PANAS-X gemoedstoestand vallen: Vrolijk Gelukkig Bezorgd Onzeker Geïrriteerd Vijandig Neerslachtig Eenzaam Gemakzuchtig Ontspannen

Tabel 3.2. Gemoedstoestanden uit de PANAS-X emotieschaal worden vertaald uit het Engels gelinkt aan de gemoedstoestanden

in Strizhakova & Krcmar (2007). De niet dikgedrukte gemoedstoestanden worden gebruikt in de enquête.

In dit deel van het onderzoek moeten de respondenten, opnieuw in willekeurig volgorde, aangeven in hoeverre zij de 15 gemoedstoestanden (weergegeven in tabel 3.2) ervaren. Dit geven zij aan op een 5 punts schaal tussen zeer oneens en zeer eens. De beschrijving hierbij is als volgt:

(12)

“We gaan u nu vragen in hoeverre u een aantal gemoedstoestanden ervaart. Probeer hier zo eerlijk mogelijk antwoord op te geven.”

“Ik voel mij op dit moment (...)”

Nogmaals wordt benadrukt dat eerlijk antwoord belangrijk is, omdat de respondent mogelijk gesloten is over zijn gemoedstoestand. Als de respondent na het verplicht waarderen van alle gemoedstoestanden op volgende klikt wordt de feature vector voor zijn voorkeur gebaseerd op zijn gemoedstoestand opgeslagen.

Deel 3: Suggesties

De derde feature vector, de combinatie van de vector voor voorkeur en de vector voor gemoedstoestand, wordt op de achtergrond berekend en worden 4 sets suggesties gegenereerd met films uit pool 2. De kandidaat moet deze suggesties beoordelen met een cijfer tussen 1 en 10. Deze suggesties komen uit een tweede pool van 15 films die weer in sets van 3 uit 5 verschillende genres komen.

“Dit is het laatste deel van het onderzoek. We willen u vragen om de volgende sets suggesties te beoordelen op grond van hoe graag u deze films nu zou willen kijken. Het kan dat verschillende sets dezelfde films bevatten.”

In iedere set wordt ook de volgende informatie gegegeven:

“De volgende films worden gesuggereerd op basis van uw voorkeuren:” *Films onder elkaar*

Deze set suggesties spreekt mij op dit moment aan: * Tien punts bulletpoints*

Vervolgens wordt de respondenten nog enkele gegevens gevraagd die mogelijk bruikbaar zijn voor meta-analyse:

● Geslacht (man, vrouw) ● Leeftijd

● Hoogst genoten opleidingsniveau (VMBO/MBO, HAVO/HBO, VWO/Universitair)

De beoordelingen op de vier verschillende sets en de persoonlijke gegevens worden opgeslagen in de database en het onderzoek is afgerond.

“Het onderzoek is afgerond, we willen u hartelijk bedanken voor uw tijd. U kunt het venster nu sluiten.”

(13)

4. Resultaten

4.1 Hoofdresultaten

Op basis van de gebruikte onderzoeksopzet is er gekozen voor het gebruik van _{One-way ANOVA.}Om de verkregen resultaten te verduidelijken zullen eerst de beschrijvende statistieken besproken, daarna wordt duidelijk gemaakt welke gemiddelden significant van elkaar verschilden. Deze statistieken worden weergegeven in Tabel 4.1 hieronder.

Gemiddelde Score voor de gegeven Aanbeveling en Standaarddeviaties (tussen haakjes) weergegeven per Algoritme

Algoritme N Gemiddelde (sd) Minimum Maximum

_______________________________________________________________________________________________________________________ Random 32 4,88 (2,22) 1 8 Gemoedstoestand 32 5,34 (2,25) 1 9 Gecombineerd 32 5,84 (2,30) 1 9 Beoordeling 32 6,81 (1,60) 4 10 ________________________________________________________________________________________________________________________

Tabel 4.1. ‘Gemoedstoestand’: algoritme enkel o.b.v gemoedstoestand. ‘Beoordeling’: algoritme enkel o.b.v. beoordeling van

deelnemer. ‘Gecombineerd’: combinatie tussen het Gemoedstoestandsalgoritme en het Beoordelingsalgoritme. ‘Random’: algoritme wat willekeurige aanbevelingen doet. N = aantal deelnemers.

Vervolgens is er voor het uitvoeren van deze ANOVA gekeken of de assumptie van gelijke variantie geschonden werd; dit was niet het geval. Er was een significant hoofdeffect _F(3,127) = 5,003, _p= 0,003. Vervolgens is er om de hypothese te toetsen gebruik gemaakt van geplande contrasten: beoordelingen op verschillende sets aanbevelingen zijn onderling getoetst op significant verschil in gemiddelden. De algoritmes die zijn vergeleken worden beschreven in Tabel 4.2. Hierin komt naar voren dat alleen het gemiddelde van het gemoedstoestand-algoritme significant afweek van het gemiddelde van het voorkeur-algoritme t(124) = -2,800, p = 0,006. Dit significante verschil bestaat tussen de gemiddelden 5,34 en 6,81, respectievelijk toebehorend aan gemoedstoestand en beoordeling. Dit is niet in lijn met onze hypothese, waarin gesteld werd dat gemoedstoestand hoger zou scoren dan beoordeling. Ook kreeg de aanbeveling gebaseerd op gemoedstoestand en de combinatie van gemoedstoestand en beoordeling geen significant betere beoordeling dan een willekeurige aanbeveling. De scores toebehorend aan alle andere aanbevelingen verschillen ook niet significant van elkaar. Dit is te zien in Tabel 4.2.

(14)

Resultaten van de Geplande Contrasten waarbij de t-waardes, Vrijheidsgraden en Significantie worden weergegeven

Contrast t df Sig. (2-tailed)

____________________________________________________________________________________________________________________ 1 -2.627 124 .010 2 -2.800 124 .006 3 .894 124 .373 4 -1.847 124 .067 5 .953 124 .342 6 1.847 124 .067 ______________________________________________________________________________________________________________________

Tabel 4.2. Contrast staat voor de groepen die met elkaar vergeleken zijn. Voor contrast 1 geldt dat alle groepen onderling

vergeleken zijn. In contrast 2 zijn de resultaten van het gemoedstoestandalgoritme vergeleken met de resultaten van het voorkeursalgoritme. In contrast 3 is de gemoedstoestand vergeleken met de random. In contrast 4 werd gecombineerd met voorkeur vergeleken. In contrast 5 werd gecombineerd met emotie vergeleken. In contrast 6 werd gecombineerd met random vergeleken. df = aantal vrijheidsgraden. Sig. (2-tailed) = de tweezijdige significante met een alpha van 0.05.

4.2 Demografische gegevens deelnemersgroep

De gemiddelde leeftijd van de correspondenten was 33,9 jaar, waarvan de grote meerderheid vwo/havo als hoogst afgeronde opleiding had. Opvallend was het hoge aantal deelnemers met een (voorbereidend) wetenschappelijke achtergrond, en slechts één respondent die VMBO aangaf als de hoogst genoten onderwijs. De man-vrouw verhouding leunde sterk naar de mannelijke kant: 10 van de 32 respondenten was vrouwelijk.

(15)

5. Conclusie

De onderzoeksvraag luidde als volgt:

Leidt het meenemen van de (on)bewuste gemoedstoestand van een persoon in het doen van suggesties voor films tot een aanbeveling die beter bij deze persoon past dan wanneer dit niet meegenomen wordt?

Op grond van de resultaten van het uitgevoerde experiment kunnen we concluderen dat het meenemen van de (on)bewuste gemoedstoestand van een persoon niet leidt tot een aanbeveling die significant beter bij deze persoon past dan wanneer dit niet meegenomen werd. Daarmee kunnen we stellen dat uitgaande van de gevonden resultaten een recommendation system als Cinematch geen baat zou hebben bij het toevoegen van de parameter gemoedstoestand van de gebruiker bij het genereren van suggesties.

Binnen het uitgevoerde experiment is ook gekeken naar het effect van het meenemen van de beoordelingen van films door een persoon in het generen van adequate suggesties. We zien dat de suggesties enkel op basis van beoordelingen van films door het individu wel significant beter worden beoordeeld dan de willekeurige sets suggesties. Dit betekent dus dat filmsuggesties op basis van de beoordelingen van de gebruiker beter zijn dan willekeurige suggesties. Dit betekent dat een klassiek recommendation system gebaseerd op deze parameter goed werkt.

Cinematch gebruikt op dit moment enkel de beoordelingen van gebruikers. We kunnen concluderen op basis van de resultaten dat een RS op basis van de beoordelingen van gebruikers beter werkt dan een RS op basis van de gemoedstoestand van gebruikers. Ook kunnen we concluderen dat een RS die beide parameters meeneemt niet beter werkt dan een RS dat slechts de beoordelingen van gebruikers meeneemt. Dit betekent dus dat Cinematch op grond van dit onderzoek geen verbetering zal ondervinden als het de gemoedstoestand van haar gebruikers mee zal gaan nemen in het doen van filmsuggesties voor haar gebruikers.

(16)

6. Discussie

6.1 Vervolgonderzoek

Hoewel het resultaat van dit onderzoek niet significant bleek te zijn, is het wel een belangrijk gegeven dat de gevonden resultaten zijn verkregen uit slechts 32 respondenten. De gemiddelde beoordeling (5,34) van de film-suggesties bepaald aan de hand van gemoedstoestand is wel hoger dan het gemiddelde van de set met gerandomiseerde filmsuggesties (4,88). Echter, de significantie van dit verschil was niet aan te tonen. Dit valt mogelijk te verklaren door het geringe aantal deelnemers en heeft op zodanige wijze het trekken van het trekken van sluitende conclusies beïnvloed. Bij vervolgonderzoek moet rekening gehouden worden met de steekproefgrootte. Ook bleek het achteraf gezien erg moeilijk om de server snel op gang te krijgen en de website bereikbaar te houden, waardoor in een zeer korte tijdsduur respondenten moesten worden gezocht. Bovendien kan een grotere poule van films gebruikt worden om willekeurige sampling te bevorderen, zodat een mogelijk effect op beoordelingen door voorkennis over films ook beperkt blijft.

Ook zijn gemoedstoestanden mogelijk moeilijk te meten en bij veel mensen aan weinig variatie onderhevig (pers. comm., Maarten van Someren, 30 november 2016). Bovendien zijn deze moeilijk te vatten in een enquête en is de collaborative-filtering techniek mogelijk minder geschikt voor het

vergelijken van gemoedstoestanden. Voor vervolgonderzoek zouden andere manieren tot het meten van gemoedstoestand in beschouwing kunnen worden genomen. Ook voor de implementatie van een

eventueel RS gebaseerd op gemoedstoestand is een goede methodiek tot meting hiervan van belang. Om dit real time te kunnen meten zou een versimpelde vorm van meting van gemoedstoestand moeten worden gebruikt; een die voor de gebruiker niet of minder tijdsintensief is. Een andere mogelijkheid is het geautomatiseerd meten van gemoedstoestand door bijvoorbeeld een camera (webcam).

6.2 Terugkoppeling naar interdisciplinair theoretisch kader

Zoals in het theoretisch kader besproken bestaat er tegenspraak in de literatuur over de correlatie tussen gemoedstoestand en voorkeur voor genre. Voor toekomstig onderzoek is het belangrijk dat deze tegenspraak wordt overwogen. In het theoretisch kader werd de_{mood-management theory} van Zillmann (1988) gebruikt als onderbouwing voor het uitgevoerde experiment. Echter, ook werd de_social

comparison theory (Festinger, 1954) aangehaald die niet in consensus is met de mood management theory. Gezien de niet significante resultaten raden wij daarom aan om in een vervolgonderzoek hiermee rekening te houden.

De aangenomen correlatie tussen genres en films was complex, mede door het feit dat geen enkele film zich binnen één genre laat definiëren. Een filmgenre is een erg flexibel begrip; het heeft geen

wetenschappelijke kaders en staat daardoor volledig open voor interpretatie. Een oplossing hiervoor was het selecteren van films die door IMDB werden omschreven als vallende binnen een specifiek genre, maar nog steeds kunnen de ‘resterende’ of onbehandelde genres die bij dezelfde film horen

ongewenste/onbewuste associaties veroorzaken bij de proefpersonen. Een mogelijke oplossing hiervoor is het aanpassen van het algoritme. Als deze namelijk zodanig aangepast wordt dat een film op basis van meerdere genres meegenomen kan worden dan kunnen er meer specifieke suggesties worden gedaan voor de gebruikers.

(17)

Ook is collaborative filtering met feature vectoren in termen van voorkeur voor een genre mogelijk een minder geschikte methode om aanbevelingen te doen. Gebruikelijk is om met collaborative filtering aanbevelingen voor producten of specifieke items te doen. Een genre is zoals beschreven een minder afgebakend begrip, wat het mogelijk moeilijk maakt om hier overeenkomt in voorkeur van gebruikers in te vinden.

Aan de andere kant is het mogelijk dat de gebruiker films in een ander genre indeelt dan dat het programma doet. Omdat het begrip filmgenre zo open staat tot interpretatie is het moeilijk te bepalen welk genre iemand interessant vindt zonder van tevoren te bepalen hoe iemand films indeelt op genre en welke hiërarchische verhouding deze met elkaar hebben. Andere vormen van toetsing zouden gebruikt kunnen worden, zoals bijvoorbeeld interviews afnemen, om nauwkeuriger te bepalen hoe mensen films indelen in genres en hoe dit vervolgens gebruikt kan worden om voorstellen te optimaliseren.

(18)

7. Literatuurlijst

Caruso, E. M., & Shafir, E. (2006). Now that i think about it, i’m in the mood for laughs: decisions focused on mood. _{Journal of Behavioral Decision Making}, ₁₉(2), 155–169. http://doi.org/10.1002/bdm.506 Festinger, L., (1954) A Theory of Social Comparison Processes. Human Relations, Vol.7(2) p. 117 ‘IMDB’ (n.d.). November 11, 2016, van http://www.imdb.com/

Loewenstein, G., & Lerner, J. S. (2003). The role of affect in decision making. Handbook of affective science,

619(642), 3.

‘Netflix’ (n.d.) (2016). Netflix Prize: Review Rules. Retrieved from http://www.netflixprize.com/rules.html

Panacek, E. A., (2008) Survey-based Research: General Principles. Air Medical Journal, Vol. 27(1) p. 14-16 Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. (2001, April). Item-based collaborative filtering

recommendation algorithms. In _{Proceedings of the 10th international conference on World Wide Web} (pp. 285-295). ACM.

Schramm, H., & Wirth, W. (2010). Exploring the paradox of sad-film enjoyment: The role of multiple appraisals and meta-appraisals. _Poetics, ₃₈(3), 319–335. http://doi.org/10.1016/j.poetic.2010.03.002

Strizhakova, Y., & Krcmar, M. (2007). Mood Management and Video Rental Choices. _Media

Psychology, 10, 91–112. http://doi.org/10.108/15213260701301152

Watson, D., & Clark, L. A. (1994). PANAS-X Manual for the Positive and Negative Affect Schedule - Expanded Form, University of Iowa

Winoto, P., & Tang, T. Y. (2010). The role of user mood in movie recommendations. _{Expert Systems with}

Applications, 37(8), 6086-6092.

Zhao, L., Hu, N. J., & Zhang, S. Z. (2002). Algorithm design for personalization recommendation systems.

Journal of computer research and development, ₃₉(8), 986-991.

Zillmann, D. (1988). Mood management: Using entertainment to full advantage. _{Communication, social}

cognition, and affect, 31, 147-171.

Genres en moods. (n.d.). December 28, 2016, van

(19)

8. Bijlagen

8.1 Gekozen films

Actie

Komedie

Drama

Horror

Crime

Casino Royale

Love Actually

American Beauty The Shining

The Wolf of

Wallstreet

The Avengers

The Hangover

Titanic

I Am Legend

The Green Mile

The Bourne

Identity

Superbad

Slumdog

Millionaire

World War Z

Resevoir Dogs

Kill Bill

Zombieland

Silver Linings

Playbook

Psycho

Sin City

Pirates of the

Caribbean: The

Curse of the

Black Pearl

Kickass

Gravity

Saw

Scarface

The Hobbit: an

Unexpected

Journey

Scott Pilgrim vs.

The World

Dallas Buyers

Club

The Exorcist

Catch Me If You

Can

Tabel 8.1. De gekozen films voldoen aan de volgende drie criteria.

Zij zijn onderdeel van de IMDB-database. Dit medium is gekozen voor de grote toegankelijk en het maandelijkse gebruik van 250 miljoen unieke gebruikers, waaronder Netflix-gebruikers (IMDB, 2016).

De gekozen films bevatten allemaal een rating van minimaal een 7,5 en maximaal een 8,5 om te controleren voor de kwaliteit van de film. Deze algehele kwaliteit komt tot stand door het gewogen oordeel van experts en alledaagse gebruikers.

Het laatste criterium is dat de gekozen films minstens 150.000 ratings moeten hebben om in aanmerking te komen voor de selectie. Dit gebeurd om, net als het bovenstaande criterium, te controleren voor een goede representatie van de meningen van de IMDB bezoekers (en de Netflix-gebruikers)

(20)

8.2 Samenvatting Interview

Maarten van Someren heeft psychologie gestudeerd en kan daarom ook op het vlak van het theoretisch kader/theoretische aannames aanbevelingen doen. Hij benadrukte ten eerste het belang van het

gebruiken van goede enquêtes voor het meten van de stemmingen, en gaf aan dat we hiervoor bestaande vragenlijsten ontwikkeld binnen de psychologie kunnen gebruiken. Bovendien gaf hij aan dat het

belangrijk kan zijn om duidelijk afgebakende stemmingen te kiezen als voorspellende variabele. Hiervoor kunnen we bijvoorbeeld de 5 niet-cultuurgebonden basisemoties gebruiken. Ook kwamen we samen tot de conclusie dat het riskant kan zijn om films te kiezen waarvan het aannemelijk is dat ze bekend zijn, aangezien deze films wegens hun bekendheid mogelijk gevoelig zijn voor bevooroordeelde meningen over de betreffende films.

Het idee om relatief onbekende films voor te stellen met een korte beschrijving van de film is misschien een goed idee om tot een objectieve beoordelingen te komen. Hij gaf ook aan dat het mogelijk lastig is om respondenten in verschillende emotionele stemmingen te vinden, en dat het dus lastig kan zijn om variatie in gemoedstoestand te vinden. Bepaalde stemmingen zijn mogelijk wel weer makkelijk om te meten, zoals energie (aan het begin en eind van de dag). Al met al was hij enthousiast over de

onderzoeksopzet, en moedigde aan het vooral ‘te proberen’. De technische werking van het

recommendation-algorithm met cosinus-similarity vectoren was hij het mee eens en had hij verder geen bijzondere op of aanmerkingen aan.

(21)

8.3 Enquête

(22)

.

(23)

Filmsuggesties op basis van gemoedstoestand