• No results found

JOKER (THRILLER, 2019)

In document Een case study in data mining (pagina 54-59)

4. RESULTATEN

4.3 JOKER (THRILLER, 2019)

4.3.1 Korte beschrijving

Joker vertelt het verhaal van de geestelijk gestoorde comedian Arthur Fleck, die door zijn omgeving wordt verstoten. In deze thriller van regisseur Todd Phillips verandert het

hoofdpersonage stilaan in zijn gewelddadige en anarchistischte alter ego “Joker”. De reviews die voor de testen zijn opgenomen, zijn 500 positieve en 500 negatieve, allemaal met een rating van 10 of 1. De film wordt geplaatst in de categorie drama.

4.3.2 Samenvatting testfase

Tabel 11: Samenvatting testfase Joker

Uit tabel 11 valt te concluderen dat twee algoritmen (algoritme 25 en 26) de hoogste accuraatheid opleveren. Beide zijn een vorm van Naive Bayes Multinomial en maken geen gebruik van IDTFT en alle letters worden omgezet naar kleine letters. Verder komt er geen stemmer aan bod en wordt er een wordtokenizer gebruikt. Het verschil tussen de twee meest accurate modellen zit in de stemmer. De stemmer bij test 25 is de nullstemmer, waarbij de data niet genormaliseerd worden, terwijl test 26 een snowballstemmer gebruikt. Deze stemmer is een soort taal die gebruik maakt van kleine strings om stemmingalgoritmen te bouwen (Github, z.d.). Een belangrijk detail is dat een hogere limiet voor het maximum aantal woorden (1500 woorden i.p.v. 1000) een hogere accuraatheid geeft. Ook hier blijft het verschil tussen Naive Bayes en de andere algoritmes groot. Tabel 12 geeft de confusion-matrix weer van test 25.

Test Algoritme IDTFT Lower -case Stem- mer SW Handler Max # words Token Accuracy/ ROC-Area 1 Beslissings- boom

False True Null Null 1000 Words 77.0% 0.771 4 Simple

Logistic

False True Null Null 1000 Words 86.3% 0.935 5 Support

vector machines

False True Null Null 1000 Words 85.5% 0.855

8 KNN

(K=10)

False True Null Null 1000 Words 76.2 0.844

25 Naive Bayes (MN)

False True Null Null 1500 Words 91.7% 0,963 26 Naive

Bayes (MN)

False True Snow -ball

Null 1500 Words 91.7% 0,963

4.3.3 Confusion-Matrix van het meest accurate model

Tabel 12: Confusion-matrix Joker

Voorspeld: positief Voorspeld: negatief

Werkelijk: Positief 454 46

Werkelijk: Negatief 37 463

• Voorbeeld van een correct positief geclassificeerde review:

“Took my 65 year old mother to see it.

I saw the movie after the opening weekend and loved it. I think it's a masterpiece. Convinced my 65 year old mother too see it, who couldn't even remember whose nemesis the Joker is. She had read about all the negative press about the movie being too violent and taking light of mental health issues.

She loved the movie. Sympathized for Arthur and was rooting for the Joker (to a certain point) She was surprised about the small amount of violence is depicted after all the press putdown and enjoyed the "social commentary" the movie conveys.

Her score: 9 / 10 Mom is always right.”

• Voorbeeld van een correct negatief geclassificeerde review:

“TWO hours of my life I ain't getting back

Pure filth. Starts off with a solid storyline. Exactly what I expected from an origin story. I am a fan of slow burn movies so no complaints there. BUT the manner in which this movie nosedives to depravity is jarring

Senseless killings!! So much killing!! I don't understand how anyone can rate this hog. This is WRONG

nominating oscars on top of it... Yuuuck!!

• Voorbeeld van een vals positief geclassificeerde review:

“Hypes

How is this better than Hitchcocks psycho and others like gladiator,life is beautiful,leon the pro,saving private ryan,alien etc....are you peoole mad or what....”

• Voorbeeld van een vals negatief geclassificeerde review:

"You wouldn't get it

This movie is only boring to those that are used to action. This movie for those who really know the Joker. That this movie was a beautiful narrative told from his

perspective. Highly recommend to keep that in mind if you don't know if you should watch it.”

De correct geclassificeerde positieve review is hier vrij uitgesproken positief en bevat meer dan voldoende elementen die door het model opgepikt kunnen worden. De correct negatieve review daarentegen bevat naast negatieve ook een aantal positieve elementen die het model in de war kunnen brengen. Desondanks wordt ook deze review door het model correct geclassificeerd. De foutief positief geclassificeerde review lijkt vrij kort te zijn, waardoor het model te weinig woorden heeft om zich op te baseren en er dus een grote foutenmarge ontstaat. De laatste review werd negatief geclassificeerd, vermoedelijk omdat de review het woord “boring” bevat.

4.3.4

Information Gain

Tabel 13: Information Gain Joker (hoge scores)

Score Woord Score Woord

0.09968 boring 0.09314 best 0.06277 waste 0.06259 joaquin 0.05897 oscar 0.05877 amazing 0.05792 masterpiece 0.04822 phoenix 0.04372 performance 0.0396 perfect 0.03589 worst 0.03149 incredible 0.03109 nothing 0.02962 crap 0.02778 money 0.02725 overrated 0.027 cinematography 0.02644 brilliant 0.0223 hours 0.0222 plot

Tabel 14: Information Gain Joker (lage scores)

Score Woord Score Woord

0 happy 0 masterclass 0 important 0 boredom 0 annoying 0 cringe 0 negative 0 shame 0 ruined 0 nice 0 uncomfortable 0 positive 0 rich 0 enjoyed

Ook bij deze information gain zien we een aantal gelijkenissen met de andere films: “worst”, “boring”, “money” en “waste” komen allemaal terug in tabel 13. In tegenstelling tot Frozen II haalt “masterpiece” hier wel een duidelijke score boven nul. Bij deze film blijkt ook het woord “oscar” relevant te zijn. In totaal komt het woord namelijk voor in 139 van de 500 positieve reviews ten opzichte van 23 keer in de 500 negatieve reviews. Opvallend is dat de woorden “annoying” en “happy” in tabel 14, ondanks hun emotievolle betekenis, toch voor een nul-score zorgen.

In document Een case study in data mining (pagina 54-59)