• No results found


In document Een case study in data mining (pagina 59-66)



4.4.1 Korte beschrijving

De film bouwt verder op zijn voorganger Avengers: Infinity War (2018). Het universum is

verwoest door Thanos, een titaan die de antiheld speelt. De Avengers, een groep superhelden, proberen de acties van Thanos ongedaan te maken en krijgen daarbij hulp van een reeks andere superhelden. Samen proberen ze het op te nemen tegen Thanos. De reviews die voor deze testfase worden opgenomen, bestaan uit uitsluitend één en tien sterren, 500 per soort.

4.4.2 Samenvatting testfase

Tabel 15: Samenvatting testfase Avengers: Endgame

Tabel 15 laat zien dat ook voor deze film het Naive Bayes Multinomial algoritme leidt tot de beste resultaten. Door geen gebruik te maken van de IDTF-transformator, stemmer of

stopwords handler in combinatie met een limiet van 800 woorden per review, bekomt model 21 een accuraatheid van 92.2% met een oppervlakte onder de ROC-curve van 0.973. Hiervoor wordt opnieuw de standaard wordtokenizer toegepast. Het belang van de lowercase parameter blijkt ook hier niet onbelangrijk. Zo bedraagt het verschil tussen model 2 en model 20 meer dan 1% in accuraatheid. Wat terug opvalt is dat KStar (model 9) en KNN (model 6) heel erg laag scoren. Opmerkelijk is het feit dat KNN met K gelijk aan 10 (model 8) tot een lagere

accuraatheid leidt dan wanneer K gelijk is aan 1 (model 6). Test Algoritme IDTFT Lower

-case Stem- mer SW- Handler Max # words Token Accuracy ROC-Area 1 Beslissings- boom

False True Null Null 1000 Words 76.5% 0.797 3 Logistic


False True Null Null 1000 Words 81.7% 0,870 4 Simple


False True Null Null 1000 Words 89.8% 0.961 5 Support

vector machines

False True Null Null 1000 Words 87.4% 0.855



False True Null Null 1000 Words 68.1% 0.786

21 Naive Bayes (MN)

False True Null Null 800 Words 92.2% 0.975


Confusion-matrix van het meest accurate model

Tabel 16: Confusion-matrix Avengers: Endgame

Voorspeld: positief Voorspeld: negatief

Werkelijk: Positief 457 43

Werkelijk: Negatief 35 465

• Voorbeeld van een correct positief geclassificeerde review:

“The end of an era. Seriously!!!

I just watched the movie for a second time around and I have to say it was even more emotional this time around. I read alot of reviews where it was said that infinity war was better. I agree that it was more faced paced and there was alot more action but this movie is the last of phase 3 excluding spider man : far from home. This movie was meant to show the loss and toll that Thanos' snap had on everyone who survived. It showed the ones who were lost and the road to getting everyone back. The movie also came full circle - it took us back to the first avengers movie, the chance for Tony to meet his father one last time and the loss to acquire the stones. The action at the end was the best among all the marvel movies. I did love the fight scene in infinity war but this was just spectacular. I cannot imagine how the marvel cinematic universe will be after this. It was the best in cinematic history - it was funny and emotional and it will never be the same again. As I said "ITS THE END OF AN ERA"..”

• Voorbeeld van een correct negatief geclassificeerde review:

“Illogical and Convoluted

This is by far the worst MCU movie I've ever seen. Ever.

I was looking forward to it after last year's Infinity War, to see how they would bounce back from that Thanos snap. But boy, was I disappointed. The whole "time heist" plot is tortuously senseless, it lacks any form of intelligence from any aspect, be it scientific or imaginative. What kind of "writers" are responsible for this? Or what were they on while "writing" this? The quick one-liners, barbs and quips are cringe-worthy and so are the "comedic" situations.

One can objectively agree that the movie is way too long and boring for the first two hours, even my 11 yo super-fan brother thought so. It offers very little entertainment. The plot is too incoherent for any sensible adults and very complex to follow for the young ones so they just eagerly await the battle finale. Which does arrive at the end in the form of a badly choreographed CGI bukake scene with pyrotechnics and many, many cuts for anyone to follow what the heck is going on.

Massive, glaring plot-holes abound from start to finish which I bet are invisible to the throngs of fanboys all over the world over-hyping and claiming this piece of hot, leaky garbage to be the greatest movie ever made. Along with giving it over the top reviews and ratings.

Can't believe this is what sells to the masses and makes studios billions of dollars now. Makes me lose all hope in future superhero movies. I couldn't wait for it to get over and go home. A complete waste of time.”

• Voorbeeld van een vals positief geclassificeerde review:

“Great until the end. Spoiler

I've loved every Marvel movie multiple times over, and by far, my biggest complaint with this movie is that Endgame doesn't follow one main Arc, with my favorite Superhero, happiness. Ever since the events of Avengers, Tony has wanted happiness and to be done with the whole Superhero gig. Tony does get this in Endgame, but it's taken away from him by Steve Rogers showing up proposing a plan to defeat Thanos. My whole problem is that my favorite Superhero found happiness only to have it ripped from him. Awful movie towards the end. I didn't cry at my grandfathers funeral, but when Tony died I had to hold back tears.”

• Voorbeeld van een vals negatief geclassificeerde review:

" Great Movie that completes a great journey

Let's start it simple here guys, to all those complaining about everything, which is the new normal these days.

Just because it is not the ending YOU want does not make it a bad movie. If you are so convinced you can make better movies, go do it, become a writer, and sell a Multi- Movie-Universe spanning more than a decade in theatres to a billion people. Than come back and complain.

Let's get to the movie. I was there in the first screening in my theatre, and I had all the emotions in the audience that I felt myself. The three hours went by without a break, the ending was bittersweet and I left the room feeling not one minute of my time was

wasted. Yes, they used Time Travel, so what? No One, and I mean NO ONE, knows how Time Travel actually works. So, it is one part of a fantasy movie, and it was fun to

So really guys, calm down. It is a really good movie that closes this big movie chapter to my full satisfaction. Don't let them haters spoil your fun, just because they can't get to find joy in their life.’

Zowel het eerste als het tweede voorbeeld zouden geen probleem mogen vormen voor de classificatie. In het voorbeeld van de vals positieve review is dit echter niet het geval. Deze review brengt duidelijk twee verschillende visies aan bod via “great until the end”. Weka neemt aan dat dit een positieve review is terwijl de auteur het als negatief bestempelt. In het laatste voorbeeld gaat het model wel de mist in. Maar weinig zaken in de tekst wijzen er op dat dit een negatieve review zou kunnen zijn, toch wordt hij zo geclassificeerd.

4.4.4 Information Gain

Tabel 17: Information Gain Avengers: Endgame (hoge scores)

Score Woord Score Woord

0.09391 best 0.07591 worst 0.07129 boring 0.06937 waste 0.05081 bad 0.04811 amazing 0.04626 money 0.04546 garbage 0.03747 terrible 0.037 epic 0.03589 perfect 0.03027 horrible 0.02956 travel 0.02923 masterpiece 0.02817 minutes 0.02698 no 0.0269 love 0.02625 joke 0.02596 saga 0.02456 overrated 0.02129 poor 0.02023 stupid 0.01911 holes 0.01904 hulk

Tabel 18: Information Gain Avengers: Endgame (lage scores)

Score Woord Score Woord

0 angry 0 hate 0 good 0 liked 0 pacing 0 blockbuster 0 dramatic 0 brilliant 0 sadness 0 exciting 0 laughing 0 perfection 0 painful 0 missing

Net zoals bij de andere films komen hier een aantal woorden opnieuw terug. Woorden zoals “worst”, “boring” en “amazing” uit tabel 17 kwamen namelijk ook aan bod in de information gain testen van vorige films. “Best” heeft de hoogste significantie van alle woorden met een score van 0.09391. Uit tabel 17 blijkt ook dat woorden zoals “masterpiece” en “overrated” wel een bepaalde significantie hebben, dit in tegenstelling tot Frozen II. De resultaten liggen

desondanks grotendeels in dezelfde lijn van vorige resultaten. Zo zijn het voornamelijk emotievolle woorden, met uitzondering van “saga” en “minutes”, die voor een onderscheid zorgen tussen positieve en negatieve reviews. Wat ook opvalt aan tabellen 16 en 17, is dat “good” een enorm lage score heeft t.o.v. “bad”. Verder zijn bepaalde woorden die wijzen in de richting van ofwel een positieve of negatieve connotatie, zo goed als onbelangrijk in het classificeren. Voorbeelden hiervan zijn “perfection”, “brilliant” en “hate”.

In document Een case study in data mining (pagina 59-66)