FROZEN II (ANIMATIEFILM, 2019) - Een case study in data mining

4. RESULTATEN

4.2 FROZEN II (ANIMATIEFILM, 2019)

Deze film van animatiestudio Walt Disney Studios volgt de reis die prinsessen Elsa en Anna afleggen in de hoop het koninkrijk te redden. De film bracht wereldwijd net iets minder dan anderhalf miljard dollar op aan cinematickets, de hoogste opbrengst ooit voor een animatiefilm (Guinness World Records, 2020).

In totaal worden ook hier 1000 reviews opgenomen voor de testfase. Door een gebrek aan negatieve reviews, 212 in totaal, worden hier uitzonderlijk meer positieve dan negatieve reviews opgenomen. De groep van negatieve reviews bestaat uit 61 reviews met één ster, 31 reviews met twee sterren, 63 reviews met drie sterren en 57 reviews met vier sterren. Ook de groep van positieve reviews is opgedeeld door een gebrek aan reviews met 10 sterren. De verdeling ziet er als volgt uit: 282 reviews met tien sterren, 138 reviews met negen sterren, 158 reviews met acht sterren, 155 reviews met zeven sterren en 55 reviews met zes sterren.

4.2.2 Samenvatting testfase

Tabel 7: Samenvatting testfase Frozen II

Uit de testfase voor Frozen II blijkt in tabel 7 Naive Bayes Multinomial (test 20) de beste

resultaten terug te geven. Wat alweer opvalt is dat Naive Bayes Multinomial veel beter presteert in vergelijking met de overige modellen. Met een maximale accuraatheid van 88.1% en een oppervlakte onder de ROC-curve van 0.901 overstijgt het daarmee KNN, KStar en logistische regressie met meer dan 10%.

Na het testen van verschillende Naive Bayes Multinomial combinaties bekomen we licht verschillende resultaten ten opzichte Once Upon a Time in Hollywood. Net zoals bij die film wordt in dit model geen IDTF-transformator, stemmer of stopwords handler gebruikt. Wel wordt er hier een wordtokenizer gebruikt waarbij ook een hogere limiet is ingesteld, namelijk 1000 tokens. Bij deze animatiefilm werd deze limiet ingesteld op 800 tokens. In dit geval betekent dat meerdere woorden die opgenomen worden per review tot een hogere accuraatheid leiden. Het gebruik van de IDTF-transformator wordt in dit model niet toegepast aangezien dit resulteert in een verlaagde accuraatheid zoals blijkt uit een vergelijking tussen model 2 en model 11.

Test Algoritme IDTFT Lower -case Stem- mer SW Handler Max # words Token Accuracy/ ROC-Area 1 Beslissings- boom

False True Null Null 1000 Words 78.1% 0.674 4 Simple

Logistic

False True Null Null 1000 Words 84.8% 0.848 5 Support

vector machines

False True Null Null 1000 Words 84.3% 0.749

8 KNN

(K=10)

False True Null Null 1000 Words 78.8% 0.678

20 Naive Bayes (MN)

False True Null Null 800 Words 88.1% 0.901

4.2.3 Confusion-matrix van het meest accurate model

Tabel 8: Confusion-matrix Frozen II

Voorspeld: positief Voorspeld: negatief

Werkelijk: Positief 755 33

Werkelijk: Negatief 86 126

Tabel 8 geeft de confusion-matrix van het meest accurate model van Frozen II weer. Deze matrix heeft een andere verdeling dan de confusion-matrix van de overige films vanwege het groot aantal positieve reviews.

• Voorbeeld van een correct positief geclassificeerde review:

“Wow! I didn't expect much, didn't see much previews and OMG!! It was perfect from beginning to the end. Laugh, love, excitement, suspense, action, music, the story.... Everything was perfect! Not too long, not to short. Wow again! Olaf should get an award!!! So funny! Lol Seriously, soo good for kids and adults."

• Voorbeeld van een correct negatief geclassificeerde review:

“While the animation was beautiful, the plot was dull, confusing, and pointless. The songs felt unnecessary and as though they were simply there to fill time. However, Elsa's character development was neat as well as her stunning changes in appearance. The movie was overall very disappointing and boring.”

• Voorbeeld van een vals positief geclassificeerde review:

“Frozen 2 has spectacular visuals and an even better soundtrack than the first. However, that's about it. After the first 5 minutes, the film is incredibly rushed. The characters hardly have time to digest what is happening and the audience isn't any different. There is ahedly a sense of wonder or emotional connection with the characters we have come to be so fond of. The film moves so quickly there is no weight to balance it. Before you know it, we've already reached the climax which ultimately, is not climatic, nor is the giant "twist" they have hinted at. Predictable, rushed.... Olaf, the score and the visuals we're all that were worth seeing this film.”

• Voorbeeld van een vals negatief geclassificeerde review:

“It tried so hard to bring Let it Go 2 and it can't. Only the very first song of the movie was marginally memorable and the rest are all cookie cutter and forgettable. The movie in overall was not terrible but it could really be much better if only the script was more clever or the characters more evolved because this was way too simplistic for no good reason and the characters appeared to have not progressed at all since the first movie.” De classificatie van het correct positieve voorbeeld leidt naar alle verwachtingen tot het correcte resultaat. Dit verbaast niet aangezien in de tekst overduidelijk overwegend positief gereageerd wordt. Wat de correct negatief geclassificeerde review betreft, heeft het model het ook bij het rechte eind. De review start met een positieve noot over de animatie maar daarna volgt er meer kritiek op andere aspecten van de film. Deze review bevat zowel lof als kritiek, maar het model slaagt er toch in om de review te classificeren als negatief.

De vals positieve geclassificeerde review betekent dat de review ten onrechte als positief geclassificeerd wordt. Hoewel er een aantal positieve zaken vermeld worden, blijft de algemene toon van de review slecht. De vals negatieve review lijkt eerder een twijfelgeval dan een

overduidelijke positieve of negatieve review.

4.2.4 Information Gain

Tabel 9: Information Gain Frozen II (hoge scores)

Score Woord Score Woord

0.053 boring 0.02837 no 0.02767 amazing 0.02495 waste 0.02424 money 0.01958 worst 0.01947 than 0.01836 beautiful 0.01705 still 0.01619 disappointment 0.01499 great 0.01494 nothing

Tabel 10: Information Gain Frozen II (lage scores)

Score Woord Score Woord

0 sad 0 predictable 0 soundtrack 0 script 0 wow 0 negative 0 masterpiece 0 mediocre 0 painful 0 overrated 0 worse 0 wasted 0 horrible 0 disappointed 0 entertaining 0 best

De information gain levert interessante resultaten op aangezien er overeenkomsten bestaan met de vorige film Once Upon A Time In Hollywood. De woorden “boring”, “amazing”, “waste” en “money” in tabel 9 dragen een hoge significantie in beide gevallen. Globaal gezien kunnen we vaststellen dat de significante woorden een zeer algemeen karakter hebben: ze hebben niet specifiek betrekking hebben op bepaalde intrinsieke aspecten van de film. Zo worden hier geen namen van acteurs of actrices genoemd. Verder merken we op in tabel 10 dat woorden zoals “masterpiece”, “horrible”, “sucks” en “overrated” helemaal niet significant zijn voor de

classificatie. Deze woorden zijn nochtans emotioneel geladen.

In document Een case study in data mining (pagina 50-54)