• No results found


In document Een case study in data mining (pagina 66-70)



4.5.1 Korte beschrijving

A Star Is Born is een Amerikaanse film die geregisseerd werd door Bradley Cooper, die eveneens het personage Jackson in de film vertolkt. Jackson is een countryzanger die Ally, vertolkt door Lady Gaga, ontmoet en haar wil begeleiden bij haar zangcarrière. Naarmate de film vordert, groeit hun liefde. Jackson worstelt echter met een reeks verslavingen die hem parten spelen.

In totaal worden ook hier 1000 reviews opgenomen voor de testfase waarvan 500 als negatief geclassificeerd worden en 500 als positief. De groep van negatieve reviews bestaat uit 231 reviews met één ster, 102 reviews met twee sterren, 115 reviews met drie sterren en 52 reviews met vier sterren. De positieve reviews bestaan uit 500 reviews die uitsluitend een score van 10/10 toegewezen kregen.

4.5.2 Samenvatting testfase

Tabel 19: Samenvatting testfase A Star is Born Test Algoritme IDTFT Lower

-case Stem- mer SW Handler Max # words Token Accuracy/ ROC-Area 1 Beslissings- boom

False True Null Null 1000 Words 80.3% 0,833 3 Logistic


False True Null Null 1000 Words 88.5% 0,955 5 Support

vector machines

False True Null Null 1000 Words 90.5% 0,905



False True Null Null 1000 Words 74.8% 0,814 24 Naive

Bayes (MN)

False True Lovins Null 1500 Words 95.4% 0,985

Tabel 19 omvat een samenvatting van de resultaten voor de reviews van A Star is Born. Deze resultaten liggen in de lijn met die van de andere films. Net als in alle andere modellen haalt het Naive Bayes Multinomial algoritme de hoogste accuraatheid. De accuraatheid die het datamodel van test 24 haalt, is met 95.4% tevens de hoogste accuraatheid over alle films heen. De confusion-matrix van tabel 20 illustreert de uiteindelijke verdeling van de reviews uit test 24.

4.5.3 Confusion-matrix van het meest accurate model

Tabel 20: Confusion-matrix A Star is Born

Voorspeld: positief Voorspeld: negatief

Werkelijk: Positief 487 22

Werkelijk: Negatief 24 476

• Voorbeeld van een correct positief geclassificeerde review:

“2 stars were born...

Everyone knew he could act and she could sing and now we realise they can do all and both with great performances! One of the best movies of the year. Yes it's a remake, but it is raw, emotional, the acting is great and you just can't stop watching it! The songs and lyrics are fantastic and she just takes it to a whole different level! Worth of your money!” • Voorbeeld van een correct negatief geclassificeerde review:

“This was GARBAGE. A waste of money and most importantly, time.

These are two hours of nonsense that I will never get back. I don't need to spoil this movie for you, just think of the most trite story and ending as you can and yes, you guessed it - it is this story. Both actors are atrocious! No chemistry and sometimes, their attempts at looking as though they are madly in love, made me cringe and want to hide my eyes in embarrassment. The worst result of this film is my loss in confidence over reviews in IMDB, I cannot believe the lot of you actually think this in the same category as pulp fiction AND reservoir dogs!!! OMG, ...it must be the young generation!”

• Voorbeeld van een vals positief geclassificeerde review:

“A Star is born

Cooper's voice and singing with Gaga were impressive But the story was not that great than i expected. Anybody watch this movie can imagine this typical story. Also, I realized it was 4th remake version after watching movie.”

• Voorbeeld van een vals negatief geclassificeerde review:

“This old Marines thoughts

I did not want to watch this movie but took my wife to see it, because we both saw the one with Kris Kristofferson and Barbra Streisand, growing up. The crowd was a lot older than we were(we are almost 50) it was the biggest screen they had at our theater and seats a lot but it was maybe half full on Sunday afternoon. Not one dry eye in the place, it had a great tempo and didn't drag on or have any lulls in the story. We were both very pleased and are still engaging in conversations about the movie. It's my opinion to highly recommend to everyone go out and watch a great movie and a heartfelt movie that redefines love in this time and age we live in. That is my two cents, hope you enjoy as much as we have.”

De correct positief geclassificeerde review bevat voldoende positieve adjectieven zoals “great” en “best” opdat het algoritme deze review als positief zou classificeren. Wel valt op dat in deze review gesproken wordt over “money” in een positieve context. Bij zowel Once Upon a Time in Hollywood, als bij Joker en Avengers: Endgame zorgt de aanwezigheid van het woord “money” namelijk voor een grotere kans op een negatieve review. Zo komt “money” bij Once Upon a Time in Hollywood voor in 65 negatieve reviews en slechts drie keer in positieve reviews. De correct negatieve review is een voorbeeld van hoe er over “money” gesproken wordt in een negatieve context. De vals positieve review bevat naast een aantal taalfouten ook een positief statement over de film. Er wordt bovendien ook gesproken over “not that great”, wat een lichtere vorm van negativiteit impliceert dan bijvoorbeeld “waste” of “disgrace”.

4.5.4 Information Gain

Tabel 21: Information Gain A Star is Born (hoge scores)

Score Woord Score Woord

0.12181 amaz 0.11908 bor 0.08051 wast 0.05876 bad 0.05123 beaut 0.04784 no 0.04561 noth 0.04243 bradle 0.04192 perfect 0.04078 over 0.04048 best 0.03693 incred 0.03608 brilli 0.03486 worst 0.03327 lik 0.02962 mediocre 0.0296 understand 0.02935 not 0.0287 hour 0.02855 soundtrack 0.02754 hor 0.02562 outstand 0.02546 mumbl 0.02537 why

Tabel 22: Information Gain A Star is Born (lage scores)

Score Woord Score Woord

0 out 0 oscar-win 0 pain 0 new 0 dark 0 depres 0 cringe-worth 0 comfort 0 hard 0 frustr 0 irrelev 0 favourit

Deze information gain vertoont een nieuw soort data dat nog niet eerder aan bod kwam. De reden hierachter is het gebruik van de lovinsstemmer door algoritme 25. Deze stemmer elimineert het suffix van een woord waardoor een stamwoord bekomen wordt. Meer specifiek gaat de stemmer een lijst met suffixen raadplegen en vergelijken met het woord dat men wil stemmen. Indien er een match bestaat tussen het woord en de lijst, dan wordt het suffix verwijderd van het woord. Daarna wordt nog een spellingscorrectie toegepast op het nieuw verkregen woord. Dit is niet altijd succesvol zoals blijkt uit de information gain. Zo is het suffix “ing” van het woord “amazing” geëlimineerd wat resulteert in “amaz”. Hetzelfde suffix wordt verwijderd van “nothing” waardoor “noth” wordt verkregen. We zien dat de versie zonder stemming vaak terugkomt in de resultaten van de andere films.

In document Een case study in data mining (pagina 66-70)