182 Datamining

(1)

www.quickprinter.be

Q

182 6,00 €

Master HI

Slides + notes

uickprinter

Koningstraat 13

2000 Antwerpen

Data Mining

(2)

(3)

1

Data Mining : lessen

Les 1:Introduction:Data- Analytic Thinking

Datamining?

• The automatic extraction of patterns from large amounts of data

• Data mining is a part of artificial intelligence (AI) • With digitalisation there is a lot of data available

o Data mining wordt dus steeds belangrijker door digitalisatie o Er is steeds meer data beschikbaar over klanten

o Het is steeds moeilijker om paterns te herkennen binnenin de informatie o Je gaat dus steeds meer datamining toepassen

• Toepassing

o Bij de overheid wordt vooral datamining gebruikt voor het detecteren van fraude o Kan je voorspellen welke werknemers snel zullen vertrekken in het bedrijf en welke

lang zullen blijven?

• Carreer opportunitities o Research

▪ Phd research ▪ Nationale bank, ECB ▪ Government o Industry

▪ Marketing → customer analytics ▪ Finance → bank, verzekering, audit

❖ Vb. credit scoring ❖ Vb. Trading ❖ Vb. Fraud detection ▪ HR →HR analytics ▪ Procurement → Vraaganalyse o Consulting ▪ Big 4

▪ Data Science Consulting ▪ Strategy Consulting o Retailers

▪ Marketing

(4)

2

1) What is Data mining?

Data Science Example : Hurricane Frances

• Welke producten gaan goed verkopen na een orkaan? o Food , flash lights,

o Ze gaan zien of ze paterns vinden die niet verwacht waren

▪ Ze zagen bijvoorbeeld dat er veel snoepjes gekocht worden en dat was niet zoals verwacht

o Why would data-driven prediction be useful ?

▪ Het zou nuttig kunnen zijn om te weten dat mensen meer flesjes waren gaan kopen. Maar dat is wel redelijk logisch dus hier hebben we geen data mining voor nodig

▪ Waarvoor zou het dan wel nuttig kunnen zijn? ❖ Vb. amount of increase of the bottled water o Goal: find non obvious patterns

▪ Dit blijft het grootste doel van data mining

▪ Zo zagen ze dat heel veel mensen bier of snoepjes kochten. Dit is niet verwacht maar dus wel nuttig dat je dit dankzij data mining weet want dan kan je extra stock aanleggen.

Terminology

• Data science

o = a set of fundamental principles that guide the extraction of knowledge from data o The science to handle data

o Het zijn de fundamentele principes om kennis/info te halen uit de data • Data mining

o = Automatic extraction of patterns from data (via tools/ technologies that incorporate the principles)

o Het automatisch info halen uit data via verschillende technologieën; patronen in data vinden

o Data mining provide some of the clearest illustrations of the principles of data science

• Big Data

o = Data that is so large that traditional data processing systems are unable to deal with it (both storage and analysis component)

o Data die zo groot is dat de standard operators dat niet kunnen oplossen, er geen info of kennis kunnen uithalen

(5)

114 • Uber’s fingerprinting

o Gives iPhone a unique fingerprint so that the devices can be identified even after the

app was deleted.

o Use: to detect fraud where some drivers would create multiple accounts to request and accept fake rides.

o Misuse(?):

▪ Avoids right to be forgotten

▪ Violation of Apple’s rules for app makers. “Uber allegedly prevented Apple engineers from detecting the code by putting Apple HQ inside a geo-fence, so these would be detected.”

o Fair? Accountable? Transparant? • Fair

o Detect (and remove) bias

▪

o Assess the impact of misclassifications ▪ Bias towards certain groups

▪ Ze voorspellen een cupcake als een chiwauwa

6) Conclusion

• About right and wrong

• Think about the potential impact and misuse • Consider ethics already before starting

(6)

115

Les 11: Laatste les

1) Example Exam Questions

• 2 grote vragen ( max 2 pagina’s) • 3 kleine vragen ( max 2 lijnen ) • Discussion Data Science Challenge

o Why did you choose technique X? o Did you consider preprocessing step X? o What were the most important variables?

o How did you choose a training, validation and test set? o What step improved your performance most?

o Can you explain what you wrote on page X? o Is comprehensibility of the model important? • Two large questions

o Explain how a decision tree is built. Clearly explain what the tree steps are that need to be defined.

▪ De decision tree is een methode die gebruikt wordt voor zowel classificatie als regressie. De methode bestaat eruit om herhaaldelijk de meest

informatieve variabelen/attributen te selecteren.

▪ Bij het bouwen van een decision tree kunnen er drie stappen onderscheden worden: splitting rule/ stopping rule/ assignment rule

▪ Splitting rule

- In deze fase wordt er bekeken op basis van welke variabele men gaat splitsen. Er wordt gekozen voor de variabele met de grootste information gain en dus de grootste reductie in entropie/onzekerheid. Het is dus de variabele die de meeste pure leaves geeft.

▪ Stopping rule

- In deze fase wordt er beslist wanneer men stopt met opsplitsen. Hiervoor zijn er 2 mogelijkheden.

- 1) Early stopping: Vanaf dat de performantie op de validatieset terug begint te dalen stopt men met uitsplitsen. Dit is namelijk het moment waarop overfitting zal optreden.

- 2) Prunen: De boom wordt volledig gebouwd totdat alle leaves pure zijn en vervolgens gaat men prunen en dus verschillende opsplitsingen verwijderen. Bij de eerste boom prunet men 1 keer, bij de tweede boom 2 keer

enzovoort. Er wordt gekozen voor de boom met de grootste performantie op de validatie set en dus de kleinste error/ misclassification rate.

▪ Assignment rule

- Tijdens stap 1 en 2 werd de optimale boom bepaald. In deze fase wordt er bepaald welke klasse er toegekend wordt aan een bepaalde leave. Ook hier zijn 2 mogelijkheden voor.

1) Grootste distributie (majority voting). Men neemt als uitkomst/klasse de klasse die het meest vertegenwoordigd is in de leave.

2) Misclassification kost: Men neemt als uitkomst/klasse de klasse met de kleinste misclassification kost. Het is namelijk erger om iemand die kanker heeft (positief) te classificeren als niet kanker (negatief) dan om iemand die geen kanker heeft (negatief) te classificeren als wel kanker( positief).

(7)

116 o What is the difference between training, validation and test set. How is this used

with Artifical Neural Networks?

▪ Training data wordt gebruikt om het model te bouwen.

▪ Validation data wordt gebruikt om de optimale hyperparameters van het model te bepalen.

▪ Test data wordt gebruikt om het model te evalueren, om de accuraatheid te bepalen op ongeziene data.

▪ Artifical Neural Networks is een methode die gebruikt kan worden voor classificatie.

- Training data wordt gebruikt om het model te bouwen en de gewichten aan te leren aan het model.

- Validation data wordt gebruikt om het optimale aantal hidden layers, neuronen en de activation funtion te bepalen.

- Test data wordt gebruikt om model te evalueren.

o What is overfitting and how can this be avoided?

▪ Overfitting is het opnemen van de noise die aanwezig is in de data in het model. Hierbij gaat men patronen vinden die niet correct generaliseren. Het model zal zeer goed presteren op geziene data en dus een hoge accuraatheid vertonen op de training data maar het model zal hoogst waarschijnlijk slecht presteren op ongeziene data en dus een zeer lage accuraatheid vertonen op de test data.Men kan overfitting vermijden door de data op te splitsen in een training, validation en test set. Vervolgens wordt de training data gebruikt om het model te bouwen en de validation data om het model op het juiste moment te laten stoppen met trainen. Hiervoor kijkt men naar de fitting graph en de sweet spot wat dus overeenkomt met de optimale complexiteit.

o How can textual data be represented?

▪ Het doel van tekstrepresentatie is om een set van documenten om te zetten in een vector vorm. De data wordt dus getransformeerd zodat de veel gebruikte tools erop toegepast kunnen worden. Een veel gebruikte tool om de textual data om te zetten is ‘’bag of words methode’’ waarbij een set van documenten bekeken wordt als een collectie van woorden.

▪ Stap 1= Preprocessing

- Normaliseren → Alle woorden terugbrengen tot kleine letters (= lowercasing).

- Stemmed words → Alle woorden herleiden naar de stam, de basisvorm. - Verwijderen stopwoorden → Veel gebruikte woorden worden verwijderd ▪ Stap 2= tekstrepresentatie

Meestal wordt er gebruik gemaakt van de tf-idf matrix waarbij voor een bepaald aantal woorden de tf-idf waarde berekend wordt.

Tf-idf = tf * idf waarbij tf = normalised term frequency en idf = inversed document frequency.

▪ Stap 3= Similarity

Voor elk document wordt de afstand berekend tussen het document en de query aangezien het doel is om het document te vinden dat het meest gelijkend is aan de query. Een mogelijke maat om de afstand te meten is de cosine distance.

(8)

117 o How do you know that one classificianton technique works better than another?

▪ Accuracy

= aantal juiste beslissingen / totaal aantal beslissingen.

Voordeel is dat deze formule zeer gemakkelijk te begrijpen is en één getal oplevert maar het nadeel is dat er geen rekening wordt gehouden met ongebalanceerde klassen en ongelijke kosten van fouten.

▪ Confusion matrix ▪ AUC

- Gebied onder de ROC curve ▪ Verschil tussen AUC en accuracy

❖ AUC is altijd de oppervlakte onder de ROC curve dus over heel het model

❖ De accuracy kan je bepalen op een bepaald punt ❖ Je meet dus eigenlijk twee verschillende dingen

o Explain the formala of naïve Bayes for P(C=C/E), given a dataset for which you have the Facebook likes of persons, and you which to predict if someone is highly educated or not.

▪ Why is it Naïve Bayes?

❖ It assumes independence ▪ Also answer these short questions

❖ What is a datapoint? - Facebook user

❖ What is the target variable?

- hoogopgeleid of niet hoogopgeleid ❖ What are the features?

- facebook likes

❖ Give a feature that would have a lift > 1 - liken van de pagina UA

- liken van een pagina datamining - liken van de pagina van vrt nieuws

o Explain the ROC and how it is generated. What are the advantages and disadvantages of the profit curve.

▪ Profit curve → misclassification cost + class prior kennen ( je moet weten hoeveel mensen bad/ good zijn dus het probleem was hier dat er

bijvoorbeeld maar 10% van heel je data good zijn). Advantages

= intuïtief, je wilt net de kost optimaliseren . Dit is wat je wilt optimaliseren uiteindelijk.

Disadvantages

= kosten zijn moeilijk om te bepalen

(9)

118 o Explain stacking

▪ Stacking is een ensemble method waarbij men dus een set van classifiers gaat aanleren en deze gaat combineren.

▪ Er worden verschillende basis classifiers toegepast op een instance en deze worden gecombineerd. Het is dus waarschijnlijk dat instance verschillende classificaties zal krijgen aan de hand van de verschilllende classifiers ( knn, decision tree, SVM).

▪ In plaats van de uiteindelijke klasse te voorspellen aan de hand van majority voting worden de outputs van de basic classifiers gebruikt als input voor een nieuwe classifier, meta learner. Dit finale model voorspelt dan de

uiteindelijke classificatie.

o How do recommender systems work ?

▪ Het doel van recommender systems is om een rating te bepalen voor ongeziene items. De items met de hoogste rating worden vervolgens aanbevolen aan de klanten. Om dit uit te voeren wordt er gebruik gemaakt van een nutsfunctie.

▪ Er zijn twee soorten nutsfunctie: content- based en collaborative

▪ Content- based nutsfunctie is gebaseerd op de voorkeuren van de klant zelf. Op basis van de geschiedenis van de ratings wordt de rating van de andere items bepaald.

▪ Collaborative nutsfunctie is gebaseerd op de voorkeuren van andere

gebruikers. Men gaat kijken welke gebruikers het meest gelijkend zijn aan de klant en dus op vorige items een gelijkende rating hebben gegeven.

Vervolgens gaat men nieuwe items aanraden aan de klant die een hoge rating hebben gekregen van de meest gelijkende gebruikers.

• 3 short questions ( max 2 lines of each)

o Explain the difference between bag of words method and the n gram word

▪ Bij de bag of words wordt elk woord als een apart woord beschouw. Bij de n-grams words worden n woorden samengenomen waarbij bijvoorbeeld Data Mining als 1 woord wordt aanzien.

o What is information gain?

▪ Reductie in entropie / reductie in zekerheid. De variabele met de grootste informative gain is het meest informative en leidt tot de meeste pure klassen.

o What is confidence?

▪ Confidence wordt gebruikt om de association rules op te bouwen. Het geeft weer met welk vertrouwen men kan zeggen dat als X aanwezig is, Y ook aanwezig zal zijn.

o What is overfitting ?

▪ Bij overfitting wordt de noise die aanwezig is in de data mee opgenomen in het model. Men verkrijgt dus patronen die niet correct generaliseren. o What is entropy ?

▪ Entropie is de mate van wanorde, de mate waarin het model impure is. Bij een perfect gemengde klasse heeft een maximale entropie van 1 , in een pure klasse heeft men een minimale entropie van 0.

(10)

119 ▪ Classificatie wordt gebruikt om de waarde van de target variabele te

voorspellen en is dus toepassing van descriptive data mining.

▪ Clustering wordt gebruikt om patronen te vinden in de data en de data te groeperen en dus toepassing van descriptive data mining.