• No results found

Bedrijfskenmerken en het voorspellen van de aandelenmarkt : de invloed van bedrijfskenmerken op de voorspelprecisie van de aandelenmarkt, als er bij het voorspellen gebruik gemaakt wordt van Twittersentiment

N/A
N/A
Protected

Academic year: 2021

Share "Bedrijfskenmerken en het voorspellen van de aandelenmarkt : de invloed van bedrijfskenmerken op de voorspelprecisie van de aandelenmarkt, als er bij het voorspellen gebruik gemaakt wordt van Twittersentiment"

Copied!
44
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Bedrijfskenmerken en het voorspellen van de aandelenmarkt

De invloed van bedrijfskenmerken op de voorspelprecisie van de aandelenmarkt, als er bij het voorspellen gebruik gemaakt wordt van Twittersentiment

Bachelorscriptie Econometrie Eefje Roelfsema 10993673 26 juni 2018 Begeleider: Dr. B. Wouters Abstract

In deze scriptie wordt de invloed van bedrijfskenmerken op de voorspelprecisie onderzocht. Bij het voorspellen van het rendement op de aandelenmarkt wordt gebruik gemaakt van Twittersentiment. In dit onderzoek komt naar voren dat de eigenschappen marktwaarde, de hoeveelheid tweets, de volatiliteit en de beta van een bedrijf invloed hebben op de voorspelfout. Het rendement op dividend, de leeftijd van een bedrijf en het aantal werknemers hebben geen invloed op de voorspelprecisie.

(2)

Verklaring eigen werk

Hierbij verklaar ik, Eefje Roelfsema, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan. Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd. De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Inhoudsopgave

1 Inleiding 5

2 Theoretisch kader 7

2.1 Hoeveelheid versus inhoud . . . 7

2.2 Continu¨ıteit versus events . . . 8

2.3 Sentiment . . . 10

2.4 Tijdsimplementatie . . . 10

2.5 Voorspelmodellen . . . 11

2.6 Bedrijfsspecifieke eigenschappen . . . 12

3 Data en opzet eigen onderzoek 14 3.1 Financi¨ele en Twitterdata . . . 14

3.2 Bedrijfskarakteristieken . . . 15 3.3 Onderzoeksopzet . . . 16 3.4 Outliers . . . 18 3.5 Analyse . . . 18 4 Resultaten en analyse 20 4.1 Beschrijvende statistiek . . . 20 4.2 Marktwaarde . . . 23 4.3 Rendement op dividend . . . 24 4.4 Leeftijd . . . 25 4.5 Aantal werknemers . . . 25 4.6 Beta . . . 26 4.7 Volatiliteit . . . 27 4.8 Tweets . . . 27

(4)

5 Conclusie 31

6 Discussie 34

6.1 Correlatie tussen de eigenschappen . . . 34 6.2 Aanbevelingen . . . 36

(5)

1

Inleiding

Neoklassieke economische theorie¨en stellen dat investeerders zich gedragen als rationele agenten, die ten alle tijden hun winst proberen te maximaliseren. Anderzijds hebben Prechter en Parker (2007) aangetoond dat de emoties en de stemming van investeerders een belangrijke rol spelen bij het maken van beslissingen. Deze combinatie van emotionele en rationele handelingen maakt investeerders, en daarmee de markt, onvoorspelbaar (Wendy, Asri & Hartono, 2014). Er is veelvuldig onderzoek gedaan naar modellen die de markt zo goed mogelijk voorspellen. Jarenlang hebben onderzoekers geprobeerd de emoties en verwachtingen van mensen in kaart te brengen met behulp van vragenlijsten, een kostbare en tijdrovende bezigheid. Tegenwoordig is er Twitter. Deze scriptie richt zich op het voorspellen van de aandelenmarkt met Twitterdata en de toepassingen daarvan.

Twitter is een populaire vorm van sociale media, waarop iedereen zichzelf kan uiten. Het is een micro-blogging platform waar mensen in maximaal 140 tekens hun berichten kunnen achterlaten. Deze tweets kunnen over alle mogelijk denkbare onderwerpen gaan, waaronder de aandelenmarkt. Dankzij Twitter is het voor het eerst in de geschiedenis mogelijk om stemming, de gedachtes en meningen van een deel van de populatie op het moment zelf te meten.

Tot nu toe zijn er twee verschillende soorten onderzoek gedaan naar het effect en het voorspellingsvermogen van Twitteractiviteit op de financi¨ele markten. Het overgrote deel van de onderzoeken richt zich op het vinden van een correlatie tussen tussen de aandelenmarkt en de Twitterdata. Het tweede soort onderzoek richt zich op het voorspellen van de aandelenmarkt met behulp van Twitterdata.

In onderzoeken naar de correlatie tussen Twitterdata en de aandelenmarkt wordt gebruik gemaakt van de hoeveelheid Twitterberichten en het sentiment van Twitterberichten over een bedrijf. Mao, Wei, Wang en Liu (2012) tonen een correlatie aan tussen de hoeveelheid financieel gerelateerde Twitterberichten en de hoogte van een aandeel op de aandelenmarkt. Een analyse van het aantal Twitterberichten verbeterde de precisie

(6)

van voorspellingen van de sluitingsprijzen van de beurs. Zhelude, Smith en Aste (2014) en Ranco, Aleksovski, Caldarelli, Grcar en Mozetic (2015) gebruiken in hun analyse het sentiment van de Twitterberichten. Ranco et al. (2015) laten zien dat positieve Twitterberichten een stijgend rendement voorspellen en negatieve Twitterberichten een dalend rendement. Uit het onderzoek van Zhelude et al. (2014) komt naar voren dat een analyse van de inhoud van Twitterberichten betere voorspellingen geeft dan een analyse van de hoeveelheid tweets.

Het tweede soort onderzoek richt zich op het voorspellen van de markt met behulp van Twitterdata. Mittal en Goel (2012) en Mao, Wei, Wang en Liu (2012) hebben beiden de markt voorspelt met behulp van Twitterdata. Mao et al. (2012) doen dit met de hoeveelheid Twitterberichten en Mittal en Goel (2012) doen dit met behulp van het sentiment van Twitterberichten. Beide onderzoeken laten zien dat deze voorspellende modellen goed presteren. Xiao en Chen (2018) hebben de koers voor de bedrijven Tesla en Ford voorspelt met Twitterdata. Zij concluderen dat de koers van het aandeel van Tesla beter te voorspellen is dan het aandeel van Ford en wijten dit aan de verschillende karaktereigenschappen van beide bedrijven.

Samenvattend, er is een duidelijke correlatie tussen Twitteractiviteit en de aandelenmarkt. Daarnaast presteren modellen die de markt voorspellen met Twitterdata goed. Wat naar voren komt in de literatuur is dat bedrijfskenmerken invloed hebben op de voorspelprecisie en dat is het uitgangspunt van dit onderzoek. Deze scriptie onderzoekt wat de invloed is van bedrijfseigenschappen op de voorspelprecisie, als er tijdens het voorspellen van de markt gebruik gemaakt wordt van Twitterdata. Dit onderzoek heeft als doel meer informatie beschikbaar te maken voor investeerders, opdat zij in de toekomst beter kunnen investeren.

Het volgende hoofdstuk geeft een uiteenzetting van reeds gepubliceerde theorie¨en over het gebruik van Twittergegevens bij het analyseren van de beurs. Daarna volgen de data en de onderzoeksmethode van het onderzoek. Hierna volgen de resultaten en de analyse van de resultaten. Tot slot worden de conclusie en discussie gepresenteerd.

(7)

2

Theoretisch kader

De invloed van Twitter op de aandelenmarkt is al veelvuldig onderzocht. Dit hoofdstuk geeft een beschrijving van de bevindingen tot nu toe. Allereerst wordt er gekeken naar onderzoeken met betrekking tot de hoeveelheid Twitterberichten en onderzoeken die het sentiment van Twitter analyseren. Daarna volgt het verschil in onderzoek met betrekking tot events of onderzoek dat continu kijkt naar de voorspelkrachten van Twitterberichten. Als derde wordt er een uitsplitsing gegeven over de verschillende soorten sentiment en de resultaten daarvan. Daaropvolgend wordt er gekeken naar de tijdsimplementaties van verschillende onderzoeken. Hierna worden onderzoeken die voorspelmodellen bedacht hebben gepresenteerd. Tot slot worden onderzoeken gepresenteerd die kijken naar bedrijfsspecifieke eigenschappen en de voorspelprecisie met behulp van Twitterdata, waar het in deze scriptie over gaat.

2.1 Hoeveelheid versus inhoud

Een belangrijk onderscheid in onderzoeken is enerzijds onderzoek dat zich richt op de hoeveelheid Twitterberichten en anderzijds onderzoek dat het sentiment van Twitter analyseert.

Mao, Wang, Wei en Liu (2012) onderzoeken of de hoeveelheid Twitterberichten gecorreleerd is met de aandelenmarkt en zij toetsen dit op drie niveaus. Het eerste niveau zijn indicatoren over de gehele aandelenmarkt (S&P500), het tweede niveau zijn aandelen van bedrijven ingedeeld in sectoren van de ’Global Industrial Classification Standard ’ (GICS) en op het laatste niveau analyseren zij het individuele aandeel van Apple. Het individuele aandeel van Apple is gekozen omdat er over dit beursgenoteerde bedrijf het meest getwitterd wordt. Mao et al. (2012, p. 72) tonen aan dat op het niveau van de gehele aandelenmarkt de sluitingsprijs, de prijsverandering en de absolute prijsverandering significant gecorreleerd zijn met de hoeveelheid dagelijkse tweets over de S&P500. Op sectorniveau vinden zij dat 8 van de 10 GICS-sectoren significant gecorreleerd zijn met de

(8)

hoeveelheid Twitterberichten. Als laatst vinden zij dat het individuele aandeel van Apple ook significant gecorreleerd is met de aandelenmarkt.

Het onderzoek van Mao et al. (2012) toont aan dat de hoeveelheid Twitterberichten op verschillende niveaus gecorreleerd is met de aandelenmarkt. Echter, aan de hoeveelheid Twitterberichten valt niet af te lezen wat de algemene stemming op Twitter was. Hadden mensen vertrouwen in een aandeel of waren de Twitteraars negatief? Om meer inzicht te verkrijgen over het doel van de tweets analyseren Zheludev et al. (2014) de inhoud van Twitterberichten. Zij onderzoeken of de inhoud van Twitterberichten een voorspellend karakter heeft of dat Twitter juist reageert op de markt. Allereerst vinden Zheludev et al. (2014, p. 6) dat Twitter inderdaad een voorspellend vermogen heeft en dat de markt reageert op Twitter en niet andersom. Hun resultaten laten zien dat de inhoud van Twitterberichten over vier bedrijven, een voorspellend karakter hebben over de koers van die vier aandelen. Naast de voorspelkracht van de inhoud van Twitterberichten hebben zij zich ook toegelegd op de voorspelkracht van de hoeveelheid Twitterberichten. Zij vinden dat deze voorspelkracht veel lager is dan die van de inhoud. Slechts de hoeveelheid Twitterberichten over ´e´en aandeel kan die koers voorspellen. Hieruit concluderen Zheludev et al. (2014, p. 11) dat het analyseren van de inhoud van Twitterberichten betere voorspellingen oplevert dan kijken naar de hoeveelheid tweets. Dit valt ook in de lijn der verwachting, het analyseren van de inhoud van tweets levert namelijk meer informatie op over het doel van de tweets en met meer informatie kan er preciezer worden geschat.

2.2 Continu¨ıteit versus events

Hoewel Zheludev et al. (2014) aantonen dat de inhoud van Twitterberichten betere voorspellingen geeft dan de hoeveelheid Twitterberichten, kan er ook gekeken worden naar een combinatie van beide. Het onderzoek van Ranco et al. (2015) richt zich tot ’events’ met betrekking tot Twitterberichten. Als de hoeveelheid Twitterberichten over beursgenoteerde bedrijven boven een gesteld maximum komt noemen ze het een event en ze bekijken per event wat de invloed is op de waarde van het aandeel. Per event stellen ze ook het sentiment

(9)

vast, is het event positief, neutraal of negatief. Er worden in het onderzoek van Ranco et al. (2015) twee soorten events onderscheiden: alle events tegenover earnings announcements. Een earnings announcement (EA) is een offici¨ele verklaring van een bedrijf over de winstgevendheid van de afgelopen periode. Deze announcements gaan vaak gepaard met veel Twitterberichten. De onderzoekers zijn benieuwd of ook niet-EA-event tweets een voorspellend karakter hebben over de aandelenmarkt.

Allereerst hebben de onderzoekers van alle events de invloed op de aandelenmarkt geanalyseerd. Zij vinden dat de events met een overwegend positief karakter ook positieve significante koersverhogingen veroorzaken. Events met een overwegend negatief karakter veroorzaken negatieve significante abnormale rendementen. Het effect van negatieve events is opvallend twee keer zo groot als het effect van positieve events.

Nadat ze alle events hebben onderzocht, hebben ze ook naar alle niet-EA-events gekeken. Uit deze analyse komt naar voren dat het effect voor positieve niet-EA-events gelijk is aan het effect voor alle positieve events. Het effect van de niet-EA events is dus even groot als het effect van alle tweets. Ook voor negatieve niet-EA-events zijn er significante negatieve abnormale rendementen gevonden, echter deze zijn twee keer zo laag als bij alle events.

Souza, Kolchyna, Treleaven en Aste (2015) richten zich niet op events met betrekking tot de hoeveelheid Twitterberichten, maar analyseren continu of het sentiment van Twitter de markt kan voorspellen. Zij vinden een sterke Granger-causaliteit tussen tweets en de aandelenmarkt. Granger-causaliteit is een statistische test die vaststelt of een tijdreeks de ander kan voorspellen. Zij vinden dat positieve Twitterberichten voor een deel van de beursgenoteerde bedrijven hun koers kan voorspellen. Daarnaast vinden zij dat de Granger-causaliteit tussen Twitter en de markt sterker is dan die van nieuws en de aandelenmarkt. Dus met de data van Twitter kun je beter de markt voorspellen dan met nieuwsberichten. In tegenstelling tot Ranco et al. (2015) vinden Souza et al. (2015) geen significant verband tussen negatieve Twitterberichten en de markt.

(10)

2.3 Sentiment

De hierboven besproken onderzoeken delen het sentiment van Twitterberichten op in drie categorie¨en: positieve, neutrale en negatieve tweets. Bollen, Mao en Zheng (2011), daarentegen, delen de tweets op in nog meer emoties. Zij onderscheiden de emoties kalm, alert, vitaal, zeker, aardig en blij. Hun hypothese is dat de menselijke emoties niet te vatten zijn in drie categorie¨en. Bollen et al. (2011, p. 4) vinden dat alleen Twitterberichten met het sentiment kalmte en blijheid een significant voorspellend vermogen hebben op de aandelenmarkt. Deze emoties hebben namelijk significante Granger-causaliteit met de aandelenmarkt. Voor de andere vier emoties vinden zij geen significant verband. Het onderzoek van Bollen et al. (2011) is een van de eerste die analyseert of het sentiment van Twitterberichten de aandelenmarkt kan voorspellen en daarin toonaangevend op dit gebied. De reden dat veel vervolgonderzoeken het sentiment indelen in drie categorie¨en kan voortkomen uit het feit dat Bollen et al. (2011) een correlatie vinden tussen slechts twee van de zes uitgewerkte emoties.

2.4 Tijdsimplementatie

Een belangrijke factor bij het analyseren van de Twitterdata is de tijd. Hoelang na het uitsturen hebben tweets invloed op de aandelenmarkt? Verschillende onderzoeken gebruiken andere tijdseenheden en vaak geven ze weinig uitleg over hun keuze. Zheludev et al. (2014) analyseren de invloed van tweets per uur op de aandelenmarkt. Zij vinden zoals hierboven beschreven alleen een correlatie tussen de Twitterdata en de koers van vier beursgenoteerde bedrijven.

Ranco et al. (2015) hebben gekeken naar Twitter events en de abnormale koerswaarden vooraf en teruggaand aan het event voor verschillende dagen. Zij vinden dat zowel bij alle events als bij niet-EA-events de koersverandering direct dezelfde dag plaatsvindt. Bij alle events houdt deze koersverandering tot wel 10 dagen significant aan, bij de niet-EA events houdt deze koersverandering tot 5 dagen significant aan. Dit onderzoek

(11)

laat zien aan dat beleggers dezelfde dag nog reageren op de Twitteractiviteit.

Hung, Keel, Dennis en Yuan (2014) introduceren een hele nieuw hypothese met betrekking tot de tijd waarop Twitterberichten invloed hebben op de markt. Zij stellen dat Twitteraars met veel volgers snel een groot publiek kunnen bereiken. Hun tweets hebben daarom dus sneller invloed op de aandelenmarkt dan de tweets van Twitteraars met weinig volgers. In hun onderzoek vinden zij allereerst dat de invloed van tweets dezelfde dag groter is voor Twitteraars met veel volgers (boven de 177) dan Twitteraars met weinig volgers (onder de 177). Dit geldt voor zowel de positieve, de neutrale als de negatieve tweets. Het verschil in impact tussen tweets van Twitteraars met veel volgers, namelijk vanaf 1000 volgers en vanaf 100.000 volgers, is veel minder duidelijk te zien. Hun tweede hypothese is dat tweets van mensen met weinig volgers de volgende dagen meer impact hebben. Deze hypothese wordt niet door hun bevindingen ondersteund.

De hierboven besproken onderzoeken laten zien dat Twitterberichten snel invloed hebben op de koers van de aandelenmarkt. Volgens Ranco et al. (2015) hebben ze al invloed binnen dezelfde dag, echter het onderzoek van Zheleduv et al. (2014) vindt dat voor weinig bedrijven de tweets ook al binnen een uur invloed hebben. Daarnaast hebben tweets van mensen met veel volgers dezelfde dag een grotere impact op de aandelenmarkt dan tweets van mensen met weinig volgers.

2.5 Voorspelmodellen

Tot dusver zijn er onderzoeken besproken die aantonen dat Twitterdata de aandelenmarkt kan voorspellen. Echter, er zijn nog geen modellen besproken die de markt voorspellen met Twitter. Mao et al. (2012) doen dit wel. Naast dat ze aantonen dat de hoeveelheid Twitterberichten gecorreleerd is met de aandelenmarkt, hebben zij ook een voorspellend model gebouwd. In het model is de afhankelijke variabele de aandelenkoers voor de verschillende niveaus. De niveaus in het onderzoek van Mao et al. (2012) zijn de gehele aandelenmarkt (S&P500), de GICS-sectoren en het individuele aandeel van Apple. Als onafhankelijke variabelen hebben ze de aandelenkoers van het desbetreffende niveau tot drie

(12)

tijdseenheden geleden opgenomen en de geaggregeerde hoeveelheid Twitterberichten. De geaggregeerde hoeveelheid staat voor de verzamelde twitterberichten in de onderzoeksperiode voor ieder niveau. Dit voor de gehele S&P500, iedere sector en het individuele aandeel van Apple. Dit model hebben zij geoptimaliseerd. Hoewel het een simpel model is, dat weinig verklarende variabelen gebruikt, vinden zij zowel op het niveau van de gehele markt als bij de sectoren een schattingsprecisie van 68 procent. Het individuele aandeel van Apple kon worden geschat met 52 procent precisie.

Mittal en Goel (2012) hebben niet alleen een voorspelmodel bedacht op basis van Twitterberichten, maar daarnaast ook een handelsstrategie. Hun Twitterdata-analyse is gebaseerd op die van het onderzoek van Bollen et al. (2011) en zij gebruiken dan ook dezelfde 6 emoties bij het analyseren van de Twitterberichten. Allereerst hebben zij een aandelenkoers voorspellend model gebouwd met machine-learning technieken. Daarna is een handelsstrategie ontwikkeld en deze gaat als volgt in zijn werk. Per zeven dagen berekenen ze het gemiddelde en de standaardafwijking van een aandeel. Als de verwachte waarde van een aandeel ´e´en standaardafwijking onder zijn gemiddelde ligt, dan kopen ze het aandeel. Als de verwachte waarde van een aandeel ´e´en standaardafwijking boven zijn gemiddelde ligt, dan verkopen ze dat aandeel weer. Zij vinden dat deze simpele strategie een winst oplevert over een periode van 40 dagen.

2.6 Bedrijfsspecifieke eigenschappen

In deze scriptie wordt onderzocht of bedrijfsspecifieke eigenschappen invloed hebben op de voorspelprecisie als er gebruik gemaakt wordt van Twitterdata. Hierover is tot nu toe weinig bekend, slechts in een paar onderzoeken wordt w´el rekening gehouden met bedrijfsspecifieke kenmerken. Deze worden hier besproken.

Khan, Tan, Chong en Ong (2017) hebben de invloed onderzocht van bedrijfskarakteristieken op portfoliodiversificatie. Ondanks dat zij geen significante verbanden kunnen vinden op het gebied van diversificatie dragen zij wel belangrijke bedrijfskenmerken aan, namelijk marktwaarde, het rendement op dividend, de leeftijd van

(13)

een bedrijf en de volatiliteit van een aandeel.

Het onderzoek van Mao et al. (2012) analyseert de invloed van de hoeveelheid Twitterberichten op drie niveaus, waaronder bedrijfssectoren. In de resultaten is te zien dat correlatie voor verschillende sectoren anders is. Of dit verschil significant is zal met onderzoek moeten worden aangetoond. Echter, dit geeft een aanleiding om dit verder te onderzoeken.

Xiao en Chen (2018) maken ook een onderscheid in bedrijfsspecifieke eigenschappen. Zij hebben de hypothese dat de voorspelkracht van Twitter groter is als de aandelenprijs gebaseerd is op de verwachting van consumenten. Om dit te onderzoeken analyseren ze de invloed van Twitter op Tesla. Tesla is een bedrijf waarvan de waarde van het aandeel sterk afhangt van de verwachting van de aandeelhouder, aangezien het bedrijf nog nooit winstgevend is geweest. Dit vergelijken ze met de invloed van Twitter op het aandeel van Ford, waarvan de waarde van het aandeel gestabiliseerd is. Xiao en Chen (2018, p. 3) vinden inderdaad dat de voorspelprecisie bij het aandeel van Tesla hoger is dan die bij het aandeel van Ford. Deze bevindingen ondersteunen hun eigen hypothese, maar ook de verwachting van dit onderzoek: dat bedrijfskarakteristieken invloed hebben op de voorspelkracht van een aandeel, als er gebruik gemaakt wordt van Twitterdata.

Uit de bestaande literatuur is naar voren gekomen dat het analyseren van het sentiment van Twitterberichten betere voorspellingen geeft dan analyses op basis van de hoeveelheid Twitterberichten. Daarnaast is gebleken dat het samenvoegen van deze twee in events ook significante voorspellingen oplevert. Onderzoek laat zien dat tweets al binnen een dag invloed hebben op de aandelenmarkt, maar hoogstwaarschijnlijk niet binnen een uur. Daarnaast is de impact van een tweet afhankelijk van het aantal volgers van de Twitteraar. Er is gebleken dat simpele voorspelmodellen, die Twitterdata in acht nemen, hoge voorspelprecisie leveren. Tot slot, hoewel er geen specifieke onderzoeken naar zijn geweest, geeft de literatuur aanleiding te verwachten dat bedrijfsspecifieke eigenschappen invloed hebben op de voorspelprecisie.

(14)

3

Data en opzet eigen onderzoek

In deze scriptie wordt onderzocht of bedrijfskenmerken invloed hebben op de voorspelprecisie, als er bij het voorspellen gebruik gemaakt wordt van Twitterdata. In dit hoofdstuk worden de data en de methode van het onderzoek besproken.

3.1 Financi¨ele en Twitterdata

De financi¨ele data en de Twitterdata gebruikt in dit onderzoek zijn afkomstig uit het onderzoek van Ranco et al. (2015) en dateren van 3 juni 2013 tot 18 september 2014. De data van Ranco gaan over 30 bedrijven die in die periode genoteerd stonden op de Dow Jones Industrial Average (DJIA). In tabel 3 in de bijlage staan alle 30 bedrijven met hun ticker vermeld. Ranco et al. (2015) verzamelden alle relevante Twitterberichten uit de onderzoeksperiode en stelden per bericht het sentiment vast met behulp van machine learning algoritmes. Zij rapporteerden per bedrijf per dag de hoeveelheid positieve, negatieve en neutrale berichten. In dit onderzoek is voor deze data het sentiment voor elk bedrijf per dag gekwantificeerd met de sentiment index (SI):

SI = N

+− N− N++ N

Waarbij N+ de hoeveelheid positieve tweets is op een dag per bedrijf en N− de hoeveelheid negatieve tweets op een dag per bedrijf.

De financi¨ele data van Ranco et al. (2015) bevatten de openingskoers, de sluitingskoers, de hoogste en de laagste koers per dag voor alle 30 bedrijven in de onderzoeksperiode. In dit onderzoek is ervoor gekozen om het rendement van de openingskoers te gebruiken. Deze keuze is gebaseerd op het feit dat dan alle negatieve en positieve Twitterberichten van de dag en/of dagen ervoor hun invloed hebben kunnen uitoefenen op de openingskoers. De Twitterberichten op de dag zelf hebben dan weer invloed op het openingsrendement van de dag erna. Het rendement is als volgt berekend:

(15)

Rendement = Koers(d ) Koers(d -1) − 1

waarbij d een van de dagen uit de onderzoeksperiode is. Omdat in het weekend en op feestdagen de beurs gesloten is, is er geen financi¨ele data beschikbaar voor deze dagen. De Twitterdata is wel dagelijks beschikbaar. In dit onderzoek is dit probleem opgelost door de missende financi¨ele data van de zon- en feestdagen te interpoleren (zie Mittal & Goel, 2012).

3.2 Bedrijfskarakteristieken

In dit onderzoek worden 8 verschillende karakteristieken onderscheiden: marktwaarde, rendement op dividend, de leeftijd van het bedrijf, het aantal werknemers, de hoeveelheid tweets, de klassering in de Global Industrial Classification Standard (GICS) en twee maten voor de volatiliteit van het aandeel. Hieronder wordt vermeld van welke bronnen deze informatie is verkregen.

De marktwaarde is de hoeveelheid uitstaande aandelen vermenigvuldigd met de prijs van het aandeel en het rendement op dividend is hoeveel rendement een dividendhouder op zijn aandelen krijgt. De dagelijkse waarden van deze eigenschappen zijn beschikbaar op de site Ychart, die financi¨ele informatie aan beleggers verschaft. De betreffende data over deze twee eigenschappen zijn verzameld over de periode 3 juni 2013 tot 18 september 2014 en per eigenschap is het gemiddelde en de standaardafwijking bepaald. De data over het bedrijf DuPont ontbrak op Ychart en daarom is de site Trading Economics gebruikt. Die site rapporteert de marktwaarde en het rendement op dividend per jaar en daarmee is ook voor DuPont het gemiddelde bepaald.

De leeftijd van het bedrijf in het jaar 2014 is uitgerekend op basis van het oprichtingsjaar zoals vermeld op Wikipedia. Ook de sector van het bedrijf volgens de GICS is op Wikipedia gevonden.

Het aantal werknemers per bedrijf is gevonden in het jaarverslag van het desbetreffende bedrijf over het jaar 2014. Voor het bedrijf Pfizer was het aantal werknemers

(16)

echter niet te vinden in het jaarverslag. Daarom is hiervoor de site Trading Economics als bron gebruikt (voor de andere bedrijven kwamen de aantallen werknemers in de jaarverslagen en Trading Economics goed overeen).

De invloed van de volatiliteit van het aandeel wordt op twee manieren gemeten, via de beta en de volatiliteit. Dit is ook gedaan in het onderzoek van Khan et al. (2017). De beta is de volatiliteit van het aandeel gemeten ten opzichte van de markt. Op Ychart is per bedrijf de maandelijkse beta te vinden, deze waarden zijn gemiddeld over de onderzoeksperiode. Voor het bedrijf Du Pont is er geen informatie beschikbaar op Ychart. De beta voor dit bedrijf is nergens anders gerapporteerd en daarom is alleen voor dit bedrijf geen beta waarde toegekend. De volatiliteit van het aandeel is berekend uit de financi¨ele data van Ranco. Hiervoor is per bedrijf is de standaardafwijking van de openingskoersen berekend.

De data over de hoeveelheid financi¨ele tweets, die gestuurd zijn in de onderzoeksperiode, is te vinden in het onderzoek van Ranco et al. (2015). De data bevat alle tweets dus zowel, de positieve en negatieve tweets, als de neutrale tweets. De verwachting is dat als er veel tweets over een bedrijf zijn gestuurd, het sentiment beter vast te stellen is en daarmee het rendement beter te voorspellen is.

3.3 Onderzoeksopzet

Voor de analyse is met Matlab 5-fold blocked cross-validation uitgevoerd om het rendement van de markt te voorspellen. Omdat het per bedrijf verschilt welk model het best voorspelt zijn voor tijdreeks autoregressievemodellen (AR-modellen) met een lag tussen nul en drie getest (4 waarden) en voor ieder AR-model Twitterlags van ´e´en tot en met drie (3 waarden). Het totaal aantal modellen is daarom 12 (3 x 4) en per bedrijf wordt uiteindelijk het beste model gekozen. In de laatste alinea van dit kopje zal uitgelegd worden op welke manier het beste model gekozen wordt. Om 5-fold blocked cross-validation uit te voeren is de data ingelezen in Matlab en verdeeld in vijf gelijke blokken. Per bedrijf zijn de modellen gefit op 4 blokken en is de fit gebruikt voor het voorspellen van het resterende blok, zodat er per bedrijf en per model 5 voorspellingen waren. De kwaliteit van de voorspelling is gemeten

(17)

middels de voorspelfout, gemiddeld over de vijf waarden per model. Er zijn verschillende manieren om de voorspelprecisie te kwantificeren, de gekozen manieren zijn de Root-Mean-Square-Error (RMSE) en de Mean-Absolute-Error (MAE).

De formules voor de RMSE en de MAE zijn hieronder weergegeven.

RMSE = s PN 1 (ˆyt− yt)2 N MAE = |ˆyt− yt| N

Er is overwogen om ook de Mean-Square-Error (MSE) te berekenen en weer te geven. Echter deze standaardfout is het kwadraat van de RMSE en daarom zullen beide standaardfouten dezelfde informatie bevatten. Het toevoegen van de MSE levert dus geen extra inzichten en is daarom niet opgenomen.

Aan de hand van de RMSE is per bedrijf het beste model gekozen. Een model met de kleinste RMSE heeft de beste voorspelprecisie, echter het model voorspelt pas goed als alle termen in het model significant zijn. Als bij de laagste RMSE-waarde alle termen in het model significant waren, is dit model gekozen. Als dit model niet-significante termen bevatte, is op RMSE volgorde van laag naar hoog het eerste model gekozen waarbij alle termen significant zijn. Per bedrijf is op deze manier een significant model vastgesteld en van dit model zijn naast de RMSE, ook de MAE-waarden verzameld. De reden dat het vaststellen van het model op deze manier gebeurt is dat er van investeerders ook verwacht wordt dat ze het beste voorspellende model per bedrijf kiezen. Dus om de invloed per eigenschap voor investeerders te onderzoeken, wordt ook in dit onderzoek per bedrijf het beste model gekozen. Als een bedrijf geen significante Twitterlags had, is dit bedrijf weggelaten uit de analyse.

(18)

3.4 Outliers

Na de dataverzameling zijn eerst de outliers verwijderd, van zowel de voorspelfouten (RMSE en MAE) als de bedrijfskarakteristieken. Het eerste kwartiel (Q1) en het derde kwartiel (Q3) zijn uitgerekend met behulp van Excel en aan de hand van de volgende formules zijn de hoogste en laagste toegestane waarde berekend.

Lowerbound= Q1 - (Q3-Q1) ∗ 1, 5

Upperbound= Q3 + (Q3-Q1) ∗ 1, 5

Datapunten die buiten deze grenzen vallen worden apart vermeld in de resultaten. Als er een verklaring voor de afwijkende waarden gevonden is, worden deze als outliers beschouwd en worden deze niet meegenomen worden in de analyse. Als er geen verklaring voor de afwijkende waarde gevonden wordt, kan deze niet als outlier beschouwd worden en zal deze meegenomen worden bij de analyse. De RMSE en MAE upper- en lowerbound zijn berekend op basis van alle bedrijven die een significante Twitterlag hebben.

3.5 Analyse

Na het verzamelen van alle data, het schatten van het beste model en het uitfilteren van de outliers kan de analyse van de resultaten beginnen. Voor de analyse zal ieder kenmerk tegen de RMSE en MAE-waarde uitgezet worden en in een scatterplot worden gepresenteerd. Er zal ook een regressie worden gedaan om te kijken of er een significant verband is. Vervolgens zal er nog een Ramsey-reset test uitgevoerd worden of het model lineair verondersteld mag worden. De eigenschappen van de niet-significante bedrijven zullen op de bovenste as in het scatterplot als kruisjes worden weergegeven. Zo kan er geanalyseerd worden of er een overeenkomst in deze eigenschappen aanwezig is.

Voor de sectoren van de GICS zal de analyse anders in zijn werk gaan. Voor iedere sector wordt de gemiddelde standaardfout uitgerekend (groep X) en ook de gemiddelde

(19)

standaardfout van alle bedrijven z´onder de desbetreffende sector (groep Y). Zo worden er twee onafhankelijke groepen gecreeerd met allebei een gemiddelde en standaardafwijking. Dit gebeurt voor iedere sector. Bij het berekenen van de gemiddelden van de groepen worden alleen de bedrijven meegenomen met een significante Twitterlag. Deze gemiddelden zullen in een staafdiagram weergegeven worden en daarbovenop zal de standaardfout weergegeven worden. Met een T-test kan er berekend worden of de gemiddelden van de groepen X en Y significant met elkaar verschillen. Als dat ze significant van elkaar verschillen betekend dit dat de desbetreffende sector beter of slechter te voorspellen is dan de andere sectoren. Deze analyse gebeurd voor zowel de RMSE als MAE waarden. De hypothesen en gebruikte formules staan hieronder weergegeven.

H0 : µX = µY, H1 : µX 6= µY T = X − ¯¯ Y S q 1 n+ 1 m S2= (n − 1)SX + (m − 1)SY n + m − 2

De T-verdeling heeft n+m-2 vrijheidsgraden. Omdat het totaal van de bedrijven (n+m) per onderzochte sector hetzelfde is, houdt deze toets geen rekening gehouden met de hoeveelheid bedrijven die in de desbetreffende sector zitten. Als er te weinig bedrijven in een sector zitten, kan de T-toets een vertekend beeld geven. Daarom zullen alleen de sectoren met meer dan 3 bedrijven onderzocht worden.

(20)

4

Resultaten en analyse

Dit hoofdstuk presenteert de resultaten van het onderzoek.

4.1 Beschrijvende statistiek

Model RMSE MAE Marktwaarde Dividend Leeftijd Werknemers Beta Volatiliteit Tweets GICS

AXP 0-AR, 1-TW 0,0082 0,006 90,456 1,0458 164 53500 1,624 6,99 21.941 F BA 0-AR,1-TW 0,0093 0,007 91,332 1,7308 98 166500 1,150 11,64 51.799 I CAT 0-AR, 1-TW 0,0079 0,005 59,885 2,4443 89 114233 1,820 9,73 38.739 M CSCO 0-AR, 1-TW 0,0096 0,006 123,964 2,8198 30 74042 1,296 1,46 57.427 IT CVX 0-AR, 1-TW 0,0061 0,004 234,338 3,2070 30 61456 0,932 4,79 29.477 E DD 0-AR, 1-TW 0,0081 0,005 48,550 2,7500 212 63000 - 4,42 17.340 M DIS 0-AR, 1-TW 0,0084 0,006 131,235 1,0045 91 180000 1,254 9,04 46.439 CD GE 0-AR, 1-TW 0,0072 0,005 258,076 3,0970 135 305000 1,643 1,26 61.836 I GS 0-AR, 1-TW 0,0082 0,006 74,077 1,2472 145 34000 1,498 7,15 91.057 F HD 0-AR, 1-TW 0,0081 0,006 110,971 1,9599 36 371000 0,931 3,76 30.923 CD IBM 0-AR, 1-TW 0,0078 0,005 197,281 2,0070 103 379592 0,650 6,68 101.077 IT INTC 0-AR, 1-TW 0,0094 0,006 131,100 3,4730 46 106.700 0,970 3,73 68.079 IT JNJ 0-AR, 1-TW 0,0062 0,004 267,892 2,5236 128 126500 0,568 6,11 40.503 HC JPM 0-AR, 1-TW 0,0091 0,006 210,655 2,5236 215 241359 1,585 2,51 108.810 F KO 0-AR, 1-TW 0,0067 0,004 175,906 2,8105 122 129.200 0,496 1,26 45.339 CS MCD 0-AR, 1-TW 0,0053 0,004 96,475 3,2105 59 420.000 0,333 2,65 45.971 CS MMM 0-AR, 1-TW 0,0067 0,005 86,767 2,0632 112 89.800 1,057 11,34 17.001 I MRK 0-AR, 1-TW 0,0077 0,005 154,123 3,3086 123 70000 0,506 4,79 54.986 HC MSFT 0-AR, 1-TW 0,0114 0,007 314,776 2,6124 39 128.000 0,939 3,97 183.184 IT NKE 0-AR, 1-TW 0,0089 0,006 64,587 1,1969 52 56.500 0,902 5,75 29.220 CD PFE 0-AR, 1-TW 0,0078 0,006 195,664 3,2359 165 78.300 0,725 1,27 71.415 HC PG 0-AR, 1-TW 0,0059 0,004 218,062 2,9820 177 118.000 0,466 2,07 25.751 CD T 0-AR, 1-TW 0,0078 0,005 182,319 5,2056 30 243620 0,484 1,05 75.886 TS TRV 0-AR, 1-TW 0,0067 0,004 31,089 2,2563 161 30.200 0,776 4,74 12.184 F UNH 0-AR, 1-TW 0,0086 0,006 74,816 1,4041 37 170.000 0,691 5,84 15.020 HC UTX 0-AR, 1-TW 0,0078 0,006 100,389 2,0330 39 211.000 1,114 6,67 16.123 I V 0-AR, 1-TW 0,0097 0,006 129,410 0,6873 56 9.500 0,679 15,08 43.375 F VZ 0-AR, 1-TW 0,0081 0,005 167,058 4,2816 14 177.300 0,427 1,47 45.177 TD WMT 0-AR, 1-TW 0,0060 0,004 246,935 2,4291 52 2.000.000 0,396 1,90 63.405 CD XOM 0-AR, 1-TW 0,0063 0,004 413,97 2,6063 15 75.300 0,677 5,17 46.286 E L.B. - 0,0038 0,003 -69,783 0,32679 -102 -96338 -0,31 -4,57 24.225 -U.B. - 0,0118 0,008 382,266 4,71313 275 342563 2,02 13,43 113.606

-Tabel 1: De gebruikte modellen, RMSE/MAE en de onderzochte bedrijfskenmerken per bedrijf

In de tabel zijn alle gebruikte gegevens weergegeven. Het bedrijf staat aangegeven met zijn ticker. In de laatste twee rijen staan de upper- en lowerbound, die per eigenschap zijn weergegeven. Waarden die niet tussen deze twee grenzen liggen worden apart onderzocht. Als er een verklaring te vinden is voor het afwijkende gedrag is de waarde geel gekleurd en

(21)

wordt de waarde als outlier beschouwd. Als er geen verklaring gevonden is voor het afwijkende gedrag, is de waarde oranje gekleurd en wordt deze niet als outlier beschouwd. De RMSE- en MAE-waarden van de bedrijven die geen significante Twitterlag hebben zijn blauwgekleurd.

Tabel 1 presenteert het gekozen model per bedrijf X-AR, Y-TW, waarbij X staat voor de gekozen AR-lag in dagen en Y voor de gekozen Twitterlag in dagen. Het model is gekozen op de manier beschreven in hoofdstuk drie, door vanaf de kleinste RMSE-waarde te zoeken naar het eerste complete significante model. De bedrijven 3M (MMM), Merck & Co (MRK), AT&T (T) en Travelers Companies (TRV) hebben in ieder model geen significante Twitterlag. Deze bedrijven worden, zoals uitgelegd in hoofdstuk 3, niet meegenomen in de analyse.

In tabel 1 worden de RMSE- en MAE-waarden per bedrijf weergegeven. Opvallend is dat per bedrijf de voorspelfouten tussen de modellen heel weinig verschillen en dat het voor de voorspelfout niet veel uitmaakt welk model er gekozen werd. Tussen de bedrijven verschillen de voorspelfouten wel met elkaar. Een overzicht van de verschillende voorspelfouten per model is te vinden in de bijlage, tabel 4 en 5.

In de tabel valt op dat de RMSE- en MAE-waarden van het aandeel van Microsoft groter lijken dan die van de andere bedrijven. Dat betekend dat het aandeel van Microsoft slechter te voorspellen is. Er is daarom onderzoek gedaan naar de data van Microsoft of hier een oorzaak voor te vinden is. Dit onderzoek heeft niks opgeleverd. Allereerst gedraagt de koers van Microsoft zich niet anders dan de koers van de andere bedrijven. Uit de analyse naar het koersrendement van Microsoft blijkt ook dat dit zich niet anders gedraagt dan het koersrendement van de andere bedrijven. Een unit-root test naar het koersrendement van Microsoft laat zien dat er geen unit-root aanwezig is, wat ook een oorzaak had kunnen zijn voor de slechte voorspelbaarheid.

Na de voorspelfouten worden de karakteristieken per bedrijf gepresenteerd. Van de marktwaarde en het rendement op dividend is de standaardafwijking ook berekend, omdat er

(22)

van deze eigenschap dagelijkse data is verzameld. Deze standaardafwijkingen zijn te vinden in de bijlage tabel 6. De standaardafwijking geeft aan of de marktwaarde en rendement op dividend per bedrijf erg geschommeld hebben in die periode. Zoals te zien in tabel 6 zijn de standaardafwijkingen van de marktwaarde van Microsoft en Verizon Communications groter dan gemiddeld. Van het rendement op dividend zijn de standaardafwijkingen van Intel en Cisco Systems groter dan gemiddeld. De eigenschappen van deze bedrijven zijn dus minder stabiel geweest dan die van de andere bedrijven. In tabel 6 is ook te zien dat voor het bedrijf DuPont de standaardafwijking van de eigenschappen marktwaarde en rendement op dividend ontbreken. Omdat er voor beide eigenschappen slechts twee jaarlijkse waarden beschikbaar waren is de standaarddeviatie niet berekend. In tabel 1 te zien dat de beta waarde mist voor het bedrijf DuPont, deze waarde is niet beschikbaar.

Er zijn 4 outliers in de data van de eigenschappen gevonden: de marktwaarde van Exxon Mobil (XOM) en het aantal werknemers van zowel McDonalds (MCD) als Walmart (WMT). Deze waarden zijn licht geelgekleurd in de tabel en worden niet meegenomen in de analyse. De outlier van Exxon Mobil kan verklaard worden uit het feit dat Exxon Mobil een grote olieproducent is met de tankbedrijven Esso, Exxon en Mobil onder zich. Exxon Mobil behoort tot de zes grootste onafhankelijke oliebedrijven in de wereld. Het feit dat de hoeveelheid werknemers van McDonalds en Walmart significant groter is dan die van de andere bedrijven kan worden gewijd aan het feit dat deze bedrijven ontzettend veel vestigingen hebben. Waarbij iedere vestiging mensen in dienst heeft. McDonalds heeft veel fastfoodketens over de hele wereld en Walmart ongeveer 12.000 winkels in meer dan 28 landen. Zoals te zien zijn er bij de eigenschap tweets ook een aantal waarden die niet tussen de upper-en lowerbound zitten. Een verklaring hiervoor is niet gevonden, deze waarden zullen dus meegenomen worden in de analyse.

Tabel 1 geeft als laatste aan in welke sector het bedrijf zit volgens de GICS. Deze sector is afgekort tot 1 letter. Er zijn in deze 30 DIJA-bedrijven 9 verschillende sectoren aanwezig: Consumer Discretionary (CD), Consumer Staples (CP), Energy (E), Financials (F), Health Care (HC), Industrials (I), Information Technology (IT), Materials (M) en

(23)

Telecommunication Services (TS)

Hieronder wordt per eigenschap de resultaten en de analyse gepresenteerd aan de hand van scatterplots, outputs en testen.

4.2 Marktwaarde

Voor de eigenschap marktwaarde is er allereerst een scatterplot gemaakt met een OLS-regressie (zie figuren 23 en 24 in de bijlagen). Kijkend naar deze scatterplots valt op dat de regressie lijn veel vlakker loopt dan de datapunten doen vermoeden. Een mogelijkheid hiervoor is dat het punt van Microsoft (rechtsboven) erg buiten de andere punten valt. In kleine steekproeven is een OLS-schatting zeer gevoelig voor afwijkende waarden. Daarom is er gekozen om voor deze eigenschap een robuuste schatting te gebruiken.

Figuur 1: MAE en marktwaarde robuust Figuur 2: RMSE en marktwaarde robuust

In figuur 1 en 2 zijn de scatterplots weergegeven van de MAE en RMSE voor de eigenschap marktwaarde, waarbij de lijn een robuuste schatting weergeeft. Kijkend naar de scatterplots en de outputs (tabel 7 en 8 in de bijlage) is te zien dat er een significant negatief verband aanwezig is tussen de marktwaarde en de voorspelfout. Hoe hoger de marktwaarde van een bedrijf, hoe beter dit bedrijf te voorspellen is met behulp van de Twitterdata. Omdat er een robuuste schatting gebruikt is, is het doen van een Ramsey-Reset test niet mogelijk.

(24)

De marktwaarde van de niet-significante bedrijven liggen allemaal onder de 200 miljard dollar, maar liggen verder niet heel dicht bij elkaar. Hierover kan niks geconcludeerd worden.

4.3 Rendement op dividend

Figuur 3: MAE en dividend yield OLS Figuur 4: RMSE en dividend OLS yield

In figuur 3 en 4 zijn de scatterplots weergegeven van de MAE en de RMSE voor de eigenschap rendement op dividend. Er lijkt een verband aanwezig te zijn tussen het rendement op dividend en de schattingsprecisie. Hoe hoger het uitgekeerde rendement op dividend, hoe lager de voorspelfout. De output is echter in beide regressies niet 5% significant (tabel 9 en 11). Omdat er geen outliers invloed lijken te hebben op de regressie, is er geen robuuste schatting gedaan. De Ramsey-reset tests, tabellen 10 en 12, laten daarentegen wel zien dat het model goed gespecificeerd is. Dus een lineaire regressie is gerechtvaardigd. Omdat er in deze analyse geen significant verband gevonden is, kunnen er verder geen conclusies getrokken worden over deze eigenschap. Het rendement op dividend van de niet-significante bedrijven lijken geen sterke overeenkomsten te vertonen.

(25)

4.4 Leeftijd

Figuur 5: MAE en leeftijd OLS Figuur 6: RMSE en leeftijd OLS

In figuur 5 en 6 zijn de scatterplots van de MAE en RMSE voor de eigenschap leeftijd weergegeven. Uit beide scatterplots en outputs komt duidelijk naar voren dat er geen significant verband is tussen de voorspelprecisie en de leeftijd van een bedrijf. Omdat dit duidelijk uit de scatterplots en outputs naar voren komt is er geen lineairiteitstest uitgevoerd. De leeftijd van de niet-significante bedrijven vertoont geen overeenkomst.

4.5 Aantal werknemers

Figuur 7: MAE en werknemers OLS Figuur 8: RMSE en werknemers OLS

In figuur 7 en 8 zijn de scatterplots van de MAE en de RMSE weergegeven voor het aantal werknemers. Uit beide scatterplots en outputs komt duidelijk naar voren dat er geen

(26)

significant verband is tussen de voorspelprecisie en het aantal werknemers van een bedrijf. Omdat dit duidelijk uit de scatterplots en outputs naar voren komt is er geen lineairiteitstest uitgevoerd. De niet-significante bedrijven vertonen daarnaast wat betreft het aantal werknemers geen overeenkomst.

4.6 Beta

Figuur 9: MAE en beta OLS Figuur 10: RMSE en beta OLS

In figuur 9 en 10 zijn de scatterplots van de MAE en RMSE weergegeven voor de eigenschap beta. Uit de figuren 9 en 10 en de regressieoutputs (tabel 17 en 19 in de bijlage) blijkt dat er een positief significant verband is tussen de beta van een bedrijf en de voorspelfout. Dus hoe lager de volatiliteit ten opzichte van de markt, hoe lager de voorspelfout. Er is ook een Ramsey-reset test uitgevoerd of dit model goed gespecificeerd is. Uit tabel 18 en 20 (in de bijlage) blijkt dat er geen reden is om het lineaire model te verwerpen. De beta’s van de niet-significante bedrijven lijken redelijk dicht bij elkaar te liggen. Twee beta’s zijn zelfs bijna precies even groot.

(27)

4.7 Volatiliteit

Figuur 11: MAE en volatiliteit OLS Figuur 12: RMSE en volatiliteit OLS

Uit figuur 11 en 12 en de regressieoutputs (tabel 25 en 26 in de bijlage) blijkt dat er een positief significant verband is tussen beide voorspelfouten en de volatiliteit van de openingskoers. Hoe lager de volatiliteit van de openingskoers van een bedrijf is, hoe lager de voorspelfout in de voorspelling met de Twitterdata. De uitgevoerde Ramsey-reset testen geven daarnaast ook aan dat beide modellen goed gespecificeerd zijn, tabel 22 en 24 in de bijlage. Twee volatiliteitswaardes van de niet-significante bedrijven zijn bijna precies even groot, echter de andere beta’s liggen daar ver vandaan. Het lijkt er daarom op dat ze geen overeenkomst vertonen.

4.8 Tweets

In tabel 1 is te zien dat veel datawaarden over de hoeveelheid tweets afwijkend lijken te zijn, omdat er geen oorzaak voor deze afwijkende waarden te vinden is kunnen deze niet weggelaten worden. In de scatterplot met de OLS-regressie, figuren 25 en 26 in de bijlage, ziet het eruit alsof het punt van Microsoft (rechts bovenin) de schatting sterk be¨ınvloedt. Daarom is ook voor deze eigenschap een robuuste schatting gedaan.

(28)

Figuur 13: MAE en Tweets robuust Figuur 14: RMSE en tweets robuust

In figuur 13 en 14 zijn de scatterplots weergegeven van de MAE en RMSE voor de eigenschap hoeveelheid tweets, waarbij de lijn een robuuste schatting weergeeft. In de scatterplots en de outputs (tabel 25 en 26 in de bijlage) is te zien dat er een positief significant verband bestaat tussen de hoeveelheid tweets en de voorspelfout. Dus hoe meer er over een bedrijf gewtitterd is, hoe slechter het bedrijf te voorspellen is. Dit is precies het tegenover gestelde wat er verwacht werd. De verwachting was dat als er meer tweets gestuurd zijn, het sentiment beter vast te stellen is en daardoor het rendement beter te voorspellen is. Deze hypothese wordt ontkracht door de resultaten. Omdat er een robuuste schatting gedaan is, kan er geen Ramsey-Reset test op lineariteit uitgevoerd worden.

De hoeveelheid tweets van de niet-significante bedrijven liggen allemaal onder de 80.000. Ze lijken echter verder geen overeenkomst te vertonen.

(29)

4.9 Global Industrial Classification Standard

Figuur 15: GICS en de gemiddelde MAE Figuur 16: GICS en de gemiddelde RMSE

Sector #bedrijven MAE T-waarde MAE p-waarde RMSE T-waarde RMSE p-waarde Consumer discretionary 5 -0,963 0,345 -0,836 0,411 Consumer staples 2 - - - -Energy 2 - - - -Financials 5 1,828 0,08 1,363 0,186 Health care 4 -0,226 0,823 -0,518 0,609 Industrials 4 0,952 0,350 0,286 0,777 Information technology 4 1,671 0,108 2,863 0,009 Materials 2 - - - -Telecommunication services 2 - - -

-Tabel 2: De hoeveelheid bedrijven in een sector

In figuur 15 en 16 zijn de RMSE- en de MAE-waarden van de bedrijven in iedere sector gemiddeld, de standaardafwijking van iedere sector is bovenop de kolom aangegeven. Tabel 2 geeft aan hoeveel bedrijven er in iedere sector zitten, de T- en p-waarde voor elke gemiddelde voorspelfout.

De vier niet-significante bedrijven zitten allemaal in verschillende sectoren (Financials, Health Care, Industrials en Telecommunication Services). De sector van een bedrijf zegt dus niks over de significantie van de Twitterlag. In de sector Telecommunication Services zitten twee bedrijven, waarvan er ´e´en niet-significant was. Daarom kan van deze sector geen standaardafwijking berekend worden.

(30)

Van de sectoren met meer dan drie bedrijven zijn de gemiddelden getest tegen het gemiddelde van alle bedrijven exclusief de sector zelf. Tabel 2 laat de resultaten zien. Er is te zien dat het RMSE-gemiddelde van de sector Information Technology significant groter is dan het RMSE-gemiddelde van de andere bedrijven. Dit is de enige significante gevonden waarde. De andere sectoren verschillen niet significant van de andere sectoren, de nulhypothese kan voor deze sectoren dus niet verworpen worden.

(31)

5

Conclusie

Na het uitvoeren van het onderzoek en het rapporteren en analyseren van de resultaten kan er nu een conclusie worden gepresenteerd.

Allereerst kan er worden geconcludeerd dat de voorspelfouten per model per bedrijf zeer weinig van elkaar verschillen. Het maakt dus voor de voorspelprecisie van de aandelenmarkt niet heel veel uit hoeveel autoregressieve lags en Twitterlags er in het model worden opgenomen.

De voorspelfouten van alle bedrijven scheelden van elkaar, maar lagen wel in dezelfde orde van grootte. Alleen de voorspelprecisie van Microsoft leek van deze grootte af te wijken. Er kan dus ook geconcludeerd worden dat het koersrendement van bepaalde bedrijven beter te voorspellen is dan die van andere bedrijven, maar dat het verschil niet heel groot is.

Uit de resultaten blijkt dat de eigenschap marktwaarde een significante negatieve invloed heeft op de voorspelfout. Dus er kan geconcludeerd worden dat hoe groter de marktwaarde van een bedrijf is, hoe beter het bedrijf te voorspellen is met behulp van Twitterdata. Hieruit kan geconcludeerd worden dat een investeerder betere voorspellingen kan maken over het rendement van de koers van een bedrijf, als dat bedrijf een hogere marktwaarde heeft. Als een investeerder dit meeneemt in zijn handelsstrategie, kan dit eventueel voor meer winst zorgen.

De eigenschap rendement op dividend lijkt een negatief verband te hebben op de voorspelfout. Kijkend naar deze outputs is dit verband net niet 5% significant. Een Ramsey-reset test heeft wel laten zien dat het model lineair is. Nu kan er dus niks geconcludeerd worden over de eigenschap rendement op dividend. Vervolgonderzoek zal moeten uitwijzen of er een verband aanwezig is.

(32)

hoeveelheid werknemers is naar voren gekomen dat er voor deze eigenschappen geen verband te vinden is met de voorspelprecisie. Over de eigenschappen leeftijd en aantal werknemers kan daarom worden geconcludeerd dat ze geen invloed hebben op de voorspelprecisie.

Bij de twee volatiliteitseigenschappen, beta en volatiliteit, is wel een significant verband gevonden met de voorspelprecisie. Hoe lager de volatiliteit, hoe lager de voorspelfout. En hetzelfde verband is gevonden voor de beta. Hoe lager de volatiliteit ten opzichte van de markt, hoe lager de voorspelfout. Een investeerder kan dus betere voorspellingen maken over het koersrendement als het bedrijf een lage volatiliteit heeft.

De hoeveelheid tweets over een bedrijf heeft een significant negatief verband met de voorspelfout. Dus hoe meer tweets er over een bedrijf gestuurd zijn, hoe slechter het koersrendement van dat bedrijf te voorspellen is. De verwachting gesteld in hoofdstuk 3 is hiermee ontkracht. Vervolgonderzoek zal moeten uitwijzen wat de oorzaak is van het gevonden verband.

De standaardfouten van de GICS zijn gemiddeld en weergegeven in de resultaten. Er is getest of de gemiddelde voorspelfout van sectoren met meer dan drie bedrijven significant verschillen van de andere sectoren. Uit deze resultaten is gebleken dat alleen de RMSE van de sector Information Technology significant groter is dan de RMSE van de andere sectoren samen. De MAE van deze sector was niet significant groter. Algemene conclusies over de voorspelfout van deze sector kunnen dus niet getrokken worden. De standaardfouten van de andere sectoren blijken niet significant van elkaar te verschillen.

De meeste eigenschappen van de bedrijven, die geen significante-Twitterlag hebben, vertonen geen overeenkomst. De enige eigenschap die een kleine overeenkomst lijkt te vertonen is die van de beta. Echter, er zijn te weinig waarnemingen en het verband is niet sterk genoeg om hier conclusies over te trekken.

Samenvattend kan er geconcludeerd worden dat de marktwaarde een negatieve invloed heeft op de voorspelfout. De hoeveelheid twitterberichten, de volatiliteit en de beta van een aandeel hebben een positieve invloed op de voorspelfout. In dit onderzoek is geen significant

(33)

verband gevonden tussen de voorspelfout en het rendement op dividend. Tot slot kan er geconcludeerd worden dat de eigenschappen leeftijd en aantal werknemers geen invloed hebben op de voorspelprecisie. De eigenschappen van bedrijven die geen significante Twitterlag hebben vertonen geen overeenkomst met elkaar.

(34)

6

Discussie

In dit laatste hoofdstuk wordt er allereerst onderzocht of de eigenschappen die significante verbanden hebben met elkaar gecorreleerd zijn. Hierna volgen aanbevelingen voor vervolgonderzoek naar de invloed van bedrijfseigenschappen op de voorspelprecisie.

6.1 Correlatie tussen de eigenschappen

In dit onderzoek zijn er 4 verbanden gevonden tussen eigenschappen en de voorspelfout. Namelijk, de eigenschap marktwaarde heeft een negatieve invloed op de voorspelfout. De eigenschappen tweets, beta en volatiliteit hebben een positieve invloed op de voorspelfout. Hieronder worden de eigenschappen tegen elkaar uitgezet, om te kijken of er een overeenkomst tussen te vinden is. Als de eigenschappen met elkaar gecorreleerd zijn, zijn de gevonden invloeden op de voorspelfout van elkaar afhankelijk.

Figuur 17: Volatiliteit en beta Figuur 18: Tweets en beta Figuur 19: Tweets en volatiliteit

Figuur 20: Volatiliteit en marktwaarde Figuur 21: Beta en marktwaarde Figuur 22: Tweets en

marktwaarde

(35)

positief verband tussen de punten, dus als de volatiliteit hoog is, is de volatiliteit ten opzichte van de markt ook hoog. Er kan hieruit worden opgemaakt dat het verband tussen de voorspelfout en beide volatiliteitseigenschappen afhankelijk is. Beide eigenschappen zeggen iets over de volatiliteit van het bedrijf, daarom is het logisch dat invloed op de voorspelfout afhankelijk is.

Kijkend naar de datapunten in figuur 18 is er geen verband te zien tussen de hoeveelheid tweets en de beta van een bedrijf. In figuur 19 is ook geen verband te zien tussen de hoeveelheid tweets en de volatiliteit van de openingskoers. Daarom is er in beide scatterplots geen regressielijn getekend. Hieruit kan worden opgemaakt dat de invloed van de hoeveelheid tweets op de voorspelfout niet afhankelijk is van de invloed van de volatiliteitseigenschappen. Deze beide eigenschappen hebben dus hun eigen invloed op de voorspelfout.

In figuur 20 is het scatterplot van de volatiliteit ten opzichte van de marktwaarde weergegeven. Te zien is dat er geen verband aanwezig is tussen de twee eigenschappen. In figuur 21 is het scatterplot van de beta ten opzichte van de marktwaarde weergegeven. Ook tussen de beta van de marktwaarde is geen verband aanwezig. Hieruit kan de conclusie getrokken worden dat de invloed van de marktwaarde op de voorspelprecisie niet afhankelijk is van de invloed van de twee volatiliteitseigenschappen.

In figuur 22 is het scatterplot te zien van de eigenschappen hoeveelheid tweets en marktwaarde. Er is een positief verband tussen de eigenschappen aanwezig. Dit positieve verband is opmerkelijk aangezien er in de resultaten naar voren kwam dat een hoge marktwaarde een hoge voorspelprecisie betekent, echter een hoge hoeveelheid tweets betekende een lage voorspelprecisie. Het verband tussen de hoeveelheid tweets en de marktwaarde is dus precies tegenovergesteld aan wat de resultaten deed vermoeden. Vervolgonderzoek zal moeten uitwijzen wat hier de oorzaak van is.

Samenvattend, is de invloed op de voorspelfout van de twee volatiliteitseigenschappen afhankelijk. Beide eigenschappen staan voor een maat van volatiliteit, dus deze bevinding is logisch. De invloed op de voorspelprecisie van de eigenschappen hoeveelheid tweets en de

(36)

marktwaarde lijkt ook van elkaar afhankelijk te zijn, echter het gevonden resultaat is precies tegenovergesteld aan wat verwacht werd te vinden. Nader onderzoek zal moeten uitwijzen wat hier de oorzaak van is.

6.2 Aanbevelingen

In deze paragraaf volgen de aanbevelingen voor vervolgonderzoek. Allereerst kan er in de toekomst naar meer bedrijven gekeken worden. Dit onderzoek heeft zich gericht op de eigenschappen van 30 bedrijven, omdat de financi¨ele en Twitterdata van deze bedrijven beschikbaar was. Het zal echter betere resultaten opleveren als er meer bedrijven in de analyse zitten. Bijvoorbeeld door het gebruik van data van de 500 bedrijven in de S&P500.

Ook is er in dit onderzoek alleen gebruik gemaakt van Amerikaanse bedrijven. Vervolgonderzoek zou kunnen kijken naar de eventuele verschillen in invloed van eigenschappen van Amerikaanse bedrijven ten opzichte van bijvoorbeeld Europese, Aziatische of Australische bedrijven. Wellicht zijn er in deze werelddelen andere soorten Twitter, die veel populairder zijn en daardoor beter voor dit soort onderzoek in die landen gebruikt kan worden.

In dit onderzoek is de onderzoeksperiode van 3 juni 2013 tot 18 september 2014 gebruikt, omdat de financi¨ele en Twitterdata van Ranco et al. (2015) over deze onderzoeksperiode beschikbaar was. Echter, 1,5 jaar is een korte periode om een voorspellend model te bouwen en te fitten. De lengte van de onderzoeksperiode zou in de toekomst uitgebreid kunnen worden.

Dit onderzoek is gericht op het vinden van de invloed van 8 eigenschappen van een bedrijf. Vervolgonderzoek zou ook meer eigenschappen kunnen onderzoeken. Zoals: Return on Equitiy (ROE), Return on Assets (ROA), handelsvolume of de winstgevendheid van een bedrijf. Deze eigenschappen worden ook als belangrijk aangemerkt in het onderzoek van Khan. et al (2017).

Als er in vervolgonderzoek met de bovenstaande zaken rekening gehouden wordt, kan de invloed van de eigenschap rendement op dividend verder worden onderzocht. Daarnaast

(37)

kan de invloed van eventuele andere eigenschappen aan het licht komen, wat in de toekomst investeerders ook kan helpen betere handelsbeslissingen te nemen.

(38)

7

Bijlage

Tabel 3: De 30 DJIA bedrijven

Tabel 4: Alle MAE waarden voor alle modellen

(39)

Tabel 6: De standdaarddeviaties van martkwaarde en rendement op dividend

Figuur 23: MAE en marktwaarde OLS Figuur 24: RMSE en marktwaarde OLS

(40)

Tabel 9: MAE en dividend yield OLS Tabel 10: Ramsey-reset test MAE en dividend yield

Tabel 11: RMSE en dividend yield OLS Tabel 12: Ramsey-reset test RMSE en dividend yield

Tabel 13: MAE en leeftijd OLS Tabel 14: RMSE en leeftijd OLS

(41)

Tabel 17: MAE en beta OLS Tabel 18: Ramsey-reset test MAE en beta

Tabel 19: RMSE en beta OLS Tabel 20: Ramsey-reset test RMSE en beta

Tabel 21: MAE en volatiliteit OLS Tabel 22: Ramsey-reset test MAE en volatiliteit

(42)

Figuur 25: MAE en tweets OLS Figuur 26: RMSE en tweets OLS

(43)

Referenties

[1] Bollen, J., Mao, H., & Zeng, X. (2011). Twitter mood predicts the stock market. Journal of computational science, 2(1), pp. 1-8.

[2] Khan, M. T. I., Tan, S. H., Chong, L. L., & Ong, H. B. (2017). Investment characteristics, stock characteristics and portfolio diversification of finance professionals. Borsa Istanbul Review, 17(3), pp. 164-177.

[3] Mao, Y., Wei, W., Wang, B., & Liu, B. (2012, August). Correlating SP 500 stocks with Twitter data. Proceedings of the first ACM international workshop on hot topics on interdisciplinary social networks research, pp. 69-72.

[4] Mittal, A., & Goel, A. (2012). Stock prediction using twitter sentiment analysis. Standford University, CS229, 15.

[5] Prechter Jr, R. R., & Parker, W. D. (2007). The financial/economic dichotomy in social behavioral dynamics: the socionomic perspective. The Journal of Behavioral Finance, 8 (2), pp. 84-108.

[6] Ranco, G., Aleksovski, D., Caldarelli, G., Grcar, M., & Mozetic, I. (2015). The effects of Twitter sentiment on stock price returns. PloS one, 10 (9), e0138441.

[7] Souza, T. T. P., Kolchyna, O., Treleaven, P. C., & Aste, T. (2015). Twitter sentiment analysis applied to finance: A case study in the retail industry. Handbook of Sentiment Analysis in Finance.

[8] Sul, H. K., Dennis, A. R., & Yuan, L. I. (2014, January). Trading on Twitter: The financial information content of emotion in social media. In System Sciences (HICSS), 2014 47th Hawaii International Conference on pp. 806-815.

(44)

[9] Wendy, W., Asri, M., & Hartono, J. (2014). The Formation of Rational and Irrational Behaviors in Risky Investment Decision Making: Laboratory Experiment of Coping Theory Implication in Investorsˆa Adaptation Model. Indonesian Capital Market Review.

[10] Zheludev, I., Smith, R., & Aste, T. (2014). When can social media lead financial markets?. Scientific reports, 4, 4213.

Referenties

GERELATEERDE DOCUMENTEN

Op welke manier heeft de politie in loop der tijd het voorspellen van criminaliteit steeds verder omarmd en welke knelpunten kunnen bij de implementatie van predictive

Similar to Paul’s positive use of slavery metaphors to describe the life in Christ against slavery’s dehumanising tenor, he used military imagery in a way that forces a rethink

Andere methoden maken koeling niet overbodig, maar dragen bij aan houdbaarheid bij koeling:. • Pasteuriseren (vaste of

Er werd aangetoond dat de Argusvlin- der in het warmere microklimaat van de Kempen meer zou moeten investeren in een derde generatie, terwijl in de koe- lere Polders nakomelingen

De dataset bestaat uit 25 afwaarderingen ‘tussen klassen’ en 18 afwaarderingen ‘binnen klasse’ over de periode 1 januari 1990-15 september 2003, aangekondigd door Moody’s

Veel van dit materiaal is heden ten dage voor de bouw in- teressant; tras, gemalen tuf is zeer geschikt als specie voor waterdicht metselwerk.. Bims, puimsteenkorrels tot

Om een vergelijking te kunnen maken tussen de resultaten van de praktijktoets van de soort- benadering en die van de gemeenschapsbenadering, zijn de berekende soorten van de