Dataset citatie en de reproduceerbaarheid van resultaten aan de hand van code

(1)

Dataset citatie en de

reproduceerbaarheid van

resultaten aan de hand van code

Rianne Beelen

11721472

Bachelor thesis Credits: 18 EC

Bachelor Opleiding Informatiekunde

University of Amsterdam Faculty of Science Science Park 904 1098 XH Amsterdam Supervisor Dr. M. J. Marx ILPS, IvI Faculty of Science University of Amsterdam Science Park 904 1098 XH Amsterdam 2020-06-19

(2)

Samenvatting

In deze scriptie wordt er gekeken naar de invloed van dataset citatie en de reproduceerbaarheid van code op impact van een wetenschappelijk ar-tikel, gemeten door het aantal citaties. Dit wordt gedaan aan de hand van een zelfgemaakt protocol. Het zelf gemaakte protocol bestaat uit 3 hoofdonderdelen kijkend naar de invloed van dataset citatie, reproduceer-baarheid en algemene factoren op het citatie aantal van een artikel. Uit het onderzoek is gebleken dat de dataset citatie van positieve invloed is op de impact van een artikel. Voor de reproduceerbaarheid van code was dit echter niet te meten door een gebrek aan artikelen waarvan de resultaten gereproduceerd konden worden.

Keywords: Dataset citation, reproduceerbaarheid, dataset

1 Introductie

De laatste jaren is het gebruik van datasets in wetenschappelijke literatuur sterk toegenomen. De beschikbaarheid van deze data is van groot belang voor de reproduceerbaarheid van een wetenschappelijk artikel [12], want zonder de beschikbaarheid van deze data kan een onderzoek niet gereproduceerd worden. Een onderzoek is reproduceerbaar wanneer het onderzoek herhaald wordt door andere onderzoekers met dezelfde data en methode. Hierbij is het doel om te kijken of de resultaten inderdaad zijn af te leiden van de gegeven data [8]. Een onderzoek kan niet deels reproduceerbaar zijn. Het is of reproduceerbaar of niet.

Het delen van een dataset draagt niet alleen bij aan de reproduceerbaarheid van een artikel. Het draagt ook bij aan het hergebruik van de dataset voor an-dere onderzoeken [1]. Om meer aandacht te krijgen voor de beschikbaarheid van datasets heeft de International Association of Scientific, Technical and Medical Publishers (STM), het jaar 2020 uitgeroepen tot het jaar van onderzoeks data [12].

Om ervoor te zorgen dat een dataset vindbaar is voor lezers van een artikel is het van belang dat deze goed geciteerd wordt. Hoe meer elementen de citatie bevat, hoe makkelijker een dataset terug te vinden is voor een lezer, dit heeft te maken met de elementen die een citatie bevat [7]. De manier van dataset citaties verschilt nog erg tussen papers, sommige artikelen plaatsen de citaties in voetnoten andere in de literatuurlijst. Ook de elementen die gebruikt worden zijn erg verschillend, zo is de titel van een dataset in combinatie met de URL een voorkomende combinatie, maar ook de auteur, titel en publicatie datum [1, 7].

In voorgaand onderzoek is aangetoond dat het delen van gebruikte data invloed heeft op de impact van een artikel [10, 11, 14]. Maar hoe be¨ınvloed de manier van dataset citatie en de reproduceerbaarheid van code de impact van een wetenschappelijk artikel, gemeten in citatie aantal? Om deze vraag te beantwoorden wordt er gekeken naar de volgende deelvragen:

1. Welke methode voor dataset citatie wordt het meest gebruikt?

(3)

3. Zien we reproduceerbaarheid verbeteren nu er meer nadruk op gelegd wordt?

Er wordt verwacht dat hoe vollediger de dataset citatie gedaan wordt en of de code van een artikel reproduceerbaar is, een positieve invloed heeft op de impact van een artikel. Of dit zo is, zal onderzocht worden aan de hand van het analyseren van verschillende papers van 4 conferenties. Het analyseren zal gedaan worden door een zelf opgesteld protocol te gebruiken wat kijkt naar dataset citatie en de reproduceerbaarheid van code.

2 Theoretisch kader

In deze sectie wordt er gekeken naar voorgaand onderzoek naar dataset citatie. Ook wordt er gekeken naar welke initiatieven genomen zijn om de reproduceer-baarheid van wetenschappelijke artikelen te vergroten. De laatste subsectie zal ingaan op de al gevonden factoren die invloed hebben op de impact van een wetenschappelijk artikel.

2.1 Dataset citatie

In het citeren van datasets in wetenschappelijke literatuur zitten nog grote ver-schillen. Voorgaand onderzoek heeft aangetoond dat toegankelijkheid tot de datasets bijdraagt aan een hoger aantal citaties van een paper [10, 11, 14]. Om te kunnen zien of de manier van het citeren van een dataset invloed heeft op de impact, wordt er in deze thesis gekeken naar 3 karakteristieke eigenschappen van een dataset citatie.

Als het gaat om het citeren van een dataset zijn er twee manieren om dit te doen: direct en indirect. Bij een directe citatie, gaat bijvoorbeeld de citatie naar de database waar de dataset vandaan komt, direct naar de oorsprong dus. Bij een indirecte citatie, gaat de citatie naar een artikel waarin de onderzoekers de dataset gebruikt hebben. Dit is ook vaak waar de onderzoekers kennis hebben verkregen van die dataset [1].

Net zoals andere citaties bevat een dataset citatie bepaalde elementen. Mooney & Newton [7] hebben onderzoek gedaan naar elementen die veel voorkomen in dataset citatie. De meest voorkomende elementen zijn de titel van de dataset, de auteurs of makers, de datum van publicatie, de uitgever en een URL naar waar de dataset te vinden is. Naast deze elementen zijn ze ook elementen te-gengekomen zoals een “material designator” die aangeeft of het om bijvoorbeeld een dataset, database of een corpus gaat. Ook een element dat voor permanente identificatie zorgt zoals een DOI wordt gebruikt binnen de citatie van datasets. Gebaseerd op deze elementen hebben Mooney & Newton [7] een Dataset Ci-tation Adequacy Index (DCAI) gemaakt waarmee, gebaseerd op de aanwezige elementen een score gegeven kan worden aan de dataset citatie. De maximale score die een dataset citatie kan krijgen op deze index is 12. Voor auteur, ti-tel, datum van publicatie, uitgever en URL worden 2 punten toebedeeld, voor material designator en een persistentie identificatie wordt 1 punt toebedeeld. Deze scoring methode zal ook in het protocol gebruikt worden. Een voorbeeld van een directe citatie met alle elementen van Mooney & Newton is gegeven in figuur 1.

(4)

Figuur 1: Een voorbeeld van een directe citatie.

2.2 Reproduceerbaarheid van artikelen

Onder verschillende conferenties zijn de afgelopen jaren meerdere inspanningen gedaan om de reproduceerbaarheid van gepubliceerde artikelen te vergroten. Zo heeft in 2017 de conferentie SigKDD hun acceptatiebeleid van artikelen aan-gepast om extra focus te leggen op reproduceerbaarheid. Dit was vooral te merken in hun oproep voor artikelen waar ze een speciaal kopje voor reprodu-ceerbaarheid hebben toegevoegd, waar voorgaande jaren deze ontbrak [5]. De conferentie SigMOD heeft een vergelijkbaar kopje toegevoegd aan hun oproep voor artikelen [15]. Hoe SigMOD deze oproep doet is te zien in figuur 2.

In 2018 heeft de Association for Computing Machinery (ACM) een beleid gecre¨eerd over de beoordeling van artefacten van artikelen. Dit beleid geeft hun special interest groups (Sigs) een kader om meer te focussen op reproduceer-baarheid en dit nauwkeuriger te beoordelen. De implementatie van dit beleid in het beoordelingssysteem van artikelen van een conferentie als SigIR, heeft de verwachting een positieve invloed te hebben op de reproduceerbaarheid van artikelen [3].

Onderzoekers kunnen zelf aangeven of ze hun artikelen hierop willen laten beoordelen. Een apart comit´e checkt de artikelen dan op aspecten zoals de beschikbaarheid van artefacten uit het artikel en de reproduceerbaarheid van de resultaten [4].

Figuur 2: Het kopje reproduceerbaarheid in de oproep voor papers van SigMOD [15]

2.3 Andere factoren met invloed op de impact van

weten-schappelijke artikelen

Er zijn meerdere factoren die invloed hebben op de impact van wetenschap-pelijke artikelen. Hoe dataset citaties gedaan worden en hoe makkelijk code

(5)

reproduceerbaar is, zijn de twee factoren waar op gefocust wordt. Andere fac-toren zijn onder andere het aantal auteurs [10, 9, 11], het open access beleid van een tijdschrift en de tijdschrift impact factor [10, 16, 17]. Alle drie deze fac-toren zijn van positieve invloed op de impact van een wetenschappelijk artikel. Ook het delen van data, ongeacht de vorm van citatie draagt positief bij aan de impact [2].

3 Methode

In deze sectie wordt er ingegaan op de methode die gebruikt is in dit onderzoek. Er wordt gekeken naar de geselecteerde artikelen en het zelfgemaakte protocol. Ook zal er worden ingegaan op de analyse van de artikelen.

3.1 Selecteren van artikelen

Om artikelen te kunnen analyseren voor dit onderzoek is het belangrijk dat ze gebruik maken van datasets en code gebruiken waarvan de reproduceerbaarheid gecontroleerd kan worden. Om deze reden zijn er van de conferenties NIPS, SigIR, SDM en verschillende VISION conferenties een selectie gemaakt van ar-tikelen tussen 2017 en 2019. Voor de conferentie SigIR zijn alleen de arar-tikelen tussen 2017 en 2018 genomen, omdat 2019 niet beschikbaar was voor de on-derzoeker. Om de kans te vergroten dat er artikelen geselecteerd worden die datasets citeren en code beschikbaar stellen, zijn de artikelen die geen werkende hyperlinks (een URL in de vorm van http:// of https://) hebben niet meegeno-men in het bepalen van de steekproef. Dit betekent dat de artikelen die in de steekproef zitten, minstens een werkende link bevatten in het complete artikel, dus in tekst, voetnoten of referenties. Uit de overgebleven artikelen zijn er voor elke conferentie 5 artikelen geselecteerd uit 2019 en 3 artikelen uit zowel 2017 als 2018. Hierbij zijn de verschillende VISION conferenties beschouwd als één conferentie. De conferentie NIPS had in 2019 niet meer dan 4 artikelen met één werkende link. De uiteindelijke steekproef had een grote van 38 artikelen.

3.2 Opmeten van dataset citaties en de

reproduceerbaar-heid van code

Om een compleet beeld te krijgen hoe dataset citaties gedaan worden en hoe goed de code van artikelen reproduceerbaar is, is er een protocol opgesteld. Aan de hand van dit protocol zijn de artikelen vervolgens geanalyseerd. Het complete protocol is in appendix B weergegeven.

Het eerste deel van het protocol meet alle metadata van de artikelen. Dit is de titel, het jaar van publicatie, het tijdschrift van publicatie en het aantal citaties van het artikel, afkomstig van Google Scholar.

3.2.1 Dataset citaties

Een van de twee focus punten van het protocol is hoe dataset citaties gedaan zijn. Om hier een compleet beeld van te krijgen wordt er gekeken in welke gedeelte van het artikel (inleiding, methode, experimenten, etc.) de dataset genoemd is en waarvoor de dataset gebruikt is, bijvoorbeeld als training of test

(6)

set. Daarnaast wordt er specifiek gekeken naar de dataset citatie zelf. Waar vindt de de citatie plaats. Is deze in de literatuurlijst, in een voetnoot of in de tekst gedaan? Dan wordt er gekeken of deze citatie direct of indirect is en welke elementen er genoemd zijn in de citatie zelf. Het noteren van elementen geeft een beeld van hoe volledig de citatie is, hiervoor wordt de scorings index van Mooney & Newton gebruikt [7].

3.2.2 Reproduceerbaarheid van code

Het tweede focus punt ligt op de reproduceerbaarheid van de code van een artikel. De resultaten van een onderzoek zijn reproduceerbaar aan de hand van de code of niet. Toch zijn er bepaalde aspecten die kunnen helpen om de code beter reproduceerbaar te maken voor andere onderzoekers. Sandve et al. [13] heeft hier tien “regels” voor opgesteld die een onderzoeker kan volgen. Deze regels houden bijvoorbeeld rekening met de verschillende versies van software of packages die gebruikt worden in de code. Ook het gebruik van random seeds en het vermijden van handmatige manipulatie van data zou bevorderlijk zijn voor betere reproduceerbaarheid van code. Er wordt gekeken in het protocol aan welke van deze regels een artikel voldoet om inzicht te krijgen in wat bijdraagt aan de reproduceerbaarheid. Als een artikel niet reproduceerbaar is, is de reden hiervoor genoteerd.

Ook wordt er gekeken of een paper expliciet of impliciet niet reproduceerbaar is. Als een paper expliciet niet reproduceerbaar is, dan ontbreekt bijvoorbeeld de code zelf, benodigde data of bestanden. Als de code impliciet niet reprodu-ceerbaar is dan is het zo ingewikkeld gemaakt dat het niet te reproduceren is, dit is ook het geval als codes te veel errors hebben [6].

3.3 Analyseren van artikelen

Het analyseren van de geselecteerde artikelen is aan de hand van het protocol gedaan. In onderstaande subsecties zal hier verder op ingegaan worden.

3.3.1 Runnen van code

Bij aanwezigheid van een link naar de code in een artikel, is eerst de code en benodigde bestanden gedownload. Hierna is maximaal ´e´en uur gegeven om de code van de artikelen an de praat te krijgen. Voor python is alle code in een virtuele omgeving gerund. Voor andere talen, bijvoorbeeld Java, C++ en R geldt dit niet. De code in deze talen is lokaal gerund. Er was geen mogelijkheid om code te runnen op een GPU als dit aangegeven werd in de code of het geanalyseerde artikel.

3.3.2 Analyseren van code

Om te kijken of de code voldoet aan de tien regels van Sandve et al. [13], is de gegeven code geanalyseerd. Dit is gedaan door middel van de code te bekijken en te controleren op bepaalde onderdelen. E´en van de regels is bijvoorbeeld dat er hi¨erarchische analyse-output gegenereerd wordt. Om te zien of de code hieraan voldoet kan gekeken worden of de code een log bijhoudt van resultaten, of er print statements geplaatst zijn en of er debug output geleverd wordt. Ook als de code niet runbaar is, wordt op deze manier nog gekeken naar aspecten

(7)

die bijdragen aan reproduceerbaarheid. Hierbij moet wel opgelet worden dat als code van een onderzoek voldoet aan alle regels, dit niet betekent dat deze ook meteen reproduceerbaar is.

4 Resultaten

In deze sectie wordt er in gegaan op de resultaten van de gemaakt analyse. Dit zal gedaan worden aan de hand van de opgestelde deelvragen. De verzamelde data is beschikbaar gemaakt1_.

4.1 Methode van dataset citaties

Van de 38 geanalyseerde artikelen, zijn er 31 artikelen die ´e´en of meerdere da-tasets noemen. In totaal zijn er 105 zinnen gevonden die een dataset noemen. Een dataset kan in een artikel meer dan een keer genoemd worden. De meeste benoemingen worden gedaan in een experiment sectie van een artikel, zoals te zien in figuur 3. Ook de resultaten sectie is een plek waar veel datasets genoemd worden. Naast de traditionele secties die te vinden zijn in een artikel is er een sectie die eruit springt. Dit is de sectie die de naam datasets heeft. Dit is een aparte sectie die gebruikt wordt om de datasets van een onderzoek uitgebreid te beschrijven. Deze sectie is vaak te vinden vlak voor de sectie waarin het experiment uitgebreid beschreven wordt.

Figuur 3: Overzicht van het aantal benoemingen van datasets per sectie.

Van de 105 genoemde datasets, zijn er 50 direct en 55 indirect geciteerd. 67% van deze citaties gebeurt in de literatuurlijst. Hieronder vallen alle indirecte citaties. Dit is ook te verwachten door het feit dat een indirecte citatie altijd naar een artikel verwijst van een onderzoek waar de dataset in gebruikt is. De meest voorkomende elementen in een dataset citatie zijn dan ook auteur, titel, datum van publicatie en uitgever.

1_{https://drive.google.com/file/d/104yc-YUtwEuoVsTc07LTBJZnDwb0as5R/view?usp=}

(8)

Directe citaties daarentegen zijn te vinden op verschillende plekken, zowel in de literatuurlijst, als in voetnoten, als in de tekst zelf. De verdeling van de plekken is te zien in figuur 4. De citaties die in de tekst gemaakt zijn (29) bestaan alleen uit de titel van de dataset, gecombineerd met een auteur een enkele keer. Bij een citatie die plaatst vind in een voetnoot (9) is het gebruikelijk om de URL waar de dataset te vinden is, in de voetnoot te zetten. Zodra er meer elementen van een citatie bij komen kijken, is te zien dat de citatie verplaatst wordt naar de literatuurlijst (12). Een volledig overzicht van de aantallen is te vinden in appendix C.

Figuur 4: Plek van referenties naar datasets

4.2 Reproduceerbaarheid van resultaten aan de hand van

code

Om de resultaten reproduceerbaar te maken, is het nodig dat een artikel een link geeft naar de code die gebruikt is om de resultaten te produceren. In 52% van artikelen is dit al niet het geval. De links van de andere artikelen gaan naar verschillende domeinen toe. Het domein waar de meeste links naar toe gaan was Github, zoals te zien in tabel 1. Van de artikelen die wel een link gaven naar hun code was 15% niet runbaar door het feit dat een GPU of matlab licentie benodigd was. Van alle overige artikelen was de code van slechts ´e´en artikel maar reproduceerbaar.

Domein Aantal links Percentage

github.com 12 71.0 kind-of-works.com 1 6.0 mlda.swu.edu.cn 1 6.0 cs.uef.fi 1 6.0 cs. cmu.edu 1 6.0 bitbucket.org 1 6.0

(9)

Er kunnen verschillende redenen zijn waarom de code van een artikel niet repro-duceerbaar is. Binnen de genomen steekproef zijn er 3 hoofd redenen. De eerste is dat er simpel weg bestanden ontbreken die benodigd zijn. De tweede reden is dat de code te veel errors bevat. De derde reden heeft te maken met ver-sie nummers van gebruikte packages. Als niet alle gebruikte packages gegeven worden met versie nummers, is het erg lastig om dit te achterhalen.

4.3 Verbeteringen in reproduceerbaarheid

Door het gebrek aan de reproduceerbaarheid van code is niet te zeggen of deze verbeterd is. Wel kan er gekeken worden of er meer moeite gedaan is om re-produceerbaarheid te vergroten. Dit kan gedaan worden door bijvoorbeeld meer URL’s naar code van het artikel. Tussen 2017 en 2018 zit 8% verschil, wat gelijk is aan ´e´en artikel, omtrent de aanwezigheid van een link naar code. Dit komt neer op 1 artikel. Tussen 2018 en 219 zit geen verschil in het gebruik van links naar code van artikelen. Dit is zichtbaar in figuur 5. Dus ook op het gebied van het geven van een link naar code is weinig verbetering te zien.

Figuur 5: Aanwezigheid van een link naar code van een artikel.

4.4 Invloed van dataset citaties en reproduceerbaarheid

van artikelen op impact van artikelen

In een artikel wordt soms meer dan ´e´en dataset genoemd en geciteerd. Om te kijken naar de invloed van de dataset citatie op de impact van een artikel, wordt voor de analyse daarvan de dataset citatie gebruikt die het meest volledig is. Dit is de citatie met de hoogste score op de index van Mooney & Newton [7]. Er is tussen de volledigheid van dataset citaties en de impact van artikelen een significante middelmatige positieve correlatie gevonden, r=.43, p<.05.

Door gebrek van reproduceerbaarheid van resultaten is het niet mogelijk om te kijken naar de invloed hiervan op de impact van een artikel. Er is nog wel gekeken of de aanwezigheid van een link naar code invloed heeft op de impact

(10)

van een aritkel. Dit was een niet significante kleine positieve correlatie, r=.13, p>.05.

5 Discussie

Er werd verwacht dat de manier van dataset citatie van positieve invloed is op de impact van artikelen is. Hoe meer elementen een citatie bevat en dus hoe vollediger de citatie is, maakt het makkelijker voor de lezer van een artikel om de datasets terug te vinden. Deze kan weer hergebruikt worden om of de reproduceerbaarheid van de resultaten van het onderzoek te controleren of om eigen onderzoek mee te doen.

Op het gebied van reproduceerbaarheid van code is te weinig te zeggen op basis van de huidige steekproef. Bij een grotere steekproef zouden er meer arti-kelen reproduceerbaar kunnen zijn, waardoor er dan een goed inzicht verkregen kan worden op dat gebied. In een vervolg onderzoek zou een grotere steekproef dan ook zeker aan te raden zijn.

In een ander vervolg onderzoek zou de analyse van de manier van dataset citatie op een grotere schaal nog uitgevoerd kunnen worden. Nu is de analyse met de hand gedaan, maar aan de hand van een goede pdf parser, zou dit op-geschaald kunnen worden. Hierbij zou ook nog een grotere focus gelegd kunnen worden op directe en indirecte citaties, hoe deze bijdragen aan de impact van een artikel.

Referenties

[1] C W Belter. Measuring the value of research data: A citation analysis of oceanographic data sets. PLoS One, 9(3), 2014.

[2] C L Borgman. The conundrum of sharing research data. Journal of the American Society for Information Science and Technology, 63(6):1059– 1078, 2012.

[3] N Ferro and D Kelly. Sigir initiative to implement acm artifact review and badging. In ACM SIGIR Forum, volume 52, pages 4–10. ACM New York, NY, USA, 2018.

[4] ACM Association for Computing Machinery. Artifact review and badging. https://www.acm.org/publications/policies/ artifact-review-badging. Accessed: 16-4-2020.

[5] KDD. Kdd 2017 call for research papers (closed). https://www.kdd.org/ kdd2017/calls/view/kdd-2017-call-for-research-papers. Accessed: 01-04-2020.

[6] E Keogh. How to do good research. Avialable at https://www.cs. ucr.edu/~eamonn/public/SDM_How_to_do_Research_Keogh.pdf, acces-sed: 23-03-2020.

[7] H Mooney and M P Newton. The anatomy of a data citation: Discovery, reuse, and credit. Journal of Librarianship and Scholarly Communication, 1(1), 2012. DOI:10.7710/2162-3309.1035.

(11)

[8] Prasad Patil, Roger D Peng, and Jeffrey Leek. A statistical definition for reproducibility and replicability. BioRxiv, page 066803, 2016.

[9] H A Piwowar. Who shares? who doesn’t? factors associated with openly archiving raw research data. PloS one, 6(7), 2011.

[10] H A Piwowar, R S Day, and D B Fridsma. Sharing detailed research data is associated with increased citation rate. PloS one, 2(3):e308, 2007.

[11] H A Piwowar and T J Vision. Data reuse and the open data citation advantage. PeerJ, 1:e175, 2013.

[12] STM research data. Share - link - cite. https://www.stm-researchdata. org/. Accessed: 5/15/2020.

[13] G K Sandve, A Nekrutenko, J Taylor, and E Hovig. Ten simple rules for reproducible computational research. PLoS computational biology, 9(10), 2013.

[14] J RL Sears. Data sharing effect on article citation rate in paleoceanography. In AGU fall meeting abstracts, volume 1, page 1628, 2011.

[15] SIGMOD. Sigmod call for research papers. https://sigmod2017.org/ sigmod-call-for-research-papers/. Accessed: 01-04-2020.

[16] J B Slyder, B R Stein, B S Sams, D M Walker, B Jacob Beale, J J Feldhaus, and C A Copenheaver. Citation pattern and lifespan: a comparison of discipline, institution, and individual. Scientometrics, 89(3):955–966, 2011.

[17] J K Vanclay. Factors affecting citation rates in environmental science. Journal of Informetrics, 7(2):265–271, 2013.

(12)

Appendix

A

Geselecteerde artikelen

Jaar Conferentie Titel Aantal hyperlinks

2017 NIPS Learned in Translation: Contextualized Word Vectors

4

2017 NIPS Learning to Pivot with Adversarial Net-works

1

2017 NIPS Fader Networks: Manipulating Images by Sliding Attributes

1

2017 SDM The Power of Certainty: A Dirichlet-Multinomial Model for Belief Propagation

3

2017 SDM Multivariate Confidence Intervals 10

2017 SDM Price Recommendation on Vacation Rental Websites

14

2017 SIGIR Naver Search - Deep Learning Powered Search Portal for Intelligent Information Provision

2

2017 SIGIR Joint Latent Subspace Learning and Regres-sion for Cross-Modal Retrieval

1

2017 SIGIR A/B Testing at Scale: Accelerating Soft-ware Innovation

2

2017 VISION Unsupervised Video Summarization with Adversarial LSTM Networks

2

2017 VISION Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative En-tropy Minimization

2

2017 VISION LCNN: Lookup-based Convolutional Neural Network

1

2018 NIPS Maximum Entropy Fine-Grained Classifica-tion

1

2018 NIPS Multi-View Silhouette and Depth Decompo-sition for High Resolution 3D Object Repre-sentation

2

2018 NIPS Learning to Infer Graphics Programs from Hand-Drawn Images

2

2018 SDM Personalized Ranking on Poisson Factoriza-tion

13

2018 SDM Multi-view Weak-label Learning based on Matrix Completion

9

2018 SDM Maximizing the Effect of Information Adop-tion: A General Framework

6

2018 SIGIR Addressing News-Related Standing Infor-mation Needs

2

2018 SIGIR Attentive Group Recommendation 9

2018 SIGIR Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems

5

2018 VISION BOP: Benchmark for 6D Object Pose Esti-mation

1

2018 VISION Dimensionality’s Blessing: Clustering Ima-ges by Underlying Distribution

2 12

(13)

Jaar Conferentie Titel Aantal hyperlinks 2019 NIPS Explicit Explore-Exploit Algorithms in

Continuous State Spaces

5

2019 NIPS Constrained deep neural network architec-ture search for IoT devices accounting for hardware calibration

2

2019 NIPS Approximate Inference Turns Deep Net-works into Gaussian Processes

1

2019 NIPS On the Correctness and Sample Complexity of Inverse Reinforcement Learning

1

2019 SDM Boolean matrix factorization meets conse-cutive ones property

15

2019 SDM Leveraging Subsequence-orders for Univari-ate and MultivariUnivari-ate Time-series Classifica-tion

8

2019 SDM Classifying Heterogeneous Sequential Data by Cyclic Domain Adaptation: An Applica-tion in Land Cover DetecApplica-tion

16

2019 SDM Discovering and Controlling for Latent Con-founds in Tekst Classification

8

2019 SDM Forest Packing: Fast Parallel, Decision Fo-rests

24

2019 VISION Semantic Part Detection via Matching: Learning to Generalize to Novel Viewpoints from Limited Training Data

1

2019 VISION Unsupervised learning of action classes with continuous temporal embedding

1

2019 VISION A Differential Volumetric Approach to Multi-View Photometric Stereo

1

2019 VISION AutoGAN: Neural Architecture Search for Generative Adversarial Networks

1

(14)

B

Protocol

Vraag Antwoordvorm

Algemeen

Titel van het artikel titel

In welk tijdschrift is het artikel gepubliceerd? naam van tijdschrift

Publicatie jaar van het artikel jaartal

Citatie aantal aantal

Dataset citatie

In welk gedeelte van het artikel wordt de dataset genoemd? introductie/methode/ experimenten/etc.

Waar wordt de dataset geciteerd? literatuurlijst/voetnoot/

tekst

Waarvoor wordt de dataset genoemd in het artikel? test set/ trainings set/-validatie set/ genoemd maar niet gebruikt/etc.

Is de citatie direct of indirect? direct/indirect

DCAI

Auteur ja/nee (score:2)

Titel ja/nee (score:2)

Datum van publicatie ja/nee (score:2)

Uitgever ja/nee (score:2)

Material designator ja/nee (score:1)

URL ja/nee (score:2)

Persistente identificatie ja/nee (score:1)

Reproduceerbaarheid

Is er een link gegeven naar de code van het artikel? ja/nee

Geef de link als deze gegeven is. hyperlink naar code

Waar gaat de link naartoe? github/website van

auteur/instituut/pro-ject/etc. Tien regels Sandv e et

al. Voor elk resultaat is gegeven hoe dit geproduceerd is ja/nee

Handmatige manipulatie wordt vermeden ja/nee

Alle benodigde versie nummers zijn gegeven ja/nee Er is versie controle voor alle scripts ja/nee Alle tussentijdse resultaten zijn te vinden ja/nee

Random seeds zijn gegegeven ja/nee

Rauwe data van plots is vindbaar ja/nee

Er wordt hi¨erarchische analyse-output gegenereerd ja/nee Er worden tekstuele verklaringen voor resultaten

ge-geven

ja/nee

Er is openbare toegang gegeven tot scripts, runs en resultaten

ja/nee

Is de code van de paper reproduceerbaar? ja/nee Als het niet reproduceerbaar is, wat is de reden? reden

(15)

C

Gebruikte elementen in dataset citaties

Directheid van citatie Referentie type Elementen Aantal citaten (n=105) Percentage

Indirect Literatuurlijst Author, Title, Date, Publisher 42 40.0 Author, Title, Date, Publisher,

Material designator

6 5.7

Author, Title, Date, Publisher, URL

2 1.9

Author, Title, URL 2 1.9

Author, Date, Publisher 1 1.0

Author, Title, Date, Publisher, Persistent Identifier

1 1.0

Author, Title, Date 1 1.0

Direct Voetnoot Title, URL 8 7.6

Title, Publisher, URL 1 1.0

Tekst Title 26 24.8

Author, Title 3 2.9

Literatuurlijst Author, Title, Date, Publisher, Material designator

6 5.7

Author, Title, Date, Material designator

3 2.9

Title, URL 2 1.9