• No results found

Kennis van geodata : onderzoek naar toepassing van web intelligence bij ruimtelijke informatiesystemen

N/A
N/A
Protected

Academic year: 2021

Share "Kennis van geodata : onderzoek naar toepassing van web intelligence bij ruimtelijke informatiesystemen"

Copied!
50
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

E. Verhelst

Alterra-rapport 2410 ISSN 1566-7197

Kennis van Geodata

Onderzoek naar toepassing van web intelligence bij ruimtelijke informatiesystemen

Meer informatie: www.wageningenUR.nl/alterra

Alterra is onderdeel van de internationale kennisorganisatie Wageningen UR (University & Research centre). De missie is ‘To explore the potential of nature to improve the quality of life’. Binnen Wageningen UR bundelen negen gespecialiseerde en meer toegepaste onderzoeksinstituten, Wageningen University en hogeschool Van Hall Larenstein hun krachten om bij te dragen aan de oplossing van belangrijke vragen in het domein van gezonde voeding en leefomgeving. Met ongeveer 40 vestigingen (in Nederland, Brazilië en China), 6.500 medewerkers en 10.000 studenten behoort Wageningen UR wereldwijd tot de vooraanstaande kennisinstellingen binnen haar domein. De integrale benadering van de vraagstukken en de samenwerking tussen natuurwetenschappelijke, technologische en maatschappijwetenschappelijke disciplines vormen het hart van de Wageningen Aanpak.

Alterra Wageningen UR is hèt kennisinstituut voor de groene leefomgeving en bundelt een grote hoeveelheid expertise op het gebied van de groene ruimte en het duurzaam maatschappelijk gebruik ervan: kennis van water, natuur, bos, milieu, bodem, landschap, klimaat, landgebruik, recreatie etc.

(2)
(3)
(4)
(5)

Kennis van Geodata

Onderzoek naar toepassing van web intelligence bij ruimtelijke

informatiesystemen

E. Verhelst

Alterra-rapport 2410

Alterra Wageningen UR Wageningen, 2013

(6)

Referaat

E. Verhelst, 2013. Kennis van Geodata; Onderzoek naar toepassing van web intelligence bij ruimtelijke informatiesystemen. Wageningen, Alterra, Alterra-Rapport 2410. 46 blz.; 15 fig.; 3 tab.; 22 ref.

De sterke toename in de omvang van het Web vraagt om slimme oplossingen die de enorme capaciteit aan gegevens voor ons hanteerbaar en interpreteerbaar maken. Het is de uitdaging van wetenschappers om instrumenten te maken die naadloos aansluiten bij wat onze hersenen op een bepaald moment nodig hebben. Dit rapport doet verslag van een onderzoek naar de mogelijkheden van het toevoegen van meer intelligentie aan bestaande geo-informatiesystemen. Hiervoor is gebruik gemaakt van voorbeelden die al bestaan op het World Wide Web. Deze voorbeelden zijn onder andere het herkennen van de gebruiker en het anticiperen op zijn wensen, het vaststellen van patronen in grote hoeveelheden gegevens en het automatisch beantwoorden van vragen die in gewone taal zijn gesteld. In een drietal Proof of Concepts is gekeken welke methodieken er zijn die hieraan ten grondslag liggen. Op basis hiervan zijn nieuwe onderzoeksmogelijkheden geformuleerd.

Trefwoorden: Informatie, kennis, taaltechnologie, world wide web, geo informatie.

Photo cover: Jürgen Guerito

ISSN 1566-7197

Dit rapport is gratis te downloaden van www.wageningenUR.nl/alterra (ga naar ‘Alterra-rapporten’). Alterra Wageningen UR verstrekt geen gedrukte exemplaren van rapporten. Gedrukte exemplaren zijn verkrijgbaar via een externe leverancier. Kijk hiervoor op www.rapportbestellen.nl.

© 2013 Alterra (instituut binnen de rechtspersoon Stichting Dienst Landbouwkundig Onderzoek) Postbus 47; 6700 AA Wageningen; info.alterra@wur.nl

Dit werk is gelicenseerd onder een Creative Commons Naamsvermelding – Niet Commercieel – Gelijk Delen 3.0 Nederland licentie. – Overname, verveelvoudiging of openbaarmaking van deze uitgave is toegestaan mits met duidelijke bronvermelding.

– Overname, verveelvoudiging of openbaarmaking is niet toegestaan voor commerciële doeleinden en/of geldelijk gewin. – Overname, verveelvoudiging of openbaarmaking is niet toegestaan voor die gedeelten van deze uitgave waarvan duidelijk is dat

de auteursrechten liggen bij derden en/of zijn voorbehouden.

Alterra aanvaardt geen aansprakelijkheid voor eventuele schade voortvloeiend uit het gebruik van de resultaten van dit onderzoek of de toepassing van de adviezen.

Alterra-rapport 2410

(7)

Inhoud

Samenvatting 7 Verklarende woordenlijst 9 1 Inleiding 11 1.1 Achtergrond 11 1.2 Doelstelling 11 1.3 Leeswijzer 12

2 Het intelligente web 13

2.1 Afbakening van termen: de DIKW piramide 13

3 Information Retrieval (IR) 15 3.1 Automatiseren van zoeken en vinden 15

3.1.1 Keywords 17

3.1.2 De Digitale Bibliotheek van Wageningen UR 18

3.2 IR in het GI domein 19

4 Natural Language Processing (NLP) 23 4.1 NLP in het GI domein 26

5 Question Answering (QA) 29

5.1 QA in het GI domein 30

6 Collective Intelligence 33

6.1 Collective Intelligence in het GI domein 35

7 Conclusies 37

8 PoC: genereren van keywords 39 9 PoC: genereren van metadata 41

9.1 ISO19139 41

10 PoC: het ontdekken van relaties 43

(8)
(9)

Samenvatting

De sterke toename in de omvang van het Web vraagt om slimme oplossingen die de enorme capaciteit aan gegevens voor ons hanteerbaar en interpreteerbaar maken. Het is de uitdaging van wetenschappers om instrumenten te maken die naadloos aansluiten bij wat onze hersenen op een bepaald moment nodig hebben.

De essentie van deze uitdaging is het via computersystemen bewerken van ruwe gegevens op een zodanige manier dat er informatie en kennis uit ontstaat.

Dit rapport doet verslag van een onderzoek naar de mogelijkheden van het toevoegen van meer intelligentie aan bestaande geo-informatiesystemen. Hiervoor is gebruik gemaakt van voorbeelden die al bestaan op het World Wide Web. Deze voorbeelden zijn onder andere het herkennen van de gebruiker en het anticiperen op diens wensen, het vaststellen van patronen in grote hoeveelheden gegevens en het automatisch beantwoorden van vragen die in gewone taal zijn gesteld.

In een drietal Proof of Concepts is gekeken wat de technische methodieken zijn die hieraan ten grondslag liggen. De PoCs zijn: het automatisch genereren van keywords uit een tekst, het automatisch genereren van metadata en het vinden van verbanden tussen teksten. Op basis hiervan zijn nieuwe onderzoeksmogelijkheden geformuleerd. Op basis van het onderzoek is geconcludeerd dat deze technieken heel toegankelijk zijn. Er zijn laagdrempelige middelen beschikbaar, zoals open source software, om dit onderzoek uit te voeren.

(10)
(11)

Verklarende woordenlijst

Algoritme - Systematisch stelsel voor het uitvoeren van rekenkundige bewerkingen en de volgorde daarvan (bron: van Dale).

Automatic story generation - Het automatisch maken van tekstberichten door een computer.

Big Data - Aanduiding voor de omvang en toename van de hoeveelheid gegevens op het internet. Cookie - Een kleine hoeveelheid gegevens die door een website in een web browser wordt gestopt zodat

als de gebruiker de site nog eens bezoekt de gegevens kunnen worden opgehaald om de gebruiker te voorzien van eerder achtergelaten gegevens (naar: Wikipedia).

Computer generated (news) stories

- Zie ‘automatic story generation’. Controled Vocabulary - Opzoeklijst.

Corpus - Naam voor bronbestand dat wordt gebruikt in een Natural Language Processing analyse. Crowd - In het Nederlands zou dit vertaald kunnen worden in ‘het publiek’, ‘de massa’.

Decision support system - Computersysteem dat bedoeld is om aan gebruikers inzichtelijk te maken wat de gevolgen zijn van bepaalde beslissingen.

Dendrogram - Grafiek met vertakkingen die een categorie aanduiden.

Facetten - Subcategorieën die gebruikt worden in de weergave van een Information Retrieval systeem. Full text search - Zoeken door de hele bron heen, dus niet in de metadata.

Harvesten - Het ophalen van metadata vanaf een bron op afstand, met als doel dit lokaal in een eigen zoeksysteem te gebruiken.

Infographics - Probleem illustrerende grafische afbeelding.

Key phrase - Uitbreiding van keyword met omliggende bijbehorende woorden, bijvoorbeeld ‘Wageningen UR’. Klasseren - Keywords toekennen.

Machine learning - Onderdeel van Kunstmatige Intelligentie dat systemen ontwikkelt en bestudeert die van gegevens kunnen leren (naar: Wikipedia).

Metadata - Dossier/logboek van een databestand (bron: van Dale). Metadata elements - Beschrijvende onderdelen van metadata.

Overlay - Kaartbeelden die in een digitale kaart over elkaar heen worden gelegd.

Part-of-speech tagging - Onderdeel van Natural Language Processing dat een tekst grammaticaal ontleedt. Query - ‘Zoek en toon’ opdracht voor een database.

Ranking - Sorteervolgorde van de door een Information Retrieval systeem getoonde documenten. Volunteered geo information - Geo informatie die verzameld is door vrijwilligers.

Web applicatie - Computerprogramma dat via een browser kan worden bediend.

Zoekstrategie - Geprogrammeerde versie van een wiskundige formule die de zoekvraag van een gebruiker van een IR systeem vergelijkt met de in het IR systeem opgeslagen documenten (bron: [1]).

(12)
(13)

1

Inleiding

1.1

Achtergrond

De sterke toename in de omvang van het Web vraagt om slimme oplossingen die de enorme capaciteit aan gegevens voor ons hanteerbaar en interpreteerbaar maken. Pas wanneer we daarin slagen wordt de potentie van het Web als oneindige bron van geheugen- en denkcapaciteit ten volle benut. Omdat de werking van een computer anders is dan van de menselijke hersenen is het de uitdaging van computer wetenschappers om instrumenten te maken die in staat zijn om hun resultaten beter op onze hersenen laten aansluiten. Dit vraagt aan de ene kant om een beter begrip van de werking van de menselijke hersenen, en aan de andere kant zijn geavanceerde technische oplossingen nodig. Oplossingen die computers de opdracht geven om iets te leveren dat naadloos aansluit bij wat onze hersenen op een bepaald moment nodig hebben.

Over de hierboven omschreven problematiek wordt onderzoek gedaan in verschillende disciplines in het brede spectrum tussen de humane wetenschappen en (natuur)technische wetenschappen. Voorbeelden zijn

cognitieve wetenschap, kennistechnologie, taaltechnologie, informatica en kunstmatige intelligentie. Deze publicatie is een verslag van een kort explorerend onderzoek, gefinancierd door het Kennis Basis programma van het ministerie van EL&I1.

1.2

Doelstelling

De doelstelling van dit onderzoek was inzicht te krijgen in de manier waarop methoden en technieken die gebruikt worden in de hierboven genoemde wetenschappen kunnen worden gebruikt in het vak geo-informatie. Op deze manier wordt het mogelijk om dit vak beter te laten aansluiten op methoden en technieken die in andere informatie disciplines al gemeengoed aan het worden zijn. Hiermee wordt niet de suggestie gewekt dat geo-informatie een vakgebied is waarbij geen rekening wordt gehouden met efficiënte mens-machine inter-actie. Het tegendeel is het geval. In het vak geo-informatie wordt juist intensief gebruik gemaakt van methoden die dicht aansluiten bij hoe hersenen gegevens snel en efficiënt kunnen verwerken. Vrijwel altijd worden grafische beelden gebruikt om rekenresultaten te presenteren. Geo-informatici zijn daardoor bekend met het fenomeen dat een beeld voor de hersenen makkelijker is om te interpreteren dan tekst. Dat het gebruik van infographics voor het communiceren van complexe processen en gebeurtenissen in het algemeen toeneemt, illustreert dat ook niet geo-informatici overtuigd zijn van het feit dat met beeld eenvoudiger een boodschap is over te brengen dan met tekst.

Er zijn echter situaties waarbij geo-informatici moeten teruggrijpen op tekstuele oplossingen. Dit is bijvoorbeeld het geval bij het beschrijven van een geodata bestand met behulp van metadata. Of, in het omgekeerde geval, het zoeken naar geodata met behulp van de omschrijving in de metadata. Op dit gebied kan geprofiteerd worden van wat in andere disciplines al wordt toegepast bij de intelligente verwerking van tekst.

(14)

Naast een verkenning van de problematiek door een literatuur- en webstudie zijn er in dit project ook drie Proof of Concepts (PoC) uitgevoerd. In dit rapport worden deze PoCs toegelicht voor wat betreft de resultaten en onderzoeksperspectieven.

1.3

Leeswijzer

Dit rapport is geschreven voor een breed publiek. De doelgroep van dit rapport zijn gebruikers en eigenaren van (geo)web applicaties. De auteur hoopt dat zij zich via dit rapport kunnen informeren over de mogelijkheden die er zijn om hun bestaande systeem intelligenter te maken. De andere doelgroep is (geo) informatici. Het rapport bevat voor hen basismateriaal voor verder detail onderzoek.

Als het rapport in vakjargon en in detail was geschreven had het aan deze beide doelstellingen niet voldaan. De beschrijving van de onderwerpen is daarom in grote lijnen uiteengezet, met veel illustraties en praktijkvoor-beelden. Er is een verklarende woordenlijst van begrippen die in de tekst cursief zijn gedrukt.

De onderwerpen die per hoofdstuk worden behandeld kennen een grote overlap. Information Retrieval is de verzamelnaam voor alles wat te maken heeft met slim zoeken en vinden van documenten. Question Answering maakt gebruik van Natural Language Processing, net als Collective Intelligence. In het rapport zijn voor deze onderwerpen aparte hoofdstukken gemaakt omdat op deze manier de intelligente toepassingen, behorend bij een bepaalde techniek, konden worden beschreven.

Het rapport begint met een beeld van wat het web als intelligent ‘organisme’ voor mensen zou kunnen betekenen. Vervolgens wordt een begrippenkader geïntroduceerd waar uiteindelijk de conclusies op worden gebaseerd. In aparte hoofdstukken worden enkele voorbeelden uitgelicht van intelligente web applicaties, waarbij een toelichting wordt gegeven op de gebruikte informatica.

In het onderzoek is met een reeks Proof of Concepts (PoC) uitgeprobeerd hoe zelf deze intelligente systemen kunnen worden gebouwd. De PoCs zijn in aparte hoofdstukken beschreven. Er wordt in die hoofdstukken ook ingegaan op de vraag welk verder onderzoek gedaan zou kunnen worden. De namen van de onderzoekers die de PoCs hebben uitgevoerd zijn hierin vermeld. Met hen kan contact worden opgenomen voor meer informatie, bijvoorbeeld over de werkwijze en de programmacode.

(15)

2

Het intelligente web

Het World Wide Web, als onderdeel van het internet, bestond aanvankelijk (begin jaren ’90) alleen uit HTML pagina’s waarin behalve wat opmaak geen enkele intelligentie zat. Door de jaren heen kwam er steeds meer intelligentie bij zodat het Web geworden is wat het nu is: een bron van gegevens die op maat en naar wens naar gebruikers of apparaten kunnen worden gestuurd.

In een aantal hoofdstukken wordt dieper ingegaan op deze intelligentie en detechnieken die hieraan ten grond-slag liggen. Er wordt toegelicht hoe deze gebruikt zouden kunnen worden in de context van geo-informatie. Om niet verward te worden door het gebruik van begrippen zoals ‘data’, ‘informatie’ en ‘kennis’ is het goed om eerst even stil te staan bij een veel gebruikt begrippenkader: de DIKW piramide.

2.1

Afbakening van termen: de DIKW piramide

De Data-Information-Knowledge-Wisdom hiërarchie zoals beschreven door Ackoff [2] beschrijft hoe data kan transformeren naar informatie, kennis en wijsheid. De piramidevorm van de hiërarchie (Figuur 1) benadrukt dat er veel data nodig is om te komen tot minder informatie, nog minder kennis en tenslotte ‘minst’ wijsheid.

Figuur 1

De DIKW piramide, afbeelding uit Rowley, 2007.

Nadat deze illustratie een aantal jaren veelvuldig werd gebruikt en geciteerd heeft Rowley deze piramide zelf als studie-onderwerp genomen en onderzocht hoe deze begrippen in de literatuur worden gedefinieerd, hoe de transformatie van de ene status naar de andere verloopt en in hoeverre het begrip ‘wisdom’ gedefinieerd en afgebakend kan worden [3]. Zij komt tot de volgende definities van data (samengevat) (p. 170):

– Data has no meaning or value because it is without context and interpretation.

– Data are discrete, objective facts or observations, which are unorganized and unprocessed, and – do not convey any specific meaning.

(16)

Als in dit rapport de term ‘gegevens’ wordt gebruikt, wordt het Engelse en ook vaak in het Nederlands gebruikte woord ‘data’ bedoeld.

Informatie wordt als volgt samenvattend gedefinieerd: ‘information is defined in terms of data, and is seen to

be organized or structured data. This processing lends the data relevance for a specific purpose or context, and thereby makes it meaningful, valuable, useful and relevant.’ (p. 172)

Data en informatie zijn nog relatief eenvoudige begrippen om te definiëren. De definitie van kennis is veel

meer onderwerp van discussie. Rowey kan daarover het volgende concluderen: ‘… knowledge might be viewed as a mix of information, understanding, capability, experience, skills and values, but it is important to note that not all authors mention all of these elements. Knowledge management texts are more likely than information systems texts to discuss the difference between explicit and tacit knowledge. In general, they differentiate between tacit knowledge as embedded in the individual and explicit knowledge as residing in documents, databases and other recorded formats.’ (p. 174).

Het begrip wijsheid is van dit viertal in de literatuur het minst besproken en geanalyseerd. Dit komt volgens

Rowley doordat er voor het ontstaan van wijsheid meer nodig is dan de evolutionaire trits data-informatie-kennis. Sommige auteurs die Rowley heeft onderzocht zijn van mening dat de toevoeging van een ethische component en ook menselijke intuïtie noodzakelijk is voor het ontstaan van wijsheid.

Informatici bouwen computersystemen die in staat zijn om de lagen in de piramide van onder naar boven door te lopen, zodat wij zelf deze stappen niet hoeven te maken. Deze systemen presenteren ons dus ‘kennis’ op basis van informatie van data. Het begrip ‘wijsheid’ is te weinig eenduidig gedefinieerd om te kunnen zeggen of hiervan het geautomatiseerde stadium al is bereikt. Rowley doet een suggestie voor een positionering van informatiesystemen in de DIKW piramide (Figuur 2).

Figuur 2

Categorisering van informatiesystemen volgens DIKW, (Rowley 2007) p. 176.

In de komende hoofdstukken worden een aantal ‘kennis van data’ methoden, technieken en systemen beschreven.

(17)

3

Information Retrieval (IR)

Het vak Information retrieval (IR) bestudeert volgens de ACM2 Special Interest Group IR ‘issues ranging from

theory to user demands in the application of computers to the acquisition, organization, storage, retrieval, and distribution of information.’ [4] Deze definitie is nogal allesomvattend. In een historisch boek over dit

onderwerp [1] wordt verwezen naar een definitie van Lancaster [5]: An information retrieval system does not inform (i.e. change the knowledge of) the user on the subject of his inquiry. It merely informs on the existence (or non-existence) and whereabouts of documents relating to his request.' In dit rapport wordt er met deze definitie gewerkt. IR staat voor ‘het automatisch vinden van documenten’. Met ‘documenten’ bedoelen we teksten, vaak digitaal, boeken, papers, tijdschriften, blogs, nieuwsberichten. In de context van Wageningen UR kunnen we stellen dat de Digitale Bibliotheek3 een goed voorbeeld van een IR systeem is. Paragraaf 3.1.2

beschrijft de achtergrond en werking van deze bibliotheek. Bibliothecarissen hebben uiteraard veel ervaring met het organiseren van collecties zodat bezoekers van de bibliotheek de collectie items kunnen vinden. Hoe een bibliotheek over het algemeen is georganiseerd wordt bepaald door hoe mensen zoeken en vinden.

3.1

Automatiseren van zoeken en vinden

Iemand gebruikt een IR systeem wanneer hij op zoek is naar informatie, hetzij specifiek of algemeen. Het is een spectrum met twee uitersten. Iemand weet wat hij zoekt, de titel en auteur zijn bekend, hij hoeft alleen nog maar te weten hoe hij het in zijn bezit kan krijgen. Het andere uiterste is dat iemand gestuurd wil worden in de zoekvraag. Via een interactie met het systeem komt hij meer te weten over de publicaties van een onderwerp die in het IR systeem aanwezig zijn om zo uiteindelijk een geschikte uitgave te vinden. Hier tussen liggen veel gradaties, bijvoorbeeld dat iemand weet dat de publicatie bestaat, maar de titel en auteur is hem onbekend. IR systemen werken vaak met metadata die nauwgezette omschrijving van het opgeslagen object bevat. De omschrijving is vastgelegd in een gestructureerde vorm, met velden en waarden zoals afgebeeld in Figuur 3. Kijkend naar Rowley (paragraaf 2.1) kunnen we stellen dat het feit dat de gegevens worden georganiseerd in metadata maakt dat we kunnen spreken van een Informatie Retrieval systeem. Het goed invullen van de

metadata is uiteraard cruciaal voor de kwaliteit en betrouwbaarheid van het IR systeem.

2 Association for Computing Machinery. 3 http://library.wur.nl.

(18)

Figuur 3

Metadata omschrijving van een document (bron: Digitale Bibliotheek Wageningen UR).

Het zoeken naar een object in een IR systeem gebeurt vaak via een formulier, waarin de zoeker de door hem gezochte waarde(n) van de metadata velden kan invullen. Vaak is het mogelijk om meerdere velden te kiezen die met een AND of OR kunnen worden gecombineerd (Figuur 4).

Figuur 4

Het 'advanced search' zoekscherm van de Digitale Bibliotheek Wageningen UR.

Informatie wordt gezocht en gesorteerd (ranking) via een zoekstrategie die gestuurd wordt door wat er in het formulier is ingevuld. De zoekstrategie is een geprogrammeerde versie van een wiskundige formule die de zoekvraag (query) vergelijkt met de opgeslagen documenten [1]. De AND en OR functie uit Figuur 4 zijn onderdeel van een dergelijke wiskundige formule. De mate waarin de documenten voldoen aan de wiskundige formule bepaalt de ranking in het resultaatoverzicht.

(19)

Naast het zoeken via de metadata is zoeken in de hele tekst van een document vaak mogelijk (full text search).

De zoekinterface is vaak niet meer dan één invulscherm waarin alle zoektermen kunnen worden opgegeven, al dan niet gecombineerd door AND en OR. Hoe een IR systeem omgaat met wildcards zoals ‘*’ en ‘?’ is erg afhankelijk van het soort IR. Elk systeem werkt weer anders, heeft zijn eigen zoekstrategie. Daarom is het niet overbodig om voor het gebruik een handleiding van het IR te lezen of een cursus te volgen (zie ook paragraaf 3.1.2 : De Digitale Bibliotheek van Wageningen UR).

De resultaten van een zoekvraag worden door het IR systeem op een overzichtelijke manier gepresenteerd. Omdat het vaak om meerdere resultaten gaat is het bij de meeste IR systemen mogelijk om in het resultaat verder te zoeken en zo het zoekresultaat te verkleinen (Figuur 5). Er kan opnieuw een waarde ingevuld worden in het metadata formulier, of gebruik worden gemaakt van de facetten, links in het scherm van Figuur 5 (library, author, keywords).

Figuur 5

Het zoekresultaatscherm van de Digitale Bibliotheek van Wageningen UR met links facetten.

Facetten zijn door het IR systeem aangeboden subcategorieën die als ze worden aangeklikt de resultaten laten zien voor de gekozen subcategorie.

3.1.1 Keywords

Om structuur te krijgen in de beschrijving van het onderwerp van een publicatie wordt gebruik gemaakt van keywords (sleutelwoorden). Keywords worden gebruikt om te typeren waar het object over gaat, zodat de informatiezoeker op onderwerp kan selecteren. Meestal kunnen aan een object meerdere keywords worden toegekend. Om vervuiling in het gebruik van keywords tegen te gaan wordt vaak een controled vocabulary (gecontroleerde lijst) gebruikt. Zo wordt voorkomen dat bij het toekennen van de keywords verschillende

(20)

bemoeilijkt. Welke keywords worden toegekend aan een object bepaalt in sterke mate of het object wordt gevonden. Is het toegekende keyword te algemeen of juist te specifiek, dan werkt dit belemmerend. Meer keywords toevoegen vergroot de kans op vinden, maar als teveel keywords worden toegekend komt het object te vaak in zoekresultaten terug.

Over het toekennen van keywords, ook wel klasseren genoemd, is veel wetenschappelijk onderzoek gedaan. Een samenvattend onderzoek is dat van Perez-Carballo en Anderson [6] [7]. De centrale onderzoeksvraag was in hoeverre het klasseren als handwerk zou kunnen worden vervangen door machines. Hun eerste paper [6] van twee is een verslag van een serie interviews met domein experts. Hun conclusie is dat de manier waarop mensen klasseren erg uiteenloopt, zowel in resultaat als in snelheid. Overlap in resultaat is niet groter dan 25% en het verschil in snelheid kan een factor 10 zijn. Zij verklaren dit uit het feit dat mensen keywords toekennen op basis van hun eigen beleving en context.

De tweede publicatie [7] onderzoekt de methoden en effectiviteit van automatisch klasseren. Het methodisch onderscheid tussen klasseren door mens of machine omschrijven ze als volgt: ‘Humans examine documents and texts in order to consider messages that texts represent, plus features of texts and the documents in which texts are recorded. Computers identify and compare components of texts - the symbols that comprise texts - sometimes consulting lexical, thesaural, discourse or other contextual data to expand and characterize sets of textual components; sometimes applying syntactic or pattern indexing algorithms to identify larger units of text; and sometimes calculating attributes for text components and documents based on available data.’ (Zie voor een beschrijving van enkele van deze geciteerde technieken ook hoofdstuk 4: Natural

Language Processing (NLP)). De eindconclusie van Perez-Carballo en Anderson is dat geen van beide manieren perfect is en dat gekeken moet worden waar de verschillende methoden elkaar aanvullen. Automatisch klasseren kan een toevoeging zijn op het totale klasseerproces. Op deze manier kan een eerste selectie worden gemaakt die een persoon vervolgens kwalitatief kan verbeteren. De auteurs pleiten voor het maken van onderscheid bij het klasseren van bronnen: ‘What we cannot afford to continue to do is to treat all documents that enter our collations and our IR databases as if they were all equally important and equally deserving of our expert analysis and indexing. They simply are not, and to continue to do so is to waste precious resources. The exploding internet and world-wide web is a prime example where selectivity in deploying human expertise is absolutely essential!’ [7]

Een IR systeem zou behalve het organiseren, opslaan en terugvinden en het automatisch toekennen van keywords nog verder geautomatiseerd kunnen worden (zie de definitie van ACM aan het begin van dit hoofdstuk). Te denken valt aan automatische uitbreiding van de collectie (acquisition) en het afleveren van relevante documenten op basis van wensen of profiel van een gebruiker (distribution). Technieken die nodig zijn om dit te realiseren worden besproken in hoofdstuk 4: Natural Language Processing (NLP) en hoofdstuk 6: Collective Intelligence.

3.1.2 De Digitale Bibliotheek van Wageningen UR

De collectie van de Bibliotheek Wageningen UR bevat digitaal en papieren materiaal. Onder meer: boeken, wetenschappelijk tijdschriften, kranten, dissertaties, lesmateriaal, encyclopedieën, woordenboeken, weblinks naar externe bronnen, maar ook papieren en digitale afbeeldingen.

De bibliotheekstaf heeft verschillende taken:

– Medewerkers van Wageningen UR te onderwijzen in en persoonlijk te assisteren bij het vinden van het materiaal (information literacy).

– De collectie vindbaar maken via een digitaal systeem. – De collectie beheren en aanvullen.

(21)

Een aantal van deze taken is geautomatiseerd en er is ook veel handwerk.

Daarnaast heeft de bibliotheek een belangrijke functie bij het bepalen van een wetenschappelijke score door middel van citatie analyses.

Het onderwijzen en assisteren gebeurt allemaal via persoonlijk contact. De bibliotheek heeft informatie specialisten die met hun eigen vakgebied als achtergrond lesgeven in information literacy. In deze lessen wordt uitgelegd hoe je het beste kunt zoeken, en er wordt verteld welk IR systeem past bij jouw onderzoek. Wageningen UR is geabonneerd op een aantal IR systemen van externe partijen, zoals LexisNexis, Web of Science en Scopus. Elk van deze systemen vraagt om een andere bedieningswijze, omdat het IR algoritme van deze systemen verschilt.

Daarnaast voeren de informatiespecialisten op verzoek literatuur onderzoeken uit. Ook het beheren van de collectie en het aanvullen ervan is een menselijke handeling.

De Wageningen UR Digital Library4 is het IR systeem dat de collectie vindbaar maakt. Zoeken is mogelijk via de

metadata. Er is een ‘Global Search’ interface. Dit is een zoekinterface over meerdere bronnen tegelijk (onder andere alle boeken uit de collectie en publicaties van Wageningen UR-medewerkers en PhD studenten).

De titels en andere parameters van de collectie items worden met de hand ingevoerd en als metadata opgeslagen. Keywords worden met de hand toegekend door vakinhoudelijke specialisten. De keywords komen uit een controled vocabulary (c.v.). Het c.v. is een thesaurus, die oorspronkelijk is gekocht van CABI5 en

daarna is verrijkt met eigen termen. De thesaurus wordt beheerd door medewerkers van de bibliotheek. Medewerkers van Wageningen UR mogen suggesties doen voor nieuwe termen in de thesaurus. Om ervaring op te doen met de effectiviteit van het automatisch toekennen van keywords is een PoC uitgevoerd. Zie voor de details hiervan hoofdstuk 7.

3.2

IR in het GI domein

In het GI domein worden voornamelijk twee soorten data gebruikt: geodata en metadata die de geodata beschrijft. Geodata is data waarin een ruimtelijke component in de vorm van een punt, lijn of vlak is opgeslagen. Een geografische database kan rekenen met ruimtelijke data. Dat wil zeggen dat de database afstanden en oppervlakten kan berekenen, kan bepalen of een lijn een vlak snijdt et cetera.

Metadata hoeven niet perse in een ruimtelijke database worden opgeslagen, het kan wel. Vaak worden geodata en metadata gescheiden opgeslagen. Wel met een koppeling ertussen, zodat duidelijk is welke metadata bij welk geodata bestand hoort.

De Europese regelgeving INSPIRE bepaalt dat geo informatie toegankelijk moet zijn via een uitwisselings-protocol op basis van open standaarden. Om aan deze regelgeving te voldoen richten bronhouders van geo informatie geoportalen in. Deze geoportalen staan met elkaar in verbinding en kunnen de metadata van elkaars content opvragen en binnenhalen (harvesten).

4 http://library.wur.nl

(22)

Figuur 6

INSPIRE Geoportaal, Europa’s knooppunt voor ruimtelijke informatie6.

Een geoportaal is enigszins vergelijkbaar met een IR systeem dat documenten bevat. In de geoportalen is geo informatie op twee manieren op te vragen: via de bijbehorende metadata en via een ruimtelijke vraag (zie Figuur 6 links). Zoeken via een ruimtelijke vraag gebeurt vaak via een user interface met een kaartbeeld. De gebruiker kan een gebied selecteren, en het geoportaal geeft alle in het systeem aanwezige metadata records terug behorend bij geodata die binnen het geselecteerde gebied valt.

Zoeken via een metadata formulier is vergelijkbaar met een niet-ruimtelijk IR systeem (zie Figuur 6 rechts). Hier kan op basis van metadata velden of keywords worden gezocht. Het portaal geeft het metadata record terug dat een link naar de geodata bevat die in de metadata wordt beschreven.

Tegelijk zoeken in de eigenschappen van de geodata én in de metadata is mogelijk als het onderliggende gegevensmodel dit mogelijk maakt. Dit is meestal niet het geval, daarom zijn geoportalen vaak voorzien van twee zoekbalken.

Geo Information Retrieval (GIR) is sinds eind jaren 90 terug te vinden in de literatuur als een apart vak. Sinds 2004 worden er conference workshops7 onder deze noemer gehouden. Onderwerp van studie is: ’

– Architectures for geographic search engines; – Spatial indexing of documents and images;

– Extraction of geographical context from documents and geo-datasets; – Geographical annotation techniques for geo-referenced documents;

– Design, construction, maintenance and access methods for geographical ontologies, gazetteers and geographical thesauri;

– Geographical query interfaces for the web and geospatial libraries; – Visualising of the results of geographic searches;

– Relevance ranking for geographical search; – Web portals to geo-information; and

– Standards for exchange of unstructured or partially-structured geographical information.‘ [8]

6 http://inspire-geoportal.ec.europa.eu/discovery/ 7 http://www.geo.unizh.ch/~rsp/gir10/

(23)

De resultaten van GIR onderzoek zullen in de toekomst leiden tot intelligentere geoportalen. Voorbeelden zijn: geoportalen die gebruikers herkennen en hen op maat nieuwe content aanbieden. Beter op de vraag

afgestemde zoekresultaten door middel van facetten. Het automatisch genereren van metadata met behulp van Natural Language Processing (zie ook hoofdstuk 9) is een onderzoeksgebied. Dit zou het proces van de ontsluiting van geodata kunnen vereenvoudigen.

Aan de andere kant zullen document-georiënteerde IR systemen profiteren van geografische mogelijkheden, zoals het ruimtelijk annoteren van teksten en het ruimtelijk zoeken naar documenten (zie ook paragraaf 4.1).

(24)
(25)

4

Natural Language Processing (NLP)

De afkorting NLP wordt gebruikt voor het onderdeel in de informatica dat zich bezig houdt met de verwerking van menselijke talen. NLP wordt in het Nederlands ook wel aangeduid met taaltechnologie. Behalve het numerieke analyseren van de teksten (aantal woorden, zinnen et cetera) kunnen met NLP ook grammaticale analyses worden gedaan. Het basisprincipe van NLP is het toepassen van een groot aantal algoritmen achter elkaar. Bijvoorbeeld: als de laatste twee letters van een woord 'e' en 'n' zijn, in die volgorde, en het woord ervóór is “te” dan is het woord een werkwoord.

Enkele moderne toepassingen van NLP op het web zijn: online vertaalmachines zoals Google Translate8,

chatbots en programma’s die automatisch nieuwsberichten maken.

Online vertaalmachines

De bekendste online vertaalmachine is Google Translate. Een inputscherm geeft de mogelijkheid om een webadres in te voeren of tekst erin te plakken (Figuur 7). Welke taal er is ingevoerd wordt automatisch gedetecteerd. Dit gebeurt op basis van statistische berekeningen en typische kenmerken in de tekst. Wanneer in een tekst bijvoorbeeld vaak de trits ‘and’ voorkomt dan is de kans zeer groot dat het Engels is.

Figuur 7

Het inputscherm van Google Translate.

Het resultaat van de vertaling van de tekst aan het begin van deze paragraaf is te zien in Figuur 8. De vertaling is niet helemaal correct. De gebruiker kan het resultaat beoordelen met de  knop rechtsonder. De feedback wordt gebruikt in een machine learning algoritme zodat de vertaalmachine zichzelf kan verbeteren.

(26)

Figuur 8

Het resultaat van een vertaling in Google Translate.

Er bestaan ook vertaalmachines die de tekst grammaticaal kunnen ontleden. De ingevoerde tekst wordt geannoteerd met de grammaticale betekenis. Figuur 9 is hier een voorbeeld van. Een dergelijk programma wordt een part-of-speech tagger genoemd.

Figuur 9

Een voorbeeld van een part-of-speech tagger9.

(27)

Chatbots

Chatbots worden gebruikt voor het automatiseren van mens-mens contacten die inhoudelijk veel herhalingen bevatten. Voorbeelden zijn een helpdesk, klantenservice of callcenter. Een gebruikers interface van een chatbot ziet er uit als een chat box zoals MSN of Yahoo Messenger. De gebruiker typt in normale taal een boodschap in. De chatbot antwoordt op de boodschap. Zie het voorbeeld van Bol.com in Figuur 10.

Figuur 10

De klantenservice chat bot van Bol.com10.

Een chatbot kan dus een vraag beantwoorden. Daarvoor moet de vraag begrepen worden en een passend antwoord worden gezocht. Uiteraard heeft een chatbot een groot aantal standaard antwoorden, zoals het zinnetje “Even controleren voor de zekerheid: volgens mij wilt u een product zoeken. Klopt dat? Zo ja, dan ga ik direct zoeken.” (Billie heeft ook een standaard antwoord op de vraag 'waarom ben je zo dik?').

De gestelde vraag wordt grammaticaal ontleed, en de ingetypte woorden worden gematched met de achterliggende database van standaard antwoorden. Goede chatbots hebben een feedback knop waardoor programmeurs de mogelijkheid krijgen om antwoorden die slecht scoren te gebruiken om het systeem te verbeteren. Goede antwoorden worden gebruikt om de database met standaard antwoorden aan te vullen.

Het automatisch genereren van (nieuws) berichten

NLP wordt van origine voornamelijk gebruikt om ongestructureerde tekst om te zetten in gestructureerde gegevens (aantallen woorden of zinnen, grammaticale ontleding). Het omgekeerde kan ook: van

gestructureerde gegevens een tekstbericht maken (computer generated news stories, automatic story generation). Vanwege het enorme aanbod van nieuws op het web en de vluchtigheid ervan wordt hier steeds meer gebruik van gemaakt [9] [10], [11]. De basis voor een dergelijk nieuwsbericht is een set van

gestructureerde gegevens, meestal een tabel met cijfers of namen. Op basis van deze gestructureerde gegevens wordt de tekst gegenereerd. Nieuwsitems over sport en de financiële wereld lenen zich daarom goed voor automatic story generation.

(28)

4.1

NLP in het GI domein

In een willekeurige tekst staat vaak geo informatie in de vorm van geografische namen (steden, straten, landen). Het is eenvoudig om deze eruit te filteren, als je een referentielijst hebt. Geonames11 is zo’n lijst. Een

web service kan de bijbehorende locatie parameters (lengtegraad, breedtegraad) van de geografische naam erbij zoeken. Op basis van deze locatie parameters kan het document op een kaart worden getoond. Voorbeeld: in een document staat ‘Wageningen’. Het document kan dan als een punt op de kaart bij de plaats Wageningen worden getoond. Zo kunnen gebruikers ruimtelijk zoeken naar documenten. Als ze een gebied op de kaart selecteren worden documenten, waarin geografische namen voorkomen van het gebied wat ze via een kaartbeeld hebben geselecteerd, opgehaald. De techniek die hier voor nodig is staat beschreven in [12].

Onderstaande afbeelding komt uit een GIR systeem12 waarin foto’s zijn opgeslagen. Bij de foto’s is een geo

locatie opgeslagen, waardoor het mogelijk wordt de foto als punt op een kaart af te beelden. Via een mouse-over kunnen details van de foto worden opgevraagd en kan naar de foto worden doorgelinkt.

Figuur 11

Een voorbeeld van geografisch zoeken naar documenten, in dit geval historische foto’s.

Meer complexe voorbeelden zijn te verzinnen, bijvoorbeeld als de tekst niet expliciet een geografische naam aanduidt, maar een relatieve locatie ('30 kilometer ten westen van Wageningen') of een topografische aanduiding (‘grenzend aan de rivier de Rijn’). Hiervoor is dan een NLP algoritme nodig dat de taal omzet naar een ruimtelijke vraag (query) op de database.

11 http://www.geonames.org/

(29)

Een interessant onderzoek van Thomas, Sripada en Noordzij [13] bestudeert de mogelijkheid om geodata zonder kaartbeeld te communiceren via automatisch uit de geodata gegenereerde tekst. De doelgroep is blinden en slechtzienden. Er wordt gebruik gemaakt van via NLP gegenereerde ruimtelijke referenties die normaliter niet in de geodata voorkomt maar wel op het kaartbeeld zichtbaar is (bijvoorbeeld: ‘oostelijk’, ‘ten westen van’).

NLP kan ook worden gebruikt bij het organiseren van geo informatie zodat het beter gevonden kan worden. Wanneer er keywords in de metadata voorkomen kunnen deze automatisch worden gegenereerd (zie

hoofdstuk 7). De bronteksten waaruit de keywords moeten worden afgeleid kunnen bijvoorbeeld rapporten zijn die zijn geschreven over het betreffende geodatabestand. In een verkennend onderzoek is onderzocht in hoeverre alle metadata behorend bij een geodata bestand automatisch zou kunnen worden samengesteld (zie hoofdstuk 9: PoC: genereren van metadata).

(30)
(31)

5

Question Answering (QA)

Een IR systeem zoekt voor de gebruiker naar een document in de collectie. De meeste zoeksystemen doen dit. Ook Google, Bing, Yahoo. We zijn er eigenlijk aan gewend dat dit zo is, maar zo langzamerhand is de technologie dermate volwassen dat we aan een computer gewoon een vraag kunnen stellen, en dat we dan het antwoord terugkrijgen, in plaats van een document waar het antwoord in staat. Systemen die dit kunnen heten Question Answering (QA) systemen.

Een voorbeeld van een dergelijk systeem wat vrij en online is te gebruiken is Wolfram Alpha. Dit bedrijf presenteert zich als volgt: 13 ‘Wolfram Alpha's long-term goal is to make all systematic knowledge immediately

computable and accessible to everyone. We aim to collect and curate all objective data; implement every known model, method, and algorithm; and make it possible to compute whatever can be computed about anything. Our goal is to build on the achievements of science and other systematizations of knowledge to provide a single source that can be relied on by everyone for definitive answers to factual queries. ‘ Dit vergeleken met die van Google14: ‘Google’s mission is to organize the world’s information and make it

universally accessible and useful.’

Figuur 12

Wolfram Alpha, voorbeeld van een QA system op het web.

13 http://www.wolframalpha.com/about.html 14 https://www.google.nl/intl/en/about/

(32)

In Figuur 12 is te zien dat Wolfram Alpha gebruik maakt van synoniemenlijsten (rainfall - precipitation) en een geografische namen-lijst bij de interpretatie van de vraag.

Apple en IBM hebben elk hun eigen QA systeem ontwikkeld. Dat van Apple (Siri) is geïntegreerd in de iPhone4S en nieuwere toestellen. De bronnen waaruit Siri de antwoorden genereert zitten in de iPhone (contacten, agenda) of worden gezocht op het web. Siri werkt met spraakherkenning [14]. Door de beperkte computing mogelijkheden van een telefoon is Siri niet heel uitgebreid. Het is wel opgezet als lerend systeem. Het verbetert zichzelf wanneer het vaker wordt gebruikt.

IBM heeft een reputatie hoog te houden als het gaat om doorbraken in intelligente systemen. Na een schaak-computer die van de wereldkampioen won en een superschaak-computer die eiwitstructuren doorrekent kwamen ze in 2011 met Watson, die de beste spelers van de televisiequiz ‘Jeopardy!’ versloeg. In deze quiz wordt de algemene kennis van de deelnemers getest door het stellen van cryptogram-achtige vragen. Verder zit er een spel-strategisch element in. Begin 2011 won Watson de ‘Jeopardy!’ quiz van de twee beste spelers.

Het moge duidelijk zijn dat een QA systeem veel complexer is dan een IR systeem, en dat er meer nodig is dan taaltechnologie om het juiste antwoord te genereren. De makers van Watson wilden een aantal technische doorbraken realiseren. De problematiek speelt zich af in een open domein (er is geen sprake van een gesloten knowledge base), er wordt gebruik gemaakt van complexe taalvoorbeelden, de precisie van de antwoorden is hoog (dus niet 'het antwoord staat in dit document', maar het exacte antwoord dat werd gevraagd moet worden gegeven). Verder is vanwege het spelelement van ‘fout antwoord is geld verliezen’ vereist dat er een hoge mate van zekerheid van het antwoord is, en dat er snel wordt geantwoord.

IBM Watson is een grote doorbraak op het terrein van kunstmatige intelligentie. Het systeem werkt niet volgens het traditionele principe van het via NLP vertalen van de vraag naar een aantal antwoorden en deze vervolgens opzoeken in een database. Dit is namelijk niet werkbaar in een open domein waarin de vraag en het onderwerp van tevoren niet bekend zijn. Het principe van Watson is gebaseerd op een ranking van een aantal kandidaat antwoorden en het vinden van bewijs voor dit antwoord in andere bronnen. Het bewijs kan worden gevonden in een aantal bewijscategorieën, b.v. geografisch, chronologisch en lexicografisch. Voorbeeld: 'deze man was president van de VS ten tijde van gebeurtenis x'. Voor het goede antwoord moeten de tijdstippen 'was president van de VS' en het tijdstip van de betreffende gebeurtenis overlappen. Alle bewijscategorieën worden gewogen en volgens een machine learning algoritme wordt het meest waarschijnlijke antwoord gegeven. Verder is interessant dat Watson werkt op basis van open software. Uiteraard zitten er allerlei gepatenteerde algoritmen in, maar de basis van Watson bestaat uit veel hardware en het principe van parallel software processing via een groot aantal losse componenten die met een open source framework worden aangestuurd [15] [16].

5.1

QA in het GI domein

In het GI domein wordt vaak de naam question answering systeem gebruikt in de context van beslissingsonder-steunende systemen (decision support system). Dergelijke systemen zijn bedoeld om een vraag waarvan het antwoord afhankelijk is van veel factoren te kunnen beantwoorden (‘wat gebeurt er met variabele x als beleid y wordt uitgevoerd’). De resultaten worden vaak in grafieken en kaartbeelden weergegeven om de nuances in het antwoord goed te kunnen afbeelden. Dit is een ander type systeem dan bijvoorbeeld Watson, dat een enkel antwoord geeft. Een QA systeem van dat type zou er als volgt uit kunnen zien. In de geo informatie wordt er veel gerekend. Geodata is input voor modellen en overlays (kaartlagen over elkaar heen). Zo kunnen ruimtelijke vragen worden beantwoord, en analyses worden gemaakt over mogelijke toekomstige gebeurtenissen zoals overstromingen of landverschuivingen door erosie. De resultaten van een GIS analyse worden meestal gepresenteerd in een kaartbeeld. Het is denkbaar dat een GIS systeem via QA zou kunnen worden bevraagd.

(33)

Voorbeeld: 'Als de dijk bij plaats X doorbreekt, hoe hoog komt het water dan te staan in mijn huis?' Deze vraag kan via NLP worden geanalyseerd. De locatie van het huis zou ergens bekend moeten zijn (bijvoorbeeld in de instellingen van het gebruikersprofiel) en de locatiegegevens van 'plaats X' worden opgezocht via Geonames. Het GIS moet op basis van deze waarden de analyse uitvoeren en het resultaat uitlezen op de locatie 'mijn huis'. Dan kan met een NLP algoritme op basis van de oorspronkelijke vraag het antwoord worden gegene-reerd: 'Het water in jouw huis is dan Y meter hoog.'

(34)
(35)

6

Collective Intelligence

In de begindagen van het web bestond het alleen uit statische pagina’s. Later, toen men bedacht dat de gegevens op zo’n pagina nogal eens kunnen veranderen, ging men achterliggende databases gebruiken, die content genereerden op basis van een gestuurde query. Daarmee was het ook mogelijk om gebruikers zich te laten registreren, en zo content te presenteren die was afgestemd op de ingelogde gebruiker. De web applicatie was een feit. Een alternatief voor een gebruikers login was het achterlaten van cookies (kleine stukjes data). Zonder dat de gebruiker ingelogd was kon de web programmeur toch een op de gebruiker afgestemde webpagina genereren op het moment dat de gebruiker de bewuste pagina weer bezocht. Dit kon doordat de browser de eerder achtergelaten cookies detecteerde en deze opgeslagen gegevens gebruikte bij het opbouwen van de webpagina.

Deze technieken maakte het mogelijk om de content en het gedrag van de webgebruiker te bestuderen. Welke pagina’s bezoekt de ingelogde gebruiker, welke gegevens slaat hij op. Hoe lang blijft men op een bepaalde plek, hoe lang duurt het voordat een knop wordt ingedrukt et cetera. Dit gaf een beeld van de totale gebruiker: behalve diens identiteit ook het gedrag. Webwinkels gingen bestanden aanleggen waarin profielen van kopers werden samengesteld zodat aanbiedingen op maat konden worden aangeboden. Het web was een markt geworden met een eigen webmarketing strategie. Webgebruikers gingen zich ontwikkelen tot mondige consumenten die feedback geven op producten en diensten in de vorm van het schrijven van reviews of het geven van ‘likes’ op Facebook. Deze feedback is een gouden bron voor marketeers.

De enorme groei van gegevens op het web, van gebruikers maar ook van smart-devices, levert een in principe oneindige bron op die Big Data wordt genoemd. Het analyseren van Big Data levert informatie op die niet zichtbaar is in gegevens van een individuele gebruiker. Dit is het werkgebied van web Collective Intelligence (CI) [17]. Het MIT Center for Collective Intelligence gaat nog een stap verder. Op hun website [18] staat: ‘Our basic research question is: How can people and computers be connected so that - collectively - they act more intelligently than any individuals, groups, or computers have ever done before?'’

Met Collective Intelligence analyse is te ontdekken welke verbanden er zijn in gegevens, en op basis daarvan voorspellingen te doen of gedrag te sturen.

CI programmeurs maken intensief gebruik van machine learning algoritmen. Zo’n algoritme werkt op een set van gegevens. Ze worden bijvoorbeeld geteld, gesorteerd of gefilterd. Door die analyse wordt een patroon zichtbaar dat kenmerkend is voor die set gegevens. Dit ontdekte patroon is de basis voor verdere stappen. Als aan het algoritme een nieuwe set van gegevens wordt aangeboden kan worden vastgesteld hoe verschillend dit nieuwe set is van de oorspronkelijke set, en kan op basis hiervan een actie worden ondernomen. Bijvoorbeeld: spam [17]. Iemand krijgt een heleboel mail waarvan de afzender onbekend is. Als deze mails worden geanalyseerd blijkt dat in de mail tekst meer dan drie keer het woord ‘pharmacy’ voorkomt. Dit is het door het algoritme vastgestelde patroon in de gegevens. De persoon in kwestie besluit dat hij niet geïnteres-seerd is in mail die over ‘pharmacy’ gaat en zet een spam filter aan op basis van het algoritme. Alle nieuwe mails waarin meer dan drie keer het woord ‘pharmacy’ in voorkomen worden in de prullenbak geplaatst. Dit algoritme is simpel en effectief. Machine learning algoritmen kunnen erg complex zijn. Welk algoritme nodig is hangt af van het doel. Voor het analyseren van teksten worden vaak cluster algoritmen gebruikt. Op deze manier worden teksten die verwant met elkaar zijn aan elkaar gekoppeld.

(36)

Op het web zijn door deze techniek verschillende diensten ontstaan. Voorbeelden zijn: automatische aan-bevelingen ('andere gebruikers kochten…'), ranking ('de tien meest…') . Uiteraard zitten er in zoekmachines ook een reeks complexe machine learning algoritmen, waarvan Google’s Page Rank de meest bekende is. In ons onderzoek wilden we experimenteren met het ontdekken van verbanden in tekstuele data op basis van machine learning. Als bron hebben we Wageningen UR project publicaties gebruikt. Hiervan werd de inhoud geanalyseerd op woordfrequentie (Tabel 1).

Tabel 1

Woordfrequenties in Wageningen UR project publicaties.

Daarna zijn deze resultaten met elkaar vergeleken en hiërarchisch geclusterd via een dendrogram (Figuur 13).

Figuur 13

(37)

Hoe deze PoC is uitgevoerd staat beschreven in hoofdstuk 10: PoC: het ontdekken van relaties .

6.1

Collective Intelligence in het GI domein

Sinds het ontstaan van Open Street Map, de wiki versie van Google Maps, is volunteered geo information een begrip. Geo informatie, verzameld door de crowd via GPS tracks die worden geupload naar een kaart server. De term Collective Intelligence wordt door geo informatici in deze context gebruikt. Het geeft aan dat de wijsheid van velen (‘wisdom of the crowd’) bij het verzamelen van geodata een beter resultaat zou opleveren dan een bijdrage van een individu [19].

Het begrip CI zoals bedoeld in het door ons in de PoC gebruikte boeken [17] [20], waarbij gegevens van de web gebruikers worden gebruikt in de data analyse, komt naar beste weten van de auteur niet voor in het geo domein. We hebben het hier dus over het analyseren van gegevens die door ingelogde gebruikers zijn achtergelaten als zij de betreffende geo web applicatie gebruiken. Voorbeeld: welke metadata zoekterm is gebruikt, welk dataset is gedownload, hoe vaak, door wie, welk profiel had die persoon, welke analyse is uitgevoerd et cetera. Dergelijke analyses zouden een beeld kunnen geven van groepsprofielen van gebruikers van een bepaalde geo web applicatie. Met deze kennis kan het functioneren van de applicatie meer op de gebruikers worden afgestemd. Te denken valt aan het aanbevelen van datasets, het aanbieden van automatische ondersteuning bij online GIS analyse en het automatisch acquireren van nieuwe geodata sets voor de web applicatie op basis van het groepsprofiel van de gebruikers.

(38)
(39)

7

Conclusies

Wetenschappers maken intensief gebruik van informatica bij hun onderzoek. Bij vrijwel elk onderdeel van het onderzoek wordt enige vorm van automatisering gebruikt: bij gegevensverzameling, opslag, verwerking en presentatie. Vaak gaat het om systemen die alleen voor een bepaald onderzoek worden gebruikt, en dus geïsoleerd zijn van andere systemen.

Dit rapport heeft met een aantal voorbeelden aangetoond hoe van losse gegevensbronnen nieuwe informatie kan worden gemaakt. In een IR systeem worden gegevens teruggevonden door via metadata een zoekstruc-tuur aan te bieden en de zoekresultaten geordend weer te geven. Via NLP en CI worden ongestructureerde gegevens bewerkt en worden verborgen structuren ontdekt in bronnen en tussen bronnen. Op deze manier is van data dus informatie gemaakt (Rowley [3]). Deze patronen zijn zelf weer nieuwe bronnen waar mee gewerkt kan worden. Mogelijke dubbeling in onderzoek kan worden voorkomen. Trends kunnen inzichtelijk worden gemaakt. Zo wordt het mogelijk te leren van elkaars resultaten waardoor de kennis van Wageningen UR in zijn geheel wordt vergroot. Kennis, volgens Rowley als een ‘mix of information, understanding, capability,

experience, skills and values’.

Uiteindelijk gaat het niet om de onderzoeksgegevens, om de informatiesystemen die ermee worden gemaakt, niet om de modellen of analyses. Het gaat om het geven van de adviezen die de juiste beslissingen onder-steunen. Omdat een advies door mensen wordt gegeven, kan daar een ethische en intuïtieve component inzitten. Dat begint volgens Rowley op wijsheid te lijken.

(40)
(41)

8

PoC: genereren van keywords

Bij bibliotheek Wageningen UR is een eenvoudig PoC uitgevoerd waarin werd onderzocht in hoeverre het automatisch genereren van keywords zou kunnen bijdragen aan het optimaliseren van het werkproces. De gegenereerde keywords zouden dan aan de metadata kunnen worden toegevoegd zonder tussenkomst van een inhoudelijk expert. Het handmatig toevoegen van keywords heeft behalve de arbeidsintensiviteit nog een aantal andere nadelen (zie hiervoor ook paragraaf 3.1.1). Mensen kennen trefwoorden toe op basis van hun eigen context. Dit is dus altijd subjectief. Bovendien worden waarschijnlijk telkens dezelfde keywords uit een thesaurus gebruikt en zullen de wat minder toegankelijke trefwoorden worden gemist. Dit maakt dat het toekennen van keywords in de bibliotheek hoogstwaarschijnlijk niet consistent gebeurt.

Voor de PoC is een script geschreven dat een selectie van ongeklasseerde documenten van de bibliotheek (in PDF formaat) omzet in tekst. Vervolgens telt het script het voorkomen van woorden en woordensets in het document, en refereert ze aan de thesaurus. Het vóórkomen in de thesaurus wordt gemarkeerd.

Het script is gebouwd op basis van een open source toolkit voor Natural Language Processing, de NLTK15.

Het resultaat van het script is een tabel (Tabel 2). In deze tabel is opgenomen de titel van het document, het metadataveld ‘beschrijving’, de taal en de meest voorkomende trefwoorden met het aantal keer dat het woord in het document voorkomt. Tenslotte is er een marker of het woord in de thesaurus voorkomt.

Tabel 2

Resultaat (1 document) van het script voor het automatisch keyword genereren16.

Sample Document: Hygiene op de eerste plaats –

Uiergezondheidsspecialisten uit de hele wereld zijn het erover eens dat niet alle koeien drooggezet hoeven te worden met antibiotica. Maar bij succesvol selectief droogzetten horen ook ideale omstandigheden voor droge koeien. En een strategie passend bij bedrijf en individuele koe. Language: Dutch

Results (in 11.82 sec including thesaurus scanning):

Key Phrase Occurrences In Thesaurus procent 9 koe 8 koeien 7 X droogstand 6 droogzetten 6 antibiotica 5 X 15 http://nltk.org/

(42)

De resultaten zijn geëvalueerd door een eenvoudige quick scan: een handmatige vergelijking tussen wat de machine aan resultaten opleverde is vergeleken met wat een mens zou toekennen. Het bleek dat een aantal keywords hetzelfde was en dat er toch ook veel verschillen waren. Er is niet in detail onderzocht wat de oorzaak hiervan was, hiervan zijn een aantal aannames gemaakt. Zo is het bijvoorbeeld waarschijnlijk dat langere teksten betere keywords genereren. Om de resultaten van het script te verbeteren is de volgende aanpassing denkbaar: gewichten toekennen aan gevonden keywords op basis van voorkomen in belangrijke tekstonderdelen (titel, samenvatting). Ook is het mogelijk om machine learning toe te passen op basis van feedback van informatie specialisten van Wageningen UR Library.

(43)

9

PoC: genereren van metadata

De resultaten van de PoC met de sleutelwoorden (hoofdstuk 8: PoC: genereren van keywords) hebben geleid tot de onderzoeksvraag: ‘in hoeverre is het mogelijk om met NLP van een bepaalde tekst de metadata automatisch te genereren?’ Greenberg beschrijft dat dit meerdere malen is uitgevoerd voor Dublin Core metadata17. [21]

Als methode hebben we de volgende stappen genomen: – Lees de velden van het doel metadata bestand uit.

– Zoek in een tekst die het data bestand beschrijft of de woorden van deze metadata velden erin voorkomen. – Analyseer de omliggende zinnen en kijk of deze de doelwaarden van de velden bevatten.

– Vul deze in de metadata velden.

De eerste twee stappen zijn eenvoudig met NLP op te lossen. De derde is uiteraard het ingewikkeldst, omdat hierbij niet alleen syntax, maar ook semantiek (betekenis van een woord) belangrijk is.

9.1

ISO19139

Onze case betrof de metadata standaard voor geo informatie ISO19139. Dit schema wordt gebruikt om een geodata bestand te beschrijven. Een deel van het schema is hieronder weergegeven (Figuur 14).

Figuur 14

ISO19139 metadata schema.

Als dataset is de Corine Land Cover dataset gebruikt, met als NLP tekstbron (corpus) de beschrijvende documentatie [22].

(44)

De resultaten van dit PoC moeten in een vervolg studie nog verder uitgewerkt worden. Van dit schema zijn de metadata velden (elements) namelijk erg abstract geformuleerd. Daarom zullen ze niet vaak voorkomen in een tekst. In de volgende tabel is een voorbeeld weergegeven van wat is aangetroffen van enkele metadata elements (Tabel 3):

Tabel 3

Gevonden metadata elements en de zin (key phrase) eromheen.

metadata ‘level’ in keyphrase ‘tide level’ metadata ‘‘level’’ in keyphrase ‘tide levels’

metadata ‘level’ in keyphrase ‘vegetation index level’ metadata ‘level’ in keyphrase ‘years at various levels’ metadata ‘series’ in keyphrase ‘1:100000 series’ metadata ‘series’ in keyphrase ‘2.2.2. nurseries’ metadata ‘series’ in keyphrase ‘nurseries cultivation’ metadata ‘series’ in keyphrase ‘scale series’

Hier is te zien dat een syntactische aanpak onvoldoende is. De woorden komen voor in combinaties, meervoud en enkelvoud en, het belangrijkste, in een andere betekenis.

Voor een uitbreiding van deze PoC zou de methode aangepast moeten worden. De metadata elements zouden kunnen worden gegroepeerd op basis van invulmethode. Er zijn elements die automatisch worden ingevuld door de metadata editor omdat ze eerder in een configuratiebestand zijn ingevuld (contact, datum, metadata standaard). Sommige elementen kunnen uit de geodata zelf worden afgeleid (extent, resolutie, character set). Andere elementen zouden niet geautomatiseerd moeten worden vanwege mogelijke fouten (juridische referenties) . De rest zou dan met een nog te ontwerpen NLP algoritme, waarin semantiek wordt meegewogen, kunnen worden ingevuld.

(45)

10

PoC: het ontdekken van relaties

Voor de experimenten die zijn uitgevoerd is gebruik gemaakt van de voorbeelden en code uit het boek ‘Programming Collective Intelligence’ [17], hoofdstuk 3. Voor het ontdekken van patronen in tekst en tussen teksten wordt gebruik gemaakt van data clustering via machine learning algoritmen. De resultaten kunnen worden getoond in numerieke tabellen (zie Tabel 1) of, meer begrijpelijk, in diagrammen. In dit PoC hebben we de Pearson correlatie coëfficiënt gebruikt voor het bepalen van woordclusters en project clusters (dus zowel de correlatie tussen de getallen in de rijen als de getallen in de kolommen van Tabel 1).

In hoofdstuk 6 is al de dendrogram getoond van een woordcluster. In het PoC zijn ook andere diagrammen uitgetest zoals het netwerk diagram (Figuur 15), dat zowel de relatie tussen de woorden als de projecten kan uitbeelden.

Figuur 15

Resultaten van clustering weergegeven in een netwerk diagram.

In dit diagram zijn de projectnummers blauw weergegeven en de woorden rood. Tussen de projecten en de woorden zijn lijnen, die aangeven dat een woord in de project publicatie voorkomt. Woorden en projecten die dicht bij elkaar staan hebben een sterkere correlatie.

(46)

is. Ook is het visualiseren van de resultaten een onderwerp van studie. Welk type diagram werkt het beste voor mensen die de gegevens willen bestuderen.

De resultaten van dit vervolgonderzoek zou ingezet kunnen worden om CI patronen binnen de context van geo web applicaties te ontdekken. Deze patronen zijn waardevol voor het aanpassen van bestaande geo web applicaties naar intelligente ruimtelijke systemen die de gebruikers effectiever tot nut kunnen zijn.

(47)

Referenties

[1] Rijsbergen, C.J. van Information Retrieval , vol. Second edi. http://www.dcs.gla.ac.uk/Keith/Preface.html, 1979. [2] R.L. Ackoff, 'From data to wisdom. Journal of Applied Systems Analysis, vol. 16, pp. 3'- 9, 1989.

[3] J. Rowley, 'The wisdom hierarchy: representations of the DIKW hierarchy. Journal of Information Science, vol. 33, no. 2, pp. 163'- 180, 2007.

[4] ACM, 'ACM SIGIR Web site,' 2012. [Online]. Available: http://www.sigir.org/.

[5] F.W. Lancaster, Information Retrieval Systems: Characteristics, Testing and Evaluation. Wiley, 1968.

[6] J. Anderson and J. Perez-Carballo, 'The nature of indexing: how humans and machines analyze messages and texts for retrieval. Part I: Research, and the nature of human indexing 10.1016/S0306-4573(00)00026-1 : Information Processing & Management | ScienceDirect.com' Information Processing & Management, vol. 37, no. 2, pp. 231 - 254, 2001. [7] J. Anderson and J. Perez-Carballo, 'The nature of indexing: how humans and machines analyze messages and texts for retrieval. Part II: Machine indexing, and the allocation of human versus machine effort 10.1016/S0306-4573(00)00046-7 : Information Processing & Management | ScienceDirect.' Information Processing & Management, vol. 37, no. 2, pp. 255 277, 2001.

[8] P. Clough, C. Jones and R. Purves, '6th Workshop on Geographic Information Retrieval. 2010. [Online]. Available: http://www.geo.unizh.ch/~rsp/gir10/theme.html. [Accessed: 29-Nov-2012].

[9] L. Horn, 'Will Computer-Generated Articles Replace Human Journalists?' PCMAG, 2012. [Online]. Available: http://www.pcmag.com/article2/0,2817,2392870,00.asp. [Accessed: 28-Nov-2012].

[10] S. Levy, Can an Algorithm Write a Better News Story Than a Human Reporter?'WIRED, 2012. [Online]. Available:

http://www.wired.com/gadgetlab/2012/04/can-an-algorithm-write-a-better-news-story-than-a-human-reporter/. [Accessed: 28-Nov-2012].

[11] S. Lohr, 'Computer-Generated Articles Are Gaining Traction - NYTimes.com. New York Times, 2012. [Online]. Available:

http://www.nytimes.com/2011/09/11/business/computer-generated-articles-are-gaining-traction.html?pagewanted=all&_r=0. [Accessed: 28-Nov-2012].

[12] J. Godoy, J. Atkinson and A. Rodriguez, 'Geo-referencing with semi-automatic gazetteer expansion using lexico-syntactical patterns and co-reference analysis.,' International Journal of Geographical Information Science, vol. 25, no. 1, pp. 149 - 170, 2011.

[13] K.E. Thomas, S. Sripada and M. L. Noordzij, 'Atlas.txt: exploring linguistic grounding techniques for communicating spatial information to blind users.' Universal Access in the Information Society, vol. 11, no. 1, pp. 85 - 98, Dec. 2010.

[14] Apple Corp, 'Apple - iOS - Siri Frequently Asked Questions.' 2012. [Online]. Available: http://www.apple.com/ios/siri/siri-faq/. [Accessed: 29 Nov 2012].

[15] IBM, 'The Watson Research Team Answers Your Questions « A Smarter Planet Blog.' 2010. [Online]. Available: http://asmarterplanet.com/blog/2011/02/the-watson-research-team-answers-your-questions.html. [Accessed: 04-Dec-2012].

[16] D. Ferrucci, E. Brown, J. Chu-Carroll, J. Fan, D. Gondek, A. A. Kalyanpur, A. Lally, J. W. Murdock, E. Nyberg, J. Prager, N. Schlaefer, and C. Welty, 'The AI Behind Watson - The Technical Article.' 2010. [Online]. Available:

http://www.aaai.org/Magazine/Watson/watson.php. [Accessed: 04-Dec-2012].

(48)

[18] MIT, 'MIT Center for Collective Intelligence.' 2012. [Online]. Available: http://cci.mit.edu/. [Accessed: 06-Dec-2012]. [19] M. Goodchild, 'NeoGeography and the nature of geographic expertise.' Journal of Location Based Services, vol. 3, no. 2,

pp. 82 - 96, Jun. 2009.

[20] D.B. Haralambos Marmanis, Algorithms of the Intelligent Web. Manning, 2009.

[21] J. Greenberg, 'Metadata extraction and harvesting: A comparison of two automatic metadata generation applications. ' Journal of Internet Cataloging, vol. 6, no. 4, pp. 59 - 82, 2004.

(49)
(50)

S.P.J. van Delft en R.H. Kemmers

Alterra-rapport 2415 ISSN 1566-7197

Natuurontwikkeling graslanden kwelrijke

flank Oostelijke Vechtplassen

Resultaten van een ecopedologisch en bodemchemisch onderzoek

Meer informatie: www.wageningenUR.nl/alterra

Alterra is onderdeel van de internationale kennisorganisatie Wageningen UR (University & Research centre). De missie is ‘To explore the potential of nature to improve the quality of life’. Binnen Wageningen UR bundelen negen gespecialiseerde en meer toegepaste onderzoeksinstituten, Wageningen University en hogeschool Van Hall Larenstein hun krachten om bij te dragen aan de oplossing van belangrijke vragen in het domein van gezonde voeding en leefomgeving. Met ongeveer 40 vestigingen (in Nederland, Brazilië en China), 6.500 medewerkers en 10.000 studenten behoort Wageningen UR wereldwijd tot de vooraanstaande kennisinstellingen binnen haar domein. De integrale benadering van de vraagstukken en de samenwerking tussen natuurwetenschappelijke, technologische en maatschappijwetenschappelijke disciplines vormen het hart van de Wageningen Aanpak.

Alterra Wageningen UR is hèt kennisinstituut voor de groene leefomgeving en bundelt een grote hoeveelheid expertise op het gebied van de groene ruimte en het duurzaam maatschappelijk gebruik ervan: kennis van water, natuur, bos, milieu, bodem, landschap, klimaat, landgebruik, recreatie etc.

Referenties

GERELATEERDE DOCUMENTEN

The aim of this study was both to describe the experience of health care providers completing a simulation exercise and to assess whether enhancing their empathy with patients and

Het advies aan E-Core is om zelf modellen te maken die geschikt zijn voor real time 3d en deze georganiseerd in bibliotheken te bewaren zodat ze hergebruikt kunnen worden. Tevens

(a) (1 punt) Geef een formule die waar is in modellen waarin precies twee objecten bestaan met eigenschap P , en onwaar in modellen waarin 0, 1, 3, 4,.. (Een voorbeeld is

(1 punt) Welke aanpassing(en) worden er gedaan in de verzamelingen G en/of S, als gevolg van het verwerken van dit tweede voorbeeld.. (2 punten) Na deze twee voorbeelden volgen nog

(c) (3 punten) Wat doet het version-space leeralgoritme als het een example te verwerken krijgt dat een false negative blijkt te zijn voor hypothese S i in de S-set.. Verklaar

Hierin zijn N en Z de verzamelingen natuurlijke respectievelijk gehele getallen, en zijn < en > de relaties ‘kleiner dan’ respectievelijk ‘groter dan’.. De relaties < en

Holonic control architectures have been most often implemented using Multi-Agent Systems (MASs) – to the extent where MASs implementations (specifically using the Java

Het gaat immers om een integrale opgave: alle drie de domeinen (wonen, zorg en welzijn) zijn van belang om mensen die hulp of zorg nodig hebben met zelfregie zo lang