• No results found

Ontwerp van een domein vocabulaire voor de voedingsmiddelenindustrie

N/A
N/A
Protected

Academic year: 2021

Share "Ontwerp van een domein vocabulaire voor de voedingsmiddelenindustrie"

Copied!
2
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

december 2008 @gro-Informatica 23

Unilever Research & Development

Research-driven,

consumer-focused,

innovative and enterprising

150 million times a day, all over the world, we are meeting everyday needs for nutrition, hygiene and

personal care with brands that help people feel good, look good and get more out of life. To ensure

that we continue to expand our vitality business, we believe continuous investment in Research &

Development is crucial.

Globally, our R&D capability has six main locations – Vlaardingen in the Netherlands, Port Sunlight

and Colworth House in the United Kingdom, Bangalore in India, Shanghai in China and Trumbull

in the US. The annual budget for R&D is in the region of 900 million Euro.

The Unilever Food and Health Research Institute - based in Vlaardingen, Shanghai and

Bangalore - is an inspiring and outstanding place where we work on improving the quality of life of

our consumers with science & technology innovations delivered through our product categories. Our

staff consists of experts from more than 40 nationalities. They work in multidisciplinary teams, often

in close collaboration with external experts, to improve the quality of our products continuously and

to bring great new ideas to life.

Our aim is to be the leader in the following strategic science & technology areas:

●

Nutrition and health

●

Flavour generation and delivery

●

Food microbiology and preservation

●

Food structuring and processing

●

Consumer perception and behaviour

visit us on www.unilever.com

Probleemachtergrond

In de voedingsmiddelenindustrie zijn voortdurend innova-ties noodzakelijk om nieuwe markten te ontwikkelen en te zorgen dat de producten aan de hoogste eisen op het gebied van kwaliteit, veiligheid en gezondheid voldoen. De meeste bedrijven hebben hiervoor de beschikking over een eigen R&D organisatie maar kunnen ook een deel van hun werkzaamhe-den uitbestewerkzaamhe-den. Door overnames en fusies hebben deze bedrij-ven steeds meer een mondiaal karakter gekregen. Het gevolg is dat de R&D programma’s steeds vaker worden uitgevoerd op verschillende locaties. Dit kunnen grotere centrale laborato-ria zijn maar ook regionale ontwikkelingsafdelingen, welke er vaak op gericht zijn om in te spelen op de specifieke wensen van de lokale markten.

Als gevolg van de toenemende omvang van de onderzoek en ontwikkelingsprogramma’s en verspreiding van de activiteiten over verschillende locaties vraagt het vastleggen en opslaan van de resultaten de nodige aandacht. Voor zover het de “high level” conclusies van de werkzaamheden betreft, welke zijn vastge-legd in elektronische bestanden bieden de huidige document management technieken inmiddels redelijke oplossingen. Ook het koppelen en op afstand toegankelijk maken van document-verzamelingen is met de tegenwoordige netwerken geen groot probleem meer. Zoekmachines als Lucene of K2 kunnen verder indexeerbare content goed ontsluiten. De problemen ontstaan wanneer men de onderliggende experimentele gegevens, de “raw data”, wil terughalen, bij voorbeeld voor een nadere ana-lyse of hergebruik. Vaak worden deze gegevens door de onder-zoeker in lokale, niet voor derden toegankelijke systemen opge-slagen en zijn zo onzichtbaar voor de rest van de organisatie. Na vertrek van de “data-eigenaar” moeten deze gegevens in het algemeen als verloren worden beschouwd. Echter, ook als deze data in centrale repositories (LIMS) wordt opgeslagen, dan nog blijkt deze vaak moeilijk te traceren te zijn door het ontbreken van een adequate beschrijving en het kader waarbinnen deze zijn gegenereerd. Zo kunnen vooral databestanden die uitslui-tend numerieke of audiovisuele gegevens bevatten zonder de toevoeging van de juiste metadata, welke de betekenis en con-text beschrijven, eveneens als verloren worden beschouwd. Af-gezet tegen de vaak aanzienlijke jaarlijkse investeringen in R&D betekent dit een substantieel verlies van resultaten. Om deze oorzaak van gegevensverlies te voorkomen en ook bij zeer grote databestanden deze goed toegankelijk en door-zoekbaar te houden is onderzoek gedaan naar methoden voor selectie en gebruik van metadata voor het annoteren van gege-vens, zonder dat dit proces door de dataproducent als

belas-tend wordt ervaren. Door bij dit annotatieproces gebruik te maken van domeinspecifieke vocabulaires kan het zoekproces veel efficiënter worden, waardoor tijd wordt gespaard (minder irrelevante hits) en minder kennis verloren gaat. Deze zelfde vocabulaires, aangevuld met synoniemen kunnen helpen bij het opstellen van een zoekvraag en zo de resultaten van een search, binnen zowel als buiten de eigen organisatie, aanzien-lijk verbeteren. Dit artikel gaat over het opzetten van een der-gelijke vocabulaire.

aanpak

De R&D researcher vervult twee rollen rondom de verzame-ling expliciete kennis die in een organisatie aanwezig is. Als zoeker is hij bezig om een zo groot mogelijke recall en precisie bij een zo laag mogelijke inspanning te verkrijgen. Nu constate-ren we vaak dat geavanceerde zoektechnieken zoals autocom-pletion en query expansion toegevoegde waarde hebben boven de rechttoe rechtaan stringsearch. De onderliggende vraag is dus niet welke techniek het beste is maar hoe een goede vocabu-laire te construeren die als doel heeft de onderzoeksrapporten van een R&D afdeling goed te ontsluiten. Als aanbieder is de R&D resear-cher bezig om expliciete kennis te updaten en toe te voegen aan de kennisverzameling van de organisatie (zoals door het schrijven van een technisch rapport). Bij documenten die niet de context waarin ze bedoeld zijn beschrijven (zoals databe-standen) is het adequaat en consequent ‘taggen’ van informa-tie van groot belang. Hierdoor kan dit soort bestanden worden gekoppeld aan de zoekvraag. Deze tags vormen een vocabulai-re. Bij bestanden die wel informatie bevatten over de context wordt vaak door organisaties gekozen om ook hier handma-tige tagging door de aanbieder toe te staan of zelfs te verplich-ten. Belangrijk is dan te weten wat de toegevoegde waarde nu eigenlijk is van deze handmatig toe te voegen keywords. Onderzocht is hoe een domein vocabulaire te construeren. Hierbij is gekeken naar een beheersbaar proces waarin de domein expert het meest effectief ingezet kan worden, en naar een incrementele verbetering van de huidige situatie.

Begonnen is met het inventariseren van de randvoorwaarden die gelden voor een domein vocabulair dat bedoeld is voor het ondersteunen van autocompletion, query expansion en manu-al tagging. Deze technieken bij te weinig of te veel zoekresulta-ten kan worden gekeken naar een meer algemene of meer spe-cifieke term. Vandaar is het ) noodzakelijk dat de termen in de vocabulaire onderling met elkaar verbonden zijn. Voorbeelden

o

ntwerp

Van

een

domein

Vocabulaire

Voor

de

Voedingsmiddelenindustrie

Lars Hulzebos

Information specialist bij WUR AFSG (lars.hulzebos@wur.nl) en Dirk Out, Unilever Research (dirk.out@unilever.com)

(2)

24 @gro-Informatica december 2008 hiervan zijn: term <has broader term> term2 (zoals ‘milk’

<has broader term> ‘dairy’), term3 <has narrower term> term4 (zoals ‘dairy’ <has narrower term> ‘milk’). Gekozen is voor het gangbare formaat om thesauri uit te kunnen wisselen: het SKOS formaat [http://www.w3.org/2004/02/skos/]. Aangezien de gebruiker uiteindelijk bepaalt waarnaar gezocht wordt, is het ideaal dat 2) elke zoekterm die een zinvolle relatie heeft met (termen uit) een rapport in het vocabulaire voorkomen. Als input zijn de logs gebruikt van de keywords die zoekende researchers hebben gebruikt. Verder dienen 3) zoveel mogelijk zinvolle termen (dus niet de stopwoorden) uit de full text cor-pus in de vocabulair voor te komen, dit zorgt ervoor dat er in ieder geval connecties zijn tussen een zoekvraag en de full text index. Daarnaast heeft 4) de betrokken organisatie zelf vaak ook nog invloed op deze vocabulaire (organisational vocabula-ry). Dit zijn termen waarvan zij vinden dat deze belangrijk zijn om vast te leggen (zoals b.v. welke protocollen er zijn gebruikt). Tenslotte is het de uitdaging om 5) termen die niet bijdragen tot het vinden van een rapport NIET in het vocabulaire op te nemen. Bij het samenvoegen van beschikbare SKOS thesauri loopt men het risico dat de zoeker wel termen uit het vocabu-laire gebruikt bij query expansion maar dat het geen enkele invloed heeft op het zoekresultaat.

Om het vocabulaire te construeren is de ROC methode (zie het artikel Experts aan het stuur – Modelleren met ROC) als basis geno-men. Als input voor het te construeren vocabulaire bestaat er een lijst van de core termen, de zoektermen uit de logs en een set van termen die de betreffende organisatie belangrijk vindt. Daarnaast is er een collectie van losse SKOS thesauri beschikbaar(waaronder AGROVOC, NALT, MESH, en GEMET). Een paar uitbreidingen zijn gemaakt om dit toepasbaar te maken voor dit probleem.

) het aantal start concepten in het experiment is aanzienlijk (in de tienduizenden), waardoor het voor een expert ondoenlijk is deze met de hand te doorlopen. Als oplossing is gekozen om aan elk seed concept een maat van belangrijkheid te koppelen. Door deze seed concepten te ordenen volgens deze ‘ranking’, kan de expert in volgorde van belangrijkheid de startconcep-ten lastartconcep-ten processen. Op deze manier kan de expert ‘timeboxen’ en elke minuut die ter beschikking is effectief inzetten. 2) wanneer een startconcept kan worden gematcht met een term uit de aanwezige SKOS thesauri (die dan in de ROC repo-sitory staan) zijn vrijwel altijd alle broader termen ook relevant voor de proto ontology. Bij de huidige ROC methode dient de expert alle gerelateerde termen zelf te accorderen. Hier wor-den deze broader termen automatisch toegevoegd.

De ranking van de startconcepten gebeurt nu bij de core ter-men door een functie te gebruiken die uitdrukt hoe onder-scheidend een term is in een document. De zoektermen uit de logfile zijn gerankt volgens de frequentie, en de termen uit de organisational vocabulary hebben alle dezelfde ranking. Vervolgens is over deze drie sets een functie losgelaten waaruit de uiteindelijk één gerankte seed concept list ontstaat. Het aangepaste ROC experiment wordt op dit moment uitge-voerd en loopt als volgt (zie Figuur ):

) de gerankte seedlist (startconceptenlijst) wordt gematched met de SKOS thesauri in de ROC repository.

2) de gematchte termen met hun broader terms worden toege-voegd aan de domain vocabulaire (proto-ontology).

3) de niet gematchte termen worden in volgorde van belang-rijkheid door de expert behandeld.

4) Elke versie van het domain vocabulaire is meteen beschik-baar voor advanced search technieken en controlled tag-ging, aangezien dit beschikbaar is in een benaderbare RDF repository.

Voorlopige conclusies

Het construeren van een domein vocabulaire voor het onder-steunen van het zoeken (autocompletion, query expansion) en aanbieden (taggen) is een cyclisch, deels te automatiseren, en een beheersbaar handmatig proces. Het is een cyclisch pro-ces omdat het zoekgedrag en de expliciete kennisverzameling voortdurend verandert en het domein vocabulaire constant deze ontwikkelingen moet bijhouden, wil het dezelfde kwa-liteit behouden. Het is een deels te automatiseren proces omdat er door automatisch te matchen met bestaande vocabulaires er al een aanzienlijke startset gegenereerd kan worden. Het is een beheersbaar handmatig proces omdat ondanks de grote hoe-veelheden startconcepten de expert zijn kostbare tijd effectief inzet door, met de gerankte startconcepten, voortdurend met de op dat moment met belangrijkste concept bezig is. Dit voort-durend geupdate ‘vocabulaire-op-maat’ kan voor de zoeker een nuttige toevoeging zijn in het ontsluiten van documenten, en geeft de aanbieder een hulpmiddel om gecontroleerde en zin-volle termen te gebruiken bij het handmatig taggen.

advanced search controlled tagging logs content organisational vocabulary SKOS thesauri

ranked seed concepts

domain vocabulary

vocabulary

construction

Figuur 1: Het cyclisch construeren van een domein vocabulaire door con-tent, logs en de organisational vocabulary te gebruiken voor het genereren van een ranked seed list. Deze lijst wordt tezamen met beschikbare SKOS thesauri gebruikt in de aangepaste ROC methode. Dit proces levert een (aangepaste) domein vocabulary op wat gebruikt kan worden in advanced search methoden (zoals auto completion & query expansion) en in control-led tagging.

Referenties

GERELATEERDE DOCUMENTEN

Het is van belang dat alle verantwoordelijke aiossen tij- dens de overdrachten aanwezig zijn om relevante patiën- ten voor de dienst over te dragen of eventuele informatie te

Gods Geest en genade zal die ook bewaren in de harten der ware gelovigen; maar wat aangaat de openbare Belijdenis en deszelfs voordelen daaromtrent heeft God alle heilige

Samen werken wij aan een veerkrachtigere natuur naar een Rijke Waddenzee met duurzaam economisch medegebruik (zoals visserij

IV.3.3) Voorwaarden voor de verkrijging van het bestek en aanvullende stukken of het beschrijvende document Termijn voor ontvangst van aanvragen voor documenten of voor toegang

Deze tender betreft de Europees openbare aanbesteding voor de uitvoering van archeologische diensten voor waterschap Scheldestromen, hierna te noemen de aanbestedende

Dit is reeds voor één (ZE) gedaan: het Prove of Concept Pilot-project ZE Lichtenvoorde, bestaande uit 1 RWZI en 5 RG. Dit project is uitgevoerd met ABB 800xA platform, ALERT en

Uiteindelijk zal ook duidelijk worden dat niet alle onderstaande magazijnen van belang zijn voor het ontwerp van het montagemagazijn.. De eerste magazijnen die besproken worden,

Inschrijver dient te beschikken over een informatiebeveiligingssystem volgens de Europese norm ISO/IEC 27001:2013 of vergelijkbaar, waarin ten minste de volgende onderwerpen