• No results found

AI op historische teksten met behulp van Tag de tekst op VeleHanden

N/A
N/A
Protected

Academic year: 2022

Share "AI op historische teksten met behulp van Tag de tekst op VeleHanden"

Copied!
19
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

AI op historische teksten met behulp van

‘Tag de tekst’ op VeleHanden

(2)

Achtergrond informatie

De leveranciers Picturae, Aincient, Sioux Technologies en Island of Meaning zijn een samenwerking aangegaan met als doel nieuwe dienstverlening te ontwikkelen vóór- en samen met het Stadsarchief Amsterdam, Noord-Hollands Archief en Nationaal Archief. Deze samenwerking is gestart tijdens een project binnen het SBIR-programma voor innovatie van de Rijksdienst voor Ondernemend Nederland.

In deze samenwerking wordt een platform ontwikkeld met als doel de doorzoekbaarheid van

historische transcripties van deze archieven te vergroten. Dit platform maakt gebruik van Artificiële Intelligentie (AI) om automatisch ‘entiteiten’ te kunnen herkennen in deze transcripties. Het crowd- project ‘Tag de tekst’ is opgezet met als doel om data te verzamelen om zo het AI model verder te kunnen doorontwikkelen.

(3)

Overzicht

▪ Wat is het doel van het project “Tag de tekst”?

▪ Wat is Artificiële Intelligentie?

▪ AI voor historisch Nederlands?

▪ VeleHanden-data als basis voor het ontsluiten van historisch Nederlandse teksten

(4)

Wat is het doel van het project

“Tag de tekst”?

(5)

Wat is het doel van het project “Tag de tekst”?

Om data te verzamelen voor het AI model, is het project

“Tag de tekst” op VeleHanden opgestart. Het doel is om in de getoonde transcripties zogenaamde ‘tags’ (of ‘labels’) aan te brengen bij de volgende entiteiten: persoonsnamen,

locaties, en tijden/datums.

Deze data is noodzakelijk om het AI model te kunnen

‘trainen’ (zie later in deze presentatie wat hiermee bedoeld wordt). Het AI model ‘leert’ dan zelfstandig en automatisch deze entiteiten te herkennen in nieuwe transcripties. Dit bespaart zeer veel tijd en zorgt dat de grote corpora aan historisch Nederlandse teksten goed doorzocht kunnen worden.

(6)

Wat is Artificiële Intelligentie ?

(7)

“Artificiële Intelligentie (AI) betreft het vermogen van machines om intelligent gedrag te vertonen.”

In de komende slides wordt AI uitgelegd aan de hand van een voorbeeld

Voorbeeld: “het automatisch herkennen van katten op foto’s”

Wat is artificiële intelligentie?

(8)

▪ Hiervoor wordt “een model” gekozen: dit kan gezien worden als een

verzameling getallen. Hieronder representeren de zwarte bolletjes deze getallen.

▪ Als input heeft het model een foto, en als output een “Ja” (kat) of een “Nee”

(geen kat)

Wat is artificiële intelligentie?

(9)

Vervolgens moet het model “getraind” worden. Dit gebeurd door vele gelabelde foto’s te gebruiken. Dat zijn foto’s waarvan er bekend is of er een kat te zien is of niet. Dit trainen gebeurd door iedere foto te laten

beoordelen door het model en te kijken naar de output (wel/geen kat):

Als die correct is wordt er niks gedaan.

Is deze output fout (bijvoorbeeld een “Ja” als output terwijl er geen kat te zien was op de foto), dan worden de gewichten (getallen van het model) automatisch aangepast tot de output overeen komt met het gekende label.

Wat is artificiële intelligentie?

(10)

▪ Dankzij een grote verzameling correcte trainingsdata kan dit proces zeer vaak

herhaald worden, wat leidt tot een beter getraind model. Een beter getraind model kan beter voorspellen of er een kat te zien is of niet.

▪ Betere trainingsdata leidt tot een beter model!

Wat is artificiële intelligentie?

(11)

Dit getraind model kan dan met zeer grote waarschijnlijkheid correct zeggen of er een kat op te zien is of niet, ook van foto’s die het model nog niet eerder gezien heeft!

Dit is in een notendop hoe AI werkt: data gebruiken om een reeks getallen te bepalen die op bepaalde input de gewenste output kan geven. Het AI model “begrijpt” wat er op de foto staat!

Wat is artificiële intelligentie?

(12)

AI voor historisch Nederlands?

(13)

Op dezelfde manier als bij foto’s, worden binnen dit project teksten genomen

Het AI model heeft als input een tekst en als output dezelfde tekst met per woord een ‘tag’

(of net het gebrek aan tag wanneer het woord geen entiteit is)

Input Output

Tag: Persoon

AI voor historisch Nederlands?

Tag: Tijd

Tag: Locatie

(14)

VeleHanden-data als basis voor het ontsluiten van historisch

Nederlandse teksten

(15)

▪ Dankzij de tags van alle vrijwilligers kan trainingsdata gegenereerd worden:

van VeleHanden

VeleHanden-data als basis

(16)

▪ Dankzij de tags van alle vrijwilligers kan trainingsdata gegenereerd worden:

van VeleHanden, via Transkribus

VeleHanden-data als basis

(17)

▪ Dankzij de tags van alle vrijwilligers kan trainingsdata gegenereerd worden:

van VeleHanden, via Transkribus, naar trainingsdata

VeleHanden-data als basis

(18)

VeleHanden-data als basis

▪ Dankzij de tags van alle vrijwilligers kan trainingsdata gegenereerd worden:

van VeleHanden, via Transkribus, naar trainingsdata

▪ Zo kan het AI model getraind worden zodat automatisch de gezochte entiteiten gevonden kunnen worden!

(19)

Bedankt voor uw hulp!

Referenties

GERELATEERDE DOCUMENTEN

Vernieuwende initiatieven die tijdens de lockdown ontstonden, waren ener- zijds initiatieven die naar verwachting vooral bruikbaar zijn in crisistijd. Anderzijds ontstonden

7:658 BW moet een werkgever zorgen voor een veilige werkplek en deze zorgplicht ziet niet alleen op fysieke schade, maar ook op psychische schade.. Op grond

b Grouping Variable: the occurence of the Internet has decreased the amount of albums purchased from the record store.

Vroeger was heus niet alles beter, maar ik verlang wél terug naar de tijd dat een opdrachtgever zaken kon doen door enkele aannemers met goede referenties uit te nodigen.. En hoe

Jesse van ’t Land van aannemer Jos Scholman en golfbaanarchitect Alan Rijks: ‘We hebben Barenbrug-grasmengsels gekozen omdat iedereen in het team goede ervaringen en goede

Andere factoren die volgens het kwantitatief onderzoek een positieve (maar beperkt) relevante relatie hebben voor de lokale opkomst, zijn het uitgeven van minstens één eurocent

Juridisch is het zo dat indien vastgesteld wordt dat een gebied behoort tot de naar aantal en oppervlakte meest geschikte gebieden voor de instandhouding van een in bijlage I van de

Niet alleen omdat de wetenschap hier razendsnel achterstanden oploopt als het buitenland onze grote vissen naar binnen hengelt, juist ook voor onze economie en maatschappij is