• No results found

Automatic Machine Translation Dutch ↔ Gronings

N/A
N/A
Protected

Academic year: 2021

Share "Automatic Machine Translation Dutch ↔ Gronings"

Copied!
1
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Draft

Automatic Machine Translation Dutch ↔ Gronings

Rick Kosse

Johan Bos

Antonio Toral

Ack. data providers: Goffe Jensma and Martijn Weiling

Gronings Characteristics

• Word order auxiliary verbs in subordinated sentences GR: Zeg mor davve nai’ kommen willen.

NL: Zeg maar dat wij niet willen komen.

• Pro-drop questions second-person subject pronoun GR: Hes dat doan?

NL: Heb je dat gedaan?

• Irregular verbs When the stem ends in an -l or an -r, only one -n is left in plural form.

GR: Not fiedelen but fiedeln NL: Vioolspelen

Parallel Corpora

Domain Dutch Gronings

In-domain proces-verbaal moest er van opgemaakt worden. precesverbal mos d’r van opmakt wodden. In-domain jij hebt werkelijk een brutale mond. doe hes ja ’n brutoale mond.

In-domain ’t is al donker wanneer ze bij huis komen. ’t is aal duuster as ze op ’t haim kommen. Out-domain hadden ze het over mijn verhaal? haren ze t nou over mien verhoal?

Out-domain ze zei: nou, wees maar niet verdrietig hoor. nou, heb mor gain verdrait, zee ze. Out-domain heb jij ook eventjes gevaren. hest doe ook even boot jevoaren.

Translation Results

• procht-verboal mos der van opgemoakt wodden. • doe hest waarkelek ’n brutale mond.

• ’t is aal donker ze bie hoes komen. • hadden ze ’t over mien verhoal?

• ze zee: nou, wees moar nait verdrietig heur. • hes doe ook eventjes gevaren.

Evaluation (BLEU)

System In-domain Out-domain Baseline 18.09 10.48 Word 18.10 4.47 Char 23.68 10.76 BPE-50 23.32 9.28 BPE-100 25.12 8.83 BPE-250 24.55 5.10 BPE-500 23.43 3.31 BPE-1000 21.58 1.05

Method

• Three models: Word-, Character-Based, Bytepair encoding • Corpora: Goud Volk and Martha

• Goud Volk (8000 sentences) → Training, Dev, Test (In-domain) • Martha (1000 sentences) → Test (Out-domain)

• Trained with NMT-Keras (sequence-to-sequence)

Challenges

• Very little parallel data

• No spelling standards for Gronings • Regional differences

• First MT system for NL↔GR

Future Work

• Create monolingual silver data (”backtranslate”) • Add silver data to training data and re-train

Referenties

GERELATEERDE DOCUMENTEN

Surf dan even naar kids-for-kids.be, een initiatief binnen Plan België, voor kinderen in Cambodja en Vietnam. e en hart voor Jezus hebben, betekent ook anderen een

Hilde Ingels, de journaliste in kwestie, die ook sociologe is, heeft al vijftig zulke laatste gesprekken gevoerd, met mensen die op de rand van de dood staan.. Het initiatief

Subgunningscriteria? Dan wordt uw Inschrijving als onvoldoende beschouwd en leggen wij uw Inschrijving terzijde. U neemt dan geen deel meer aan deze Offerteprocedure. Wij

Voor een vogel zal het weinig uitmaken of hij door al dan niet weidelijk lood wordt gedood of gewond raakt.. ’Een jachtveld, waar verwilderde katten worden opgeruimd en kraai-

[r]

De toets wordt buiten het gehoor van de andere leerders afgenomen, zeker als je voor alle leerders dezelfde toets zou gebruiken (als een leerder al vijftien keer dezelfde

Nu heb je voor die specifieke interpretatie van zeggen als ‘verzekeren’ wel altijd een meewerkend voorwerp nodig - dus niet ik zeg, maar ik zeg u/je/jullie - maar het laat wel

In particular, the present study argues that zijn is used with these particle verbs when the motion event is construed as a (telic or atelic) change of state on the part of