• No results found

DNA als lange termijn dataopslag

N/A
N/A
Protected

Academic year: 2021

Share "DNA als lange termijn dataopslag"

Copied!
20
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

DNA

​ ​als​ ​lange​ ​termijn​ ​dataopslag

Hoe

​ ​realistisch​ ​is​ ​dat?

door

Thomas

​ ​Maas,​ ​Siger​ ​de​ ​Vries,​ ​Sjors​ ​Witteveen

10779388,​ ​10289321,​ ​10808493

3

​ ​februari​ ​2017

Begeleider:

Myrte​ ​Mijnders,​ ​Dr.​ ​Martijn​ ​Egas

Vak:​ ​​Thema​ ​III:​ ​Interdisciplinair

Onderzoeksproject​ ​-​ ​deel​ ​2

(2)

Inhoudsopgave

Inhoudsopgave 1

Inleiding 2

Methode 2

Voorwaarden 3

Structuur,​ ​zwakke​ ​schakels​ ​en​ ​stabiliteit​ ​van​ ​DNA 5

De​ ​opbouw​ ​van​ ​DNA 5

DNA​ ​een​ ​stabiel​ ​molecuul 6

De​ ​zwakke​ ​schakels​ ​van​ ​DNA 7

Zorgvuldige​ ​opslag 8 Conclusie 9 Error-correction 10 Error-correction​ ​coderen 10 Verschillende​ ​coderingen 10 Conclusie 12 Economische​ ​competitief 13

Kosten​ ​DNA​ ​als​ ​lange​ ​termijn​ ​dataopslag 13

Trend​ ​van​ ​de​ ​kosten​ ​voor​ ​het​ ​lezen​ ​en​ ​schrijven​ ​van​ ​DNA 13

Conclusie 14

Conclusie​ ​en​ ​discussie 15

Discussie 15

Referenties 18

Bijlagen 20

(3)

Inleiding

Met steeds vernieuwende informatie en communicatietechnologieën stijgt de hoeveelheid geproduceerde data ieder jaar sneller (Hilbert & Albert, 2011). Als deze trend vergeleken wordt met de trend van de productie van huidige opslagmedia, komt naar voren dat er in 2040 al meer data is om op te slaan dan de verwachte voorziening van opslagmedia aankan (Zhirnov et al., 2016). Ook is een groot deel van deze vraag naar opslag voor de lange termijn (Bornholt, 2016). Dergelijke voorspellingen​ ​maken​ ​de​ ​vraag​ ​naar​ ​alternatieve​ ​lange​ ​termijn​ ​dataopslag​ ​methoden​ ​steeds​ ​reëler. Sinds enkele jaren is een nieuw opslagmedium in opkomst: DNA. Dit molecuul staat bekend als de drager van de code van het leven en is veelvuldig getoetst op zijn robuustheid door miljoenen jaren evolutie. Dit maakt het een logische keuze als drager voor ook een digitale code. Een andere reden voor de keuze is omdat zolang er op DNA-gebaseerd leven is, er redenen zullen zijn om DNA te kunnen lezen en manipuleren (Bornholt et al., 2016). Hierdoor heeft dit medium een grote kans om in de toekomst leesbaar te blijven. Met dit idee zijn wetenschappers zoals Bornholt (2016), Goldman (2013) en Tabatabaei Yazdi, Yuan, Ma, Zhao en Milenkovic (2015) bezig gegaan om DNA te testen als data opslagmedium. Gebruikmakend van hedendaagse DNA-technieken zijn zij erin geslaagd om digitale data, zoals foto’s, geluidsfragmenten en wikipedia pagina's, op te slaan in DNA-moleculen van ongeveer 120 nucleotiden lang. Vervolgens vonden zij deze terug in een pool van DNA-strengen en lazen zij de data af, terug naar de digitale data waar het vandaan kwam. De techniek bestaat uit drie delen: eerst moet een digitale code worden omgeschreven naar de DNA-code, dan moet deze DNA-code op een juiste manier opgeslagen worden en vervolgens dient deze code te kunnen worden​ ​afgelezen​ ​of​ ​aangepast.

Momenteel richten onderzoeksgroepen zich voornamelijk op het eerste deel, het ontwikkelen van verschillende​coding schemes om DNA op een zo effectief mogelijke manier te kunnen gebruiken en zo min mogelijk fouten te genereren in de DNA code. Hieruit blijkt dat dit nieuwe onderzoeksveld bij uitstek een interdisciplinaire is. Wetenschappers uit de biochemie en computerwetenschappen zijn samen gaan werken om hun beider kennis te combineren. Vanuit de biochemie zijn de technieken om een digitale code in een molecuul te schrijven nodig: selectieve DNA-amplificatie aan de hand van een​polymerase chain reaction (PCR), DNA synthese en DNA sequencing (Bornholt et al., 2016). De computerwetenschappen houdt zich bezig met hoe binaire data zo efficiënt mogelijk herschrijven kan worden naar een vier letterige code op DNA. De volgorde van baseparen (bp) heeft invloed op stabiliteit van het molecuul en bovendien zijn de eerdergenoemde DNA-technieken bij verschillende DNA-sequenties minder betrouwbaar. Dit maakt dat de kennis van deze twee vakgebieden goed gecombineerd​ ​moet​ ​worden​ ​om​ ​zoveel​ ​mogelijk​ ​fouten​ ​uit​ ​het​ ​systeem​ ​te​ ​halen.

Anders dan nog een coding scheme te bedenken is er in dit onderzoek voor gekozen een grotere hoofdvraag te beantwoorden: In hoeverre voldoet DNA als medium om digitale data voor lange termijn data op te slaan? Hierbij wordt deze nieuwe manier van opslag vanuit de drie disciplines,

scheikunde, kunstmatige intelligentie en economie, bekeken. Om de hoofdvraag te kunnen beantwoorden zullen eerst criteria worden opgesteld waaraan lange termijn dataopslag moet voldoen.​ ​De​ ​verschillende​ ​disciplines​ ​zullen​ ​vervolgens​ ​integreren​ ​in​ ​hun​ ​resultaten.

Methode

In dit onderzoek is gekozen voor een literatuurstudie om een solide basis te geven voor DNA als lange termijn dataopslag. Google scholar was gebruikt als database en er is een interview afgenomen​ ​met​ ​een​ ​expert,​ ​Frans​ ​Takken.

(4)

Voorwaarden

In de onderzoeken naar lange termijn DNA dataopslag komen twee punten naar voren die de opslag tot een succesformule zouden maken: de datadichtheid en de lange houdbaarheid van DNA. Toch worden ook andere punten genoemd in een artikel over permanente dataopslag (Lunt, Hansen, & Linford, 2012). Het is daarom dat wij ervoor gekozen hebben enkele voorwaarden op te stellen waar lange termijn dataopslag aan moet voldoen om daar vervolgens de onder andere door Bornholt, Goldman en Tabatabaei Yazdi voorgestelde techniek aan te toetsen. Deze voorwaarden zijn: een lange levensverwachting, een grote opslagcapaciteit, kleine foutmarge, economisch competitiviteit, snel​ ​schrijven​ ​en​ ​lezen​ ​van​ ​informatie.

Het is triviaal dat een medium voor lange termijn dataopslag een lange levensverwachting dient te hebben, maar om de DNA-opslag te kunnen toetsen dient een grens te worden opgesteld. Deze grens wordt gebaseerd op de hoeveelheid generaties die in de toekomst bereikt moeten worden met lange termijn dataopslag. Wanneer ervan uit wordt gegaan dat in de welvarende wereld 2 tot 3 generaties in co-existentie leven is het zo dat er een informatie gat zit tussen de eerste en de vierde generatie (United Nations, 2001). Daarom kan voor lange termijn dataopslag een grens worden gesteld van tenminste honderd jaar, wanneer er wordt uitgegaan van een generatie lengte van 25 jaar​ ​(Fenner,​ ​2005).

Een groot voordeel van dataopslag op DNA is de opslagcapaciteit van DNA. Dezelfde hoeveelheid data kan men in vergelijking met andere opslagmedia op een veel kleiner volume DNA kwijt, zie figuur 1. Op basis van deze informatie is er in dit onderzoek voor gekozen geen voorwaarde aan opslagcapaciteit​ ​te​ ​stellen,​ ​aangezien​ ​DNA​ ​daar​ ​toch​ ​aan​ ​zal​ ​voldoen.

Figuur 1. Vergelijking tussen harddisk, flash memory en bacteriële DNA. Op DNA kan men 1000 keer meer aantal bits per cm​3kwijt. Alle digitale data in de

wereld​ ​past​ ​op​ ​ongeveer​ ​1​ ​kg​ ​DNA​ ​(Extance,​ ​2016).

Om een goed alternatief te zijn voor huidig gebruikte media van lange termijn dataopslag moet het medium een vergelijkbaar of kleiner aantal fouten opleveren. Uit empirisch onderzoek van Gray en Van Ingen (2007) is gebleken dat in HDD’s gemiddeld in elke 10 ​13 tot 1016 bits een foute bit

voorkomt. Nu zijn HDD’s door de levensverwachting geen geschikt middel voor lange termijn opslag, maar het geeft wel een goede indicatie over een aantal fouten waaraan een algemeen geaccepteerd

(5)

en veel gebruikt data opslagmedium kan voldoen. De foutmarge wordt daarmee in dit onderzoek gesteld​ ​op​ ​maximaal​ ​1​ ​foute​ ​bit​ ​per​ ​10​13​​ ​bits.

Een lange termijn dataopslag moet ook economisch competitief zijn in de huidige markt. Wanneer naar lange termijn dataopslag wordt gekeken vanuit een economisch oogpunt wordt een afweging gemaakt tussen de specificaties en de kosten van het opslagmedium. Als een opslagmedium in de eerdergenoemde criteria vele malen beter is dan andere opslagmedia, zal dit medium, wanneer het onproportioneel meer kost, alsnog niet op de markt komen. De beste manier om verschillende opslagmedia met elkaar te vergelijken is daarom om naar de prijs per gigabyte (GB) gedeeld door de verwachte levensduur van het opslagmedium te kijken. Om deze prijs per gigabyte uit te rekenen moet eerst worden vastgesteld waar de kosten precies uit bestaan. De kosten die komen kijken bij huidige lange termijn dataopslag komen voort uit de benodigde apparatuur, de apparatuurruimte, elektriciteit en het vervangen van kapotte apparatuur (Baker et al., 2012). Echter worden de kosten van de apparatuurruimte en de elektriciteit verwaarloosbaar klein wanneer deze per GB berekend worden. Magnetische tape staat bekend als één van de goedkoopste en meest gebruikte opslagmedia voor lange termijn dataopslag. Daarom is er in deze studie voor gekozen om opslag van data in DNA te toetsen aan de kosten van magnetische tape dataopslag. De kosten van magnetische tape dataopslag liggen rond de $0.02 per GB en de apparatuur heeft in de juiste omstandigheden een verwachte levensduur van 30 jaar (Bogart 1995). Wat neerkomt op een bedrag van $0.00066 per GB​ ​per​ ​jaar,​ ​waar​ ​DNA​ ​als​ ​dataopslag​ ​aan​ ​getoetst​ ​zal​ ​worden.

De snelheid van het lezen en schrijven valt in overweging te nemen, maar uiteindelijk is dit geen voorwaarde voor dit onderzoek. Omdat lange termijn dataopslag relatief weinig gelezen wordt, het is bedoeld om voor tenminste honderd jaar opgeslagen te kunnen worden, is de snelheid ervan minder​ ​van​ ​belang.

Concluderend volgen uit alles wat hiervoor genoemd is de volgende criteria waar DNA als lange termijn dataopslag aan moet voldoen: een levensverwachting van tenminste honderd jaar, maximaal één​ ​fout​ ​per​ ​10​13​​ ​bits​ ​en​ ​kosten​ ​van​ ​maximaal​ ​$0.00066​ ​per​ ​GB​ ​per​ ​jaar.

In dit onderzoek zal DNA dataopslag voor de langere termijn worden getoetst aan de hierboven gestelde voorwaarden. Allereerst zal vanuit de scheikunde voornamelijk worden gekeken naar de levensverwachting van DNA en hoe deze te beïnvloeden is. Vervolgens wordt aandacht besteed aan error-correction methodes, die nodig zijn om de praktische fouten bij het lezen, schrijven en onderhouden van DNA, te omzeilen. Daarna wordt gekeken of DNA als lange termijn opslagmedium economisch competitief is met alternatieve media voor lange termijn dataopslag. Tot slot wordt alles samengevoegd in de conclusie. Hier wordt duidelijk aan welke van de voorwaarden is voldaan en of DNA​ ​een​ ​goed​ ​alternatief​ ​is​ ​voor​ ​lange​ ​termijn​ ​dataopslag.

(6)

Structuur, zwakke schakels en stabiliteit van

DNA

Een argument voor de stabiliteit van DNA is het feit dat uit prehistorische dieren, mammoeten van 50.000 jaar oud (Hoss et al., 1994) en van bizons van meer dan 64.000 jaar oud (Gilbert et al., 2004), nog steeds fragmenten DNA kunnen worden geïsoleerd en geanalyseerd. In deze paragraaf over de chemische achtergrond van DNA komt daarom hoofdzakelijk het criterium van de levensverwachting aan bod. Hierin wordt gekeken naar de opbouw van DNA om zo de stabiliserende, en ook verzwakkende eigenschappen te vinden. Vervolgens zal blijken dat het milieu waarin DNA zich bevindt, invloed heeft op de levensduur van het molecuul. Daarom wordt in deze paragraaf ook gekeken naar de omstandigheden waarin DNA kan worden opgeslagen met het oog op het verhogen van​ ​de​ ​levensverwachting.

De

​ ​opbouw​ ​van​ ​DNA

Het DNA-molecuul is een dubbelstrengs polymeer van vier verschillende nucleotiden welke zijn opgebouwd uit drie componenten: een stikstofbase, een suiker deoxyribose en een fosfaatgroep. De vier nucleotiden verschillen van elkaar in de vier verschillende basen die ze dragen: adenine (A), thymine (T), cytosine (C) en guanine (G), zie figuur 2, en zijn in DNA aan elkaar verbonden via fosfoesterbindingen, resulterende in een polynucleotide. Dit zorgt ervoor dat DNA bestaat uit een backbone van om en om suiker en fosfaatgroep met de vier basen als zijgroepen, zie figuur 3. Nu zijn twee van zulke polynucleotiden in staat om een interactie aan te gaan door middel van Watson en Crick base pairing. De basen vormen waterstofbruggen tussen A en T alswel C en G, wat leidt tot de dubbele helixstructuur weergegeven in figuur 4. Onder het volgende kopje zal worden gekeken naar hoe​ ​deze​ ​structuur​ ​bijdraagt​ ​aan​ ​de​ ​stabiliteit.

Figuur 2. De vier nucleotiden van DNA. Uit (Moran et​ ​al.,​ ​2014)

Figuur 3. Een kort stuk enkelstrengs DNA die de vier​ ​basen​ ​bevat.​ ​Uit​ ​(Moran​ ​et​ ​al.,​ ​2014)

(7)

​ ​

Tabel 1. Energiewinsten voor DNA door verschillende

stacking opties. Een negatieve waarde geeft een

energiewinst​ ​aan.​ ​Uit​ ​(Moran​ ​et​ ​al.,​ ​2014)

Figuur 4. De dubbele helixstructuur van dubbelstrengs DNA weergegeven in drie stijlen. Onderaan zijn de atomen weergegeven in een ruimte vullende weergave; middenin zijn de suiker en de fosfaatgroep weergegeven met respectievelijk een S en een P en de basen met A, T, C, G; bovenin zijn de basenparen weergegeven als dwarsbalken. (Vitz, Moore, Shorb, Prat-Resina, Wendorff​ ​and​ ​Hahn,​ ​2016)

DNA

​ ​een​ ​stabiel​ ​molecuul

Volgens Moran, Horton, Scrimgeour en Perry (2014) zijn er vier type interacties die de stabiliteit van DNA bepalen: ​Stacking interacties, waterstofbruggen, hydrofobe interacties en lading-lading

interacties​. Van der Waals interacties tussen basenparen die gestapeld liggen zorgen voor een

afname in energie. Deze energiewinsten zijn tussen individueel gestapelde basenparen niet zeer sterk, maar omdat deze additief zijn, dragen de​stacking interacties aanzienlijk bij aan de stabilisatie van de dubbele helix, zie tabel 1 ter illustratie. Frans Takken vergelijkt de stacking van met een rits, “als deze dicht is, is deze sterk en stijf” waardoor deze slechts te openen is door hoge temperatuur of hoge pH (pers. comm., 10 januari 2017). De​waterstofbruggen tussen de basenparen dragen als tweede bij aan de stabilisatie, elk met een sterkte van ongeveer 27 kJ/mol. Ten derde zijn de grotendeels hydrofobe, apolaire basen in de helix naar de binnenkant gericht, terwijl de omgeving polair van aard is, wanneer DNA zich in water bevindt. Deze tegenstelling draagt bij aan de stabiliteit, doordat de polaire moleculen de apolaire delen afstoten, terwijl de apolaire delen door elkaar worden​ ​aangetrokken,​ ​wat​ ​de​ ​​hydrofobe​​effecten​​​wordt​ ​genoemd.

(8)

De afscherming van de basen door de dubbele helix structuur maakt basen daarnaast ook minder vatbaar voor schade. Als laatste worden de ​lading-lading interacties genoemd (Lindahl, 1993). Doordat de fosfaatgroepen in DNA negatief geladen zijn is de elektrostatische repulsie tussen deze juist een potentiële bron van instabiliteit. Toch kan dit worden geminimaliseerd door de aanwezigheid van positief geladen ionen (kationen) zoals verderop in deze paragraaf zal worden besproken.

De lading-lading interactie toont aan dat de stabiliteit van DNA niet onafhankelijk is van zijn omgeving. Zo ook geeft een verzwakking in stacking interacties ruimte voor watermoleculen om te concurreren met de basen voor waterstofbruggen, wat de totale bijdrage aan stabiliteit flink verlaagt (Moran et al., 2014). In het volgende deel wordt verder gekeken naar de invloed van het milieu op de​ ​stabiliteit​ ​van​ ​DNA.

De

​ ​zwakke​ ​schakels​ ​van​ ​DNA

In DNA zijn er voornamelijk twee chemische wegen die tot verval kunnen leiden: hydrolyse en oxidatie (Lindahl, 1993). Hydrolyse is splitsing van een molecuul onder opname van een watermolecuul en de tweede is het afstaan van een elektron en kan met menig oxidator plaatsvinden, maar zuurstof is vaak de betreffende stof. Wanneer een van beide reactietypen plaatsvindt, heeft dit een minder stabiel DNA-molecuul tot gevolg (Hofreiter, Serre, Poinar, Kuch, & Pääbo,​ ​2001).

Hydrolyse in DNA kan op verschillende manieren voorkomen: depurinatie, deaminatie en de hydrolyse van de fosfodiesterverbinding (Hofreiter et al., 2001; Lindahl, 1993; Willerslev & Cooper, 2005). Van deze drie is de meeste schade afkomstig van depurinatie, het proces waarbij een op purine gebaseerde base, adenine of guanine, van DNA splitst door een reactie met water. Het gevolg is het in tweeën breken van het DNA molecuul (Hofreiter et al., 2001; Lindahl, 1993). De andere twee base-suiker bindingen, van de pyrimidines, zijn veel minder gevoelig voor hydrolyse en reageren met 5% van de snelheid van de purines (Lindahl, 1993). Bij deaminatie verliest een base een NH​2groep​, maar krijgt daarvoor een carbonylgroep in de plaats. Dit heeft tot gevolg dat cytosine

wordt omgezet in uracil (Willerslev & Cooper, 2005). De andere basen zijn minder gevoelig voor deaminatie, deze worden met 2-3% van de snelheid van cytosine omgezet (Lindahl, 1993). In figuur 5 zijn de plaatsen van depurinatie met een rode pijl weergegeven en de plaatsen van deaminatie en het​ ​splitsen​ ​van​ ​de​ ​fosfodiesteverbinding​ ​met​ ​een​ ​groene​ ​pijl.

Oxidatie vindt plaats op verschillende plaatsen in de basen als ook in de suikers. Oxidatie in de basen kan de platte structuur van de ringen opheffen wat stacking interacties als wel de waterstofbruggen kan​ ​beïnvloeden​ ​(Lindahl,​ ​1993).

Zowel hydrolyse als oxidatie kunnen slechts plaatsvinden door de aanwezigheid van reagentia en zijn daarom mogelijk om uit te sluiten. Dit voorkomen van DNA-verval door een juist milieu te creëren is het​ ​volgende​ ​onderwerp​ ​van​ ​de​ ​paragraaf.

(9)

Tabel 2. Fractie resterend van één DNA streng van 500 bp na 100 jaar bij verschillende temperaturen. Gebaseerd op exponentieel verval met​N​tde hoeveelheid DNA

Nt= 1 t / t2 0,5

op tijdstip ​t​, ​t​0,5 ​de halfwaardetijd in

jaren en ​t ​= 100 jaar​. (Allentoft et al., 2012). Temperatuur​ ​in o​C t0,5 N100 25 30 0,099 15 180 0,680 5 1200 0,944

Figuur 5. Mogelijke plaatsen van reacties in DNA die leiden tot verval. Een kort segment van enkelstrengs DNA is weergegeven met de vier basen guanine (G), cytosine (C), thymine (T) en adenine (A). Een rode pijl geeft een plaats van depurinatie aan, een blauwe een plaats van oxidatie en een groene een plaats van hydrolyse. Figuur afkomstig​ ​uit​ ​(Hofreiter​ ​et​ ​al.,​ ​2001).

-5 9500 0,993

Zorgvuldige

​ ​opslag

Door een juist milieu te creëren kunnen de zwakke schakels van DNA zoveel mogelijk worden tegengegaan en de stabiliserende eigenschappen van het molecuul worden uitvergroot. Een lijst van factoren die tot stabiliteit leiden, wordt gegeven door Burger, Hummel en Hermann (1999): afwezigheid van micro-organismen, afwezigheid van UV radiatie, droogheid (wat de kans op hydrolyse vermindert), binding aan mineraaloppervlakten, lage temperaturen en neutraal of licht basische pH waarden. Ook is bekend dat hoge ionische concentraties bijdragen aan stabilisatie van de dubbele helix, door in te werken op de lading-lading interacties, en depurinatie 5-10-voudig kunnen reduceren (Lindahl, 1993; Moran et al., 2014). Tevens verlengt de afwezigheid van oxidatoren​ ​de​ ​levensduur​ ​(Hofreiter​ ​et​ ​al.,​ ​2001;​ ​Lindahl,​ ​1993;​ ​Willerslev​ ​&​ ​Cooper,​ ​2005).

De technieken voor opslag die zich hebben bewezen focussen zich voornamelijk op het verlagen van de temperatuur en het drogen van DNA waarnaar wordt verwezen als ​cold- ​en ​dry storage (Lee, Crouse,​ ​&​ ​Kline,​ ​2010).

Wat betreft cold storage zijn er vier temperaturen in gebruik, 4 ​o​C, -20 ​o​C, -80 ​o​C en -196 ​o​C (vloeibaar stikstof). Een duidelijke trend in de levensduur van DNA is in deze temperaturen: hoe kouder, hoe stabieler. Evenzo is het zo dat hoe droger, hoe stabieler. De reden dat cold en dry storage werken is dat in beide gevallen de beweging op moleculaire schaal vele malen kleiner wordt; moleculen verliezen bij -196 ​o​C en in dry storage hun mogelijkheid tot diffusie. Zeker hydrolyse, de belangrijkste reden van verval, wordt zo vermeden, omdat de glas transitie temperatuur van water bij -135 ​o​C ligt. Dit wil zeggen dat water al vanaf deze temperatuur verandert in een amorfe stof,

waardoor hydrolyse volledig wordt uitgesloten. Geschat wordt dat de beweging van een proton (het waterstof​ ​ion)​ ​dan​ ​in​ ​200​ ​jaar​ ​een​ ​diameter​ ​van​ ​een​ ​atoom​ ​is​ ​(Lee​ ​et​ ​al.,​ ​2010).

(10)

Deze manieren van opslag helpen de levensduur te vergroten, maar de vraag rest nog hoe lang deze kan zijn. Kinetische berekeningen van kleine stukken DNA (100-500 bp) komen uit op een levensverwachting van 10.000 jaar in warme en 100.000 jaar in koudere gebieden door hydrolytische schade (Poinar, Kuch, McDonald, Martin, & Pääbo, 2003; Smith et al., 2001). In deze berekeningen zijn echter niet alle mogelijke paden tot verval meegenomen. Empirisch onderzoek gebaseerd op radiokoolstof gedateerde fossielen laat zien dat DNA onder slechte omstandigheden exponentieel vervalt met een halfwaardetijd van 521 jaar (Allentoft et al., 2012). Dit geeft een gemiddelde per nucleotide fragmentatiesnelheid van 5,50 x 10 ​-6per jaar. Maar deze snelheid is ook

afhankelijk van de temperatuur en DNA lengte. In hetzelfde artikel worden de trends hiervan getoond. Om deze informatie te gebruiken om de 100 jarige levensduur te toetsen is in tabel 2 van een 500 bp lange DNA-streng bij verschillende temperaturen de fractie resterende DNA-streng weergegeven. Het belang van lage temperatuur voor DNA-opslag wordt hierdoor verhelderd. Ook is duidelijk te zien dat bij een temperatuur van -5 ​o​C bijna 100% van het DNA na honderd jaar volledig intact​ ​is​ ​gebleven.

Conclusie

De structuur van DNA vormt zich in waterig milieu vanzelf door de vier interacties: stacking interacties, waterstofbruggen, hydrofobe interacties en lading-lading interacties, maar de stabiliteit die deze interacties genereren is afhankelijk van de omgeving. De meeste tot verval leidende schade komt dan ook voort uit de aanwezigheid van water in een zuur milieu. Deze omstandigheden zorgen dat depurinatie plaatsvindt of andere hydrolyses, terwijl de aanwezigheid van de oxidator zuurstof de ruimtelijke structuur van DNA kan veranderen. Uiteindelijk kunnen veel van deze reacties tegen worden gegaan door DNA bij lage temperatuur of droog op te slaan. Maar is dit genoeg om te voldoen aan de eis van honderd jaar? Uit de voorbeelden van de mammoeten (Hoss et al., 1994) en de bizons (Gilbert et al., 2004) blijkt dat DNA voor delen na duizenden jaren nog kan worden geanalyseerd. In het empirische onderzoek van Allentoft et al. (2012) zijn halfwaardetijden berekend, waarmee de 100 jarige grens beter kon worden bestudeerd. Hieruit blijkt dan ook dat bij lage temperaturen na honderd jaar nog bijna 100% van het DNA intact kan blijven voor strengen van 500 bp. Voor kleinere DNA strengen, zoals in de voorgestelde mechanismen van lange termijn dataopslag worden genoemd, zijn nog grotere halfwaardetijden berekend door Allentoft et al. (2012).​ ​Concluderend​ ​is​ ​hiermee​ ​aan​ ​het​ ​criterium​ ​van​ ​honderd​ ​jaar​ ​levensduur​ ​voldaan.

(11)

Error-correction

Digitale data is gecodeerd met bits die de waarde 0 of 1 kunnen aannemen. DNA daarentegen heeft keuze uit vier verschillende opties, de basen. De omzetting van de binaire digitale code naar de vierwaardige DNA code kan op verschillende manieren gebeuren. In deze paragraaf zal eerst worden uitgelegd waarom error-correction genoodzaakt is en wat het precies inhoudt, om vervolgens verschillende van deze manieren te belichten, die zijn voorgesteld in onderzoeken naar DNA als dataopslag.​ ​Hieruit​ ​zal​ ​blijken​ ​of​ ​de​ ​marge​ ​van​ ​maximaal​ ​één​ ​fout​ ​per​ ​10​13​​ ​bits​ ​kan​ ​worden​ ​gehaald.

Error-correction

​ ​coderen

Om theoretisch gezien zo veel mogelijk data op een stuk DNA kwijt te kunnen is een codering van twee bits naar één base optimaal. In de praktijk zal deze codering echter nooit betrouwbaar zijn, doordat bij het lezen, schrijven en behouden van het DNA met de huidige technieken fouten in de DNA sequentie ontstaan. Blawat et al. (2016) maken onderscheid tussen de volgende drie typen fouten,​ ​hieronder​ ​weergegeven​ ​samen​ ​met​ ​de​ ​kans​ ​op​ ​dit​ ​type​ ​error:

● Swap​ ​error, Tussen​ ​~ 6 · 1.0 0−4​ ​en​ ​~ 1 · 1.4 0−3 ● Insertion​ ​error, Tussen​ ​~ 1 · 1.0 0−3​ ​en​ ​~ 5 · 1.0 0−3 ● Deletion​ ​error, Tussen​ ​~ 1 · 1.0 0−3​ ​en​ ​~ 5 · 1.0 0−3

Een swap error houdt in dat een nucleotide is verwisseld met een incorrecte nucleotide. Hierbij verandert de lengte van het stuk DNA niet. Bij een insertion of deletion error wordt respectievelijk een nucleotide extra toegevoegd of een nucleotide verwijderd, waardoor de lengte van de DNA-streng​ ​verandert.

Daarnaast moet rekening worden gehouden met eventuele gevolgen van base sequenties. Wanneer er in een bestand een groot aantal bits met waarde dezelfde waarde achter elkaar staat en men wil deze op een stuk DNA schrijven, kan het voorkomen dat er veel dezelfde basen achter elkaar worden gezet. Dit leidt mogelijkerwijs tot problemen bij het DNA sequencen (Blawat et al., 2016; Bornholt et al.,​ ​2016).

Om met deze praktische fouten om te gaan, wordt gebruik gemaakt van error-correction coderingen. Dit zijn coderingen waarbij op verscheidene manieren fouten in de code gedetecteerd en omzeild kunnen worden. De keerzijde van deze coderingen is dat het ten koste gaat van de compactheid van de code; er ‘past’ minder data op hetzelfde stuk DNA. Waarom dit het geval is wordt​ ​hieronder​ ​verduidelijkt.

Verschillende

​ ​coderingen

In het onderzoek van Church, Gao en Kosuri (2012) wordt gebruik gemaakt van een eenvoudige error-correction in de codering. In plaats van het coderen van twee bits naar één base (bijvoorbeeld een codering van 00 naar A, 01 naar C, 10 naar G en 11 naar T) is er gekozen voor een codering van één bit naar één base, waarbij 0 wordt gecodeerd naar A óf C en 1 wordt gecodeerd naar G óf T. Hierdoor kan de verhouding tussen GC en AT beter gereguleerd worden. Ook kan hiermee worden voorkomen dat er lange sequenties van dezelfde basen ontstaan, door bijvoorbeeld bij een lange reeks van bits met waarde 0 af te wisselen tussen A en C. Een nadeel van deze codering ten opzichte van de codering met twee bits naar één base is echter wel dat er slechts half keer zoveel data op hetzelfde​ ​stuk​ ​DNA​ ​past.

In de onderzoeken van Goldman et al. (2013) en Bornholt et al. (2016) is gekozen voor een omschrijving van bits naar een base-3 codering gebruik makend van de Huffman code. Dat houdt in dat de gebruikelijke base-2 bits (0 of 1) worden omgeschreven naar 0, 1 of 2. Vervolgens wordt op

(12)

basis van de voorgaande nucleotide de volgende nucleotide gekozen, zoals in figuur 6 is weergegeven. Met deze error-correction codering zijn Goldman et al. erin geslaagd een aantal bestanden van in totaal 739 kilobyte op DNA te schrijven en lezen. Dit was echter slechts mogelijk door in één van de bestanden handmatig een aantal van de opgedoken fouten te herstellen. In dit onderzoek wordt gerapporteerd dat de minimaal mogelijke foutmarge in dit bestand 3,6⋅10​-5

bedroeg.

Figuur 6. Coderen van een binaire dataset naar nucleotiden. Een Huffman​ ​code​ ​en​ ​een​ ​draaiende​ ​codering​ ​(Bornholt,​ ​2016).

Om met de drie typen errors om te gaan hebben Blawat et al. (2016) een codering ontworpen. Deze codering codeert 8 bits (= 1 byte) naar 5 nucleotiden. Bits op plekken a & b, c & d en e & f in figuur 7 worden volgens​Tabel A in figuur 7 respectievelijk gecodeerd naar de nucleotiden op plek 1, 2 en 4 van de DNA streng bestaande uit 5 nucleotiden. De bits op plek g en h worden volgens ​Tabel B gecodeerd naar de nucleotiden op plek 3 en 5 van de DNA streng. De in figuur 7 gegeven byte 00011011 kan dus op vier manieren worden gecodeerd: ACAGT, ACCGA, ACGGC, ACTGG. Zoals bij deze vier mappings te zien is, blijven de nucleotiden op plek 1, 2 en 4 hetzelfde en variëren de nucleotiden op plek 3 en 5 afhankelijk van de vier mogelijkheden voor 11 (plek g en h) uit ​Tabel B ​. Deze​ ​codering​ ​zorgt​ ​ervoor​ ​dat​ ​bij​ ​een​ ​swap​ ​error​ ​maximaal​ ​slechts​ ​twee​ ​bits​ ​veranderen.

(13)

Om niet meer dan drie dezelfde nucleotiden achter elkaar te krijgen, stellen Blawat et al. (2016) dat de eerste drie en/of de laatste twee nucleotiden niet dezelfde mogen zijn. ACTGG voldoet niet aan deze voorwaarden en valt hierdoor af als geldige mapping. Net als voor een meerderheid van alle mogelijke bytes zijn er voor de byte van figuur 7 drie geldige mappings. Er zijn echter ook bytes waarbij slechts twee geldige mappings mogelijk zijn. Deze drie mappings worden cluster A, B en C genoemd, waarbij cluster C voor alle mogelijke bytes incompleet is. In de codering van bytes naar nucleotiden wordt afgewisseld tussen clusters A en B, zie figuur 8. Wanneer een insertion of deletion error plaatsvindt ontstaat een afwijking in de afwisseling tussen deze clusters A en B, waarmee de errors​ ​gedetecteerd​ ​kunnen​ ​worden.

Figuur​ ​8.​ ​Effect​ ​van​ ​insertion​ ​(boven)​ ​en​ ​deletion​ ​(onder)​ ​error​ ​op​ ​de​ ​afwisseling​ ​tussen​ ​clusters​ ​A​ ​en​ ​B (Blawat​ ​et​ ​al.,​ ​2016).

Met deze codering is succesvol een experiment gedaan met 22 megabyte aan data. Geschat wordt dat met gebruik van deze codering een foutmarge van hooguit 10​-15bereikt kan worden en waar bij

een codering voor optimale datadichtheid 2 bits gelijk stond aan één nucleotide, bereikt deze codering​ ​1,6​ ​bit​ ​per​ ​nucleotide.

Conclusie

De error-correction gebruikt in de onderzoeken van Goldman en Bornholt werken niet zodanig goed dat er aan de gestelde foutmarge van maximaal 10 ​-13wordt voldaan. Wanneer men echter kiest voor

de geavanceerdere error-correction codering uit het onderzoek van Blawat et al. (2016) wordt wel aan deze voorwaarde voldaan. Bovendien is het noemenswaardig dat in het onderzoek naar DNA dataopslag juist de error-correction codering het meest besproken onderwerp is. Dit maakt dat er wellicht​ ​in​ ​de​ ​toekomst​ ​nog​ ​betere​ ​coderingen​ ​ontworpen​ ​zullen​ ​worden.

Wat betreft de opslagcapaciteit van DNA maakt het, zoals in de inleiding besproken, weinig uit hoeveel bits men per nucleotide kwijt kan. Aangezien DNA toch verreweg meer data per volume kan opslaan maakt het verschil tussen 2 en 1,6 bits per nucleotide geen significant verschil in vergelijking met​ ​andere​ ​opslagmedia.

(14)

Economische

​ ​competitief

Uit de vorige paragrafen is gebleken dat DNA tot nu toe aan alle voorwaarden die zijn gesteld aan lange termijn dataopslag voldoet, maar DNA zal pas als een lange termijn dataopslag op de markt komen wanneer deze ook economisch gezien de competitie aankan met de huidige lange termijn data opslagmedia. In deze paragraaf zullen de kosten van dataopslag in DNA worden vergeleken met de kosten van magnetische tape dataopslag, een goedkope lange termijn dataopslag die momenteel veel wordt gebruikt. Er zal blijken dat de kosten van dataopslag in DNA hedendaags veel hoger liggen en daarom zal de trend van de kosten vergeleken worden om in te schatten of data opslag in DNA in de​ ​toekomst​ ​wel​ ​de​ ​competitie​ ​aan​ ​kan​ ​met​ ​andere​ ​opslagmedia.

Kosten

​ ​DNA​ ​als​ ​lange​ ​termijn​ ​dataopslag

De kosten van DNA als lange termijn dataopslag uitdrukken in kosten per GB is minder triviaal dan bij andere opslagmedia. Waar bij huidige opslagmedia de kosten vooral liggen in de benodigde apparatuur en bij het vervangen van kapotte apparatuur, liggen deze bij DNA als opslagmedium voornamelijk bij het schrijven en lezen van de data (Shrivastava et al., 2014). Bij DNA als lange termijn dataopslag komen de volgende aspecten die kosten met zich meebrengen kijken. Ten eerste zijn de vier verschillende nucleotiden nodig, de bouwblokken van DNA. Vervolgens zijn er de kosten van DNA-synthese, het schrijven van de data. Als laatst zijn er er kosten van DNA-sequencing bij voor het lezen van de data. Hierbij zijn de kosten van apparatuur, apparatuurruimte, elektriciteit en arbeid al inbegrepen in de kosten van DNA-synthese en sequencing. Om nu de kosten per GB uit te kunnen drukken moet eerst de prijs van een gram nucleotide gedeeld worden door het aantal gigabytes data dat hier op gezet kan worden. Omdat er op 1 gram DNA ongeveer 1 zetabyte aan data gezet kan worden en 1 gram DNA ongeveer gelijk is aan 2 gram nucleotiden, kan op 1 gram nucleotiden een halve zetabyte data staan. Hiervoor is gekeken naar de nucleotide adenosinemonofosfaat. Deze is commercieel te verkrijgen voor minder dan 10 dollar per gram, waardoor de prijs per GB verwaarloosbaar is. Nu blijven er alleen de kosten voor het schrijven en lezen van data over. De kosten voor het schrijven van data op DNA zijn momenteel ongeveer tienduizend dollar per GB (Zhirnov et al., 2016). Het lezen van 1GB data van DNA kost net minder dan tien dollar (Frans Takken pers. comm., 10 januari 2017). Om nu de kosten per GB per jaar te kunnen vergelijken met die van magnetische tape dataopslag zou eerst een grens moeten worden opgesteld voor het aantal keer dat de data geschreven en gelezen mag worden bij lange termijn dataopslag. In deze studie zal worden aangenomen dat bij data opslag op lange termijn de data één keer geschreven wordt en jaarlijks één keer wordt afgelezen. Met deze aannames komt de prijs op $110 per GB per jaar uit, gerekend met een verwachte levensduur van honderd jaar. Deze prijs ligt meer​ ​dan​ ​een​ ​factor​ ​10​5​​ ​hoger​ ​dan​ ​bij​ ​magnetische​ ​tape​ ​dataopslag.

Trend

​ ​van​ ​de​ ​kosten​ ​voor​ ​het​ ​lezen​ ​en​ ​schrijven​ ​van​ ​DNA

Aan de hand van deze data zou DNA als lange termijn dataopslag snel worden afgeschreven, maar er moet ook rekening worden gehouden met de evolutie die deze techniek doormaakt. Wanneer DNA technieken sneller evolueren dan de technieken van huidig gebruikte opslagmedia is het slechts een kwestie van tijd voordat DNA als lange termijn dataopslag op de markt komt. Om dit te kunnen meten wordt de trend van beide kosten vergeleken. Volgens de wet van Moore verdubbelt de technologie bij huidige opslagmedia om de twee jaar in prestatie (Thompson et al., 2006), waarbij grof gezien een 1.6-voudige daling per jaar van de kosten komt kijken (Shrivastava et al., 2014). Bij DNA-technieken gaan de kosten daarentegen nog veel harder achteruit, de prijs van sequencing neemt al jaren exponentieel af en is sinds 2008 zelfs de daling van de wet van Moore voorbijgestreefd​ ​(Frans​ ​Takken​ ​pers.​ ​comm.,​ ​10​ ​januari​ ​2017).

(15)

Figuur​ ​9.​ ​Tijdsverloop​ ​van​ ​de​ ​prijs​ ​van​ ​DNA​ ​sequencing per​ ​Megabase,​ ​vergeleken​ ​met​ ​de​ ​prijsdaling​ ​die​ ​de wet​ ​van​ ​Moore​ ​voorspelt.

De kosten voor het lezen van DNA hebben ruw gezien een 100.000-voudige daling meegemaakt in de afgelopen tien jaar. Ook de kosten van het schrijven van data op DNA hebben de afgelopen tien jaar een flinke daling gekend. Zo waren de kosten in 2006 nog ongeveer 0,10 dollar per base wat neerkomt op 100.000 dollar per MB (Carlson, 2009), terwijl de huidige kosten van het schrijven van een MB data momenteel liggen op ongeveer 100 dollar per MB (Zhirnov et al., 2016). Dit komt neer op een 1000-voudige daling in tien jaar tijd. Deze daling ligt beduidend lager dan de daling van de kosten voor het lezen van data van DNA. Maar deze daling is alsnog bijna een factor 10 groter dan de Wet van Moore voorspelt voor huidige dataopslag technieken. Wanneer deze trend per 10 jaar lineair wordt doorgetrokken zal over iets meer dan 54 jaar de kosten per GB per jaar voor het opslaan van data op DNA goedkoper zijn dan bij magnetisch tape dataopslag. Gerekend met de veronderstelling dat data op lange termijn maar één keer geschreven en honderd keer gelezen wordt. Hierbij moet wel de kanttekening worden geplaatst dat de kosten van het lezen per GB tegen die tijd verwaarloosbaar klein zullen zijn, waardoor de aanname voor hoe vaak de data gelezen mag worden​ ​kan​ ​vervallen.

Conclusie

DNA-technieken kennen het afgelopen decennium een hele grote groei. Zo zijn de kosten van het lezen van DNA exponentieel afgenomen en zijn ook bij het schrijven van data op DNA de kosten significant gedaald. Het schrijven van data op DNA is momenteel nog wel de bottleneck, want zelfs met de daling van de afgelopen jaren bedraagt dit nog steeds 100 dollar per megabyte. DNA als lange termijn dataopslag is nu nog een factor 10 ​5duurder dan magnetische tape dataopslag. maar

als de trend van de kosten van de afgelopen 10 jaar zich zo voortzet zal over ongeveer 54 jaar DNA de​ ​concurrentie​ ​aankunnen​ ​met​ ​de​ ​huidige​ ​lange​ ​termijn​ ​data​ ​opslagmedia.

(16)

Conclusie

​ ​en​ ​discussie

In dit onderzoek wordt gekeken in hoeverre DNA voldoet als medium om digitale data voor lange termijn op te slaan. Door eerst criteria op te stellen waar lange termijn dataopslag aan dient te voldoen kon wat bekend is over DNA daaraan worden getoetst. De drie criteria zijn: een levensverwachting van tenminste honderd jaar, maximaal één fout per 10​13 bits en kosten van

maximaal $0.00066 per GB per jaar. De opslagcapaciteit van een medium kan ook als criterium worden bekeken, maar in de inleiding werd al aangetoont dat DNA daarin zeker beter zou zijn dan hedendaagse technieken doordat op moleculair niveau gewerkt wordt. Deze vinding samen met het feit dat DNA gedurende miljoenen jaren evolutie is getest, heeft ertoe geleid dat de hypothese zegt dat​ ​DNA​ ​voldoet​ ​aan​ ​de​ ​criteria.

Uit dit onderzoek blijkt ook dat DNA een kans maakt als medium voor lange termijn dataopslag. De eerste van de drie criteria, een levensverwachting van tenminste honderd jaar, lijkt goed haalbaar te zijn. De oorzaken van DNA-verval zijn behandeld en de belangrijkste van deze kunnen worden tegengegaan door het molecuul onder de juiste condities op te slaan; cold- en dry storage zorgen dat chemische reacties niet kunnen plaatsvinden. Over verwachtingen over de daadwerkelijke levensduur van DNA wordt veel gespeculeerd in de literatuur, maar een concrete toetsing aan de gestelde grens kon worden gedaan door gebruik te maken van de halfwaardetijd van DNA onder verschillende condities. Hieruit bleek dat een 500 bp lange DNA-streng bij -5 ​o​C al bijna 100% intact

bleef​ ​voor​ ​honderd​ ​jaar.​ ​Dit​ ​geeft​ ​aan​ ​dat​ ​aan​ ​het​ ​eerste​ ​criterium​ ​door​ ​DNA​ ​wordt​ ​voldaan. Met behulp van error-correction methoden is het mogelijk om effectief de foutmarge van dataopslag op DNA te verlagen. De error-correction methode ontworpen door Blawat et al. (2016) maakt gebruik van een codering waarmee insertion en deletion errors eenvoudig gedetecteerd kunnen worden. Wel gaat deze codering enigszins ten koste van de compactheid van de code, maar zoals hierboven besproken is dit in vergelijking met alternatieve data opslagmedia niet relevant. Deze methode heeft een foutmarge van één op 10​15 behaald, waarmee DNA ook aan het tweede

criterium​ ​voldoet.

Met het berekenen van de kosten voor DNA als lange termijn dataopslag kwam naar voren dat de kosten hedendaags meer dan een factor 10​5 hoger zijn dan het gestelde criterium, maar

DNA-technieken maken het afgelopen decennium een hele grote groei door. Zo zijn de kosten van het lezen van DNA exponentieel afgenomen en zijn ook bij het schrijven van data op DNA de kosten significant gedaald. De trend is dat de kosten in beide gevallen aanzienlijk meer dalen dan de Wet van Moore voorspelt voor huidige dataopslag technieken. Als deze trend van de afgelopen 10 jaar lineair wordt doorgetrokken zal DNA over ongeveer 54 jaar op economisch gebied de competitie aan kunnen​ ​met​ ​de​ ​huidige​ ​lange​ ​termijn​ ​data​ ​opslag​ ​media.

In de analyse van de stabiliteit en levensduur van DNA zijn slechts voor de grootste schade aanrichters, hydrolyse en oxidatie, middelen tot voorkomen besproken. Dit kan voldoende bescherming zijn om honderd jaar te halen, aangezien de voorspellingen bij -5 o​C al bijna 100% opbrengst bieden, maar geeft toch een onvolledig beeld. Tevens zijn de halveringswaarden slechts gebaseerd​ ​op​ ​één​ ​onderzoek​ ​wat​ ​ook​ ​een​ ​onvolledig​ ​beeld​ ​kan​ ​geven.

Een ander punt van discussie is dat in de economische trends slechts gekeken is naar die van de DNA technieken en niet naar hoe de prijzen van hedendaagse opslagmedia veranderen. Daarnaast wordt de Wet van Moore gebruikt in de argumentatie voor het goedkoper worden van het gebruik van DNA als lange termijn dataopslag, maar hoewel dit een wet wordt genoemd is het er geen zoals in de natuurwetenschappen gebruikelijk is, slechts een observatie en een streven van de technologische industrie. Dit punt wordt toch enigszins afgezwakt doordat in de argumentatie ook gebruik wordt

(17)

gemaakt van een bron die aantoont dat de daling in de prijs van sequencing sinds 2008 de daling van de​ ​wet​ ​van​ ​Moore​ ​voorbij​ ​is​ ​gestreefd.

Een ander punt van discussie is de aanname dat de trend dan de kosten voor DNA sequencing en DNA synthese lineair hetzelfde zal zijn als het afgelopen decennium. Deze aanname is gebruikt om een schatting te kunnen maken wanneer op economisch gebied DNA als lange termijn dataopslag de concurrentie aankan met huidig gebruikte data opslagmedia. Echter, is het zeer onwaarschijnlijk dat deze trend lineair doorloopt aangezien DNA sequencing de afgelopen jaren een exponentiële groei heeft​ ​doorgemaakt.

Hoewel DNA een geschikt molecuul is om data op te slaan, zal de techniek zich nog moeten verbeteren om het een rendabele techniek te laten zijn. Daarom zijn er verschillende mogelijke vervolgonderzoeken. Zo dienen de DNA technieken verbeterd te worden opdat ze rendabeler zijn. Daarnaast is het van belang dat er wordt nagedacht over de manier waarop veel DNA praktisch kan worden​ ​opgeslagen,​ ​toegankelijk​ ​als​ ​wel​ ​onder​ ​de​ ​juiste​ ​condities.

Ook is het mogelijk error-correction methoden nog verder te optimaliseren. De methode van Blawat et al. (2016) is zeer recentelijk nog gepubliceerd. Daarnaast is het ook één van de weinige onderzoeken die specifiek ingaat op de error-correction bij DNA. Dit betekent dat onderzoeken als deze relatief nieuw zijn en nog verder doorontwikkeld kunnen worden. Mogelijkerwijs kunnen in de toekomst error-correction methoden worden ontwikkeld met een nog lagere foutmarge. Dit zorgt er echter ook voor dat er op dit moment weinig informatie betreffende de error-correction met DNA te vinden is. Gevolg hiervan is dat er op basis van slechts een aantal publicaties conclusies worden getrokken. Wanneer er meer onderzoek gedaan is kan men een breder beeld krijgen van de foutmarges​ ​van​ ​dataopslag​ ​op​ ​DNA.

Omdat dit onderzoeksgebied volledig nieuw is en nog vele kanten op kan lijkt het erop dat DNA een goede​ ​kans​ ​kan​ ​maken​ ​om​ ​een​ ​alternatief​ ​te​ ​bieden​ ​als​ ​medium​ ​voor​ ​lange​ ​termijn​ ​dataopslag.

(18)

Referenties

Allentoft, M. E., Collins, M., Harker, D., Haile, J., Oskam, C. L., Hale, M. L., … Bunce, M. (2012). The half-life of DNA in bone: measuring decay kinetics in 158 dated fossils. ​Proceedings.

Biological​​Sciences​​/​​The​​Royal​​Society​,​ ​​279​(1748),​ ​4724–33.

Baker, M., Shah, M., Rosenthal, D. S., Roussopoulos, M., Maniatis, P., Giuli, T. J., & Bungale, P. (2006, April)​. A fresh look at the reliability of long-term digital storage. In ​ACM SIGOPS Operating

Systems​​Review​​ ​(Vol.​ ​40,​ ​No.​ ​4,​ ​pp.​ ​221-234).​ ​ACM.

Bogart, J. W. (1995). ​Magnetic Tape Storage and Handling: A Guide for Libraries and

Archives​. Commission on Preservation and Access, 1400 16th St., NW, Suite 740, Washington, DC 20036-2217.

Blawat, M., Gaedke, K., Huetter, I., Chen, X. M., Turczyk, B., Inverso, S., Pruitt, B. W., & Church, G. (2016). Forward Error Correction for DNA Data Storage.​Procedia Computer Science​,​80​, 1011-1022.

Bornholt, J., Lopez, R., Carmean, D. M., Ceze, L., Seelig, G., & Strauss, K. (2016). A DNA-based archival storage system. ​Proceedings of the 21st International Conference on Architectural Support

for​​Programming​​Languages​​and​​Operating​​Systems​​(ASPLOS’16)​,​ ​637–649.

Burger, J., Hummel, S., & Hermann, B. (1999). DNA preservation: A microsatellite DNA based study​ ​on​ ​ancient​ ​skeletal​ ​remains.​ ​​Electrophoresis​,​ ​​20​,​ ​1728–1729.

Carlson, R. (2009). The changing economics of DNA synthesis. ​Nature biotechnology​,​27​(12), 1091.

Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-generation digital information storage in DNA.​​ ​​Science​,​ ​​337​(6102),​ ​1628-1628.

Extance,​ ​A.​ ​(2016).​ ​How​ ​DNA​ ​could​ ​store​ ​all​ ​the​ ​world's​ ​data.​ ​Nature,​ ​537(7618),​ ​22-4. Fenner, J. N. (2005). Cross-cultural estimation of the human generation interval for use in genetics-based population divergence studies. American Journal of Physical Anthropology, 128(2), 415–423.

Gilbert, M. T. P., Wilson, A. S., Bunce, M., Hansen, A. J., Willerslev, E., Shapiro, B., … Cooper, A.​ ​(2004).​ ​Ancient​ ​mitochondrial​ ​DNA​ ​from​ ​hair​ ​[1].​ ​​Current​​Biology​,​ ​​14​(12),​ ​463–464.

Goldman, N., Bertone, P., Chen, S., Dessimoz, C., LeProust, E. M., Sipos, B., & Birney, E. (2013). Towards practical, high-capacity, low-maintenance information storage in synthesized DNA.

Nature​,​ ​​494​(7435),​ ​77–80.

Gray, J., & Van Ingen, C. (2007). Empirical measurements of disk failure rates and error rates. arXiv

Gupta, P., Wildani, A., Miller, E. L., & Rosenthal, D. S. (2016). Effects of Prolonged Media Usage​ ​and​ ​Long-term​ ​Planning​ ​on​ ​Archival​ ​Systems.

Hilbert, M., & López, P. (2011). The world’s technological capacity to store, communicate, and​ ​compute​ ​information.​ ​​science​,​ ​​332​(6025),​ ​60-65.

Hofreiter, M., Serre, D., Poinar, H. N., Kuch, M., & Pääbo, S. (2001). Ancient DNA. ​Nature

Reviews​​Genetics​,​ ​​2​(May),​ ​353–359.

Hoss, M., Paabo, S., Vereshchagin, N. K., Hoess, M., Paeaebo, S., & Vereshchagin, N. K. (1994).​ ​Mammoth​ ​DNA​ ​sequences.​ ​​Nature​.

Lee, S., Crouse, C., & Kline, M. (2010). Optimizing storage and handling of DNA extracts.

Forensic​​Sci​​Rev​.

Lindahl, T. (1993). Instability and decay of the primary structure of DNA. ​Nature​, ​362​, 709–715.

Moran, L. A., Horton, H. R., Scrimgeour, G. &Perry, M. & (2014). ​Principles of biochemistry (5th​ ​ed.)​ ​(pp.​ ​653-678).​ ​Edinburgh​ ​Gate,​ ​Harlow:​ ​Pearson​ ​Education​ ​Limited.

(19)

Poinar, H., Kuch, M., McDonald, G., Martin, P., & Pääbo, S. (2003). Nuclear Gene Sequences from​ ​a​ ​Late​ ​Pleistocene​ ​Sloth​ ​Coprolite.​ ​​Current​​Biology​,​ ​​13​,​ ​1150–1152.

preprint​​cs/0701166​.

Shrivastava, S., & Badlani, R. (2014). Data Storage in DNA. ​International Journal of Electrical Energy​,​ ​​2​(2),​ ​119-124.

Smith, C. I., Chamberlain, A. T., Riley, M. S., Cooper, A., Stringer, C. B., & Collins, M. J. (2001). Not​ ​just​ ​old​ ​but​ ​old​ ​and​ ​cold?​ ​​Nature​,​ ​​410​(April),​ ​771–772.

Tabatabaei Yazdi, S. M. H., Yuan, Y., Ma, J., Zhao, H., & Milenkovic, O. (2015). A Rewritable, Random-Access​ ​DNA-Based​ ​Storage​ ​System.​ ​​Scientific​​Reports​,​ ​​5​,​ ​14138.

term​ ​Planning​ ​on​ ​Archival​ ​Systems.

Thompson, S. E., & Parthasarathy, S. (2006). Moore's law: the future of Si microelectronics.

Materials​​today​,​ ​​9​(6),​ ​20-25.

United Nations. Department of Economic. (2001). ​Equity: Report on the world social situation 2001​.​ ​United​ ​Nations​ ​Publications.

Vitz, E., Moore, J. W., Shorb, J., Prat-Resina, X., Wendorff, T., & Hahn, A. (2016, May 18). The

Double Helix. Retrieved January 7, 2017, from

http://chem.libretexts.org/Textbook_Maps/General_Chemistry_Textbook_Maps/Map%3A_ChemPRI ME_(Moore_et_al.)/20Molecules_in_Living_Systems/20.19%3A_The_Double_Helix

Willerslev, E., & Cooper, A. (2005). Ancient DNA. ​Proceedings. Biological Sciences / The Royal

Society​,​ ​​272​(1558),​ ​3–16.

Zhirnov, V., Zadegan, R. M., Sandhu, G. S., Church, G. M., & Hughes, W. L. (2016). Nucleic acid​ ​memory.​ ​​Nature​​materials​,​ ​​15​(4),​ ​366-370.

(20)

Bijlagen

Interview

​ ​met​ ​Frans​ ​Takken

Wat een leuk onderwerp, het wordt inderdaad al gebruikt voor dataopslag omdat de informatiedichtheid zo hoog is. In een paar pg materiaal kan je vele terabytes aan data opslaan. Door de dubbelstrengs nature heb je ook een automatische back-up en de mogelijkheid fouten te corrigeren.

Wat maakt DNA een stabiel molecuul? Komt dat door de vele waterstofbruggen tussen de basen? Of​ ​is​ ​DNA​ ​-helemaal​ ​niet​ ​zo​ ​stabiel?

DNA is stabiel omdat er geen reactieve reducerende groepen in de suikers zitten. in tegenstelling tot RNA waar een van de oh groepen de suiker reducerend is. Daarnaast zorgt de dubbele helix voor afscherming van de bases aan de binnenkant. De stacking van de bases stabiliseert de structuur nog verder en zorgt dat er een compacte stabiele structuur ontstaat die alleen te openen is door hoge temperatuur of hoge PH. Je kan het vergelijken met een rits, als deze dicht is is deze sterkt en stijf. De suiker fosfaat bindingen zijn ook redelijk stabiel en alleen door zeer lage ph (zuren) of enzymatische activiteit eenvoudig te verbreken. Deze eigenschappen maken van DNA een heel stabiel molecuul en is het mogelijk om zelfs uit oude botten nog materiaal te isoleren en te vermenigvuldigen. Een ander voordeel is dat het als template kan dienen, dus je hebt weinig nodig om​ ​snel​ ​kopieën​ ​te​ ​kunnen​ ​maken​ ​die​ ​identiek​ ​zijn​ ​aan​ ​het​ ​origineel.

Weet u toevallig iets te vertellen over de hoeveelheid fouten die gemaakt worden in DNA synthese​ ​en​ ​DNA​ ​sequencing?

Synthese fouten is afhankelijk van de methode waarop je DNA maakt. Als je het van een template maakt met een proofreading enzyme dan kom je op 10-6 tot 10-7 als je het de cel zelf laat doen is het nog lager en zit je in een eukaryote cel rond de 1-10-8 per base per replicatie. De error rate van de novo synthese weet ik niet uit mijn hoofd, maar zal zeker terug te vinden zijn op het web. Ook de fouten in sequencing zijn eenvoudig te vinden, sommige methoden, zoals pacbio maken veel fouten, maar lezen lange stukken, andere methoden zijn accurater, maar geven korte reads. Vaak is dit geen probleem en als de fouten niet systematisch zijn kan je ze eenvoudig oplossen door hetzelfde stuk meermalen​ ​te​ ​sequencen,​ ​vandaar​ ​dat​ ​een​ ​genoom​ ​vaak​ ​met​ ​een​ ​20x​ ​coverage​ ​gesequenced​ ​wordt.

Weet u daarnaast iets te zeggen over de trend van de kosten in DNA sequencing en DNA synthese. Het​ ​lijkt​ ​erop​ ​dat​ ​deze​ ​technieken​ ​met​ ​de​ ​tijd​ ​goedkoper​ ​worden,​ ​klopt​ ​dit​ ​en​ ​hoe​ ​snel​ ​gaat​ ​dat?

De prijs van sequencen neemt al jaren exponentieel af en de verwachting is dat dit doorgaat. Hier is veel info over te vinden op het web. Verwachting is dat we dit jaar het humane genoom voor minder dan 1000 dollar kunnen bepalen, dit was ooit 100 miljoen zie

Referenties

GERELATEERDE DOCUMENTEN

jaarlijks conform afspraken cie. Verbonden Partijen okt. Keulen toegevoegd LTA-overleg nov. Paterswoldsewegtunnel) de Rook collegebrief 28-8-15. 3e kw 16 2015-228 B&V PvA

De ASD is mét u van mening dat de veranderingen in het abonnementstarief voor maatwerkvoorzieningen vanuit de WMO en aangegeven aanpassingen in de Verordening technisch van aard

De (belangrijkste) toegevoegde waarden die Het NIC voor Rochdale uit de facturenscan heeft kunnen realiseren zijn als volgt uit te splitsen:.. • Het realiseren van

Malaria Meldingsplichtige ziekten Historisch aantal meldingen per jaar..

3e kw 16 2015-170 B&V Voorfinanciering zonnepanelen Rode Haan voorstel Gijsbertsen afhankelijk van Provincie (LTA-overleg maart 2016) 3e kw 16 2016-64 B&V Aanpak rotonde

Beschikbaarheid van data en IT-systemen is van belang, want als deze plat liggen, moeten in het ergste geval mensen naar huis worden

Een deel van deze nieuwe militairen beginnen 19 oktober aan de Algemene Militaire Opleiding die voor het eerst op de Luitenant-generaal Bestkazerne wordt gegeven.. Het DGLC heeft

openbare inrichtingen met de bestemmingen Horeca, categorie 2 en Horeca, categorie 3, en gelegen in de uitgaansgebieden op zaterdag en zondag gesloten tussen 03.00 uur en 06.00