• No results found

Harde schijf van DNA: Opslag van grote hoeveelheden digitale data in DNA

N/A
N/A
Protected

Academic year: 2021

Share "Harde schijf van DNA: Opslag van grote hoeveelheden digitale data in DNA"

Copied!
27
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Harde schijf van DNA

Opslag van grote hoeveelheden digitale data in DNA

Emma Schepers

Studentnummer: 10735267 Major Natuurkunde

Roos Slingerland Studentnummer: 10775935 Major Kunstmatige Intelligentie

Yvette van Steen Studentnummer: 10813233 Major Biomedische Wetenschappen

Maaike Vollebergh Studentnummer: 10721207

Major Wiskunde Cluster​: Vrije Domein

Senior Docenten: ​Jeroen Bruggeman, Rudolf Sprik Junior Docent:​ Evert Glebbeek

Aantal woorden: ​6223 Datum:​ 3 februari 2017

Abstract

Er is een exponentiële groei van digitale data die voorbij zal gaan aan onze huidige opslagcapaciteiten. Een methode van informatieopslag die altijd relevant zal blijven en al millennia zijn succes heeft bewezen, is DNA. Goldman onderzoekt de mogelijkheden van opslag van digitale informatie in DNA en publiceerde daarover in 2013. Dit onderzoek bestudeert zijn studie en geeft aan de hand van interviews met experts verbeteringen aan op het gebied van coderen, synthetiseren, opslaan en sequencen van DNA. Hierbij worden elk van de vier processen gezien als onderdeel van het communicatieproces van Shannon. Voor de codering wordt een combinatie aangedragen van de Reed-Solomon codering, Levenshtein-Tenengolts codering en asymmetrische Lee afstand codering. Omdat de synthese van DNA nog de meeste kosten met zich meebrengt wordt aangeraden om meer onderzoek te verrichten naar niet-natuurlijke polymeren als alternatief product om informatie in op te slaan. Opslag ​in silica is veelbelovend omdat het de stabiliteit van het polymeer waarborgt. Nano-pore sequencing wordt momenteel steeds vaker toegepast en biedt vele mogelijkheden voor het nog sneller en goedkoper lezen van DNA of andere polymeren. Omdat de vier processen andere disciplines omvatten zal in de toekomst een interdisciplinaire aanpak nodig zijn om de problemen in te zien en verbeteringen te realiseren.

(2)

Inhoudsopgave

1. Inleiding 3

1.1 Problemen omtrent dataopslag 3

1.2 (Digitale) informatieopslag in DNA 4

1.3 Informatietheorie 4 1.4 Onderzoeksopzet 5 2. Theoretisch kader 6 2.1 Codering 6 2.2 DNA-synthese 7 2.3 DNA-opslag 8 2.4 DNA sequencing 9 3. Methoden 10 4. Resultaten 11 4.1 Codering 11 4.1.1 Substitutiefouten 11 4.1.2 Deletiefouten 11 4.1.3 Substitutie- of bereikfouten 12 4.2 DNA-synthese 12

4.2.1 Synthese van niet-natuurlijke polymeren 12

4.3 DNA-opslag 13

4.4 DNA sequencing 14

5. Discussie 19

6. Conclusie 20

(3)

1. Inleiding

1.1 Problemen omtrent dataopslag

Data is hip, ​happening​ en overal aanwezig in de huidige maatschappij. Consumenten slaan video’s en filmpjes op op hun telefoon en laptops en deze zelfde apparaten houden bij waar wij naar toe gaan en waar we op zoeken. Daarnaast komen uit wetenschappelijk instituten als CERN ook miljarden bits aan data die geanalyseerd en bewaard moet worden. Met behulp van ‘big data’ analyse kunnen deze continue stroom van nieuwe gegevens gebruikt worden voor diverse doeleinden variërend van de commercie tot in de wetenschap.

In een​ international data corporation report​ voorspellen Gantz en Reinsel (2012) op basis van de ontwikkelingen van de afgelopen 10 jaar dat de hoeveelheid data elk jaar zal verdubbelen. Nieuwe data geeft ons veel mogelijkheden, maar het heeft ook consequenties. Veel informatie van deze big data moet namelijk opgeslagen worden voor later gebruik, wat het verschillende criteria geeft waaronder betrouwbare en kosten efficiënte opslag

(​Strohbach, Daubert, Ravkin & Lischka, 2016)​. Opslag van data vindt momenteel niet alleen plaats op harde schijven van persoonlijke computers, zo slaat Google bijvoorbeeld haar ‘Cloud’ data op in grote datacentra (Di, Kondo & Cappello, 2013). Het wereldwijde

informatie-communicatie-technologie (ICT) systeem verbruikt mede als gevolg van enorme datacentra jaarlijks 50% meer energie dan het globale luchtverkeer (Millis, 2013). Door dit hoge energieverbruik zijn datacentra geen duurzame oplossing voor de toekomst.

Naast dat de huidige opslagmethodes veel energie verbruiken, raken de technieken zoals de huidige disk technologie achterhaald omdat zij de hoeveelheden waarin big data geëxporteerd wordt (exabites) niet aankunnen (​Kaisler, Armour, Espinosa & Money, 2013).

Terwijl ooit de floppydisk de oplossing was, stelt een opslagcapaciteit van 1.2 mb anno 2017 niets meer voor, een gemiddelde telefoon heeft nu al een opslagcapaciteit die ruim 8000 keer zo groot is. Dataopslag heeft een behoorlijke evolutie doorgemaakt, die gevisualiseerd is in Figuur 1. Onderzoekers stellen echter dat onze opslagcapaciteiten niet voldoende zijn voor toekomstige data (welke een exponentiële groei vertoont), zelfs wanneer men rekening houdt met verbeteringen in opslagtechnologieën (Bornholt et al., 2016). Huidige opslagmethoden kampen ook met de levensduur. Tape technologie, op dit moment de opslagtechniek met de hoogste informatiedichtheid, heeft een levensduur van 10-30 jaar en moeten daarna vervangen worden omdat er een te grote kans is op fouten (Bornholt et al., 2016). De vraag rijst of er een alternatieve opslagmethode is die weinig energie gebruikt, een zeer hoge informatiedichtheid heeft en over een betrouwbare opslagcapaciteit beschikt van meer dan tientallen jaren, waardoor deze ook in de toekomst relevant blijft.

Een vorm van informatieopslag die al miljoenen jaren zeer succesvol in de natuur wordt gebruikt is DNA. Elk levend organisme geeft zijn genetische informatie door via de vier nucleotiden adenine (A), cytosine (C), guanine (G) en thymine (T). DNA bevat daarmee de capaciteiten om een nieuwe informatieopslag methode te zijn.

(4)

Figuur 1: The Evolution of Data Storage (2013, April 26).

Dataopslag in DNA is ten eerste veelbelovend vanwege de hoge informatiedichtheid. In een string van binaire cijfers zijn er voor elke positie twee mogelijkheden. In een string van nucleotiden zijn er voor elke positie vier mogelijkheden. In een string met N posities zijn er dus in plaats van 2N mogelijkheden, 4N(= 2N * 2N) mogelijkheden. Door de vier

nucleotiden kunnen er dus 2N meer data sequenties van lengte N nucleotiden gesynthetiseerd worden in vergelijking met de reguliere binaire cijfers (Cox, 2001).

Daarnaast beslaat de lengte van een DNA basepaar 3,3 ångström (Mandelkern, Elias, Eden & Crothers, 1981), wat ervoor zorgt dat er theoretisch 455 exabyte (=10⁹ GB) informatie per gram DNA opgeslagen kan worden (Church, Gao & Kosuri, 2012). Ter vergelijking: tape technologie biedt een opslagcapaciteit van 100 GB/mm . Met de huidige technieken is het wetenschappers gelukt 729 kilobytes van harddisk opslag om te zetten naar

gesynthetiseerde DNA-moleculen en deze informatie met een accuraatheid van 100% reconstrueren (Goldman et al., 2013).

Een klein rekenvoorbeeld, het menselijk genoom bevat ongeveer 3 GB aan informatie, dit past dus in een menselijke cel (Frenkel, 1991). 3GB komt overeen met 108.000 pagina’s tekst of 96.000 foto’s of 1440 muzieknummers (USB stick, z.d.). Het YouTube archief besloeg in 2006 ongeveer 45 TB aan data, als dit in DNA zou worden opgeslagen zou dit slechts 0.2 * 10​-8 ​gram zijn (Webhostingtalk, 2006)

Naast de hoge informatiedichtheid speelt ook de stabiliteit van DNA mee in de veelbelovende rol die het kan gaan hebben in informatieopslag. Meestal wordt DNA

opgeslagen bij een temperatuur van -80°C of -196°C (in vloeibaar stikstof). Echter is het ook mogelijk om gedehydrateerde samples op te slaan bij kamertemperatuur, wat de opslag van

(5)

DNA sterk in (energie)kosten doet dalen en gemakkelijker maakt (Anchordoguy & Molina, 2007). Op dit moment is opslag in DNA vooral geschikt voor archiefdata die niet vaak hoeft worden afgelezen omdat synthetiseren en aflezen van DNA een tijdrovend en kostbaar proces is. Omdat DNA zeer lang en goed bewaard kan worden kan het een goede oplossing zijn voor bijvoorbeeld wetenschappelijke data die ook in de toekomst relevant zal blijven. Verder kan gedacht worden aan het opslaan van historisch belangrijke beelden en

fragmenten, zoals de maanlanding. 1.3 Informatietheorie

Zoals beschreven in Menken & Keestra (2016) is er gezocht naar common ground en deze is gevonden in de informatietheorie van Shannon. Claude Shannon schreef in zijn

baanbrekende paper uit 1948 de basisprincipes van de informatietheorie. ‘​The fundamental problem of communication is that of reproducing at one point either exactly or

approximately a message selected at another point’ ​(genoemd in MacKay, 2003. Pagina 3). Hij onderscheidt in communicatie vijf verschillende onderdelen: de bron, de zender, de ontvanger, de bestemming en de ruisbron. Deze communicatie kan tussen verschilende personen op verschillende plaatsen geschieden, maar kan ook gaan over verschillende tijdsperiodes, zoals bij opslag het geval is (Shannon, 1948). De tijd die het kost om de informatie van de zender naar de ontvanger te krijgen is een belangrijke indicatie voor de efficiëntie van het communicatieproces en is daarom een aandachtspunt bij de analyse van elk proces.

(6)

Figuur 2: Schematische weergave van communicatie volgens Shannon (MacKay, 2003).

Om de communicatie te verbeteren kan gesleuteld worden aan elk van deze vijf componenten om de ruis te verkleinen, maar dat zal de communicatie duurder maken (MacKay, 2003). Dit onderzoek zal zich richten op vier onderdelen uit het proces van DNA-opslag: coderen, synthetiseren, opslaan en lezen. Deze onderdelen zullen geplaatst worden in het communicatieproces van Shannon en als zodanig worden geanalyseerd. 1.4 Onderzoeksopzet

In dit onderzoek zal het paper van Goldman en zijn collega’s uit 2013 als leidraad worden genomen, wat in het theoretisch kader verder zal worden uitgelegd. Er worden, waar mogelijk, ook andere onderzoeken aangehaald en uitgelegd, maar de nadruk ligt op Goldman. De reden hiervoor is dat zijn onderzoeksgroep de inspiratie voor dit onderzoek was en hij door velen wordt gezien als de grondlegger van dataopslag in DNA. Hierbij zal de structuur van de vier onderdelen (codering, synthese, opslag en lezen) worden

aangehouden. Vervolgens zal er met behulp van de gesprekken met verschillende experts worden vastgesteld wat kan worden verbeterd en dit zal te vinden zijn in het onderdeel Resultaten. Hier zal ook worden besproken op welk onderdeel van het informatieproces van Shannon de verbeteringen invloed zullen hebben. Op deze manier tracht dit onderzoek de communicatie volgens de informatietheorie te verbeteren op verschillende vlakken en de volgende vraag te beantwoorden: “​Op welke manier kan men in de toekomst digitale

(7)

informatie coderen, synthetiseren, opslaan en lezen met behulp van DNA?​”.

Het onderzoek van Goldman is uitgevoerd door onderzoekers uit verschillende werkvelden en de verbeterpunten hierin zullen daarom ook niet in één discipline terug te vinden zijn. Een interdisciplinaire aanpak is daardoor gewenst en deze zijn in dit onderzoek op de volgende wijze ingezet. De disciplines wiskunde en Kunstmatige Intelligentie (KI) zullen zich bezighouden met het coderen van de informatie. Vervolgens zal vanuit biomedisch perspectief worden uiteengezet hoe het synthetiseren van DNA werkt en zal met behulp van nanotechnologie en vastestoffysica worden beschreven aan welke criteria DNA-opslag moeten voldoen en op welke manieren het DNA weer kan worden uitgelezen.

2. Theoretisch kader

Nu zal het onderzoek van Goldman worden besproken, opgedeeld in de volgende onderdelen: codering, synthese, opslag en sequencing.

2.1 Codering

In​ ​het​ ​onderzoek​ ​van​ ​Goldman​ ​et​ ​al.​ ​(2013)​ ​wordt​ ​gebruik​ ​gemaakt​ ​van​ ​Huffman-codering. Dit​ ​is​ ​een​ ​systeem​ ​waarbij​ ​minder​ ​vaak​ ​voorkomende​ ​symbolen​ ​een​ ​langere​ ​code​ ​krijgen,​ ​en

vaak​ ​voorkomende​ ​symbolen​ ​een​ ​kortere​ ​code​ ​(Liddell,​ ​Moffat,​ ​2006).​ ​Het​ ​idee​ ​erachter​ ​is dat​ ​de​ ​symbolen​ ​die​ ​frequenter​ ​voorkomen​ ​het​ ​meest​ ​baat​ ​hebben​ ​bij​ ​een​ ​kortere​ ​notatie. De​ ​uitvoering​ ​begint​ ​bij​ ​het​ ​opstellen​ ​van​ ​een​ ​frequentielijst​ ​van​ ​de​ ​symbolen​ ​en​ ​deze​ ​te sorteren​ ​van​ ​groot​ ​naar​ ​klein.​ ​Het​ ​minst​ ​voorkomende​ ​symbool​ ​krijgt​ ​een​ ​1​ ​toegewezen​ ​en het​ ​op​ ​één​ ​na​ ​minst​ ​voorkomende​ ​symbool​ ​een​ ​0.​ ​Vervolgens​ ​worden​ ​steeds​ ​de​ ​twee​ ​minst voorkomende​ ​symbolen​ ​gekoppeld​ ​en​ ​vervangt​ ​deze​ ​combinatie​ ​de​ ​twee​ ​symbolen​ ​in​ ​de frequentielijst.​ ​Vervolgens​ ​wordt​ ​dit​ ​proces​ ​herhaalt​ ​met​ ​de​ ​nieuwe​ ​frequentielijst,​ ​totdat​ ​er

uiteindelijk​ ​één​ ​symbool​ ​overblijft.​ ​In​ ​Figuur​ ​3​ ​is​ ​een​ ​voorbeeld​ ​te​ ​zien​ ​van​ ​een

‘Huffman-tree’,​ ​waarin​ ​te​ ​zien​ ​is​ ​hoe​ ​de​ ​codering​ ​ontstaat.​ ​Omdat​ ​de​ ​minst​ ​frequente symbolen​ ​onderin​ ​de​ ​‘Huffman-tree’​ ​komen,​ ​zorgt​ ​het​ ​algoritme​ ​ervoor​ ​dat​ ​deze​ ​symbolen inderdaad​ ​meer​ ​bits​ ​krijgen,​ ​en​ ​de​ ​meest​ ​frequente​ ​het​ ​minst​ ​aantal​ ​bits​ ​(Huffman,​ ​1952).

Figuur 3: Een ‘Huffman-tree’, die gebruikt wordt om de codering te bepalen. De symbolen zijn genummerd op 7

(8)

basis van de frequentie, waarbij s1 het meest voorkomt en s6 het minst. De symbolen s5 en s6 hebben de laagste frequentie, dus krijgen respectievelijk een 1 en een 0 toegewezen. Vervolgens worden deze symbolen samengekoppeld aan s4, waarbij de takken respectievelijk opnieuw een 1 en een 0 krijgen. Omdat s3, s4, s5 en s6 samen een lagere frequentie hebben dan s1 en s2 samen, ontstaat er eerst een nieuwe tak aan de

linkerkant. Deze wordt vervolgens gekoppeld aan de rechtertak. Zo ontstaat een binaire codering voor elk symbool.

In het geval van DNA wordt een bestand door middel van de Huffman-codering

geconverteerd naar een code met nullen, enen en tweeën, trits genoemd. In het onderzoek van Goldman komen in de DNA streng dus ook maar drie verschillende basen voor in plaats van vier. Hierdoor is duidelijk dat het gaat om onnatuurlijk DNA en weet men dat er sprake is van fouten als de vierde base in de DNA streng wordt gevonden (Goldman, 2013). Dit heeft als nadeel dat de informatiedichtheid lager is, namelijk 3N in plaats van 4N.

Deze string wordt dan omgezet in DNA via de tabel in Figuur 4. Elke trit wordt omgezet in een van de drie basen die anders zijn dan de base waarin de vorige trit is

omgezet. Dit is om te voorkomen dat er één lange sequence van dezelfde base ontstaat, een homopolymeer. Homopolymeren geven moeilijkheden bij het synthetiseren en sequencen en zijn daardoor niet wenselijk (Goldman, 2013).

De DNA sequence die zo ontstaat wordt omgezet in segmenten met een lengte van honderd basen, waarbij elk segment 75 basen overlapt met het vorige segment. Elke base zit zo in vier verschillende segmenten, waardoor er sprake is van redundantie. Afwisselend wordt steeds een segment zo gelaten en een segment geconverteerd naar zijn omgekeerde complement. Het opsplitsen en converteren naar het complement gebeurt om de kans op systematische fouten te verkleinen en zo onherstelbare fouten en dataverlies te

voorkomen.

Om de informatie op de goede plek terug te kunnen vinden, worden aan elk segment twee trits toegevoegd om het bestand te kunnen herkennen, 12 trits om te herkennen waar in het bestand het segment hoort en één ‘​parity trit​’ om op fouten te controleren. Deze trits worden op dezelfde manier als de oorspronkelijke informatie

gecodeerd in DNA en toegevoegd aan de segmenten. Ze worden ook wel de index genoemd en zijn gelijk aan wat Shannon ​encoders ​noemt (Shannon, 1948).

Naast het feit dat niet alle basen voorkomen, is het ook duidelijk dat er sprake is van gecodeerde informatie doordat alle fragmenten dezelfde lengte hebben en er geen

homopolymeren voorkomen.

(9)

segment, om homopolymeren te voorkomen.

2.2 DNA-synthese

Organismen maken al miljoenen jaren gebruik van DNA als bron voor informatieopslag. DNA wordt normaliter gerepliceerd (verdubbeld) wanneer een cel deelt. De twee

complementaire DNA-strengen gaan uit elkaar en een DNA-polymerase eiwit zorgt er, samen met tientallen tot honderden andere eiwitten voor, dat nieuwe nucleotiden (A, C, G of T) worden toegevoegd zodat er twee identieke nieuwe strengen ontstaan (Mullis & Faloona, 1987).

Het maken van compleet nieuwe (​de novo​) strengen DNA is lastiger dan de

conventionele manier in organismen, omdat er geen complementaire streng is waar men de nucleotiden aan kan verbinden. Door de jaren heen is chemische (ook wel synthetische genoemd) DNA-synthese steeds verder ontwikkeld. Oligonucleotiden (korte

DNA-fragmenten) worden chemisch gesynthetiseerd door gebruik te maken van nucleoside fosforamidites. Deze moleculen bevatten beschermende groepen. Tijdens het één voor één aan een streng toevoegen van deze moleculen, zorgen deze groepen ervoor dat ze niet binden aan de verkeerde moleculen (Hoover & Lubkowski, 2002). Carlson (2009) liet zien dat nieuwe (commerciële) ontwikkelingen binnen dit gebied van ​bio-engineering​ ervoor hebben gezorgd dat de snelheid van DNA-synthese, uitgedrukt in het produceerbare aantal basenparen per persoon per dag, van ongeveer 100 in 1990 is toegenomen tot bijna 10⁷ in 2008 (Figuur 5). Daarnaast zijn de kosten van de oligo synthese tussen 1990 en 2014 gedaald van 1 dollar naar minder dan 10 dollarcent per base (Figuur 5).

(10)

Figuur 5: Kosten van oligo en gen-synthese en sequencing. Overgenomen uit: Time for New DNA Synthesis and Sequencing Cost Curves, Carlson (2014).

Goldman besteedt het synthetiseren van DNA oligo designs uit aan het Amerikaanse bedrijf

Agilent Technologies​. Zij werken op dit moment aan de vernieuwde versie van hun oligo

library synthesis (OLS) proces. Bij het OLS-proces werkt men ook volgens het eerder beschreven fosforamidiet principe, maar men kan dit parallel doen op een zogenaamde

microarray ​plaat. Hierdoor kunnen heel veel nucleotiden tegelijkertijd gesynthetiseerd

worden. Er waren echter in de eerste versie veel problemen met reacties die de zijgroepen van nieuwe nucleotiden aangingen met de verkeerde moleculen, met als gevolg een hoog foutpercentage. LeProust et al. (2010) verbeterden dit proces waardoor er langere

polymeren (>150 nucleotiden) gemaakt konden worden van hoge kwaliteit, een proces dat tot dan toe nog onmogelijk was ondanks de hoge vraag hiernaar. Ook Church, Gao en Kosuri (2012), een andere onderzoeksgroep die grote hoeveelheden data heeft opgeslagen in DNA, gebruiken deze vernieuwde techniek van Agilent Technologies.

2.3 DNA-opslag

Wanneer men besluit om grote hoeveelheden data vast te leggen in DNA, is het van cruciaal belang dat deze informatie veilig en stabiel opgeslagen wordt. Er is, ongeacht de

omstandigheden waarin DNA wordt opgeslagen, altijd een klein deel van het DNA dat verloren kan gaan of beschadigd kan worden: de zogenaamde ​degradation rate (Anchordoquy & Molina, 2007). In levende organismen zorgen verschillende

reparatiemechanismen ervoor dat fouten in het DNA hersteld worden om de stabiliteit te handhaven (​Sancar, Lindsey-Boltz, Ünsal-Kaçmaz & Linn, 2004). Deze mechanismen

bereiken een accuraatheid van minder dan 1 fout in 100.000 nucleotiden (Lindhal & Wood, 1999). ​Op het moment dat men niet beschikt over de herstelmechanismen van levende organismen, is het van belang om de omgevingsfactoren zo te manipuleren dat deze rate zo laag mogelijk is.

Factoren die invloed kunnen hebben op de stabiliteit zijn onder andere hitte, water en zonlicht. DNA denatureert bij een temperatuur van 94 graden Celsius (Rapley, 1994), maar ook bij minder extreme temperaturen kan hitte al invloed hebben op de stabiliteit van het DNA. Daarom wordt het vaak opgeslagen bij temperaturen van -80 graden Celsius of in vloeibaar stikstof. Een probleem is echter dat zowel het opslaan van DNA in vloeibaar stikstof, als in vriezers met temperaturen rond de -80 graden Celsius beide zeer veel energie kost (Sherif, Zeytinoglu & Veziroǧlu, 1997).

Ook water kan invloed hebben op de degradatie van DNA doordat dit molecuul de splitsing van een chemische binding kan induceren, ook wel DNA hydrolyse genoemd (Lindhal, 1993). Daarnaast bevat lucht enkele stoffen die het DNA kunnen aantasten, waaronder zuurstof. Zuurstof kan door een oxidatiereactie zorgen dat verbindingen binnen het DNA verloren gaan. Lucht kan dus leiden tot een hogere degradation rate. Door water en lucht te onttrekken aan DNA ontstaat er gedehydrateerd DNA in vacuüm dat vele malen stabieler is en opgeslagen zou kunnen worden bij kamertemperatuur (Lindhal, 1993).

(11)

Onderzoekers van Oxford ondersteunen dit idee en concludeerden uit hun onderzoek dat DNA zijn primaire en secundaire structuur behoudt bij kamertemperatuur voor een

tijdsbeslag dat over het algemeen aan de huidige behoeften voorbijgaat (ongeveer 10 jaar), mits het niet in aanraking komt met water en zuurstof (Bonnet et al., 2010). Tot slot

vergroot zonlicht de degradatie van het DNA, omdat het UV licht vrije radicalen bevat die tot DNA oxidatie kunnen leiden (Bollongino, Tresset & Vigne, 2008). Op dit moment worden het onttrekken van lucht, water en zonlicht gebruikt om DNA stabiel op te slaan en worden extreme temperaturen vermeden.

2.4 DNA-sequencing

Sequencen is het bepalen van de base-volgorde in een DNA-molecuul. Door het

gesynthetiseerde DNA te sequencen en weer om te zetten naar digitale informatie kan de boodschap die was opgeslagen, gereconstrueerd worden. In het onderzoek van de groep van Goldman wordt gebruik gemaakt van een Illumnia Hiseq 2000 sequencer, op dit moment de snelste en meest gebruikte sequencer voor grote hoeveelheden DNA. Deze sequence methode is gebaseerd op synthese met fluorescente labels waardoor de volgorde uiteindelijk met een camera kan worden afgelezen (Minoche, Dome & Himmelbauer, 2011). Met deze methode kunnen geen oneindig lange strengen worden afgelezen (met Illumnia Hiseq 2000 tot 100 nucleotiden), daarom wordt het DNA eerst in stukken geknipt. Hierdoor blijft het originele DNA slechts deels intact en kan het niet direct nog een keer worden afgelezen. Een ander probleem voor de toepassing van DNA is dat DNA strengen alleen in zijn geheel kunnen worden afgelezen. Als de informatie midden in het bestand staat moet dus alsnog het hele bestand worden gedecodeerd.

(12)

3. Methoden

Naar aanleiding van het theoretisch kader op basis van het onderzoek van Goldman (2013) is verder onderzoek gedaan. Allereerst is er gekozen voor het interviewen van experts. Omdat het probleem van informatieopslag in DNA zeer interdisciplinair is, zijn er experts geraadpleegd uit diverse onderzoeksgebieden. Een overzicht hiervan kan gevonden worden in Tabel 1. De interviews zijn gebruikt om verduidelijking te krijgen over bepaalde aspecten in de gelezen literatuur. Daarnaast werden in de interviews struikelblokken geïdentificeerd en werd gediscussieerd over de verbeteringen van het onderzoek zoals beschreven in het theoretisch kader.

Vervolgens is op basis van deze interviews literatuuronderzoek gedaan. De geïdentificeerde struikelblokken vormden een leidraad voor het vinden van nieuwe

ontwikkelingen op het gebied van de onderdelen coderen, synthese, opslag en sequencing. Daarnaast is de informatie uit de literatuur en interviews gebruikt om de vier

onderdelen te koppelen aan de informatietheorie van Shannon. In het onderdeel Resultaten is dan ook te vinden hoe elk van de vier onderdelen samenhangt met de informatietheorie en hoe het verbeteren ervan de communicatie als geheel verbetert.

Naam Expertise Datum

contact

Plaats contact

Ido Heller Biochemische fysica bij Department of Physics and Astronomy ​bij ​VU, Amsterdam

04-11-2016 Kantoorruimte Vrije Universiteit van Amsterdam

Jean-François Lutz Onderzoeksdirecteur bij Precision

Macromolecular Chemistry ​bij ​French National Centre for Scientific Research, Paris

08-11-2016 Skypeverbinding vanuit Parijs

Nick Goldman Hoofd Goldmangroup bij European Bioinformatics Institute, Cambridge

14-11-2016 Skypeverbinding vanuit Cambridge

Daniel Verschueren Plamonische Nanopores bij ​Cees Dekker Lab, Delft

12-12-2016 Bezoek Cees Dekker Lab, Delft

Jossy Sayir Codering DNA bij

European Bioinformatics Institute, Cambridge

19-12-2016 Skypeverbinding vanuit Cambridge

Bente Hofstra DNA-opslag 06-01-2017 Mailverkeer vanuit Groningen

(13)

4. Resultaten

In het theoretisch kader is uitgelegd hoe Goldman zijn onderzoek leidde en zoals toegelicht in het theoretisch kader zal nu worden aangekaart waar mogelijke verbeteringen liggen per onderdeel. Daarnaast zal elk onderdeel in het communicatieproces van Shannon worden geplaatst, zie voor een overzicht Figuur 6.

4.1 Codering

Om in het communicatiekanaal van Shannon de boodschap vanuit de informatiebron naar de transmitter te kunnen sturen, moet deze eerst gecodeerd worden (Figuur 6). Hoe beter de codering, hoe beter de boodschap doorgegeven kan worden. Bij het onderzoek van Goldman was nog geen expert op het gebied van coderen betrokken (J. Sayir, persoonlijke communicatie, 19 december 2016). De codering die werd gebruikt was erg eenvoudig. Daarnaast werd om fouten te voorkomen elk stuk code vier keer omgezet in DNA, wat voor veel overbodig DNA zorgt. Het is wel van belang om bij de codering in te spelen op fouten die bij de synthese en het sequencen van DNA kunnen optreden. Fouten zorgen namelijk voor ruis in de communicatie. Yazdi et al. (2015) doen suggesties voor verschillende manieren van coderen, die verschillende fouten kunnen tegengaan.

De meeste fouten die ontstaan bij het synthetiseren en sequencen van DNA vallen in één van de volgende categorieën: substitutiefouten tijdens de synthese, deletiefouten

(14)

tijdens de synthese of fouten in substitutie of bereik tijdens het sequencen (Yazdi et al., 2015). Er zal nu per fout worden besproken hoe deze kan worden verminderd.

4.1.1 Substitutiefouten

Bij substitutiefouten tijdens de synthese wordt een verkeerde base geïmplementeerd. Deze fouten kunnen worden aangepakt door bijvoorbeeld gebruik te maken van Reed-Solomon code (Yazdi et al., 2015). De onderzoeksgroep van Goldman maakt op dit moment onder andere ook gebruik van deze manier van coderen (J. Sayir, persoonlijke communicatie, 19 december 2016).

Reed-Solomon codering is gebaseerd op het concept van eindige lichamen uit de Algebra (Wicker & Bhargava, 1999). Voor elke met q q = pm, waarbij p een priemgetal en

een geheel positief getal, is er een uniek lichaam met elementen. Een Reed-Solomon

m q

code wordt gebaseerd op een aantal elementen uit het lichaam, informatiesymbolen genoemd. Het aantal informatiesymbolen geeft de dimensie van de code. Op basis van die symbolen wordt een polynoom gemaakt. Het codewoord ontstaat vervolgens doordat dit polynoom wordt geëvalueerd in alle elementen van het lichaam. Elk codewoord heeft evenveel coördinaten, het aantal coördinaten wordt de lengte van de code genoemd (Wicker & Bhargava, 1999).

Reed-Solomon codering is een vorm van codering die bij het decoderen van de code fouten kan corrigeren. Een Reed-Solomon code van lengte en dimensie kan tot q k t fouten corrigeren, met het grootste getal kleiner dan of gelijk aan t q−k+12 (Wicker & Bhargava, 1999). Welch en Berlekamp hebben een algoritme ontwikkeld dat een Reed-Solomon codering decodeert en daarbij de fouten die ontstaan kunnen zijn, in dit geval bij het synthetiseren en sequencen, corrigeert (Welch & Berlekamp, 1986). 4.1.2 Deletiefouten

Bij deletiefouten tijdens de synthese wordt een base overgeslagen. Fouten waarbij een enkele base wordt overgeslagen kunnen worden gecorrigeerd door het gebruik van Levenshtein-Tenengolts codes (Yazdi et al., 2015). Dit is een codering die alleenstaande asymmetrische fouten kan corrigeren (Varshamov & Tenenholtz, 1965). Deze manier van codering heeft de onderzoeksgroep van Goldman nog niet toegepast (J. Sayir, persoonlijke communicatie, 19 december 2016).

4.1.3 Substitutie- of bereikfouten

Voor fouten in substitutie of bereik tijdens het sequencen geven Gabrys, Kiah & Milenkovic (2015) een procedure om deze te corrigeren. Zij maken daarbij gebruik van codering gebaseerd op asymmetrische Lee afstand, ook wel Lee codering genoemd (Alderson & Huntemann, 2013).

Uit het voorgaande kunnen we concluderen dat er bij het ontwerpen van een code voor het opslaan van informatie in DNA een combinatie moet worden gemaakt tussen Reed-Solomon

(15)

codering, Levenshtein-Tenengolts codering en asymmetrische Lee afstand codering. Jossy Sayir geeft aan dat de Reed-Solomon codering veelbelovend werkt en dat dit waarschijnlijk in combinatie met andere coderingssystemen de benodigde betrouwbaarheid gaat geven (J. Sayir, persoonlijke communicatie, 19 december 2016). Op dit moment wordt hier nog veelvuldig onderzoek naar gedaan, dus het is nog niet mogelijk om uitspraken te doen over de betrouwbaarheid.

4.2 DNA-synthese

Ondanks de dalende trend in kosten (Figuur 5) is het nog steeds een zeer prijzige aangelegenheid om grote hoeveelheden DNA te synthetiseren; commerciële bedrijven vragen tegenwoordig nog ongeveer 20 dollarcent per basepaar (Genscript, n.d.). Op het moment dat men grote hoeveelheden DNA synthetiseert daalt deze prijs echter wel en beslaan de kosten van de synthese per basepaar nog uit minder dan 10 dollarcent (Carlson, 2014). Uit een interview met Nick Goldman, bleek dat hij de prijs van het synthetiseren van oligonucleotides nog als grootste belemmering ziet voor de huidige opslag van data in DNA (persoonlijke communicatie, 14 november 2016). Hij stelde dan ook dat in de synthese het meeste succes behaald kan worden, wanneer men het totale proces van informatieopslag kosten efficiënter wil maken. Kijkend naar het communicatiekanaal van Shannon, zal er dus een focus moeten liggen op het proces van de transmissie van boodschap naar het signaal (Figuur 6). Op dit moment lijken er nog geen nieuwe technieken aanwezig te zijn die de kosten van DNA synthese nog verder omlaag brengen (Church & Kosuri, 2014). Er liggen echter wel mogelijkheden op het gebied van niet-natuurlijke polymeersynthese.

4.2.1 Synthese van niet-natuurlijke polymeren

DNA is niet het enige molecuul dat geschikt is om data in op te slaan. Theoretisch gezien zou elke combinatie van twee zogenaamde ‘co-monomeren’ informatie kunnen opslaan waarbij de twee monomeren gedefinieerd worden als een 0-bit en 1-bit (Roy, Meszynska, Laure, Charles, Verchin & Lutz, 2015). Daarnaast is er de mogelijkheid om moleculen complexer te maken. Wanneer men normaal 10 verschillende binaire monomeren achter elkaar zou plakken, zijn er met binaire codering 1024 (2¹⁰) verschillende sequenties te maken. Dit kan zelfs oplopen tot 1.048.576 (4¹⁰) mogelijkheden met quaternaire coding (Lutz, 2015). Door het ontwerpen van deze complexe synthetische moleculen bereikt men een veel hogere informatiedichtheid, wat gewenst is gezien de hoge kosten van polymeersynthese. Een nadeel is dat het steeds lastiger is om deze moleculen te sequencen wanneer zij complexer worden. Er moeten daarom nog nieuwe sequence technieken worden ontworpen wanneer men deze complexe moleculen wilt gaan gebruiken voor het opslaan van data (Lutz, 2015). Ook zal de wijze waarop de niet-natuurlijke polymeren gecodeerd worden, verschillen van DNA, hiervoor is communicatie tussen chemici en wiskundige programmeurs noodzakelijk.

Jean-François Lutz vertelde tijdens het interview dat er naast verhoging van de informatiedichtheid verschillende voordelen zijn aan het gebruik van synthetische

polymeren ten opzichte van DNA. Zo zou het sequencen van deze polymeren veel sneller kunnen gaan. Lutz ziet een grote mogelijkheid in het gebruiken van niet-natuurlijke

(16)

polymeren in combinatie met nanopore sequencing (zie sectie 4.4). Ook kunnen moleculen op zo’n manier gesynthetiseerd worden dat zij stabiel blijven bij verhitting en andere extreme fysische omstandigheden. Dit is een nadeel van DNA, dat denatureert wanneer de temperatuur oploopt (Ando, 1966). Daarnaast stelde hij dat een groot voordeel van

niet-natuurlijke polymeren is dat er informatie uitgeknipt kan worden (bijvoorbeeld door verhitting), wat in het geval van DNA minder goed toepasbaar is (persoonlijke

communicatie, 8 november 2016).

Het onderzoek naar opslag van informatie in niet-natuurlijke macromoleculen is relatief nieuw. Onderzoek naar opslag in DNA loopt al zo’n tien jaar langer en daardoor zijn daar al meer successen geboekt, maar Lutz verwacht dat de synthetische polymeren grote ontwikkelingen zullen gaan doormaken in de komende jaren. Tot slot stelt hij ook dat een hybride-molecuul van natuurlijke en niet-natuurlijke monomeren veelbelovend kan zijn voor de toekomst (persoonlijke communicatie, 8 november 2016).

Het synthetiseren van DNA is vooralsnog de grootste kostenpost voor het opslaan van informatie in DNA. Gezien het feit dat er momenteel nog geen technieken aanwezig zijn om de kosten van DNA-synthese omlaag te brengen, kan men concluderen dat opslag van informatie in niet-natuurlijke polymeren een veelbelovend alternatief kan zijn voor de toekomst. Communicatie tussen verschillende disciplines is hiervoor noodzakelijk, omdat momenteel voornamelijk chemici zich bezighouden met synthetische polymeren terwijl andere disciplines zoals de natuurkunde, biochemie en wiskunde toepassingen kunnen leveren voor deze nieuwe technieken.

4.3 DNA-opslag

Momenteel slaat men DNA vaak op in een gedehydrateerde en vacuüm omgeving waarbij het niet wordt blootgesteld aan zonlicht en temperaturen boven kamertemperatuur. Wanneer men DNA wilt gebruiken als opslagmethode voor grote hoeveelheden informatie is het van belang dat deze data zo min mogelijk wordt aangetast. Deze aantasting, die resulteert in een ​degradation rate​, kan men ook wel zien als de ruis van Shannon die de sterkte van het signaal beïnvloedt (Figuur 6). Naast het vermijden van lucht, water, zonlicht en hitte, zoals beschreven in het theoretisch kader, kan men ook kijken naar alternatieve methoden om de ruis te verkleinen. Op dit moment zijn er onderzoeksgroepen bezig met het opslaan van DNA in bacteriën (Chan et al., 2010). Echter zijn hier enkele beperkingen aan verbonden wanneer men informatie voor zeer lange tijd (meer dan tientallen jaren) wilt opslaan, omdat bacteriën groeimedia nodig hebben waarbij verversing een vereiste is. Hiervan is daarnaast nog niet bekend hoe de foutenanalyse eruit ziet en dus hoe betrouwbaar deze methode is.

Naast de alternatieve opslag van DNA in organisch materiaal zijn er ook onderzoekers die zich recent bezig hebben gehouden met het opslaan van DNA in zogenaamde ‘synthetische fossielen’ (Grass, Heckel, Puddy, Paunescu & Stark, 2015). Zij stellen dat er veelbelovend onderzoek gedaan wordt naar het vertalen van digitale informatie naar DNA, maar dat er nog te weinig aandacht is voor de juiste fysieke opslag van DNA voor lange periodes waarbij

(17)

de stabiliteit behouden kan worden. Zij gebruikten de ​sol-gel​ methode

Figuur 7: Digitale informatie is vertaald naar DNA en ingegoten met silicabollen. DNA kan vrijgegeven worden met behulp van fluoride chemie waarbij het DNA niet aangetast wordt. Sequenties worden gelezen en gedecodeerd om de originele informatie terug te krijgen. Overgenomen uit Grass et al. (2015).

waarbij het gesynthetiseerde DNA omgeven werd door een bol van silica (siliciumdioxide) en er een vaste stof wordt gefabriceerd waarbij het DNA beter beschermd is tegen

ruisfactoren, zoals water en lucht (Figuur 7). In dit onderzoek kon men de originele informatie zonder fouten terughalen, zelfs wanneer het DNA in silica een week lang behandeld werd met een temperatuur van 70 °C​, wat gelijk staat aan 2000 jaar opslag in centraal Europa (Grass et al., 2015). De zogenaamde ​encapsulation​ (inkapseling) van stoffen in silica met behulp van sol-gel technologie heeft veel potentie voor de toekomst omdat het wijdverbreide toepassingen heeft en onderzoek naar deze technologie de kosten ervan sterk kan verminderen (​Ciriminna et al., 2013). ​Door de bestendigheid tegen temperatuur en andere ruisfactoren kan opslag van DNA in silica veelbelovend zijn als toekomstige opslagmethode.

4.4 DNA-sequencing

Het sequencen en vervolgens decoderen van DNA is de laatste stap in de informatietheorie (Figuur 6). Het ontvangen signaal in de vorm van het gesynthetiseerde DNA wordt naar de ontvanger gebracht en leesbaar gemaakt door middel van sequencing. Op dit moment is dit een kostbaar en langdurig proces, waardoor goede en snelle communicatie en daarmee het op grote schaal gebruiken van DNA als opslagmedium beperkt mogelijk is. Het sequencen van een genoom neemt op dit moment nog ruim een dag in beslag en kost minimaal 1000 dollar (Figuur 5) (D.V. Verschueren, persoonlijke communicatie, 12 dec 2016). Bovendien zorgt de altijd aanwezige foutmarge voor ruis in het bericht en wellicht foutieve informatie. Om deze stap te verbeteren kan in de toekomst onder andere gebruik gemaakt worden van sequencing met nanopores (Jain, Olsen, Paten & Akeson, 2016).

Een klassieke nanopore is een kleine opening in een biologisch of kunstmatig (solid-state) membraan waar een elektrische stroom over staat. Als moleculen door de opening gaan wordt deze stroom kort onderbroken. De mate en duur van de

(18)

stroomonderbreking zijn karakteristiek voor het gepasseerde molecuul. Door het

stroomverloop te analyseren kan zo het soort molecuul en dus bijvoorbeeld de volgorde van baseparen in een DNA-molecuul worden gereconstrueerd. Dit principe wordt geïllustreerd in Figuur 8 en 9, tevens zijn hier voorbeelden te zien van grafieken die de meetresultaten weergeven.

Figuur 8: In onderdeel a is te zien hoe het (DNA)molecuul in drie fases door de nanopore gaat met bijbehorende gemeten stroom. Het diffunderen van zoutionen door de nanopore vormt de “open porie-stroom”, deze wordt vervolgens bij het binnengaan van de nanopore door het DNA-molecuul onderbroken. De mate en duur van onderbreking is karakteristiek voor het gepasseerde molecuul. In dit verloop is ook te zien dat er tijdens de meting veel ruis aanwezig is, dit kan een probleem vormen bij het omzetten van de stroomgrafiek naar basevolgorde. (Figuur: Miles, Ivanov, Wilson, Doğan, Japrung & Edel, 2013)

(19)

Figuur 9: Hier zijn drie verschillende moleculen (25bp DNA, 22 bp- RNA en tRNA) een nanopore met een

diameter van 3 nm in een 7 nm dik membraan gepasseerd. In de stroom/ tijd grafiek is duidelijk te zien dat deze drie moleculen een verschillende stroom blokkade opleveren die correspondeert met de grootte van het

molecuul. (Figuur: Miles et.al. 2013)

Biologische nanopores bestaan uit eiwitten en zijn daardoor moeilijk te modificeren. De eiwitporiën zijn echter wel heel klein (max 1.3 nm) waardoor het mogelijk is individuele basen te identificeren. Hoewel er op dit moment meer werkende prototypes van

biologische nanopores bestaan dan van solid-state nanopores heeft deze laatste categorie volgens vele onderzoekers de toekomst. Solid-state nanopores zijn stabieler en kunnen worden aangepast aan verschillende te sequencen moleculen. Bovendien is elektronica goed te integreren in solid-state poriën wat veel mogelijkheden biedt voor het gebruik van verbeterde detectietechnieken in de toekomst (Miles, 2013). In dit onderzoek zullen solid-state nanopores dan ook uitgebreid besproken worden.

De huidige solid-state nanopores zijn in grootte vergelijkbaar met de natuurlijke eiwitten, de pore zelf heeft een typische diameter van minimaal 2 nm (Miles et al. 2013). De nanopore wordt gemaakt in een kunstmatig membraan van siliciumnitride of een ander halfgeleidend materiaal. In vijf stappen wordt eerst het membraan gefabriceerd en vervolgens een porie geboord door een ionen- of elektronenbundel op het membraan te richten, zie Figuur 10. Hierbij wordt gebruik gemaakt van standaard photolitho grafische technieken zoals spin coating van photoresitoren en patroonvorming met behulp van UV licht om de

eigenschappen van de nanopore te bepalen. Storm et al. (2003) presenteren in hun artikel een aanvulling op deze methode om de nanopores vervolgens nog kleiner, en dus preciezer, te maken met behulp van transmissie elektron microscopie.

Over het algemeen geldt hoe dunner het membraan, hoe accurater de meting omdat de amplitude van de stroomonderbrekingen groter en daarmee makkelijker te detecteren wordt. Echter zijn dunne membranen minder stabiel en moeilijker om te maken, hier moet daarom een balans in gevonden worden. Dit zorgt er voorlopig voor dat het detecteren van individuele basen nog vrij lastig is. Veelbelovend leek het gebruik van grafeen, dat slechts

(20)

één molecuul dik en toch redelijk stabiel is. Tot op heden is het echter nog niet gelukt DNA door een porie van grafeen te laten bewegen (D. V. Verschueren, persoonlijke

communicatie, 12 dec 2016). Naast de dikte van het membraan speelt ook het materiaal en de chemische eigenschappen van het oppervlak een belangrijke rol in de kwaliteit van het op te vangen signaal. Deze eigenschappen hebben geen invloed op de amplitude van de stroomonderbreking maar dragen wel bij aan de ruis (Miles et al. 2013).

Figuur 10: Weergegeven is het fabricageproces van een simpele solid-state nanopore. 1) Low pressure chemical vapour deposition (LPCVD) om een enkel membraan te extraheren. 2) Photo lithografische technieken om de karakteristieken van de porie te bepalen. 3) Reactive Ion Etching wordt gebruikt om overtollig materiaal van de silicium laag te verwijderen. 4) Met Wet Etching wordt de siliciumnitride op de aangegeven plek verwijderd zodat de nanopore geboord kan worden. 5) De nanopore wordt gemaakt met behulp van een ionen- of elektronenbundel. (Figuur: Miles et.al. 2013)

In een artikel over een van de meest ontwikkelde producten in het Nanopore veld, de Oxford Nanopore MINion, worden een aantal grote voordelen van deze techniek ten

opzichte van andere next-generation sequencing methodes genoemd. Allereerst is real-time sequencing mogelijk met nanopores, wat betekent dat de volgorde van de basen anders dan bij andere technieken direct afgelezen en gedecodeerd kan worden (Jain et al. 2016). Dit is essentieel voor het dagelijks kunnen toepassen van dataopslag in DNA. Daarnaast is het mogelijk langere stukken DNA te analyseren (op dit moment is de maximale strenglengte 200.000 baseparen) en worden meer eigenschappen van de streng zichtbaar dan alleen de basevolgorde, zo kunnen structurele verschillen in DNA-strengen zichtbaar worden. Dit laatste is vooral essentieel in het onderzoek naar bijvoorbeeld kanker, maar geeft ook mogelijkheden voor data opslag omdat het de weg opent naar nieuwe coderingssystemen met minder redundantie (Jain et al. 2016).

Het grote probleem voor sequencen met nanopores is op dit moment de snelheid waarmee DNA-moleculen door de pore heen bewegen. Deze snelheid is veel hoger dan de huidige detectie frequentie waardoor verschillende basen tegelijk gedetecteerd worden en individuele basen niet te onderscheiden zijn. Dit kan worden opgelost door een eiwit op de

(21)

pore te plaatsen die als het ware over het DNA heen loopt en daarmee de snelheid

reguleert. Dit is echter alleen mogelijk bij biologische nanopores. Een andere mogelijkheid is het verbeteren van de detectietechnieken of het herhaaldelijk sequencen van hetzelfde stuk met verschillende basen tegelijk en vervolgens met een statistische benadering de

basevolgorde te reconstrueren (D.V. Verschueren, persoonlijke communicatie, 12 dec 2016). Gebruik van een stroperige oplossing is ook mogelijk, maar dit maakt de snelheid slechts deels beheersbaar en heeft daardoor niet de voorkeur (Ansorge, 2009). De hoge snelheid zorgt voor een relatief hoge foutmarge bij sequencen met nanopores in vergelijking met huidige technieken. Vergeleken met biologische nanopores is de hoeveelheid ruis bij solid-state nanopores ook hoger. Echter laten huidige ontwikkelingen zien dat deze foutmarge wel goed kan worden teruggedrongen (Heerema & Dekker, 2016).

Een groot probleem voor het praktisch toepassen van DNA als opslagmedium is dat de informatie alleen in zijn geheel kan worden afgelezen. Dankzij het ​real time ​sequencen kan met een nanopore wel eerder worden gestopt met aflezen als de gewenste informatie is gevonden, maar toegang op een willekeurige plek in de tekst is nog steeds niet mogelijk.

Op dit moment is een nanopore sequence startpakket vanaf €5000,- commercieel verkrijgbaar. Hiermee kunnen genomen binnen enkele uren worden uitgelezen, dit is dus al een grote verbetering ten opzichte van next generation sequence methoden. Bovendien kan dus tijdens het sequencen al gedecodeerd worden omdat de basevolgorde direct verschijnt. De accuratie van dit apparaat ligt op minimaal 80% (afhankelijk van het sample en de

voorkennis). Hier is dus wel verbetering nodig (Jain et al. 2016).

(22)

5. Discussie

Het grootste obstakel voor het realiseren van opslag van (digitale) informatie in DNA zijn op dit moment de financiële middelen die nodig zijn voor zowel het creëren van DNA als het onderzoek naar verbetering binnen dit domein. In dit onderzoek zijn voorstellen gedaan naar mogelijk nieuwe richtingen binnen het onderzoeksveld van digitale informatieopslag in natuurlijke (en niet-natuurlijke) polymeren. Dit zijn echter theoretische voorstellen en er zal praktijkonderzoek nodig zijn om deze alternatieven te testen op uitvoerbaarheid. Een bijkomend probleem is dat vanuit de literatuur niet altijd duidelijk is wat de kosten zijn voor een bepaalde methode of techniek, wat het maken van een juiste vergelijking lastig maakt.

Ook zal er praktisch moeten worden nagegaan of de verbeteringen op alle vlakken tegelijk wenselijk zijn. Wellicht werken sommige oplossingen elkaar tegen of zijn ze niet allen even efficiënt en gewenst. Zo kan er een efficiënt coderingssysteem opgesteld worden voor DNA, maar wanneer men niet-natuurlijke polymeren gebruikt zal er een alternatief coderingssysteem ontwikkeld moeten worden. Interdisciplinaire onderzoeksteams zijn essentieel om de verschillende onderdelen tegelijk te ontwikkelen en daarmee op elkaar af te stemmen.

De ontwikkelingen op het gebied van data opslag in DNA vinden binnen het

bedrijfsleven veel weerklank (N. Goldman, persoonlijke communicatie, 14 november 2016). Naast dat dit meer financiële middelen met zich meebrengt is transparant en onafhankelijk wetenschappelijk onderzoek ook van belang voor snelle en constructieve ontwikkelingen in het onderzoeksveld.

Een groot struikelblok op dit moment is dat DNA alleen van voren naar achteren kan worden afgelezen, en dus niet op een willekeurig punt bekeken . In combinatie met het slechts langzaam kunnen uitlezen en synthetiseren zorgt dit ervoor dat DNA opslag

voornamelijk geschikt is voor archiefdata. Wellicht kan over 50 jaar ook dagelijks gebruikte informatie in DNA worden opgeslagen, hier zijn echter nog vergaande veranderingen in het proces voor nodig. Omdat het grootschalig toepassen van DNA opslag voor veel data niet lucratief is, is het publiekelijk belang op dit moment minder groot en zullen grote

ontwikkelingen wellicht op zich laten wachten. Op dit moment wordt er echter wel veel DNA sequencing toegepast bij het bestuderen van gen-afwijkingen in het menselijk genoom. Door de meervoudige toepassing van sommige onderdelen kunnen deze zich ook buiten dit onderzoeksveld verder ontwikkelen waardoor efficiënte data opslag in DNA ook weer dichterbij komt.

(23)

6. Conclusie

Het opslaan van digitale informatie in DNA kan worden onderverdeeld vier deelprocessen, te weten: codering, synthese, sequencing en opslag. Met de informatietheorie van Shannon als common ground en het onderzoek van Goldman als uitgangspunt zijn met behulp van literatuur en experts de volgende mogelijke ontwikkelingen voor elk van deze vier

deelprocessen geïdentificeerd.

Bij het ontwerpen van een code voor het opslaan van informatie in DNA moet rekening worden gehouden met fouten die ontstaan bij het synthetiseren en sequencen van DNA. Om deze fouten te kunnen corrigeren, moet voor de codering een combinatie worden gemaakt tussen Reed-Solomon codering, Levenshtein-Tenengolts codering en

asymmetrische Lee afstand codering.

Korte DNA fragmenten (oligonucleotiden) worden op dit moment grootschalig parallel gesynthetiseerd op microarray platen volgens het fosforamidiet principe.

Foutmarges worden steeds kleiner en de productiesnelheid verhoogt, maar synthese van het DNA is op dit moment met ongeveer 10 dollarcent per basepaar nog de grootste kostenpost in het opslaan van digitale informatie in polymeren.Het is daarom relevant de mogelijkheden van opslag van informatie in niet-natuurlijke polymeren te overwegen. Complexe synthetische polymeren hebben de mogelijkheid om een nog hogere

informatiedichtheid te krijgen dan DNA, maar vervolgonderzoek is nodig om duidelijk te krijgen of deze polymeren daadwerkelijk de rol van DNA zouden kunnen overnemen.

Wanneer het DNA eenmaal gesynthetiseerd is, moet het effect van ruis op de informatie in de opgeslagen toestand geminimaliseerd worden. Reguliere methoden daarvoor zijn het onttrekken van DNA aan water, zuurstof, licht en hoge temperaturen. Alternatieve opslagmethoden zijn het opslaan van DNA in bacteriën of in silica. Deze laatste methode is veelbelovend voor de toekomst door de hittebestendigheid van siliciumdioxide.

Om DNA daadwerkelijk als opslagmethode te kunnen gebruiken is het snel en goedkoop kunnen uitlezen met minimale foutmarge van de informatie essentieel.

Sequencen met nanopores is een veelbelovende en snel ontwikkelende techniek die in de toekomst goedkoper en sneller zou moeten zijn dan de huidige technieken. Op dit moment is een nanopore sequence startpakket vanaf €5000,- commercieel verkrijgbaar. De

verwachting is dat deze prijs de komende jaren gaat zakken en de mogelijkheden van de sequencer worden uitgebreid. Grote voordelen ten opzichte van next generation

sequencing zijn dat de informatie al tijdens het sequencen kan worden vertaald (real time sequencing) en er kunnen langere strengen worden afgelezen (op het moment tot 200.000 baseparen) zonder opbouwende fout.

Ondanks dat er nog veel onderzoek nodig is voordat DNA-opslag praktisch gezien op grote schaal mogelijk is, is het een veelbelovende en duurzame techniek met een hoge

informatiedichtheid. Dus wellicht vindt u dit artikel over 50 jaar terug op uw harde schijf van DNA.

(24)

7. Bibliografie

Alderson, T. L., & Huntemann, S. (2013). On maximum Lee distance codes. ​Journal of

Discrete Mathematics​, ​2013​.

Anchordoquy, T. J., & Molina, M. C. (2007). Preservation of DNA. ​Cell Preservation Technology​, ​5​(4), 180-188.

Ando, T. (1966). A nuclease specific for heat-denatured DNA isolated from a product of Aspergillus oryzae. ​Biochimica et Biophysica Acta (BBA)​-​Nucleic Acids and Protein Synthesis,

114​(1), 158-168.

Ansorge, W. J. (2009). Next-generation DNA sequencing techniques. ​New biotechnology​,

25​(4), 195-203.

Bollongino, R., Tresset, A., & Vigne, J. D. (2008). Environment and excavation: Pre-lab impacts on ancient DNA analyses. ​Comptes Rendus Palevol, 7​(2), 91-98.

Bonnet, J., Colotte, M., Coudy, D., Couallier, V., Portier, J., Morin, B., & Tuffet, S. (2010). Chain and conformation stability of solid-state DNA: implications for room temperature storage. ​Nucleic acids research, 38​(5), 1531-1546.

Bornholt, J., Lopez, R., Carmean, D. M., Ceze, L., Seelig, G., & Strauss, K. (2016, March). A DNA-based archival storage system.​ In Proceedings of the Twenty-First International

Conference on Architectural Support for Programming Languages and Operating Systems

(pp. 637-649). ACM.

Carlson, R. (2009). The changing economics of DNA synthesis. ​Nature biotechnology​, 27(12), 1091.

Carlson, R. (2014). Time for new DNA synthesis and sequencing cost curves. Verkregen op 3 februari 2017 van

http://synbiobeta.com/news/time-new-dna-synthesis-sequencing-cost-curves-rob-carlson/

Chan et al. (2010). CUHK IGEM 2010--Bioencryption, Verkregen op 9 januari 2016 van http://2010.igem.org/Team:Hong_Kong-CUHK

Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-generation digital information storage in DNA. Science, 337(6102), 1628-1628.

(25)

Ciriminna, R., Fidalgo, A., Pandarus, V., Béland, F., Ilharco, L. M., & Pagliaro, M. (2013). The sol–gel route to advanced silica-based materials and recent applications. ​Chemical reviews,

113​(8), 6592-6620.

The Evolution of Data Storage. (2013, April 26). Retrieved January 05, 2017, from http://visual.ly/evolution-data-storage

Di, S., Kondo, D., & Cappello, F. (2013). Characterizing cloud applications on a Google data center. ​In Parallel Processing (ICPP), 2013 42nd International Conference on​ (pp. 468-473). IEEE.

Frenkel, K. A. (1991). The Human Genome project and informatics: a monumental scientific adventure. ​Communications of the ACM​, ​34​(11), 40-52.

Gabrys, R., Kiah, H. M., & Milenkovic, O. (2015, June). Asymmetric Lee distance codes for DNA-based storage. In ​2015 IEEE International Symposium on Information Theory (ISIT)​ (pp. 909-913). IEEE.

Gantz, J., & Reinsel, D. (2012). The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east. ​IDC iView: IDC Analyze the future​, ​2007​, 1-16.

Genscript (n.d.). Gene synthesis service. Verkregen op 3 februari 2017 van

http://www.genscript.com/gene_synthesis.html

Goldman, N., Bertone, P., Chen, S., Dessimoz, C., LeProust, E. M., Sipos, B., & Birney, E. (2013). Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. ​Nature​, ​494​(7435), 77-80.

Grass, R. N., Heckel, R., Puddu, M., Paunescu, D., & Stark, W. J. (2015). Robust Chemical Preservation of Digital Information on DNA in Silica with Error-Correcting Codes.

Angewandte Chemie International Edition, 54​(8), 2552-2555.

Heerema, S. J., & Dekker, C. (2016). Graphene nanodevices for DNA sequencing. ​Nature

nanotechnology​, ​11​(2), 127-136.

Hoover, D. M., & Lubkowski, J. (2002). DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. ​Nucleic acids research,​ 30(10), e43-e43. Jain, M., Olsen, H. E., Paten, B., & Akeson, M. (2016). The Oxford Nanopore MinION: delivery of nanopore sequencing to the genomics community. ​Genome Biology​, ​17​(1), 239.

Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. (2013). Big data: Issues and challenges moving 25

(26)

forward. In ​System sciences (HICSS), 2013 46th Hawaii international conference on​ (pp. 995-1004). IEEE.

Kosuri, S., & Church, G. M. (2014). Large-scale de novo DNA synthesis: technologies and applications. ​Nature methods​, 11(5), 499-507.

Lindahl, T., & Wood, R. D. (1999). Quality control by DNA repair.​ Science, 286(​5446), 1897-1905.

LeProust, E. M., Peck, B. J., Spirin, K., McCuen, H. B., Moore, B., Namsaraev, E., & Caruthers, M. H. (2010). Synthesis of high-quality libraries of long (150mer) oligonucleotides by a novel depurination controlled process. ​Nucleic acids research​, 38(8), 2522-2540.

Lutz, J. F. (2015). Coding macromolecules: Inputting information in polymers using monomer-based alphabets. ​Macromolecules​, 48(14), 4759-4767.

MacKay, D. J. (2003). ​Information theory, inference and learning algorithms​. Cambridge university press.

Mandelkern, M., Elias, J. G., Eden, D., & Crothers, D. M. (1981). The dimensions of DNA in solution. ​Journal of molecular biology​, ​152​(1), 153-161.

Menken, S., & Keestra, M. (Eds.). (2016). ​An introduction to interdisciplinary research: theory

and practice​. Amsterdam University Press

Miles, B. N., Ivanov, A. P., Wilson, K. A., Doğan, F., Japrung, D., & Edel, J. B. (2013). Single molecule sensing with solid-state nanopores: novel materials, methods, and applications.

Chemical Society Reviews​, ​42​(1), 15-28.

Minoche, A. E., Dohm, J. C., & Himmelbauer, H. (2011). Evaluation of genomic high-throughput sequencing data generated on Illumina HiSeq and genome analyzer systems. ​Genome biology​, ​12​(11), 1.

Mullis, K. B., & Faloona, F. A. (1987). [21] Specific synthesis of DNA in vitro via a polymerase-catalyzed chain reaction. ​Methods in enzymology​, 155, 335-350.

Rapley, R. (1994). Molecular Biometics Handbook: Polymerase Chain Reaction, pp 305-325. ISBN: 978-1-59259-642-3.

Roy, R. K., Meszynska, A., Laure, C., Charles, L., Verchin, C., & Lutz, J. F. (2015). Design and synthesis of digitally encoded polymers that can be decoded and erased.​ Nature

(27)

Sancar, A., Lindsey-Boltz, L. A., Ünsal-Kaçmaz, K., & Linn, S. (2004). Molecular mechanisms of mammalian DNA repair and the DNA damage checkpoints. ​Annual review of biochemistry, 73(1)​, 39-85.

Shannon, C.E. (1948). A mathematical theory of communication. ​The Bell System Technical

Journal​, ​27​, 379–423, 623–656,

Sherif, S. A., Zeytinoglu, N., & Veziroǧlu, T. N. (1997). Liquid hydrogen: potential, problems,

and a proposed research program. ​International journal of hydrogen energy​, ​22​(7), 683-688.

Strohbach, M., Daubert, J., Ravkin, H., & Lischka, M. (2016). Big Data Storage. In ​New Horizons for a

Data-Driven Economy​ (pp. 119-141). Springer International Publishing.

Storm, A. J., Chen, J. H., Ling, X. S., Zandbergen, H. W., & Dekker, C. (2003). Fabrication of solid-state nanopores with single-nanometre precision. ​Nature materials​, ​2​(8), 537-540.

USB stick (2006) ​https://www.usbstick.nl/faq/Hoeveelheid-data-10​ geraadpleegd op 2 februari 2017.

Varshamov, R. R., & Tenenholtz, G. M. (1965). A code for correcting a single asymmetric error. ​Automatica i Telemekhanika​, ​26​(2), 288-292.

Webhostingtalk, 2006,

https://www.webhostingtalk.nl/shared-webhosting/104343-youtube-facts-lees-huiver.html geraadpleegd op 2 februari 2017.

Welch, L. R., & Berlekamp, E. R. (1986). ​U.S. Patent No. 4,633,470​. Washington, DC: U.S. Patent and Trademark Office.

Wicker, S. B., & Bhargava, V. K. (1999). ​Reed-Solomon codes and their applications​. John Wiley & Sons.

Yazdi, S. H. T., Kiah, H. M., Garcia-Ruiz, E., Ma, J., Zhao, H., & Milenkovic, O. (2015). DNA-based storage: Trends and methods. ​IEEE Transactions on Molecular, Biological and

Multi-Scale Communications​, ​1​(3), 230-248.

Referenties

GERELATEERDE DOCUMENTEN

Forensic data analytics (FDA) technologies are available to help companies keep pace with increasing data volumes, as well as business and regulatory complexities; examples

Voor het onderzoek naar de erfelijke eigenschappen van Inuk is alleen gebruik gemaakt van het haar en niet van de botfragmenten.. Beenweefsel wordt namelijk gemakkelijk

Daarnaast moet hij de betrokkene nadere informatie verstrekken voor zover dat gelet op de aard van de gegevens, de omstandigheden waaronder zij worden verkregen en het gebruik

online verkoop waarin staat dat die richtlijn van toepassing moet zijn ‘op digitale inhoud die is verwerkt in goederen als huishoudelijke apparaten of speelgoed waarin de

Table 6.2 shows time constants for SH response in transmission for different incident intensities as extracted from numerical data fit of Figure 5.6. The intensities shown

Als u een vestiging heeft in een land buiten de EU waar autoriteiten niet zijn gebonden aan de beperkingen en waarborgen die in Nederland en elders in de EU gelden voor

Doordat het hier vooral gaat om teksten worden (veel) analyses door mid- del van text mining -technieken uitgevoerd. Met behulp van technieken wordt informatie uit

Deze documenten zijn opgesteld door de Groupe d’Études Sécurité et Transport (GEST) binnen Euro Chlor. De documenten behandelen risicoaspecten van de productie, het gebruik,