University of Groningen Integration techniques for modern bioinformatics workflows Kanterakis, Alexandros

(1)

University of Groningen

Integration techniques for modern bioinformatics workflows

Kanterakis, Alexandros

IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it. Please check the document version below.

Document Version

Publisher's PDF, also known as Version of record

Publication date: 2018

Link to publication in University of Groningen/UMCG research database

Citation for published version (APA):

Kanterakis, A. (2018). Integration techniques for modern bioinformatics workflows. University of Groningen.

Copyright

Other than for strictly personal use, it is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright holder(s), unless the work is under an open content license (like Creative Commons).

Take-down policy

If you believe that this document breaches copyright please contact us providing details, and we will remove access to the work immediately and investigate your claim.

Downloaded from the University of Groningen/UMCG research database (Pure): http://www.rug.nl/research/portal. For technical reasons the number of authors shown on this cover page is limited to 10 maximum.

(2)

Samenvatting

Bio-informatica is het interdisciplinaire onderzoeksgebied dat computationele methoden ontwikkelt en toepast om onderzoeksvragen in de biologie en genetica te kunnen beantwoorden. Dit nieuwe werkveld bestaat pas drie decennia, maar heeft een centrale rol gespeeld in de vooruitgang van de kennis en uitoefening in een verscheidenheid aan biomedische en genetica domeinen.

Tegenwoordig is er consensus over de ontwikkelde methoden en tools in dit veld; deze hebben een punt bereikt waar de criteria aangaande kwaliteit, effectiviteit en beschikbaarheid van software breed worden gedragen. In het kort zijn deze criteria; het toepassen van professionele software ontwikkelingsmethoden; het implementeren van gebruiksvriendelijke (user) interfaces; de beschikbaarheid van documentatie; het effectief gebruik van web technologieën; en als laatste, en misschien wel het meest belangrijke, het beschikbaar stellen van de programmacode van deze oplossingen middels open-source licenties. De recente vooruitgang in genomische profilerings technologieën (d.w.z. DNA sequencing) heeft een extra behoefte geïntroduceerd: de mogelijkheid om tools te combineren en te integreren.

Terwijl de complexiteit, robuustheid en schaalbaarheid van software methoden en tools in bio-informatica gestaag stijgt stel ik vast dat er gelijktijdig een toename is in de vraag naar oplossingen die deze tools aan elkaar lijmen. Integratie van in afzondering ontwikkelde tools is altijd een centrale taak geweest in bio-informatica studies. Echter, de laatste tijd ervaren we een explosie van kwalitatieve, breed inzetbare, door de gemeenschap ontwikkelde en platform onafhankelijke tools die de effectiviteit van analyses enorm verbeteren en daarmee de wetenschappelijke waarde van bio-informatica tools in het algemeen.

Deze tools kunnen we in het kort indelen in de volgende categorieën: simpele scripts in moderne geïnterpreteerde talen zoals Python; data visualisatie tools; tools voor data annotatie; tools voor validatie en kwaliteitscontrole; data management frameworks; management van taken in High Performance Computationele (HPC) omgevingen; en tools die complete gevirtualiseerde besturingssystemen besturen (dus met alles hierboven gecombineerd). Gegeven de extreme volumes en complexiteit van de huidige datasets in de levens wetenschappen kan de meerderheid van wetenschappelijke tools in de computationele biologie (d.w.z. voor genotype imputatie) alleen relevante resultaten

(3)

genereren als ze in analyse pijplijnen geplaatst zijn.

De belangrijkste motivatie voor het werk in dit proefschrift is het verbeteren van de infrastructuur voor bio-informatica en het vergemakkelijken van de levens van hun gebruikers. In hoofdstuk 1 en 2 analyseer ik de achtergrond en overwegingen voor het effectief inrichten van bioinformatica analyse omgevingen. In hoofdstuk 3, 4, 5 en 6 beschrijf ik praktische uitwerkingen van zulke omgevingen waarmee ik de diverse overwegingen getoetst en verder aangescherpt heb. In hoofdstuk 7 tenslotte vatte ik de resultaten samen met een perspectief op de toekomst. Hieronder beschrijf ik elk hoofdstuk kort in detail.

In Hoofdstuk 1 zet ik uiteen hoe bio-informatica momenteel aan een nieuw tijdperk begint nadat het gebruik van open source licenties de standaard is geworden en veel bestaande analyse tools een professionele volwassenheid hebben bereikt. Dit nieuwe tijdperk vraagt om oplossingen die samenwerking promoot, een extroverte mentaliteit steunen en reproduceerbare experimenten mogelijk maken. Tevens beschrijf ik de belan-grijkste uitdagingen: het verbeteren van IT vaardigheden en digitale geletterdheid van onderzoekers in de levens wetenschappen; het bouwen van coöperatieve computationele infrastructuren en het genereren van drijfveren die wetenschappers aanmoedigen om bron code, methoden en data te publiceren. Bovendien beschrijf ik de vier belangrijkste praktische overwegingen die moeten worden aangepakt om een bio-informatica compo-nent (d.w.z. tools, data) zo bruikbaar mogelijk te maken voor modern onderzoek. Deze overwegingen zijn: documentatie, bundelen met andere componenten, samenwerking tussen onderzoekers en verbinding met andere componenten.

In Hoofdstuk 2 geef ik een overzicht van bestaande wetenschappelijke workflow management systemen en analyseer hun voor- en nadelen. Ook beschrijf ik enkele praktische richtlijnen die het pijplijn-vermogen van wetenschappelijke software en data kunnen verbeteren. Tevens geef ik aanbevelingen voor toekomstige workflow omgevingen, waarin ik pleit voor openheid, standaardisatie en het kunnen insluiten van willekeurige tools als onderdeel, terwijl ook de mogelijkheid wordt geboden om deze weer te integreren in grotere samenstellingen; aanmoedigen van samenwerking tussen gebruikers; ondersteuning voor HPCs en het in staat stellen tot virtualisatie (loskoppelen van de software van het computer platform). In hoofdstuk 2 beschrijf ik ook de voordelen van deze richtlijnen, met als belangrijkste het verbeteren van de reproduceerbaarheid, wat de implementatie van gepersonaliseerde klinisch genetische zorg en preventie dichterbij moet brengen.

In Hoofdstuk 3 beschrijf ik een gedetailleerde computationele pijplijn voor genotype imputatie. Deze pijplijn is essentieel in moderne populatie genetica en fenotype-genotype associatie studies. Ik bediscussieer verschillende overwegingen, zoals de keuze van bestaande software, keuze van referentie panel, instellen van parameters,

(4)

kwaliteitscon-trole, beoordeling van resultaten en visualisatie. Dit hoofdstuk bevat ook richtlijnen voor de vervaardiging van een nieuw imputatie referentie set, gebaseerd op het Genoom van Nederland (GoNL). Dit populatie specifieke referentie panel heeft bewezen de imputatie kwaliteit in Nederlandse cohorten significant te verbeteren en heeft geholpen met de identificatie van aanvullende genetische markers voor bekende ziekten. De prioriteit van dit hoofdstuk is het presenteren van gedetailleerde computer commando’s en computationele vereisten die zelfs beginnende gebruikers in staat stellen om genotype imputatie uit te voeren.

Als een voortzetting op hoofdstuk 3 presenteer ik MOLGENIS-Impute in Hoofdstuk

4. Dit is een geïntegreerde genotype imputatie pijplijn, gebaseerd op het

MOLGENIS-compute pijplijn management systeem. Het is een volledig aanpasbare, zelfwerkende imputatie pijplijn die geen kennis van de onderliggende software vereist. De software wordt geleverd met overige benodigde tools voor formaatconversie en kwaliteitscontrole, bovendien managet het de submissie van computationele taken in meerdere HPC omgevingen. De achterliggende gedachte van de software is een eenstapsoplossing voor onderzoekers die imputatie willen uitvoeren als een tussenliggende stap van hun analyse.

In Hoofdstuk 5 beschrijf ik PyPedia, een nieuw concept voor wetenschappelijk rekenen. Gebruikmakend van hetzelfde concept als wiki’s, biedt PyPedia een geïnte-greerde ontwikkelings- en samenwerkingsomgeving voor onderzoekers. PyPedia moedigt gebruikers aan om nieuwe methoden te creëren of te verbeteren, in plaats van het ontwikkelen van op zichzelf staande methoden; op dezelfde manier als wiki’s dat doen: door het toevoegen van kwalitatieve inhoud door middel van crowdsourcing. PyPedia gebruikers kunnen op verschillende manieren bijdragen, afhankelijk van hun eigen expertise (d.w.z. bronnen, tests, documentatie). Alle inhoud is publiek en de uitvoering van code kan plaatsvinden in HPC omgevingen, lokale computers, online of in speciaal ontwikkelde virtuele omgevingen (Docker); Bovendien zijn alle ontwikkelde methoden in hoofdstuk 3 en 4 ook beschikbaar in PyPedia.

In Hoofdstuk 6 presenteer ik een nieuwe pijplijn, MutationInfo, die een groot probleem oplost in de klinische genetica, namelijk het efficiënt lokaliseren van de precieze positie van genetische varianten op basis van beschrijvingen die gepubliceerd zijn in locus-specifieke databases of wetenschappelijke rapporten. Deze taak is van groot belang in onderzoeken waarbij men het bestaan van een bekende, gepubliceerde variant (of een variant in onderzoek) probeert te valideren, in een gesequenced of gegenotypeerd monster. De pijplijn combineert elf verschillende tools of databases om deze taak zo goed mogelijk uit te voeren. Net als bij MOLGENIS-Impute is de pijplijn zelf besturend en kan deze met gelimiteerde ICT kennis gebruikt worden. MutationInfo is tevens beschikbaar als online web-service.

(5)

belan-grijkste praktische uitdagingen en toekomstperspectieven voor deze methode. Tevens demonstreer ik hoe klinische genetica dichterbij de reguliere medische praktijk kan worden gebracht door middel van het integreren van bestaande bio-informatica compo-nenten, zoals data, tools en workflows.