• No results found

University of Groningen Integration techniques for modern bioinformatics workflows Kanterakis, Alexandros

N/A
N/A
Protected

Academic year: 2021

Share "University of Groningen Integration techniques for modern bioinformatics workflows Kanterakis, Alexandros"

Copied!
5
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

University of Groningen

Integration techniques for modern bioinformatics workflows

Kanterakis, Alexandros

IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it. Please check the document version below.

Document Version

Publisher's PDF, also known as Version of record

Publication date: 2018

Link to publication in University of Groningen/UMCG research database

Citation for published version (APA):

Kanterakis, A. (2018). Integration techniques for modern bioinformatics workflows. University of Groningen.

Copyright

Other than for strictly personal use, it is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright holder(s), unless the work is under an open content license (like Creative Commons).

Take-down policy

If you believe that this document breaches copyright please contact us providing details, and we will remove access to the work immediately and investigate your claim.

Downloaded from the University of Groningen/UMCG research database (Pure): http://www.rug.nl/research/portal. For technical reasons the number of authors shown on this cover page is limited to 10 maximum.

(2)

Περίληψη

Η βιοπληροφορική είναι ο διεπιστημονικός τομέας που στοχεύει στην ανάπτυξη και εφαρ-μογή υπολογιστικών μεθόδων για την αντιμετώπιση ερευνητικών θεμάτων στη βιολογία και τη γενετική. Το πεδίο αυτό αναπτύσσεται για περισσότερες από τρεις δεκαετίες, και έχει διαδραματίσει κεντρικό ρόλο στην αύξηση των γνώσης και των μεθόδων σε ένα ευρύ φάσμα της βιοϊατρικής και της γενετικής. Σήμερα, μπορούμε να πούμε με βεβαιότητα, ότι τα εργαλεία που αναπτύσσονται σε αυτόν τον τομέα έχουν φτάσει σε ένα πολυαναμενόμενη σημείο. Αυτό είναι ότι, κύρια κριτήρια σχετικά με την ποιότητα, την αποδοτικότητα και τη διαθεσιμότητα του παραγόμενου λογισμικού τηρούνται σε μεγάλο βαθμό. Εν συντομία, τα κριτήρια αυτά αφορούν την εφαρμογή επαγγελματικών μεθόδων ανάπτυξης λογισμικού, την δημιουργία φιλικών προς το χρήστη διεπαφών, την άμεση διαθεσιμότητα βοήθειας και οδηγιών, την αποτελεσματική χρήση των τεχνολογιών του Διαδικτύου και, τέλος, ίσως το πιο σημαντικό, την διάθεση αυτών των λύσεων μέσω αδειών ανοικτού κώδικα. Παρά την επίτευξη αυτού του πολύ σημαντικού ορόσημου, οι πρόσφατες εξελίξεις στις τεχνολογίες μαζικής αποτύπωσης του γονιδιωματικού προφίλ (όπως η αλληλούχιση του DNA) έχουν εισαγάγει μια πρόσθετη ανάγκη που υπερβαίνει τα κριτήρια που χαρακτηρί-ζουν το επίπεδο ωριμότητας μεμονωμένων εργαλείων. Αυτή η πρόσθετη ανάγκη είναι η ολοκλήρωση. Ενώ η πολυπλοκότητα, η ανθεκτικότητα και η επεκτασιμότητα των προγραμ-μάτων στη βιοπληροφορική αυξάνονται σταθερά, παρατηρούμε μια ταυτόχρονη αύξηση της ζήτησης σε λύσεις που διασυνδέουν και ενοποιούν τα εργαλεία αυτά. Η διασύνδεση ακόμη και φαινομενικά άσχετων εργαλείων ήταν πάντα ένα κεντρικό ζήτημα της βιοπληρο-φορικής. Ωστόσο, πρόσφατα, βιώνουμε μια έκρηξη στη δημιουργία ανοικτών προγραμμα-τιστικών εργαλείων, γενικής χρήσης τα οποία είναι διαθέσιμα σε πολλαπλά περιβάλλοντα και αναπτύσσονται από αποκεντρωμένες κοινότητες προγραμματιστών. Τα εργαλεία αυτά μπορούν να ενισχύσουν την αποτελεσματικότητα των υφιστάμενων εργαλείων βιοπληρο-φορικής και να δώσουν μία ώθηση στις δυνατότητές τους. Μερικές από τις κατηγορίες που ανήκουν αυτά τα εργαλεία είναι: απλά σκριπτάκια σε σύγχρονες γλώσσες προγραμμα-τισμούς που δεν απαιτούν μεταγλώττιση, εργαλεία για επισημείωση δεδομένων, επικύρωση και ποιοτικό έλεγχο, εργαλεία γενικότερης διαχείρισης δεδομένων, διαχείριση εργασιών σε περιβάλλοντα υψηλής υπολογιστικής απόδοσης (ΥΥΑ) και εργαλεία που χειρίζονται εικονικά λειτουργικά συστήματα. Σήμερα, δεδομένου του όγκου και της πολυπλοκότη-τας των δεδομένων στις βιοεπιστήμες, η πλειονότητα των επιστημονικών εργαλείων στην

(3)

υπολογιστική βιολογία (π.χ. για τη γονοτυπική παράθεση) μπορεί να παράξει σημαντικά αποτελέσματα μόνο εάν ενσωματωθούν σε υπολογιστικές ροές ανάλυσης που βασίζονται στη συνέργεια με αυτά τα σύγχρονα εργαλεία γενικής χρήσεως. Το βασικό ζήτημα της παρούσας διατριβής είναι η δημιουργία λύσεων σε κοινά προβ-λήματα της βιοπληροφορικής, βασισμένα σε αυτή τη νέα επιστημονική πραγματικότητα. Στο Κεφάλαιο 1, περιγράφω λεπτομερώς πώς η βιοπληροφορική εισέρχεται επί του παρόντος σε μια νέα εποχή, μετά την καθιέρωση των αδειών ανοικτού κώδικα και την αύξηση της ποιότητας των υπαρχόντων εργαλείων σε επαγγελματικό επίπεδο. Αυτή η νέα εποχή απαιτεί συνεργατικές λύσεις, εξωστρεφή νοοτροπία και αναπαράξιμα πειράματα. Παρουσιάζω επίσης τις κυριότερες προκλήσεις προς αυτή τη κατεύθυνση, οι οποίες είναι η βελτίωση της πληροφορικής εκπαίδευσης στις βιοεπιστήμες, η οικοδόμηση συνεργατικών υπολογιστικών υποδομών και η δημιουργία κινήτρων που θα ενθαρρύνουν τους επιστή-μονες να δημοσιεύουν τον πηγαίο κώδικα, τις μεθόδους και τα δεδομένα τους. Επιπλέον, περιγράφω τα τέσσερα βασικά πρακτικά ζητήματα που πρέπει να αντιμετωπιστούν για να καταστεί μία οντότητα της βιοπληροφορικής (όπως τα εργαλεία και τα δεδομένα) όσο το δυνατόν πιο χρήσιμη για τη σύγχρονη έρευνα. Αυτά τα ζητήματα είναι η Τεκμηρίωση, η Περιτύλιξη, η Συνεργατικότητα και η Σύνθεση. Στο Κεφάλαιο 2, παρουσιάζω μια επισκόπηση των υφιστάμενων συστημάτων δι-αχείρισης επιστημονικών ροών στη βιοπληροφορική μαζί με τα πλεονεκτήματα και μειονεκ-τήματά τους. Παρουσιάζω επίσης ορισμένες κατευθυντήριες γραμμές και οδηγίες που μπορούν να ενισχύσουν τη διασυνδεσιμότητα του επιστημονικού λογισμικού αλλά και των δεδομένων. Επεκτείνω αυτές τις κατευθυντήριες οδηγίες υποστηρίζοντας ότι τα μελλοντικά περιβάλλοντα διαχείρισης επιστημονικών ροών θα πρέπει να είναι ανοικτά, τυποποιημένα, ικάνα να ενσωματώσουν αλλά και να ενσωματωθούν από οποιοδήποτε εργαλείο, να είναι συνεργατικά, να υποστηρίζουν περιβάλλοντα ΥΥΑ και επίσης να υπ-οστηρίζουν εικονικοποίηση. Στο κεφάλαιο 2, παρουσιάζω επίσης τα αναμενόμενα οφέλη από την υιοθέτηση αυτών των κατευθυντήριων γραμμών, τα σημαντικότερα από τα οποία είναι η αυξημένη αναπαραξιμότητα, η οποία με τη σειρά της θα μπορούσε να φέρει την εξατομικευμένη κλινική γενετική πιο κοντά στην πραγματικότητα. Στο Κεφάλαιο 3, παρουσιάζω μία λεπτομερή υπολογιστική ροή για τη γενετική παράθεση. Αυτή η ροή εργασίας είναι απαραίτητη στις σύγχρονες γενετικές πληθυσμιακές μελέτες αλλά και στις μελέτες εύρεσης συσχετίσεων μεταξύ φαινότυπου και γονότυπου. Αναφέρομαι σε διάφορα θέματα, όπως η επιλογή του υπάρχοντος λογισμικού, η επιλογή γενετικού πάνελ, η ρύθμιση των παραμέτρων, ο ποιοτικός έλεγχος, η αξιολόγηση των αποτελεσμάτων και η οπτική τους απεικόνιση. Το κεφάλαιο αυτό παρουσιάζει επίσης κατευθυντήριες γραμμές για τη δημιουργία ενός νέου πάνελ για γενετική παράθεση που βασίζεται στα δεδομένα από το γένωμα της Ολλανδίας. Αυτό το πάνελ το οποίο περιέχει μόνο έναν πληθυσμό, έχει αποδειχθεί ότι αυξάνει σημαντικά την ποιότητα γενετικής

(4)

παράθεσης των ολλανδικών κοορτών και έχει βοηθήσει να αποκαλυφθούν πρόσθετοι γενετικοί δείκτες για γνωστές ασθένειες. Σε αυτό το κεφάλαιο, έχει δοθεί προτεραιότητα στη λεπτομερής παρουσίαση των εντολών και των υπολογιστικών απαιτήσεων έτσι ώστε να μπορούν να πραγματοποιήσουν γενετική παράθεση ακόμα και αρχάριους χρήστες. Ως συνέχεια του κεφαλαίου 3, παρουσιάζω το MOLGENIS-Impute στο Κεφάλαιο 4. Το Molgenis-Impute είναι μία ολοκληρωμένη ροή γενετικής παράθεσης που βασίζε-ται στο σύστημα διαχείρισης επιστημονικών ροών MOLGENIS-compute. Πρόκειβασίζε-ται για μία ροή εργασίας για γενετική παράθεση η οποία είναι εύκολη στην εγκατάσταση και στη διαμόρφωση καθώς δεν απαιτεί καμία ειδική γνώση των εργαλείων που χρησιμοποιεί. Συμπληρώνεται από πρόσθετα εργαλεία για μετατροπής των φορμά, για ποιοτικό έλεγχο και για υποβολή εργασιών σε διάφορα ΥΥΑ περιβάλλοντα. Σκοπός της είναι να λειτουργή-σει ως μια ενιαία λύση για τους ερευνητές που θέλουν να εφαρμόσουν γενετική παράθεση ως ένα ενδιάμεσο βήμα στην ανάλυσή τους. Στο Κεφάλαιο 5, παρουσιάζω την PyPedia, η οποία είναι μια νέα έννοια στον τομέα της πληροφορικής για επιστημονικές εφαρμογές. Η PyPedia χρησιμοποιεί την έννοια του wikis για να προσφέρει ένα ενοποιημένο, αλληλοσυνδεόμενο περιβάλλον ανάπτυξης. Αντί να δημιουργούν μεμονωμένες λύσεις, η PyPedia ενθαρρύνει τους χρήστες να συνεισ-φέρουν είτε με τη δημιουργία νέων μεθόδων είτε με τη βελτίωση των υπαρχουσών, με τον ίδιο τρόπο που στα wikis οι χρήστες δημιουργούν ποιοτικό περιεχόμενο μέσω του πλ-ηθοπορισμού. Οι χρήστες της PyPedia μπορούν να συνεισφέρουν με διάφορους τρόπους, σύμφωνα με τις ικανότητές τους (για παράδειγμα στον κώδικα, δοκιμές, οδηγίες). ΄Ολο το περιεχόμενο είναι δημόσιο και η εκτέλεση μπορεί να πραγματοποιηθεί σε περιβάλλον ΥΥΑ, τοπικούς ή απομακρυσμένους υπολογιστές, ή σε ειδικά σχεδιασμένο περιβάλλον (Docker). ΄Ολες οι μέθοδοι που αναπτύχθηκαν στα κεφάλαια 3 και 4 είναι επίσης δια-θέσιμες στην PyPedia. Στο Κεφάλαιο 6, παρουσιάζω μία νέα ροή εργασίας, το MutationInfo, η οποία αντιμετωπίζει ένα καίριο πρόβλημα στη περιοχή της κλινική γενετικής. Το πρόβλημα αυτό, είναι ο αποτελεσματικός εντοπισμός της γονιδιωματικής θέσης των μεταλλάξεων που έχουν δημοσιευθεί είτε σε σχετικές βάσεις δεδομένων είτε σε επιστημονικές δημοσιεύσεις. Η λύση του προβλήματος αυτού είναι επιβεβλημένη για της επιβεβαίωση της ύπαρξης μιας ήδη δημοσιευμένης (ή υπό έρευνας) μετάλλαξης σε κάποιο δείγμα που έχει υποβληθεί σε αλληλούχιση ή σε γονοτύπιση. Αυτή η ροή εργασίας συνδυάζει 11 διαφορετικά εργαλεία ή βάσεις δεδομένων για την καλύτερη λύση αυτού του προβλήματος. ΄Οπως και με το MOLGENIS-impute, το MutationInfo εγκαθίσταται εύκολα και απαιτεί περιορισμένες γνώσεις πληροφορικής. Το MutationInfo λειτουργεί επίσης και ως διαδικτυακή υπηρεσία. Τέλος, στο Κεφάλαιο 7, παρουσιάζω κάποιες συμπερασματικές παρατηρήσεις σχετικά με τη γονοτυπική παράθεση, εστιάζοντας στις βασικές πρακτικές προκλήσεις και τις μελ-λοντικές προοπτικές της. Παρουσιάζω επίσης πως η κλινική γενετική μπορεί να έρθει

(5)

πιο κοντά στην καθιερωμένη ιατρική πρακτική, ενσωματώνοντας τα υπάρχοντα στοιχεία βιοπληροφορικής, όπως δεδομένα, εργαλεία και ροές εργασίας.

Referenties

GERELATEERDE DOCUMENTEN

Finally, improved imputation accuracy was also measured for population-specific reference panels for the Ashkenazi Jewish [40], Sardinian (Italy) and Minnesotan (USA)

Without being exhaustive, we can place these tools in categories like simple scripts in modern interpreted languages, data visualization, tools for data annotation, validation

Bovendien beschrijf ik de vier belangrijkste praktische overwegingen die moeten worden aangepakt om een bio-informatica compo- nent (d.w.z. tools, data) zo bruikbaar mogelijk te

I am thankful to the following people from this group: Freerk van Dijk, from whom I learned a lot during his amazing work in creating pipelines that assembled all the terabytes of

• Laurent C Francioli, Androniki Menelaou, Sara L Pulit, Freerk van Dijk, Pier Francesco Palamara, Clara C Elbers, Pieter B T Neerincx, Kai Ye, Victor Guryev, Wigard P

After graduating in 2002, he was accepted as a Master’s student on the bioinformatics postgrad- uate program, run by the Computer Science Department (CSD) in collaboration with

The purpose of this experiment was to assess the genome-wide translatability of reported HGVS mutations and to also measure the ability of MutationInfo to infer the chromosomal

Other than for strictly personal use, it is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright