• No results found

Detectie van dubbel-glycine leidersequenties

In document Index of /SISTA/pmonsieu (pagina 31-34)

7.1 Inleiding

In tegenstelling met de andere hoofdstukken in deze thesis is hoofdstuk 7 toegespitst op een biologisch probleem dat zich niet situeert op niveau van DNA-sequenties, maar op niveau van proteïnesequenties. Het doel van de studie was om de evolutionaire verspreiding van een proteïne transport systeem te onderzoeken in alle volledig gekende bacteriële genomen. Dit impliceert dat verschillende methoden voor comparatieve genoomanalyse hergebruikt kunnen worden. Voor proteïnespecifieke problemen moesten we echter terugvallen op publiek beschikbare algoritmen. Dit onderzoek is uitgevoerd in nauwe samenwerking met het Centrum voor Microbiële en Plant Genetica (Prof. J. Michiels, Dr. G. Dirix).

Het transportsysteem voor proteïnen wordt in alle organismen gecontroleerd door eenzelfde onderliggend mechanisme: elk polypeptide dat bestemd is voor extracellulair transport bevat een specifieke aminozuursequentie ook gekend als signaal- of leiderpeptide. Afhankelijk van het leiderpeptide wordt het overeenkomende transportsysteem geactiveerd, waarbij tijdens het transport de leidersequentie vaak afgesplitst wordt. Een interessant signaalpeptide is de dubbel-glycine (GG)-leidersequentie vermits het een sleutelrol speelt bij verschillende peptidesecretiesystemen en bovendien betrokken is in quorum sensing en bacteriocine productie. Proteïnen die het GG-motief bevatten worden geëxporteerd m.b.v. een corresponderende ATP bindings cassette (ABC) transporter, namelijk het peptidase C39. Uit voorgaande analyses bleek dat proteïnen die het GG-peptide bevatten en het peptidase C39 steeds in mekaars nabijheid gevonden worden op het bacteriële chromosoom.

In dit hoofdstuk gebruiken we bestaande kennis van goed gekarakteriseerde proteïnen met GG-motief samen met hun corresponderende ABC transporter om de aanwezigheid van het betreffende secretiesysteem na te gaan in alle volledig gekende bacteriële genomen.

7.2 Strategie

Op het moment van onze studie waren alle voorgaande onderzoeken naar GG-leidersequenties uitgevoerd op proteïneniveau. De korte lengte van peptiden die het GG-motief bevatten, heeft ervoor gezorgd dat deze peptiden slechts beperkt geannoteerd zijn in de databanken van bacteriële genomen. In deze studie negeren we daarom de bestaande annotatie en baseren onze analyse op de ruwe DNA-sequentie van de bacteriële genomen. Met behulp van de Wise2 software [24] worden de DNA-sequenties vertaald in de zes mogelijke leesramen waarbij in elk mogelijk leesraam gezocht wordt naar de

opgesteld van deze leidersequentie voor zowel positieve als Gram-negatieve bacteriën. Gezien de aanwezigheid van het GG-motief gerelateerd is aan de aanwezigheid van zijn overeenkomstige ABC transporter peptidase C39, voerden we een gelijkaardige motiefdetectie-analyse uit voor alle bacteriële genomen met een HMM dat het peptidase C39 domein beschrijft.

Het verband tussen het GG-motief en peptidase C39 weerspiegelt zich in de chromosomale locatie van beide genen: op basis van voorgaande analyses worden daarom enkel die GG-leidersequentie in rekening genomen die op minder dan 10kb van een peptidase C39 domein gelegen zijn. Andere criteria voor een GG-motief om als biologisch significant beschouwd te worden, zijn 1) de afwezigheid van inserties of deleties in het GG motief, 2) de afwezigheid van een stopcodon tussen de translatiestart en het einde van het GG motief en 3) de totale lengte van het proteïne moet minder zijn dan 150 aminozuren, en de regio voor het GG motief moet kleiner zijn 50 aminozuren.

7.3 Detectie van Peptidase C39

Het motiefmodel voor het peptidase C39 domein (aanwezig in de Pfam databank [19]) werd gebruikt om met behulp van de Wise2 software alle volledige gekende bacteriële genomen te doorzoeken naar het overeenkomstige proteïnedomein. Dit resulteert in 78 potentiële peptidase C39 domeinen, waarvan voor 3 hits geen correcte annotatie gevonden werd. Procentueel bleek het peptidase C39 domein ook meer teruggevonden te worden in Gram-positieve bacteriën (44%) dan in Gram-negatieve bacteriën (33%). De peptidase C39 domeinen werden gevalideerd door de aanwezigheid van twee geconserveerde proteïnemotieven, namelijk het cysteïne en histidine motief. Deze motieven zijn verantwoordelijk voor de binding en afsplitsing van het GG-motief [105,171,282]. Enkel voor 13 van de 78 potentiële hits kon de aanwezigheid van beide motieven niet bevestigd worden. Elk van deze 13 hits werd geïdentificeerd in Gram-negatieve bacteriën. Deze 13 ABC transporters zijn betrokken in de secretie van toxines uit de hemolysine-familie. Hemolysines bevatten geen leidersequentie, en de domeinen voor de herkenning en afsplitsing van de GG-leidersequentie zijn daardoor overbodig.

7.4 Detectie van dubbel-glycine motief peptides

In een eerste stap worden motiefmodellen opgesteld voor het GG-motief in positieve en negatieve bacteriën. Voor Gram-positieve bacteriën konden we ons model baseren op een training set van 31 gekende peptiden die het GG-motief bevatten. Gezien voor de Gram-negatieve species slechts een beperkt aantal GG-leidersequenties geïdentificeerd waren [171], bepaalden we extra GG-motief instanties via

een iteratieve procedure van MEME en MAST [15]. Dit resulteerde voor de Gram-negatieve bacteriën in een trainingset van 38 GG-motieven. Met behulp van de HMMER2.2 software [61] werden HMMs opgesteld van beide motieven die gebruikt werden in de Wise2 software voor een genoomwijde zoektocht in de volledig gekende bacteriële genomen.

Op basis van de criteria vermeld hierboven (ligging van peptidase C39, aanwezigheid stopcodons, …), werden de biologische relevante peptiden met een GG-leidersequenties bepaald. Voor Gram-negatieve bacteriën leidde dit tot 58 potentiële hits, waarbij de lengte van het overeenkomstige peptide varieert tussen 23 en 142 aminozuren. Zoals hierboven vermeld werden 13 van de peptidase C39 domeinen die geen cysteïne en histidine motief bevatten teruggevonden in Gram-negatieve bacteriën. Als gevolg hiervan zouden geen GG-leidersequenties mogen teruggevonden worden in de buurt van deze peptidasen. Voor 12 van de 13 peptidase C39 domeinen is dit inderdaad het geval. De GG-leidersequentie die voorkomt in de buurt van een hemolysine-secreterende transporter, is vermoedelijk een vals positief resultaat.

De zoektocht in Gram-positieve bacteriën leidde tot een lijst van 48 kandidaat GG-leidersequenties. 92% van deze potentiële leidersequenties werd gevonden in melkzuurbacteriën. De lengte van de overeenkomstige peptiden varieerde tussen 29 en 126 aminozuren. Naast 17 hypothetische proteïnen, komen in de lijst van potentiële hits ook 15 bacteriocines en 10 bacteriocine-homologen voor. Wat betreft de peptidase C39 domeinen, werd voor 21 van de 29 proteïnen een GG-leidersequentie in de onmiddellijke omgeving teruggevonden.

7.5 Conclusie

Onze methodologie leidde tot nieuwe inzichten in de verspreiding van het GG-peptide verwerkings- en secretiesysteem in Gram-positieve en Gram-negatieve bacteriën. Hiervoor baseerden we ons niet op voorgaande annotatiegegevens van de verschillende genomen maar werd vertrokken van de ruwe DNA-sequentie.(vertaald in de zes potentiële leesramen). Omwille van de stringente criteria die we toepasten voor de detectie van de GG-peptiden, konden we niet alle gekende GG-leidersequenties terugvinden. De stringente criteria zorgden er ook voor dat voor de gedetecteerde peptidase C39 domeinen niet steeds een GG-leidersequentie gevonden werd in de directe omgeving. Wanneer echter meer GG-peptides experimenteel geverifieerd worden, kan ons algoritme verder verfijnd worden.

In document Index of /SISTA/pmonsieu (pagina 31-34)