• No results found

HK07 – Les 7 Microarrays

N/A
N/A
Protected

Academic year: 2021

Share "HK07 – Les 7 Microarrays"

Copied!
60
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

HK07 – Les 7 Microarrays

Yves Moreau

3de jr. Burg. Ir. Elektrotechniek

Dataverwerking & Automatisatie

2001-2002

(2)

2

Overzicht

Microroostertechnologieën

Beeldverwerking voor cDNA-microroosters

Preprocessing

Significantie testen

Gegevensexploratie

(3)

3

Microarrays

(4)

4

Microroosters

Duizenden DNA-sondes die

de activiteit van genen meten

op het niveau van RNA-kopies

(5)

5

Toepassingen van microroosters

Identificatie van regulatiemechanismen

Doelwitten van transcriptiefactoren

Modellering van genetische netwerken

Transgenese

Metabolische engineering

Geneesmiddelontwikkeling : bestudeer genuitdrukking in

Ziekte

Modelsystemen

Pathogenen

Reactie op behandeling door geneesmiddel

Pharmacogenomica

Toxicogenomica

Diagnose

Opsporing van genetische variaties

‘Single Nucleotide Polymorphisms’

Pharmacogenomica

(6)

High-throughput genomics

Behandeling Diagnose

NU

Voorspelling Preventieve

Geneeskunde Opvolging

SNPs

Functionele Genomica

Functionele Genomica

Expressie Monitoring Expressie

Monitoring

TOEKOMST

(7)

7

Microroostertechnologieën

(8)

8

cDNA microarray

Flash animation:

http://www.bio.davidson.edu/

courses/genomics/chip/chip.html

(9)

1. Verzameling staal

2. Extractie mRNA

3. Labeling

4. Hybridisatie

5. Scanning

6. Visualisatie

(10)

10

cDNA microarrays

Rood: hoog in test, laag in referentie

Groen: laag in test, hoog in referentie

Geel: hoog in test, hoog in referentie

Zwart: laag in test, laag in referentie

(11)

11

Microroosterfabricage

Clones

Plasmidevoorbereiding PCR-amplificatie

Herordening

Spotting

Zoom - pins

(12)

12

Macroroosters op filter

Nylonmembraan

Gestippelde cDNA

Staal wordt gelabeld door radioactiviteit (

32

P or

33

P)

(13)

13

DNA-chips

Siliciumsubstraat

In situ synthese van oligonucleotides (25 bp) door photolithographie

Meerdere sondes per gen (match + mismatch)

Ultra-hoge densiteit mogelijk

Opsporing van polymorphismen mogelijk met gelijkaardige technologie

(14)

14

DNA-chipfabricage

(15)

15

Inkjetroosters

Glas-slide

Inkjet spotting

cDNA-clonen (geen contact = beter vloeistofbehandeling)

OF in situ synthese van lange oligonucleotiden (60 bp)

Lange oligos zijn meer specifiek dan kortere oligos

Mogelijkheid tot studie van alternatieve splitsing met

lange oligos

(16)

16

Microspotting vs. ink-jetting

(17)

17

DNA-chip cDNA-microrooster

Voorbeeld van scannerbeelden

(18)

18

Relatieve vs. absolute genuitdrukking

Filters en oligonucleotideroosters

Enkelvoudige meting per spot

Absolute genuitdrukking

cDNA-roosters

Twee stalen per experiment

Test

Referentie

Meting is ratio van genuitdrukking in teststaal vs. referentiestaal

Betere reproduceerbaarheid

Moeilijker te behandelen voor de analyse

(19)

19

Experiment-types

Wild-type vs. mutant

Knock-out, conditionele knock-out

Overuitdrukkingconstruct, induceerbare overuitdrukking

Opsporing van de doelwitten van een transcriptiefactor

Groepen van patientstalen

Verschillende types tumoren (type, stadium, drugresponse)

Meervoudige condities

Uitdrukkingspatroon in aanwezigheid van drug of toxine

Tijdsexperiment

Response op een signaal

Stress

Ontwikkeling

(20)

20

Beeldverwerking

voor cDNA-microroosters

(21)

21

Beeldverwerking

Ruwe beelden

Grijsschaalbeelden voor rood en groen kanaal apart

(22)

22

Beeldverwerking

Superpositie van de twee kanalen om kleurbeeld te vormen

Rode spots: gen was enkel uitgedrukt in teststaal

Groen: gen was enkel uitgedrukt in referentiestaal

Geel: gen was enkel uitgedrukt in beide test- en referentiestalen

Zwart: gen was niet uitgedrukt, noch in test, noch in referentie

(23)

23

Beeldverwerking

Spotdetectie

Spots zijn niet perfect cirkelvormig

Thresholding

Vaste drempel

Drempel T wordt afgeleid uit lokale gemiddelde achtergrondintensiteit m en standaard deviatie  m.b.v. relatie T = m + 3

Problemen wegens variabiliteit van achtergrond- en spotsignaal, in het bijzonder voor zwakke signalen (frequent met microrooster

experimenten)

 Behandel rood en groen kanaal apart

(24)

24

Beeldverwerking

Na detectie van de spot: intensiteit = geobserveerde spotintensiteit – achtergrond intensiteit

Extractie van achtergrondintensiteit

Achtergrond is niet uniform  extraheer lokale achtergrondintensiteiten

Grijsschaal histogram

Gemiddelde lokale achtergrondintensiteit

Standaard deviatie van de lokale achtergrondintensiteit

 Behandel rode en groene kanalen apart

(25)

25

Beeldverwerking

Extractie van spotintensiteit

Verenig spotregios gedetecteerd voor beide kanalen

Sonde-intensiteit = gemiddelde grijssschaal intensiteit in spotregio voor rood en groen kanaal apart

Trek lokale achtergrondintensiteiten af van geobserveerde sonde-intensiteit voor rood en groen kanaal apart

R intensiteit = ruwe R intensiteit - lokael R achtergrond

G intensiteit = ruwe G intensiteit - lokael G achtergrond

Fluorescerende intensiteiten zijn significant als gemiddelde

spotintensiteit twee standaard deviaties boven de overeenkomstige achtergrondintensiteit ligt

(26)

26

Gegevensverwerking

(27)

27

Uitdrukkingsratios

Berekening van de relatieve (R/G) uitdrukkingsratios

Gemiddelde of mediaan R intensiteit / gemiddelde of mediaan G intensiteit

Gemiddelde of mediaan van de ratios van R/G intensiteit voor iedere spotpixel

Lineaire regressie R-G grijs waarden voor iedere spotpixel

!!! Idealiter zijn alle gene uitgedrukt in referentiestaal (G)

Niet het geval in praktijk

Intensiteit G = 0  ratio = intensiteit R / 0 (! ontbrekende waarde)

Keuze van referentie is van groot belang

(28)

28

Preprocessing

Microroostermetingen zijn zeer onnauwkerig (factor 2 ratio van uitdrukking is het typische niveau van minimaal detecteerbare verandering)

Sommige systematische fouten kunnen verbeterd worden door geschikte preprocessing

Uitdrukkingsratios

Herschalering

Filtering

Log-transformatie

(29)

29

Bronnen van ruis

Bronnen van ruis

mRNA voorbereiding (verschillende stalen kunnen van verschillende kwaliteit zijn)

Omgekeerde transcriptie (cDNAs van verschillende lengtes hebben verschillende hybridisatie-efficientie)

Labeling (rood labeling is minder efficient dan groen labeling)

Pins (verschillende pins leggen spots van verschillende grootte)

Variaties in volume van sonde

Hybridisatie (hybridisatie-efficientie kan varieren binnen een slide en tussen experimenten)

Scanning (scanner kan niet-lineaire effecten veroorzaken)

...

(30)

30

Gebruik van relatieve intensiteit

Het gebruik van de relatieve intensiteit van de genuitdrukking in teststaal vs. referentiestaal compenseert voor

Variaties in spotvolume

Variaties in hybridisatie-efficientie binnen één slide

(31)

31

Herschalering

Herschalering van verschillende slides

Systematische bias in uitdrukkingslevels

Log M-A plot: M = R/G A = R.G

Lineaire regressie (of smoothing curve) van alle gene aanwezig in beide kanalen (of housekeeping genes)

Herschaleringsfactor = 1 / slope van regressie; nieuwe intensiteit = oude intensiteit * herschaleringsfactor

log R

log G

log M

log A

Corrected values

(32)

32

Filtering

Filtering van irrelevante genen

Behoud genen met R/G ratios  2 or 3 in minstens twee experimenten

Verwijder genen met ontbrekende waarden in x% van de experimenten

Verwijder genen met lage variantie (housekeeping genes)

(33)

33

Log transformatie

Log

2

transformatie van de R/G ratios: log schaal is meer intuitief

+ log schaal van de absolute waarden zijn dichter bij

normaal verdeeld dan de ruwe waarden

(34)

34

Ontbrekende waarden

Een significante proportie van de waarden kan ontbreken in de genuitdrukkingsmatrix

Veel algoritmen (PCA, clustering) werken met een volledige gegevensmatrix

Methoden nodig om ontbrekende waarden te schatten

KNNimpute

Genuitdrukking van gen g ontbreekt in experiment i

Vind K genen (met waarde aanwezig in experiment i) wiens

uitdrukkingspatroon in andere experimenten het meest overeenkomt (bvb. Euclidische afstand) met het uitdrukkingspatroon van gen g

Schat de ontbrekende waarde als een gewogen gemiddelde van de waarde voor experiment i van de K dichtstbijzijnde genen (met gewicht functie van de afstand t.o.v. het referentiepatroon)

(35)

35

Analyse van genuitdrukkingsgegevens

(36)

36

Analyse van uitdrukkingsgegevens

Analyse van enkelvoudige genen

Identificeer genen die overuitgedrukt of onderuitgedrukt in test vs. referentie

 conditie-specifieke genen

Analyse van meervoudige genen

Clusteranalyse van genuitdrukkingsprofielen

Verdeel stalen of genen in homogenen groepen die ver van elkaar staan

(37)

37

Analyse van enkelvoudige genen

Welke gene zijn upgereguleerd of downgereguleerd?

VIB-MAF: muismicroroosters, duplicate spots op dezelfde slide

Frequentiedistributie: ratio van linker spot over ratio van rechter spot voor elk gen

Gemiddelde m = 1 zoals verwacht

Variatie rond m minder dan drievoudig

 Minder dan drievoudige differentiele uitdrukking is niet noodzakkelijk

statistisch significant

(38)

38

Significantietest: fold change

Vaak worden genen als significant beschouwd als hun over- of onderuitdrukking boven een bepaald threshold komt (typisch 2x)

Problemen

Variantie is veel hoger voor lage uitdrukkingsniveaus dan voor hoge uitdrukkingsniveaus

Tweevoudige verandering is te liberaal voor lage uitdrukking

Tweevoudige verandering is te conservatief voor hoge uitdrukking

Gelijkaardig probleem voor genen die af staan in één kanaal

(39)

39

Significantietest: t-test

Twee groepen t en c

Herhalingen van vergelijkende experiment

e.g., goedaardige vs. kwaadaardige tumoren

Gegevens normaal verdeeld

Absolute uitdrukking is niet normaal verdeeld

R/G, logR/logG, logR/G ongeveer normaal verdeeld

t-test (Student distributie)

Empirische gemiddelde m

Schatting van standaard deviatie s

Aantal experimenten n

Aantal herhalingen vaak te laag (s te onnauwkeurig)

c

c t

t

c t

n s n

s

m t m

2 2

 

(40)

40

Significantietest: Bayesiaanse t-test

Genuitdrukking voor gen i op herhaling k is normaal verdeeld

Parameters van de normaal verdeling zijn zelf random variabelen (hierarchisch model)

) ,

; (

)

( g

ikt

N g

ikt it it

P   

gamma inverse

Scaled

) ,

; (

) (

) /

,

; ( )

| (

) (

)

| ( )

, (

2 0 0

2 2

0 2

0 2

2 2

2

I P

N P

P P

P

(41)

41

Significantie test: Bayesiaanse t-test

Berekening van de distributie van de posterior voor de gemiddelde en de standaard deviatie

Priors

0 prior gemiddelde

0 gewichtsfactor (“pseudocount”) voor prior gemiddelde

0 prior standaard deviatie

0 gewichtsfactor voor prior standaard deviatie

Voor t-test is vooral de verbetering van de standaard deviatie van belang

0 = m

(42)

42

Significantie test: Bayesiaanse t-test

Posterior gemiddelde schatting van gemiddelde en standaard deviatie

Effect is gelijkaardig met gebruik van 

0

pseudogegevens met standaard deviatie 

0

Geregulariseerde schattingen worden dan gebruikt in t- test

Geen verschil met t-test indien meer dan 5 herhalingen 2

) 1 (

0

2 2

0 2 0

 

n

s s n

m m

p p

(43)

43

Gegevensexploratie

(44)

Preprocessing

Functionele exploratie Pathways

Clustering

Geintegreerde analyse- omgeving

(45)

45

Functionele klassen uit Gene Ontology

(46)

Clustering

Hierarchische

K-means, K-medoids

(47)

HK07 – Les 8 Microarrays: clustering en classificatie

Yves Moreau

3de jr. Burg. Ir. Elektrotechniek

Dataverwerking & Automatisatie

2001-2002

(48)

48

Clustering

(49)

49

Identifying prevalent expression patterns (clusters)

(50)

50

original coordinate system original coordinate system

new coordinate system

Principal component analysis

PCA detects the directions that capture the most

information about the data

(51)

51

Hierarchical clustering

Build a tree of genes based on a matrix of distances (e.g., correlation)

by bottom-up aggregation

(52)

52

5

2 4

1 3

Agglomerative Hierarchical Clustering

3

1

4 2

5

Distance between joined clusters

Dendrogram The dendrogram induces a linear ordering of the data points

The dendrogram induces a linear ordering of the data points

(53)

53

Agglomerative Hierarchical Clustering

Before doing a hierarchical clustering, one has to define two things

1. The similarity measure between two genes (or experiments)

Centered correlation

Uncentered correlation

Absolute correlation

Euclidean

2. The distance measure between the new cluster and the others

Single Linkage: distance between closest pair

Complete Linkage: distance between farthest pair

Average Linkage: distance between cluster centers

centered correlation uncentered correlation absolute correlation Euclidean

(54)

54

K-means clustering

1. Predefined number of clusters = 5; initialisation:

randomly choose cluster centers (red points)

2. Attribute each point (gene) to cluster with closest center

3. Recalculate cluster centers

= mean expression profile of genes in cluster

4. Repeat the whole process until centers remain

stationary points with a new assignment

(55)

55

Centroid methods - K-means

Iteration = 0

•Start with random position of K centroids.

•Iteratre until centroids are stable

•Assign points to centroids

•Move centroids to center

of assign points

(56)

56

•Start with random position of K centroids.

•Iteratre until centroids are stable

•Assign points to centroids

•Move centroids to center of assign points

Iteration = 1

Centroid Methods - K-means

(57)

57

Iteration = 3

•Start with random position of K centroids.

•Iteratre until centroids are stable

•Assign points to centroids

•Move centroids to center of assign points

Centroid Methods - K-means

(58)

58

Clustering data

The final data representation is then a big matrix with rows being the genes and

columns representing the different experiments. To keep the image coherent with the scan output, the

ratio numbers calculated by Scanalyze are transformed back in color spots on a

green-red based scale.

(59)

59

Clustering data

Another way to represent these data is a graph showing the

gene’s expression variation during

the different experiments

Expression variation of nine genes along the 19 experiments from Lyer et al. (Fibroblast response to serum stimulation)

(60)

60

From expression to regulation

A1234 Z4321

Clustering

GenBank

start

Blast

start

Gibbs sampler Microarrays

Referenties

GERELATEERDE DOCUMENTEN

Based on a survey of forced movers in Den Haag, Utrecht and Leiden we see that many households choose to. move to a different dwelling in their old neighbourhood

Stel dat er een vaste relatie bestaat tussen de overtuiging in een stelling en de overtuiging in de negatie van deze stelling.. Stel dat er een vaste relatie bestaat tussen

 Voor de voorwaartse en achterwaartse algoritmen kan er met logaritmes gewerkt worden via een benadering of kan er met een herschalering van de variabelen gewerkt

 Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering..  Match-, insertie-,

 Kies het aantal clusters K en start met willekeurige posities voor K centra.

 EM clustering mogelijk voor diagonale covariantie ; meestal onmogelijk voor volledige covariantiematrix omwille van het te groot aantal parameters.  EM clustering mogelijk

The average gene expression from the A and B hybridizations have been plotted on a cube root scale to resolve genes expressed at low levels.. Some of the genes that responded to IR

In analogie met de Fourier reeks en de Fourier transformatie proberen we nu de waarden f (t k ) op de discrete tijdstippen t k = k · ∆t te beschrijven door informatie voor