HK07 – Les 7 Microarrays
Yves Moreau
3de jr. Burg. Ir. Elektrotechniek
Dataverwerking & Automatisatie
2001-2002
2
Overzicht
Microroostertechnologieën
Beeldverwerking voor cDNA-microroosters
Preprocessing
Significantie testen
Gegevensexploratie
3
Microarrays
4
Microroosters
Duizenden DNA-sondes die
de activiteit van genen meten
op het niveau van RNA-kopies
5
Toepassingen van microroosters
Identificatie van regulatiemechanismen
Doelwitten van transcriptiefactoren
Modellering van genetische netwerken
Transgenese
Metabolische engineering
Geneesmiddelontwikkeling : bestudeer genuitdrukking in
Ziekte
Modelsystemen
Pathogenen
Reactie op behandeling door geneesmiddel
Pharmacogenomica
Toxicogenomica
Diagnose
Opsporing van genetische variaties
‘Single Nucleotide Polymorphisms’
Pharmacogenomica
High-throughput genomics
Behandeling Diagnose
NU
Voorspelling Preventieve
Geneeskunde Opvolging
SNPs
Functionele Genomica
Functionele Genomica
Expressie Monitoring Expressie
Monitoring
TOEKOMST
7
Microroostertechnologieën
8
cDNA microarray
Flash animation:
http://www.bio.davidson.edu/
courses/genomics/chip/chip.html
1. Verzameling staal
2. Extractie mRNA
3. Labeling
4. Hybridisatie
5. Scanning
6. Visualisatie
10
cDNA microarrays
Rood: hoog in test, laag in referentie
Groen: laag in test, hoog in referentie
Geel: hoog in test, hoog in referentie
Zwart: laag in test, laag in referentie
11
Microroosterfabricage
Clones
Plasmidevoorbereiding PCR-amplificatie
Herordening
Spotting
Zoom - pins
12
Macroroosters op filter
Nylonmembraan
Gestippelde cDNA
Staal wordt gelabeld door radioactiviteit (
32P or
33P)
13
DNA-chips
Siliciumsubstraat
In situ synthese van oligonucleotides (25 bp) door photolithographie
Meerdere sondes per gen (match + mismatch)
Ultra-hoge densiteit mogelijk
Opsporing van polymorphismen mogelijk met gelijkaardige technologie
14
DNA-chipfabricage
15
Inkjetroosters
Glas-slide
Inkjet spotting
cDNA-clonen (geen contact = beter vloeistofbehandeling)
OF in situ synthese van lange oligonucleotiden (60 bp)
Lange oligos zijn meer specifiek dan kortere oligos
Mogelijkheid tot studie van alternatieve splitsing met
lange oligos
16
Microspotting vs. ink-jetting
17
DNA-chip cDNA-microrooster
Voorbeeld van scannerbeelden
18
Relatieve vs. absolute genuitdrukking
Filters en oligonucleotideroosters
Enkelvoudige meting per spot
Absolute genuitdrukking
cDNA-roosters
Twee stalen per experiment
Test
Referentie
Meting is ratio van genuitdrukking in teststaal vs. referentiestaal
Betere reproduceerbaarheid
Moeilijker te behandelen voor de analyse
19
Experiment-types
Wild-type vs. mutant
Knock-out, conditionele knock-out
Overuitdrukkingconstruct, induceerbare overuitdrukking
Opsporing van de doelwitten van een transcriptiefactor
Groepen van patientstalen
Verschillende types tumoren (type, stadium, drugresponse)
Meervoudige condities
Uitdrukkingspatroon in aanwezigheid van drug of toxine
Tijdsexperiment
Response op een signaal
Stress
Ontwikkeling
20
Beeldverwerking
voor cDNA-microroosters
21
Beeldverwerking
Ruwe beelden
Grijsschaalbeelden voor rood en groen kanaal apart
22
Beeldverwerking
Superpositie van de twee kanalen om kleurbeeld te vormen
Rode spots: gen was enkel uitgedrukt in teststaal
Groen: gen was enkel uitgedrukt in referentiestaal
Geel: gen was enkel uitgedrukt in beide test- en referentiestalen
Zwart: gen was niet uitgedrukt, noch in test, noch in referentie
23
Beeldverwerking
Spotdetectie
Spots zijn niet perfect cirkelvormig
Thresholding
Vaste drempel
Drempel T wordt afgeleid uit lokale gemiddelde achtergrondintensiteit m en standaard deviatie m.b.v. relatie T = m + 3
Problemen wegens variabiliteit van achtergrond- en spotsignaal, in het bijzonder voor zwakke signalen (frequent met microrooster
experimenten)
Behandel rood en groen kanaal apart
24
Beeldverwerking
Na detectie van de spot: intensiteit = geobserveerde spotintensiteit – achtergrond intensiteit
Extractie van achtergrondintensiteit
Achtergrond is niet uniform extraheer lokale achtergrondintensiteiten
Grijsschaal histogram
Gemiddelde lokale achtergrondintensiteit
Standaard deviatie van de lokale achtergrondintensiteit
Behandel rode en groene kanalen apart
25
Beeldverwerking
Extractie van spotintensiteit
Verenig spotregios gedetecteerd voor beide kanalen
Sonde-intensiteit = gemiddelde grijssschaal intensiteit in spotregio voor rood en groen kanaal apart
Trek lokale achtergrondintensiteiten af van geobserveerde sonde-intensiteit voor rood en groen kanaal apart
R intensiteit = ruwe R intensiteit - lokael R achtergrond
G intensiteit = ruwe G intensiteit - lokael G achtergrond
Fluorescerende intensiteiten zijn significant als gemiddelde
spotintensiteit twee standaard deviaties boven de overeenkomstige achtergrondintensiteit ligt
26
Gegevensverwerking
27
Uitdrukkingsratios
Berekening van de relatieve (R/G) uitdrukkingsratios
Gemiddelde of mediaan R intensiteit / gemiddelde of mediaan G intensiteit
Gemiddelde of mediaan van de ratios van R/G intensiteit voor iedere spotpixel
Lineaire regressie R-G grijs waarden voor iedere spotpixel
!!! Idealiter zijn alle gene uitgedrukt in referentiestaal (G)
Niet het geval in praktijk
Intensiteit G = 0 ratio = intensiteit R / 0 (! ontbrekende waarde)
Keuze van referentie is van groot belang
28
Preprocessing
Microroostermetingen zijn zeer onnauwkerig (factor 2 ratio van uitdrukking is het typische niveau van minimaal detecteerbare verandering)
Sommige systematische fouten kunnen verbeterd worden door geschikte preprocessing
Uitdrukkingsratios
Herschalering
Filtering
Log-transformatie
29
Bronnen van ruis
Bronnen van ruis
mRNA voorbereiding (verschillende stalen kunnen van verschillende kwaliteit zijn)
Omgekeerde transcriptie (cDNAs van verschillende lengtes hebben verschillende hybridisatie-efficientie)
Labeling (rood labeling is minder efficient dan groen labeling)
Pins (verschillende pins leggen spots van verschillende grootte)
Variaties in volume van sonde
Hybridisatie (hybridisatie-efficientie kan varieren binnen een slide en tussen experimenten)
Scanning (scanner kan niet-lineaire effecten veroorzaken)
...
30
Gebruik van relatieve intensiteit
Het gebruik van de relatieve intensiteit van de genuitdrukking in teststaal vs. referentiestaal compenseert voor
Variaties in spotvolume
Variaties in hybridisatie-efficientie binnen één slide
31
Herschalering
Herschalering van verschillende slides
Systematische bias in uitdrukkingslevels
Log M-A plot: M = R/G A = R.G
Lineaire regressie (of smoothing curve) van alle gene aanwezig in beide kanalen (of housekeeping genes)
Herschaleringsfactor = 1 / slope van regressie; nieuwe intensiteit = oude intensiteit * herschaleringsfactor
log R
log G
log M
log A
Corrected values
32
Filtering
Filtering van irrelevante genen
Behoud genen met R/G ratios 2 or 3 in minstens twee experimenten
Verwijder genen met ontbrekende waarden in x% van de experimenten
Verwijder genen met lage variantie (housekeeping genes)
33
Log transformatie
Log
2transformatie van de R/G ratios: log schaal is meer intuitief
+ log schaal van de absolute waarden zijn dichter bij
normaal verdeeld dan de ruwe waarden
34
Ontbrekende waarden
Een significante proportie van de waarden kan ontbreken in de genuitdrukkingsmatrix
Veel algoritmen (PCA, clustering) werken met een volledige gegevensmatrix
Methoden nodig om ontbrekende waarden te schatten
KNNimpute
Genuitdrukking van gen g ontbreekt in experiment i
Vind K genen (met waarde aanwezig in experiment i) wiens
uitdrukkingspatroon in andere experimenten het meest overeenkomt (bvb. Euclidische afstand) met het uitdrukkingspatroon van gen g
Schat de ontbrekende waarde als een gewogen gemiddelde van de waarde voor experiment i van de K dichtstbijzijnde genen (met gewicht functie van de afstand t.o.v. het referentiepatroon)
35
Analyse van genuitdrukkingsgegevens
36
Analyse van uitdrukkingsgegevens
Analyse van enkelvoudige genen
Identificeer genen die overuitgedrukt of onderuitgedrukt in test vs. referentie
conditie-specifieke genen
Analyse van meervoudige genen
Clusteranalyse van genuitdrukkingsprofielen
Verdeel stalen of genen in homogenen groepen die ver van elkaar staan
37
Analyse van enkelvoudige genen
Welke gene zijn upgereguleerd of downgereguleerd?
VIB-MAF: muismicroroosters, duplicate spots op dezelfde slide
Frequentiedistributie: ratio van linker spot over ratio van rechter spot voor elk gen
Gemiddelde m = 1 zoals verwacht
Variatie rond m minder dan drievoudig
Minder dan drievoudige differentiele uitdrukking is niet noodzakkelijk
statistisch significant
38
Significantietest: fold change
Vaak worden genen als significant beschouwd als hun over- of onderuitdrukking boven een bepaald threshold komt (typisch 2x)
Problemen
Variantie is veel hoger voor lage uitdrukkingsniveaus dan voor hoge uitdrukkingsniveaus
Tweevoudige verandering is te liberaal voor lage uitdrukking
Tweevoudige verandering is te conservatief voor hoge uitdrukking
Gelijkaardig probleem voor genen die af staan in één kanaal
39
Significantietest: t-test
Twee groepen t en c
Herhalingen van vergelijkende experiment
e.g., goedaardige vs. kwaadaardige tumoren
Gegevens normaal verdeeld
Absolute uitdrukking is niet normaal verdeeld
R/G, logR/logG, logR/G ongeveer normaal verdeeld
t-test (Student distributie)
Empirische gemiddelde m
Schatting van standaard deviatie s
Aantal experimenten n
Aantal herhalingen vaak te laag (s te onnauwkeurig)
cc t
t
c t
n s n
s
m t m
2 2
40
Significantietest: Bayesiaanse t-test
Genuitdrukking voor gen i op herhaling k is normaal verdeeld
Parameters van de normaal verdeling zijn zelf random variabelen (hierarchisch model)
) ,
; (
)
( g
iktN g
ikt it itP
gamma inverse
Scaled
) ,
; (
) (
) /
,
; ( )
| (
) (
)
| ( )
, (
2 0 0
2 2
0 2
0 2
2 2
2
I P
N P
P P
P
41
Significantie test: Bayesiaanse t-test
Berekening van de distributie van de posterior voor de gemiddelde en de standaard deviatie
Priors
0 prior gemiddelde
0 gewichtsfactor (“pseudocount”) voor prior gemiddelde
0 prior standaard deviatie
0 gewichtsfactor voor prior standaard deviatie
Voor t-test is vooral de verbetering van de standaard deviatie van belang
0 = m
42
Significantie test: Bayesiaanse t-test
Posterior gemiddelde schatting van gemiddelde en standaard deviatie
Effect is gelijkaardig met gebruik van
0pseudogegevens met standaard deviatie
0
Geregulariseerde schattingen worden dan gebruikt in t- test
Geen verschil met t-test indien meer dan 5 herhalingen 2
) 1 (
0
2 2
0 2 0
n
s s n
m m
p p
43
Gegevensexploratie
Preprocessing
Functionele exploratie Pathways
Clustering
Geintegreerde analyse- omgeving
45
Functionele klassen uit Gene Ontology
Clustering
Hierarchische
K-means, K-medoids
HK07 – Les 8 Microarrays: clustering en classificatie
Yves Moreau
3de jr. Burg. Ir. Elektrotechniek
Dataverwerking & Automatisatie
2001-2002
48
Clustering
49
Identifying prevalent expression patterns (clusters)
50
original coordinate system original coordinate system
new coordinate system
Principal component analysis
PCA detects the directions that capture the most
information about the data
51
Hierarchical clustering
Build a tree of genes based on a matrix of distances (e.g., correlation)
by bottom-up aggregation
52
5
2 4
1 3
Agglomerative Hierarchical Clustering
3
1
4 2
5
Distance between joined clusters
Dendrogram The dendrogram induces a linear ordering of the data points
The dendrogram induces a linear ordering of the data points
53
Agglomerative Hierarchical Clustering
Before doing a hierarchical clustering, one has to define two things
1. The similarity measure between two genes (or experiments)
Centered correlation
Uncentered correlation
Absolute correlation
Euclidean
2. The distance measure between the new cluster and the others
Single Linkage: distance between closest pair
Complete Linkage: distance between farthest pair
Average Linkage: distance between cluster centers
centered correlation uncentered correlation absolute correlation Euclidean
54
K-means clustering
1. Predefined number of clusters = 5; initialisation:
randomly choose cluster centers (red points)
2. Attribute each point (gene) to cluster with closest center
3. Recalculate cluster centers
= mean expression profile of genes in cluster
4. Repeat the whole process until centers remain
stationary points with a new assignment
55
Centroid methods - K-means
Iteration = 0
•Start with random position of K centroids.
•Iteratre until centroids are stable
•Assign points to centroids
•Move centroids to center
of assign points
56
•Start with random position of K centroids.
•Iteratre until centroids are stable
•Assign points to centroids
•Move centroids to center of assign points
Iteration = 1
Centroid Methods - K-means
57
Iteration = 3
•Start with random position of K centroids.
•Iteratre until centroids are stable
•Assign points to centroids
•Move centroids to center of assign points
Centroid Methods - K-means
58
Clustering data
The final data representation is then a big matrix with rows being the genes and
columns representing the different experiments. To keep the image coherent with the scan output, the
ratio numbers calculated by Scanalyze are transformed back in color spots on a
green-red based scale.
59
Clustering data
Another way to represent these data is a graph showing the
gene’s expression variation during
the different experiments
Expression variation of nine genes along the 19 experiments from Lyer et al. (Fibroblast response to serum stimulation)
60
From expression to regulation
A1234 Z4321
Clustering
GenBank
start
Blast
start
Gibbs sampler Microarrays