HK07 – Les 7 Microarrays

(1)

HK07 – Les 7 Microarrays

Yves Moreau

3de jr. Burg. Ir. Elektrotechniek

Dataverwerking & Automatisatie

2001-2002

(2)

2 Overzicht



Microroostertechnologieën



Beeldverwerking voor cDNA-microroosters



Preprocessing



Significantie testen



Gegevensexploratie

(3)

3 Microarrays

(4)

4 Microroosters



Duizenden DNA-sondes die

de activiteit van genen meten

op het niveau van RNA-kopies

(5)

5 Toepassingen van microroosters

 Identificatie van regulatiemechanismen

 Doelwitten van transcriptiefactoren

 Modellering van genetische netwerken

 Transgenese

 Metabolische engineering

 Geneesmiddelontwikkeling : bestudeer genuitdrukking in

 Ziekte

 Modelsystemen

 Pathogenen

 Reactie op behandeling door geneesmiddel

 Pharmacogenomica

 Toxicogenomica

 Diagnose

 Opsporing van genetische variaties

 ‘Single Nucleotide Polymorphisms’

 Pharmacogenomica

(6)

High-throughput genomics

Behandeling Diagnose

NU

Voorspelling Preventieve

Geneeskunde Opvolging

SNPs

Functionele Genomica

Expressie Monitoring Expressie

Monitoring

TOEKOMST

(7)

7 Microroostertechnologieën

(8)

8 cDNA microarray

Flash animation:

http://www.bio.davidson.edu/

courses/genomics/chip/chip.html

(9)

1. Verzameling staal

2. Extractie mRNA

3. Labeling

4. Hybridisatie

5. Scanning

6. Visualisatie

(10)

10 cDNA microarrays

 Rood: hoog in test, laag in referentie

 Groen: laag in test, hoog in referentie

 Geel: hoog in test, hoog in referentie

 Zwart: laag in test, laag in referentie

(11)

11 Microroosterfabricage

Clones

Plasmidevoorbereiding PCR-amplificatie

Herordening

Spotting

Zoom - pins

(12)

12 Macroroosters op filter



Nylonmembraan



Gestippelde cDNA



Staal wordt gelabeld door radioactiviteit (

³²

P or

³³

P)

(13)

13 DNA-chips

 Siliciumsubstraat

 In situ synthese van oligonucleotides (25 bp) door photolithographie

 Meerdere sondes per gen (match + mismatch)

 Ultra-hoge densiteit mogelijk

 Opsporing van polymorphismen mogelijk met gelijkaardige technologie

(14)

14 DNA-chipfabricage

(15)

15 Inkjetroosters



Glas-slide



Inkjet spotting

 cDNA-clonen (geen contact = beter vloeistofbehandeling)

 OF in situ synthese van lange oligonucleotiden (60 bp)



Lange oligos zijn meer specifiek dan kortere oligos



Mogelijkheid tot studie van alternatieve splitsing met

lange oligos

(16)

16 Microspotting vs. ink-jetting

(17)

17 DNA-chip cDNA-microrooster

Voorbeeld van scannerbeelden

(18)

18 Relatieve vs. absolute genuitdrukking



Filters en oligonucleotideroosters

 Enkelvoudige meting per spot

 Absolute genuitdrukking



cDNA-roosters

 Twee stalen per experiment

 Test

 Referentie

 Meting is ratio van genuitdrukking in teststaal vs. referentiestaal

 Betere reproduceerbaarheid

 Moeilijker te behandelen voor de analyse

(19)

19 Experiment-types

 Wild-type vs. mutant

 Knock-out, conditionele knock-out

 Overuitdrukkingconstruct, induceerbare overuitdrukking

 Opsporing van de doelwitten van een transcriptiefactor

 Groepen van patientstalen

 Verschillende types tumoren (type, stadium, drugresponse)

 Meervoudige condities

 Uitdrukkingspatroon in aanwezigheid van drug of toxine

 Tijdsexperiment

 Response op een signaal

 Stress

 Ontwikkeling

(20)

20 Beeldverwerking

voor cDNA-microroosters

(21)

21 Beeldverwerking



Ruwe beelden

 Grijsschaalbeelden voor rood en groen kanaal apart

(22)

22 Beeldverwerking

 Superpositie van de twee kanalen om kleurbeeld te vormen

 Rode spots: gen was enkel uitgedrukt in teststaal

 Groen: gen was enkel uitgedrukt in referentiestaal

 Geel: gen was enkel uitgedrukt in beide testen referentiestalen

 Zwart: gen was niet uitgedrukt, noch in test, noch in referentie

(23)

23 Beeldverwerking



Spotdetectie

 Spots zijn niet perfect cirkelvormig

 Thresholding

 Vaste drempel

 Drempel T wordt afgeleid uit lokale gemiddelde achtergrondintensiteit m en standaard deviatie  m.b.v. relatie T = m + 3

 Problemen wegens variabiliteit van achtergrond- en spotsignaal, in het bijzonder voor zwakke signalen (frequent met microrooster

experimenten)

  Behandel rood en groen kanaal apart

(24)

24 Beeldverwerking

 Na detectie van de spot: intensiteit = geobserveerde spotintensiteit – achtergrond intensiteit

 Extractie van achtergrondintensiteit

 Achtergrond is niet uniform  extraheer lokale achtergrondintensiteiten

 Grijsschaal histogram

 Gemiddelde lokale achtergrondintensiteit

 Standaard deviatie van de lokale achtergrondintensiteit

  Behandel rode en groene kanalen apart

(25)

25 Beeldverwerking

 Extractie van spotintensiteit

 Verenig spotregios gedetecteerd voor beide kanalen

 Sonde-intensiteit = gemiddelde grijssschaal intensiteit in spotregio voor rood en groen kanaal apart

 Trek lokale achtergrondintensiteiten af van geobserveerde sonde-intensiteit voor rood en groen kanaal apart

 R intensiteit = ruwe R intensiteit - lokael R achtergrond

 G intensiteit = ruwe G intensiteit - lokael G achtergrond

 Fluorescerende intensiteiten zijn significant als gemiddelde

spotintensiteit twee standaard deviaties boven de overeenkomstige achtergrondintensiteit ligt

(26)

26 Gegevensverwerking

(27)

27 Uitdrukkingsratios



Berekening van de relatieve (R/G) uitdrukkingsratios

 Gemiddelde of mediaan R intensiteit / gemiddelde of mediaan G intensiteit

 Gemiddelde of mediaan van de ratios van R/G intensiteit voor iedere spotpixel

 Lineaire regressie R-G grijs waarden voor iedere spotpixel



!!! Idealiter zijn alle gene uitgedrukt in referentiestaal (G)

 Niet het geval in praktijk

 Intensiteit G = 0  ratio = intensiteit R / 0 (! ontbrekende waarde)

 Keuze van referentie is van groot belang

(28)

28 Preprocessing



Microroostermetingen zijn zeer onnauwkerig (factor 2 ratio van uitdrukking is het typische niveau van minimaal detecteerbare verandering)



Sommige systematische fouten kunnen verbeterd worden door geschikte preprocessing

 Uitdrukkingsratios

 Herschalering

 Filtering

 Log-transformatie

(29)

29 Bronnen van ruis



Bronnen van ruis

 mRNA voorbereiding (verschillende stalen kunnen van verschillende kwaliteit zijn)

 Omgekeerde transcriptie (cDNAs van verschillende lengtes hebben verschillende hybridisatie-efficientie)

 Labeling (rood labeling is minder efficient dan groen labeling)

 Pins (verschillende pins leggen spots van verschillende grootte)

 Variaties in volume van sonde

 Hybridisatie (hybridisatie-efficientie kan varieren binnen een slide en tussen experimenten)

 Scanning (scanner kan niet-lineaire effecten veroorzaken)

 ...

(30)

30 Gebruik van relatieve intensiteit



Het gebruik van de relatieve intensiteit van de genuitdrukking in teststaal vs. referentiestaal compenseert voor

 Variaties in spotvolume

 Variaties in hybridisatie-efficientie binnen één slide

(31)

31 Herschalering

 Herschalering van verschillende slides

 Systematische bias in uitdrukkingslevels

 Log M-A plot: M = R/G A = R.G

 Lineaire regressie (of smoothing curve) van alle gene aanwezig in beide kanalen (of housekeeping genes)

 Herschaleringsfactor = 1 / slope van regressie; nieuwe intensiteit = oude intensiteit * herschaleringsfactor

log R

log G

log M

log A

Corrected values

(32)

32 Filtering



Filtering van irrelevante genen

 Behoud genen met R/G ratios  2 or 3 in minstens twee experimenten

 Verwijder genen met ontbrekende waarden in x% van de experimenten

 Verwijder genen met lage variantie (housekeeping genes)

(33)

33 Log transformatie



Log

2

transformatie van de R/G ratios: log schaal is meer intuitief



+ log schaal van de absolute waarden zijn dichter bij

normaal verdeeld dan de ruwe waarden

(34)

34 Ontbrekende waarden

 Een significante proportie van de waarden kan ontbreken in de genuitdrukkingsmatrix

 Veel algoritmen (PCA, clustering) werken met een volledige gegevensmatrix

 Methoden nodig om ontbrekende waarden te schatten

 KNNimpute

 Genuitdrukking van gen g ontbreekt in experiment i

 Vind K genen (met waarde aanwezig in experiment i) wiens

uitdrukkingspatroon in andere experimenten het meest overeenkomt (bvb. Euclidische afstand) met het uitdrukkingspatroon van gen g

 Schat de ontbrekende waarde als een gewogen gemiddelde van de waarde voor experiment i van de K dichtstbijzijnde genen (met gewicht functie van de afstand t.o.v. het referentiepatroon)

(35)

35 Analyse van genuitdrukkingsgegevens

(36)

36 Analyse van uitdrukkingsgegevens



Analyse van enkelvoudige genen

 Identificeer genen die overuitgedrukt of onderuitgedrukt in test vs. referentie

  conditie-specifieke genen



Analyse van meervoudige genen

 Clusteranalyse van genuitdrukkingsprofielen

 Verdeel stalen of genen in homogenen groepen die ver van elkaar staan

(37)

37 Analyse van enkelvoudige genen



Welke gene zijn upgereguleerd of downgereguleerd?



VIB-MAF: muismicroroosters, duplicate spots op dezelfde slide

 Frequentiedistributie: ratio van linker spot over ratio van rechter spot voor elk gen

 Gemiddelde m = 1 zoals verwacht

 Variatie rond m minder dan drievoudig

  Minder dan drievoudige differentiele uitdrukking is niet noodzakkelijk

statistisch significant

(38)

38 Significantietest: fold change



Vaak worden genen als significant beschouwd als hun over- of onderuitdrukking boven een bepaald threshold komt (typisch 2x)



Problemen

 Variantie is veel hoger voor lage uitdrukkingsniveaus dan voor hoge uitdrukkingsniveaus

 Tweevoudige verandering is te liberaal voor lage uitdrukking

 Tweevoudige verandering is te conservatief voor hoge uitdrukking

 Gelijkaardig probleem voor genen die af staan in één kanaal

(39)

39 Significantietest: t-test



Twee groepen t en c

 Herhalingen van vergelijkende experiment

 e.g., goedaardige vs. kwaadaardige tumoren



Gegevens normaal verdeeld

 Absolute uitdrukking is niet normaal verdeeld

 R/G, logR/logG, logR/G ongeveer normaal verdeeld



t-test (Student distributie)

 Empirische gemiddelde m

 Schatting van standaard deviatie s

 Aantal experimenten n



Aantal herhalingen vaak te laag (s te onnauwkeurig)

^c

c t

t

c t

n s n

s

m t m

₂ ₂



 

(40)

40 Significantietest: Bayesiaanse t-test



Genuitdrukking voor gen i op herhaling k is normaal verdeeld



Parameters van de normaal verdeling zijn zelf random variabelen (hierarchisch model)

) ,

; (

)

( g

_ik^t

N g

_ik^t _i^t _i^t

P   

gamma inverse

Scaled

) ,

; (

) (

) /

,

; ( )

| (

) (

)

| ( )

, (

2 0 0

2 2

0 2

2 2

2

























I P

N P

P P

P



(41)

41 Significantie test: Bayesiaanse t-test



Berekening van de distributie van de posterior voor de gemiddelde en de standaard deviatie



Priors

 0 prior gemiddelde

 0 gewichtsfactor (“pseudocount”) voor prior gemiddelde

 0 prior standaard deviatie

 0 gewichtsfactor voor prior standaard deviatie



Voor t-test is vooral de verbetering van de standaard deviatie van belang

 0 = m

(42)

42 Significantie test: Bayesiaanse t-test



Posterior gemiddelde schatting van gemiddelde en standaard deviatie



Effect is gelijkaardig met gebruik van 

₀

pseudogegevens met standaard deviatie 

₀



Geregulariseerde schattingen worden dan gebruikt in t- test



Geen verschil met t-test indien meer dan 5 herhalingen 2

) 1 (

0

2 2

0 2 0







 



n

s s n

m m

p p







(43)

43 Gegevensexploratie

(44)

Preprocessing

Functionele exploratie Pathways

Clustering

Geintegreerde analyse- omgeving

(45)

45 Functionele klassen uit Gene Ontology

(46)

Clustering

Hierarchische

K-means, K-medoids

(47)

HK07 – Les 8 Microarrays: clustering en classificatie

Yves Moreau

3de jr. Burg. Ir. Elektrotechniek

Dataverwerking & Automatisatie

2001-2002

(48)

48 Clustering

(49)

49 Identifying prevalent expression patterns (clusters)

(50)

50

original coordinate system original coordinate system

new coordinate system

Principal component analysis



PCA detects the directions that capture the most

information about the data

(51)

51 Hierarchical clustering

 Build a tree of genes based on a matrix of distances (e.g., correlation)

by bottom-up aggregation

(52)

52

5

2 4

1 3

Agglomerative Hierarchical Clustering

3

1

4 2

5

Distance between joined clusters

Dendrogram The dendrogram induces a linear ordering of the data points

The dendrogram induces a linear ordering of the data points

(53)

53 Agglomerative Hierarchical Clustering



Before doing a hierarchical clustering, one has to define two things

1. The similarity measure between two genes (or experiments)

 Centered correlation

 Uncentered correlation

 Absolute correlation

 Euclidean

2. The distance measure between the new cluster and the others

 Single Linkage: distance between closest pair

 Complete Linkage: distance between farthest pair

 Average Linkage: distance between cluster centers

centered correlation uncentered correlation absolute correlation Euclidean

(54)

54 K-means clustering

1. Predefined number of clusters = 5; initialisation:

randomly choose cluster centers (red points)

2. Attribute each point (gene) to cluster with closest center

3. Recalculate cluster centers

= mean expression profile of genes in cluster

4. Repeat the whole process until centers remain

stationary points with a new assignment

(55)

55 Centroid methods - K-means

Iteration = 0

•Start with random position of K centroids.

•Iteratre until centroids are stable

•Assign points to centroids

•Move centroids to center

of assign points

(56)

56 •Start with random position of K centroids.

•Iteratre until centroids are stable

•Assign points to centroids

•Move centroids to center of assign points

Iteration = 1

Centroid Methods - K-means

(57)

57 Iteration = 3

•Start with random position of K centroids.

•Iteratre until centroids are stable

•Assign points to centroids

•Move centroids to center of assign points

Centroid Methods - K-means

(58)

58 Clustering data

The final data representation is then a big matrix with rows being the genes and

columns representing the different experiments. To keep the image coherent with the scan output, the

ratio numbers calculated by Scanalyze are transformed back in color spots on a

green-red based scale.

(59)

59 Clustering data

Another way to represent these data is a graph showing the

gene’s expression variation during

the different experiments

Expression variation of nine genes along the 19 experiments from Lyer et al. (Fibroblast response to serum stimulation)

(60)

60 From expression to regulation

A1234 Z4321

Clustering

GenBank

start

Blast

start

Gibbs sampler Microarrays