You are on page 1of 13

DNA capaz de replicar

Por causa da replicao, um nico tipo de gene pode existir no tempo e no espao de forma que transcenda os indivduos que temporaamente carregam o gene. Alguns alelos so idnticos por serem descendentes replicados de um nico alelo ancestral

Coalescncia

Replicao do DNA

Coalescncia do DNA

Teoria do coalescente
Se << 1 e Prob (coal) << 1 DNA no replica e sofre mutao em uma gerao

Gene Tree
(all copies of homologous DNA coalesce to a common ancestral molecule)

Tempo

Coalescncia em uma populao ideal de N diplides


Cada reproduo pode envolver qualquer um dos N indivduous, e um evento independente de outras Assim, a probabilidade de que dois gametas venham do mesmo parental de 1/N Em diplides, a probabilidade de ibd / coalescncia 1/(2N)
Tempo Coalescncia

Populaes no so ideais, logo a probabilidade de coalescncia em uma gerao de 1/2Nef

Amostrando dois genes ao acaso


Pcoalescence h exatamente t geraes a probabilidade de no coalescncia pelas 1as t-1 geraes no passado seguida por um evento de coalescncia na gerao t:

Amostrando dois genes ao acaso


O tempo mdio de coalescncia ser:

A varincia do tempo mdio de coalescncia de dois genes (2ct) a mdia da espectativa de (t - 2Nef)2 :

probabilidade de no coalescncia em t-1 geraes

probabilidade de coalescncia na gerao t

Amostrando n genes ao acaso


Os tempos mdios para a 4Nef/[n(n-1)] e 1a e a ltima coalescncia so: Tempo

rvore de Coalescncia
E(T2,1) = 2N geraes

4Nef(1-1/n)

Se n = 10, o tempo coberto por eventos de coalescncia deve variar entre 0.0444Nef e 3.6Nef. Se n = 100, o tempo coberto por eventos de coalescncia deve variar entre 0.0004Nef e 3.96Nef. No precisa grande amostra para inferir coalescncias antigas, mas precisa de muitas para inferir coalescncias recentes presente
E(T3,2)=2N/3 E(T4,3)=2N/6 E(T5,4) = 2N/10

Teoria da coalescncia
Se << 1 e Prob (coal) << 1 DNA no replica e sofre mutao em uma gerao

Amostrando n genes ao acaso


A varincia do tempo de coalescncia de n genes :

Tanto para 2 quanto n- coalescncias, o tempo mdio de coalescncia proporcional a Nef enquanto a varincia a Nef2. O relgio molecular segue Poisson em que a mdia = varincia. O coalescente um processo evolutivo irregular, com muita variao inerente que no pode ser eliminada por n maiores; inato ao processo evolutivo e chamado de estocasticidade evolutiva.

Tempo

Experimento de Buri em deriva gentica

Tempo de fixao (coalescncia) em 105 rplicas do mesmo processo evolutivo

Problema: No h rplicas na maioria dos dados reais, os eventos ocorreram apenas uma vez.

Coalescncia com mutao

Coalescncia antes da mutao

Mutao cria variao e destri ibd

Mutao antes da coalescncia

Mutao e Coalescncia:
Diversidade gentica Assumindo muito pequeno e Nef muito grande P de mutao e coalescncia na mesma gerao baixa

Mutao

Com << Nef pode ser simplificado para:

Mutao e Coalescncia:
Diversidade gentica

rvore de gene e rvore de hapltipos


rvores de Genes so genealogias de genes. Como cpias diferentes em loci homlogos esto relacionados pela ordem de eventos de coalescncia. nicos passos que podemos ver so os marcados por eventos mutacionais

Com << Nef pode ser simplificado para:

= Heterozigosidade esperada

rvore de gene e rvore de hapltipos


rvores de Genes so genealogias de genes. Como cpias diferentes em loci homlogos esto relacionados pela ordem de eventos de coalescncia. A esta rvore de mais baixa resoluo chamamos de rvore de hapltipos ou de alelos.

rvore de hapltipo

rvore de hapltipo -- Antigas e recentes

Dobzhansky & Sturtevant (1936): An Inversion Tree for Drosophila pseudoobscura (A) and D.persimilis (B)

Idealmente cada inverso ocorre apenas uma vez na rvore e a rvore minimiza o nmero total de mutaes Modelo de Alelos Infinitos

Idealmente cada inverso ocorre apenas uma vez na rvore e a rvore minimiza o nmero total de mutaes -- Mxima Parcimnia

Mxima Parcimnia (e outros mtodos) permite inferir estados de ancestrais extintos.

rvore enraizada com espcie relacionada que esteja filogeneticamente fora do grupo de interesse - Grupo externo.

rvore de gene e rvore de hapltipos


Polimorfismo transpecfico (polimorfismo ancestral, sorteamento de linhagem) Quando alguns dos hapltipos encontrados em uma espcie so genealogicamente mais aparentados a linhagens de hapltipos encontrados em outra espcie do que a linhagens da prpria espcie.

rvore de inverses no equivale sempre a rvore de espcies, ou populaes - Polimorfismo Transpecfico.

rvore de gene e rvore de hapltipos


Polimorfismo transpecfico, ou polimorfismo ancestral, ou ainda sorteamento de linhagem

Freqncia e topologia so misturadas. Mutao mais provvel em hapltipos comuns. Politomias e ramos pequenos so esperadas.

Modelo de Stios Infinitos


Mutaes
1 1 2 3 4 5 6 7

Genetic Survey of Lipoprotein Lipase


LPL Has 10 Exons Over 30 kb of DNA on Chromosome 8p22 Sequenced 9,734 bp from the 3 End of Intron 3 to the 5 End of Intron 9 Sequenced: 24 Individuals from North Karelia, Finland (Worlds Highest Frequency of CAD) 23 European-Americans from Rochester, Minnesota 24 African-Americans from Jackson, Mississippi Found 88 Variable Sites Ignored Singleton and Doubleton Sites and Variation Due to a Tetranucleotide Repeat, but Phased the Remaining 69 Polymorphic Sites by a Combination of Using Allele Specific Primer Pairs and Haplotype Substraction The Phased Site Data Identified 88 Distinct Haplotypes

Seqncias

2 3 4 5

Cada mutao ocorre em um nucleotdeo diferente

Anlise de stios altamente mutveis


Type of Site # Nt # polym % polym p/ nt

Stios altamente mutveis em LPL e homoplasia


Regio 5 e 3 Tipo do Stio 0-1 Homoplasias >2 Homoplasias Altamente 11 14 mutvel Todos os Flanqueadora 22 5 outros Fisher's Exact Test: P = 0.0013 sob a hiptese nula de homogeneidade Altamente 3 7 mutvel Todos os 5 2 outros Todos Altamente 14 21 mutvel Todos os 27 7 outros Fisher's Exact Test: P = 0.0013 sob a hiptese nula de homogeneidade Recombinational Hotspot

CPG Mononucleotide runs > 5 Poly arrest site 3 nucleotides [TG(A/G)(A/G)GA] All other nucleotides

198

19

9.6%

456

15

3.3%

264

3.0%

8,866

46

0.5%

Ln-Likelihood ratio teste de homogeneidade = 99.8, 3 df, p = 1.75 x 10-7 Ln-Likelihood ratio teste de homogeneidade nas 3 classes mutveis = 12.3, 2 df, p = 0.002

rvore de hapltipos da Apolipo-protein E rvore de hapltipos da Apolipoprotein E


3 2

Coalescente de hapltipos de Apo-protein E


3937

3.2

3 rvore de hapltipos da Apolipoprotein E


26
624

21
1575

14 30
2907 1522 5361

Stios 560 e 624 esto em uma repetio Alu

2.4

624

Anos (x 105)
1.6

28 25
1998

545

4 560 1 29 3701 832 11 19 624 2


8
308 2440 560

17
73

20
560

18
4951

23
4036 832 471 1998 5361

1163 3937

5361 560

4075 5229B 308 3673 624

2440

1163 73 1998

12
560 4951

624

15

3106

0.8

5229B 4075

4951 3106 545 1522 3701 2907

471 4036

27

3673

13

31

10
624

560 624

16

9 16 6 27 2 28 1 14 29 30

12 13 17 20

5 31

0.0

24

4951

560 1575

22

Modelo de Stios Finitos


Mutaes
1 1 2 3 4 5 6 7

Uso de mtodos no apropriados para estudos intraspecficos

Seqncias

2 3 4 5

Um conjunto finito de nucleotdeos so sujeitos mutao e podem sofrer eventos mutacionais mltiplos

Porque no apropriados: baixa divergncia ancestral no est extinto Politomia reticulao tamanho amostral grande

Parcimnia estatstica
Redes ou rvores que alocam homoplasia entre hapltipos menos divergentes com probabilidade menor do que 0.05 so eliminadas em favor de outras que alocam tais homoplasias entre hapltipos mais divergentes

rvore genealgica
Em estudos intraspecficos: NO esperamos que o ancestral esteja extinto; Politomias so esperadas. Na verdade, politomias so PROVVEIS; Como alelo ancestral no est extinto, esperamos que alelos mais antigos tenham maior freqncia. Por outro lado, novos alelos devem ter baixa freqncia; mais provvel que um alelo raro seja derivado de um alelo comum do que de outro raro;

Podemos usar estas esperanas para resolver loops ou homoplasias nos dados

rvore de hapltipos
Em estudos intraspecficos: NO esperamos que o ancestral esteja extinto; Politomias so esperadas. Na verdade, politomias so PROVVEIS; Como alelo ancestral no est extinto, esperamos que alelos mais antigos tenham maior freqncia. Por outro lado, novos alelos devem ter baixa freqncia; mais provvel que um alelo raro seja derivado de um alelo comum do que de outro raro; Podemos usar estas esperanas para resolver loops ou homoplasias nos dados

rvore genealgica
Em estudos intraspecficos: NO esperamos que o ancestral esteja extinto; Politomias so esperadas. Na verdade, politomias so PROVVEIS; Como alelo ancestral no est extinto, esperamos que alelos mais antigos tenham maior freqncia. Por outro lado, novos alelos devem ter baixa freqncia; mais provvel que um alelo raro seja derivado de um alelo comum do que de outro raro;

Podemos usar estas esperanas para resolver loops ou homoplasias nos dados

rvore de hapltipos
Geralmente NO sabemos a raiz; Alelos antigos tem mais chance de serem ns internos, ao invs de pontas (tips).

Mxima parcimnia

Parcimnia estatstica

3 rvore de hapltipos da Apolipoprotein E


26
624

Coalescncia e recombinao
21
1575

14 30
2907 1522 5361

624

28 25
1998

545

4 560 1 29 3701 832 11 19 624 2


8
308 2440 560

17
73

20
560

18
4951

Um nico hapltipo pode ter segmentos de DNA que tiveram padres de mutao e coalescncia diferentes no passado. No existe uma nica histria evolutiva para estes hapltipos recombinantes.
15

23
4036 832 471 1998 5361

1163 3937

5361 560

3 27
3673

12
560 4951

624

3106

5229B 4075

13

31

Quando a recombinao comum e uniforme, mesmo a idia de uma rvore de hapltipos torna-se biologicamente sem sentido. Importante investigar sua presena!

10
624

560 624

16

24

4951

560 1575

22

A recombinao ocorre em todos os gentipos, mas muda o estado do gameta parental apenas em duplos heterozigotos. A recombinao muda a fase de marcadores polimrficos. Para se detectar e estudar a recombinao, essencial ter dados com fase conhecida (como hapltipos)

PROBLEMA: Queremos estimar os hapltipos e suas freqncias no pool gnico, mas no podemos observ-los em todos os indivduos. GENOTIPAGEM N HAPLTIPOS POSSVEIS
AAT GAT ACT/AAT AAT/GAT ACT/GAT or AAT/GCT AAT/GAC or AAC/GAT ACT/GAC or AAT/GCC or ACC/GAT or AAC/GCT

A/A A/A T/T HOMOZYGOTE 21 G/G A/A T/T HOMOZYGOTE 19 A/A C/A T/T SINGLE HETEROZYGOTE 9 A/G A/A T/T SINGLE HETEROZYGOTE 39 A/G C/A T/T DOUBLE HETEROZYGOTE 9 A/G A/A T/C DOUBLE HETEROZYGOTE 2 A/G C/A T/C TRIPLE HETEROZYGOTE 1

1a Soluo: Subtrao de Hapltipos (Clark, Mol. Biol. Evol. 7: 111-122, 1990). GENOTIPAGEM N HAPLTIPOS POSSVEIS
AAT GAT ACT/AAT AAT/GAT ACT/GAT or AAT/GCT AAT/GAC or AAC/GAT ACT/GAC or AAT/GCC or ACC/GAT or AAC/GCT

1a Soluo: Subtrao de Hapltipos (Clark, Mol. Biol. Evol. 7: 111-122, 1990). GENOTIPAGEM N HAPLTIPOS POSSVEIS
AAT GAT ACT/AAT AAT/GAT ACT/GAT or AAT/GCT AAT/GAC or AAC/GAT ACT/GAC or AAT/GCC or ACC/GAT or AAC/GCT

A/A A/A T/T HOMOZYGOTE 21 G/G A/A T/T HOMOZYGOTE 19 A/A C/A T/T SINGLE HETEROZYGOTE 9 A/G A/A T/T SINGLE HETEROZYGOTE 39 A/G C/A T/T DOUBLE HETEROZYGOTE 9 A/G A/A T/C DOUBLE HETEROZYGOTE 2 A/G C/A T/C TRIPLE HETEROZYGOTE 1

A/A A/A T/T HOMOZYGOTE 21 G/G A/A T/T HOMOZYGOTE 19 A/A C/A T/T SINGLE HETEROZYGOTE 9 A/G A/A T/T SINGLE HETEROZYGOTE 39 A/G C/A T/T DOUBLE HETEROZYGOTE 9 A/G A/A T/C DOUBLE HETEROZYGOTE 2 A/G C/A T/C TRIPLE HETEROZYGOTE 1

Os hapltipos neste grupo so conhecidos!

Os hapltipos neste grupo so conhecidos! Tais hapltipos so tambm possibilidades em gentipos com fase ambgua

1a Soluo: Subtrao de Hapltipos (Clark, Mol. Biol. Evol. 7: 111-122, 1990). GENOTIPAGEM N HAPLTIPOS POSSVEIS
AAT GAT ACT/AAT AAT/GAT ACT/GAT or AAT/GCT AAT/GAC or AAC/GAT ACT/GAC or AAT/GCC or ACC/GAT or AAC/GCT

2a Soluo: Algoritmo EM (Estimation-Maximization) (Templeton et al. Genetics 120: 1145-1154, 1988).

A/A A/A T/T HOMOZYGOTE 21 G/G A/A T/T HOMOZYGOTE 19 A/A C/A T/T SINGLE HETEROZYGOTE 9 A/G A/A T/T SINGLE HETEROZYGOTE 39 A/G C/A T/T DOUBLE HETEROZYGOTE 9 A/G A/A T/C DOUBLE HETEROZYGOTE 2 A/G C/A T/C TRIPLE HETEROZYGOTE 1

Os hapltipos neste grupo so conhecidos! A soluo que inferir menos hapltipos novos ser a preferida

Estima probabilidades de vrias fases de gentipos pelo uso das freqncias dos hapltipos em um modelo de Hardy-Weinberg.

2a Soluo: Algoritmo EM (Estimation-Maximization) (Templeton et al. Genetics 120: 1145-1154, 1988).

2a Soluo: Algoritmo EM (Estimation-Maximization) (Templeton et al. Genetics 120: 1145-1154, 1988).

Estima probabilidades de vrias fases de gentipos pelo uso das freqncias dos hapltipos em um modelo de Hardy-Weinberg. Repetir tal procedimento at que as freqncias estabilizem.

Estima probabilidades de vrias fases de gentipos pelo uso das freqncias dos hapltipos em um modelo de Hardy-Weinberg. Repetir tal procedimento at que as freqncias estabilizem.

2a Soluo: Algoritmo EM (Estimation-Maximization) (Templeton et al. Genetics 120: 1145-1154, 1988).

3a Soluo: Algoritmo Bayesiano (Stephens et al., Am J. Hum Gen. 68: 978-989,2001)


Divide the individuals into those with unambiguous haplotypes and those with ambiguous haplotypes. Unlike haplotype subtraction and like EM, ambiguous individuals always remain ambiguous (although the probabilities could become very small). Then: 1. Let G be the vector of genotypes and H(0) some initial guess of the vector of haplotypes (just like EM). 2. Choose an individual, i, uniformly and at random (thus avoiding order effects) from the set of ambiguous individuals. 3. Sample Hi(t+1) from P(Hi|G,H-I(t))where H-I is the set of haplotypes excluding individual i.

Go back to 2 and keep repeating until converge to a stationary distribution (they show this will always occur). Thus, you now have P(H|G).

Nem to bem resolvido quanto o algoritmo de Haplotype Substraction. Pode ser uma vantagem, e uma desvantagem.

However, where we do we get P(Hi|G,H-I(t))?

Como detectar eventos de recombinao em LPL

Como detectar eventos de recombinao em LPL

Branch "A"

5NR 11J 5 16 70R 79R 13 7 25 8 65 19 61 31J 66 29 36 69 36J 12 5 16

20 7 8

13 2JNR 29 31 33 56 53

=3, =5, =3, p =0.0179, crossover between sites 13 and 29. 1 10 20 30 40 50 60 69 2JNR CAGTTTCCCT CAGCACGATC GCAATTGCAC CTCAATGTAT AGTTGTAACC GAGTCCGCAT AACTATAGG 5NR CAGTTTATCT CACCACGATA GCAATTGCAC CTCAATGTAT AGTTGTAACC GAGTCCGCAT AACTATAGG Node a CAGTTTATCT CACCACGATC GCAATTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG

=2, =7, =2, p =0.0278, crossover between sites 16 and 19. Node d 11J Node e 11J Node e T-1 CAGTTTATCT CACCACGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG CAGTATATCT CACCATGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG CAGTATATCT CACCATGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA CAGTATATCT CACCATGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG CAGTATATCT CACCATGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA CAGTTTATCT CACCACGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA

10

Distribuio de recombinantes em LPL

LD e recombinational Hotspot em LPL

Reich, D. E. et al. Nature Genetics 32, 135-142, 2002. recombination 'hot spots' are a general feature of the human genome and have a principal role in shaping genetic variation in the human population.

Recombinao cria novas fases em stios polimrficos, que podem ser medidas por: D = gABgab-gAbgaB D mede o grau de associao entre dois stios naquela populao D criado por vrias foras evolutivas e eventos histricos, inclusive a mutao.

Hardy Weinberg em 2 loci

Ou seja, evoluo ocorre!

Hardy Weinberg em 2 loci


O equilbrio alcanado gradualmente, na taxa r. Informaes histricas so medidas por D, que decai com o tempo. Em loci com alta ligao pode persistir por grandes perodos.

Desequilbrio e Coalescncia
Dt = D0(1-r)t Existe a tendncia de usar D como medida da proximidade na molcula de DNA Isto se justifica quando r >> Quando r < ou r ; o desequilbrio est medindo proximidade no processo de coalescncia.

11

O gene ApoE rvore de hapltipos da Apolipoprotein E


3 2

Stengrd et al. (1996) mostraram que substituies de amino cidos em ApoE tem grande impacto na mortalidade por doenas coronarianas em um estudo longitudinal.

7 6 5 4 3 2 1 0 CAD Mortality Relative to CAD Mortality of 3/3 3/3 3/4 2/4 & 4/4

Regio Gnica da Apoprotein E

Regio Gnica da Apoprotein E

0.

0.5

1.

1.5

2.

2.5

3.

3.5

4.

4.5

5.

5.5

0.

0.5

1.

1.5

2.

2.5

3.

3.5

4.

4.5

5.

5.5

Exon 1 832 624 560 545 471

Exon 2

Exon 3

Exon 4 832 624 560 545 471

Exon 1

Exon 2

Exon 3

Exon 4

rvore de hapltipos da Apolipoprotein E

73

308

1163

25

1575 1522 1998

1998

2440

2907

3106

3701* 3673

4075 4036 3937

4951

5361 5229B 5229 A

73

308

Estes dois stios esto em desequilbrio

1163

1575 1522

1998

2440

2907

3106

3701* 3673

4075 4036 3937

21
1575

14 30
2907 1522 5361

21
1575

14 30
2907 1522 5361

26
624 624

26 17
73

Estes hapltipos so T no stio 832 e C em 3937


17
73

4951

5361 5229B 5229 A

28
7
5361 560

545

4 560 1 29 3701 832 11 19 624 2


8
308 2440 560

20
560

18
4951

624

624

23
4036 832 471 1998 5361

1163 3937

3 27
3673

12
560 4951

624

15

3106

5229B 4075

13

31

10
624

560 624

16

rvore de hapltipos da Apolipoprotein E

28 25
1998

545

4 560 1 29 3701 832 11 19 624 2


8
308 2440 560

20
560

18
4951

23
4036 832 471 1998 5361

1163 3937

5361 560

3 27
3673

12
560 4951

624

15

3106

5229B 4075

13

31

10
624

560 624

16

24

4951

560 1575

24

4951

560 1575

22

Estes hapltipos so G no stio 832 e T em 3937

22

12

Regio Gnica da Apoprotein E

Regio Gnica da Apoprotein E


Suponha que apenas esta regio tenha sido sequenciada

0.

0.5

1.

1.5

2.

2.5

3.

3.5

4.

4.5

5.

5.5

0.

0.5

1.

1.5

2.

2.5

3.

3.5

4.

4.5

5.

5.5

Exon 1 832 624 560 545 471

Exon 2

Exon 3

Exon 4 832 624 560 545 471

Exon 1

Exon 2

Exon 3

Exon 4

0.

Stio 832 est associado na rvore de hapltipos com o stio 3937

0.

Stio 832 pareceria com a maior associao com funo de ApoE e infarto

73 73 73

Suponha que apenas esta regio tenha sido sequenciada


0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 0.

Suponha que apenas esta regio tenha sido sequenciada


0.5 1. 1.5 2. 2.5 3. 3.5 4.

308 308 308

Regio Gnica da Apoprotein E

1163 Exon 1 1163 Exon 1 1163

1575 1522

1998 Exon 2

2440

2907

Stio 3937 um polimorfismo de a.a. que afeta a funo de ApoE e infarto

3106 Exon 3

3701* 3673

4075 4036 3937 Exon 4

4951

5361 5229B 5229 A

73

Suponha que apenas esta regio tenha sido sequenciada


0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5

308

Regio Gnica da Apoprotein E

1163 Exon 1

1575 1522

1998 Exon 2

2440

2907

Stio 3937 um polimorfismo de a.a. que afeta a funo de ApoE e infarto

3106 Exon 3

3701* 3673

4075 4036 3937 Exon 4

4951

5361 5229B 5229 A

832 624 560 545 471 832 624 560 545 471

832 624 560 545 471

Regio Gnica da Apoprotein E


Voc seria capaz de inferir desta associao que o marcador mais perto do stio funcional estaria aqui?
4.5 5.

1575 1522 1575 1522

1998 Exon 2 1998

2440 2440

2907 2907

Stio 3937 um polimorfismo de a.a. que afeta a funo de ApoE e infarto

3106 Exon 3 3106

3701* 3673 3701* 3673

4075 4036 3937 Exon 4 4075 4036 3937

4951 4951

5361 5229B 5229 A


5.5

Stio 832 pareceria com a maior associao com funo de ApoE e infarto

As rvores de hapltipo estimam uma histria evolutiva que pode gerar hipteses sobre o significado atual da variao gentica Fornecem uma ferramenta poderosa para se detectar associaes entre gentipo e fentipo

73

308

Para que servem rvores de hapltipo

1163

1575 1522

1998

2440

2907

3106

3701* 3673

4075 4036 3937

4951

5361 5229B 5229 A

5361 5229B 5229 A

13

You might also like