You are on page 1of 34

Next-Generation DNA sequencing: Fundamentos,

implicaciones, aplicaciones.

Secuenciacin: Conjunto de mtodos y tcnicas bioqumicas


cuya finalidad es la determinacin del orden
de los nucletidos (A,C,G, y T) en un
oligonucletido de ADN

Secuenciacin qumica:
Frederik Sanger 1975.

Origen en estudio DNA


finger-print.

Mtodo de Terminacin de la cadena (1975):


Ms sencillo que seq. qum.
rdenes de magnitud ms rpido que los mt.
anteriores.
Menos reactivos txicos.
Menores dificultades de escalado.

Marcaje radiactivo del frag.


de DNA.
Walter Gilbert 1976

Escicin (G,A+G,C,C+T).
Complejidad Tcnica, uso
excesivo de prod. qum.
peligrosos, dificultades
escalado.

Mtodos de secuenciacin basados en la sntesis del DNA

La muestra se divide en cuatro reacciones de sec.


separadas (ddATP, ddGTP, ddCTP, ddTTP).
ddNTPs se aaden en conc. muy bajas suf. para
producir todas las posibilidades de fragmentos
pero sufucientes para realizar la secuenciacin.
Fragmentos se desnaturalizan y separan por
tamao (resol. 1 nucletido) mediante elect. gel de
poliacrilamida-urea.
Producto de cada reacc. en carriles individuales
(A,T,G y C), visualizacin, autorradiografa o luz
ultravioleta.
Lectura de la secuencia de abajo hacia arriba.

Lectura secuencia

Hebra molde de DNA, primers DNA polimerasa.

Corrida electroforsis

Terminacin de la cadena:

Variantes del mtodo:


Marcaje en cebador + terminador sin marcar se
conoce como secuenciacin mediante colorantes
acoplados al cebador (dye-primer sequencing).
Marcaje en la nueva cadena (dNTP marcado).
Cuatro reacciones separadas.(A,G,T,C).

Marcaje en el terminador (ddNTP) (terminacin


fluorescente).(Cada ddNTP se maraca con un
fluorforo de diferente long. de onda.
Los 4 ddNTPs en una misma reaccin.
(Mayor rapidez y procesatividad).

Seq. Autom. + elect. capilar +


analizadores de secuencia de
alto rendimiento = Sistemas de
Secuenciacin de Primera
Generacin (ABI Prism,
Applied Biosystem). (~19902005).

Electroforsis Capilar:
Permite secuenciar hasta ms de
384 muestras marcadas a la vez.
Se pueden llevar a cabo hasta 24
ciclos de secuenciacin al da. (1
ciclo por hora).
Permite lecturas de secuencias de
hasta 900-1000pb.

Electroferograma (diagrama de picos de mximos de fluorescencia


correspondiente a cada terminador fluorescente que incorporado en la
secuencia en una posicin en cuestin).

Electroferograma obtenido por electroforesis capilar.


Zona amarilla, extremo de la secuencia, problemas de variabilidad de
los picos generalmente corregidos automticamente mediante
software.

Secuenciacin a gran escala

Ensamblaje de los fragmentos secuenciados.

Algoritmos bioinformticos.
Relleno de los intervalos entre las secuencias
ensambladas (sequence census, secuenciacin a
base de transposones, etc..)

Muchas lecturas menores del DNA y posterior


ensamblaje de las zonas de unin de fragmentos
grandes.(gran consumo de recursos
bioinformticos).
En zonas de secuencias repetitivas (ej: centrmeros,
telmeros) ensamblaje es ms proclive al error)

Genoma humano (3Gb) en


realidad incompleto 93%.
Def. de genoma humano sec.
eucromatnica 99%.
Long. de cada fragmento a
secueciar 500b
mn. 6 mill.
de fragmentos sin tener en
cuenta solapamiento.

Estrategias de secuenciacin empleadas a gran escala:


Mtodos tradicionales

Mtodos de Alta Procesatividad o


Rendimiento (a partir del 2005).
Amplificacin: Ciclic array methods.

Highthrouput sequencing (Secuenciacin de alta


procesatividad o rendimiento). (Deep sequencing)

454 GS FLX Life


Sciences (Roche
Applied Science)

Solexa
(Ilumina inc.)

ABI/SOLiD
(Applied
Biosystem)

HeliScope
(Helicos inc)

454 GS FLX Life Sciences (Roche Applied


Science)
454 Life Sciences posteriormente adquirida por
Roche Diagnostics.
2005. 454 GS20 primer secuenciador de nueva
generacin en el mercado.
2007. 454 GS FLX
2008. 454 GS FLX Titanium. (Capaz de
secuenciar 400-600 Mb en 10h. Longitud. de
lectura del fragmento de 400-500pb).
En general es un mtodo de secuenciacin
cclica de arreglos de secuencias de DNA. (ciclic
array method sequencing).

Creacin de la biblioteca o array de fragmentos a


secuenciar (PCR emulsin) :

DNA se fragmenta por cualquier mtodo mecnico o enzimtico


obtenindose fragmentos de 200-300pb (con la serie Titanium (2008)
los fragmentos llegan a ser de hasta 500pb).
Se desnaturalizan los fragmentos y se modifican in vitro ambos
extremos aadiendo dos adaptadores (A y B).
Adaptador B 5-biotinilado es capaz de unirse a streptavidina en la
superficie de las bolas sintticas (28m dimetro).
Amplificacin (PCR) se lleva a cabo en superficie de las bolas
atrapadas en emulsin agua-aceite dentro de pequeas gotas de la
emulsin.
Se obtienen aprox. 10 millones de copias de cada fragmento por bola

Secuenciacin por pirosecuenicin (Sequencing


by sinthesis, pyrosequencing reaction).
Incubacin de las bolas con DNA polimerasa
Deposicin de las bolas en una placa (microarray) de
pocillos justo del tamao de una sola bola (volumen pL:
picoliter scale wells)
Se aaden pequeas bolas con enzimas inmobilizadas (ATP
sulfurilasa y Luciferasa).
Se aaden y remueven los reactivos por un lado de la placa y
por el otro lado se censa la emisin (CCD, charge-cupled
device) de luz correspondiente a la reaccin de luciferasa
como resultado de la liberacin de PPi en la incorporacin de
un nucletido a la secuancia.
Nuclet. uno a uno. Apirasa degrada nuclet. no incorporados

Un pmol de DNA 61011


molculas de ATP por nucletido
incorporado

6109 fotones una = 560 nm.


Cant. de luz facilmente detectable
por fotodiodos, fotomultiplicador,
or a CCD-camera.
Luciferasa:
luciferin + ATP luciferyl adenylate + PPi
luciferyl adenylate + O2 oxyluciferin + AMP + light
Sulfato-adeniltransferasa o ATP Sulfurilasa:
ATP + sulfate
diphosphate + adenylyl sulfate
Apyrasa:
NTP ---> NDP + Pi ---> NMP + 2Pi.

Est. Cristalina de Luciferasa de Photinus


pyralis (lucirnaga).

Principales ventajas e inconvenientes:


Limitacin fundamental de la plataforma 454 radica en los errores que
se pueden cometer al leer secuencias de homopolmeros de ms de 8
bases.
Mayor error que se comete est dado por las estimaciones de la longitud
de fragmentos repetitivos, o sea error tipo, insercin delecin ms que
sustitucin.
(Costo por base secuenciada ms que otras plataformas pero sigue
siendo el mtodo a elegir en dependencia del uso, ej: sec. de novo.)
Principal ventaja longitud de la lectura del fragmento individual de
secuencia en la superficie de cada bola.

454 FLX actuales generan aprox. 400 000 lecturas en cada corrida de
una longitud de 200-500 pb.

Solexa. Ilumina Genome Analizer.


2007 como resultado de la fusin de 4 compaas: Essex (UK), Lynx
Therapeutiics (Hayward, CA, USA), Manteia Predictive medicine
(Coinsisn, Switzerland) e Ilumina (USA).

Creacin de la biblioteca (PCR en puente, (bridge


PCR)) :

Generacin de fragmentos de DNA con extremos modificados qumicamente


Fragmentos delimitados por adaptadores.
Primers F y R fijos a la placa (generalmente de vidrio) mediante molcula de unin flexibe.
Cada adaptador es complementario a los primers en cada extremo.
Se forma un puente por hibridazin con los primers en cada extremo.
Cada ciclo de PCR consiste en extensin por Bst polimerasa y desnaturalizacin con
formamida.
Resultado Prox 40 millones. clusters (8 lneas) de 1000 copias cada uno de cada fragmento.

Secuenciacin por sntesis con terminadores


reversibles.
Se aaden polimerasa modificada y nucletidos maracados fluoresc. y con
grupo hidrolizable en 3.
Cada nucletido maracado con un fluorforo determinado emite una seal de
luz que es censada por CCD en 4 canales.
La sntesis es sincrnica, cada cadena incorpora el nucletido que le
corresponde y los 4 nucletidos se aeden juntos en cada ciclo.
Luego de la lectura de la seal luminosa se eliminan los grupos terminadores
y fluorescentes, se aaden nuevos nucletidos modificados y comienza otra
vez el ciclo.

Ventajas e inconvenientes
Debido al uso de polimerasa y nucletidos terminadores modificados
principal error
susbtitucin en lugar de deleciones o inserciones.
Longitud de las secuencias ledas en cada fragmento de los clusters en el array
aprox. 36 pb (recientemente modificaciones que permiten lecturas de hasta 72pb).
Long. de las lecturas limitada por mltiples factores: remocin incompleta de
grupos fluorescentes y terminadores
causan defasaje y atenuacin de la seal.

PCR bridge en general menos problemas tcnicos que emultion PCR y


en general ms barato.
Costo por megabase muy barato
Principales ventajas dependen de las aplicaciones o para que se emplee.
Actualmente muy empleado para estudio de interacciones protenaDNA, resequencing, census sequencing entre otras.

ABI/SOLiD (Applied Biosystem).


2006-2007 Applied Biosystem. Se cuenciacin por ligacin no polimerizacin.
Generacin de fragmentos de DNA por cualquier mtodo y emulsion PCR en
bolas de 1m de dimetro.
Se fijan las bolas a una matriz de vidrio generando un array desordenado y no
en clusters como en Solexa.
Se aaden octmeros degenerados y marcados fluoresc. En una posicin que se
correlaciona con la identidad de las dos bases centrales
marcan la lectura de
la secuencia en esa posicin (Ej, cada 5, 10, 15, 20 bases, etc).
Terminada una lectura, se desnaturalizan los primers, se corre la lectura:
aadiendo primers que comiencen un nucletido ms abajo en la secuencia y los
mismos octmeros los mismo primers con octmeros diferentes.

Ventajas e inconvenientes
Como en 454, problemas tecnolgicos relacionados con la PCR en emulsin
en este caso an ms por el tamao de las bolas (1 m dimetro).
Longitud de cada lectura aprox. 35pb.

Principal ventaja barato sobre todo la variante Polonator que permite


adems adaptar los software a las necesidades del usuario mediante cdigo
abierto de programacin.
El array en este mtodo es probablemente la forma ms eficiente de generar
secuenciacin de alta densidad. Las bolas estn espacialmente en el lmite de
exclusin mutuo 1 m y en el orden del lmite de difraccin de la seal lum.

HeliScope (2008 Helicos Boisciences Corporation)


No necesita amplificacin inicial, es capaz de censar la secuenciacin de fragmentos
simples de DNA . (nico mtodo capaz de hacerlo hasta hoy.)
DNA se fragmenta por cualquier mtodo y se aaden adaptadores, uno de ellos
cola de poli AAAA en extremo 3.
Se hibridan los fragmentos sobre una placa que contiene inmobilizados olgos de
poli TTTT.
Se lleva a cabo la secuenciacin aadiendo los nucletidos fluorescentes uno a
uno y censando la luz emitida.(mtodo asincrnico como 454).
Despus de cada adicin se elimina grupo fluorescente y se aade el prximo
nucletido.
Se puede secuenciar dos veces (ambos sentidos) aadiendo primers
correspondientes al adaptador 5 de la secuencia original.

Ventajas y desventajas
Semejantes problemas que 454 con relacin a la secueciacin de
homopolmeros.
En este caso se puede controlar mejor la incorporacin de
nucletidos, el quenching la fluorescencia permite diferenciar entre
la incorporacin, por ej: de GG con relacin a GGGGGG.
Costo de equipo el ms caro de todos aprox. $1, 350 000.
Long. de secuencias ledas aprox. 30 pb.
Mayor capacidad de procesamiento de todos hasta 1Gb/h !! aunque
lo normal es 1 Gb/da.
No necesita amplificacin

reduce el costo por Mb.

Costo por Mb ms barato de todos ( $1.00 / Mb) .

http://www.helicosbio.com/Technology/TrueSingleMoleculeSequencing/tSMStradeHowItWorks/tabid
/162/Default.aspx

Principales caractersticas comparativas de cada mtodo.

Ensamblaje de las secuencias ledas


mediante cualquiera de los mtodos.
Problema Grande!!

Programas ensambladores (Son muchos y basados en


muchos algoritmos).
Bioinformticos no dan a basto

Solucin?

Paulino y su grupo y
tantos otros all over
the world.

Principales aplicaciones.

Anlisis del transcriptoma (sequence census methods)

La tcnica consiste en dividir la regin del DNA que se pretende


estudiar en pequeos fragmentos (Tags), clonarlos, expresarlos,
secuenciarlos y ensamblarlos teniendo en cuenta la secuencia que
generalmente se conoce del gen en cuestin.
Aplicaciones Mltiples.
Estudio de variantes ellicas Cuantificacin
(SNP) (Reesequencing by
de expresin
multiple overlaping reads)
gnica.

Secuenciacin
de novo

Estudio de ncRNA
(snRNA, snoRNA,
siRNA, etc)

En secuenciacin de novo problemas de ensamblaje de la


secuencia.
Se secuencian ambos extremos del fragmento para
informacin y mejorar ensamblaje. (Paired-end maping)
(PEM).

Recientemente se ha comenzado a aplicar PEM en


sequenciacin con 454 de Roche.

Estudio de reordenamientos
estructurales en genomas
previamente secuenciados

Deteccin de fusiones gnicas


y transcripcin de
retrotransposones.

Anlisis de expresin gnica


Identificacin y cuantificacin de diferentes especies de
mRNA en diferentes condiciones y/o tipos celulares.

Mtodos basados en microarrays.

Secuenciacin y cuantificacin de
fragmentos de cDNA.

(hibridacin del cDNA en un array que


contiene los genes de inters).
Desventajas
Informacin seicuantitativa tanto de la
secuencia como de la cantidad.
Problemas de standarizacin de la tcnica.

Serial analisis of gene


expresin (SAGE)

Massively parallel
signature sequencing
(MPSS).

1. Aislamiento del mRNA

cDNA.

2. Seleccin de fragmentos en una pos. determ.


3. Concatenacin de fragmentos.
4. Clonaje en vector bacteriano
5. Secuencicin.
6. Procesamiento informtico (cuantificacin y
ensamblaje de secuencias.

SAGE y MPSS

Clone and Count Thechnique.

Mltiples ventajas sobre microarrays (standarizacin menos


compleja, mayor robustez stadistca)
Desventaja: costo de secuencicin y problemas de clonaje.

Ideales para emplearlas con High-throghput sequencing.


(454 Roche) (tamao de los fragmentos compatible con
long. de lecturas en estos mtodos)

Deep SAGE.
Nielsen et al 2006: Anlisis del
transcriptoma de patata. (300
000 tags en lugar de 50 000 por
SAGE).

5Rapid Analysis of Transcript End


(5RATE)
Long. de Tags aprox. 80bp.

Mtodos basados en secuenciacin completa de cDNA y generacin


de ESTs (Expressed sequence tags)
Poco viables por el costo de
la secuencicin y problemas derivados de genracin de bibliotecas
de ESTs.

Con High Throughput Sequencing incrementan su potencial como


metodos de sequence census en el estudio del mRNA a escala genmica.

Generacin de bibliotecas de ESTs para el estudio de


la expresin de genes en plantas (Arabidopsis thaliana,
Weber et al 2007)

ESTs para el estudio de lnea


celular de cncer prosttico,
LNCaP. (Bainbridge et al, 2006).

454 GS FLX Life Sciences (Roche Applied Science)


(~400 000 lecturas por corrida, represen. de toda
regin del transcrito indep. de log. y expresin)

Modificaciones epigenticas de histonas y DNA.


Epigentica estudia la variabilidad de la regulacin gnica en la cual no
est directamente implicada la secuencia directa del DNA.

Metilacin del DNA covalentemente


en 5-citosina

Modificaciones postraduccionales de
histonas.

Proyecto Epigemnoma

High Throughput sequencing!!!!

Estudio de patrones de metilacin del DNA por


bisulfite sequencing.

Bisulfito

Citosina

Uracilo

Timina

Taylor et al, 2007. Usando 454 estudiarion los patrones de


metilacin de islas CpG en 25 genes en diversos tumores
hematopoiticos utilizando PCR amplicones tratados con Bisulfito
de Sodio.
16000 copias por amplicn vs 20 copias con mtodo tradicional
No Clonaje, mayor rapidez y procesatividad de varias muestas y
genes a la vez.

Estudio de modificaciones de histonas y


localizacin de secuencias de unin a protenas en
el DNA.
Modificaciones de Histonas: metilaciones,
forforilaciones, acetilaciones y ADPribosilaciones.
Reg. exp. gen. va accesibilidad del DNA a
factores de transcripcin.
Rho. et al 2004. ChIP seguido de seq. Sanger en
anlisis tipo SAGE (Genome Wide Mapping
Technique) (Estudio dist. H3 y H4 acetiladas).
Bhinge et al, 2007. reemplazo de seq. Sanger por
454 (Sequence Tag Analysis of Genomic
Enrichment(STAGE)). Localiz. De reg. De unin
de STAT1 en genoma humano.
Johnson et al 2007. ChIP-Seq. Next-Gen. Seq.
Aplicado a la identif. de modif. hist. en genom.
hum.

Gracias por la paciencia!!!

You might also like