Class 70 Sequence Alignment

INTRODUCCION A TECNICAS DE MINERIA DE DATOS
ALINEAMIENTO DE SECUENCIAS
Mg. Samuel Oporto Daz
Mapa Conceptual Minera de Datos

Fuentes de datos Pre-procesamiento Exploracin y transformacin Reconocimiento de Patrones Evaluacin e Interpretacin
DHW
Data cruda
Data Data Data Objetivo Pre-procesada Transformada
Patrones
Evaluacin y Entendimien to
DBMS
Texto
Muestreo y Seleccin Muestreo Seleccin
Limpieza de Datos Limpieza de datos Datos que no existen Datos no clasificados Identificacin de
Transformacin de Datos Reduccin de Dimensionalidad Creacin de Caractersticas Normalizacin de Datos Variables Correlacionadas
Modelado Descripcin Clasificacin Regresin Agrupamient o Asociacin Secuenciaci n
Reportes y Visualizacin
Tabla de Contenido
Introduccin Pre-procesamiento Reduccin de Datos Seleccin de Instancias Seleccin de Caractersticas Ejemplo Planteamiento del Problema Procedimiento de solucin Algoritmos Fuentes de Datos Diseo de Experimentos Resultados Experimentales 4 9 26 36 40 49 53 58 64 66 68
3 /39
INTRODUCCION
4 /39
PREGUNTAS
5 /39
Alineamiento de secuencias
Fernn Agero
Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn <fernan at iib.unsam.edu.ar>
6 /39
Anlisis comparativo
El alineamiento de secuencias es similar a otros tipos de anlisis comparativo. En ambos es necesario cuantificar las similitudes y diferencias (scoring) entre un grupo relacionado de entidades.
Finches of the Galpagos Islands observed by Charles Darwin on the voyage of HMS Beagle
7 /39
Para qu alinear?
Para poder comparar dos secuencias
Dos protenas o genes con funcin similar pero provenientes de distintos organismos
Analizar variacin, conservacin de residuos importantes para la funcin Detectar patrones que sirvan para deteccin diferencial (diagnstico)
Dos protenas distintas pero con una regin o dominio similar

Protena X de funcin conocida contiene un dominio Y Protena Z de funcin desconocida tambin tiene un dominio Y. Puedo decir algo acerca de su probable funcin?
Un mRNA y el gen correspondiente: deteccin de la organizacin gnica

El mRNA contiene secuencias derivadas de los exones solamente El gen contiene tanto intrones como exones
8 /39
Homologa vs similitud
Homologa entre dos entes biolgicos implica una herencia compartida Homologa es un trmino cualitativo Se es homlogo o no se es Similitud implica una apreciacin cuantitativa o una cuantificacin directa de algn caracter Podemos usar una medida de similitud para inferir homologa
9 /39
Anlisis comparativo
Los algoritmos que alinean secuencias modelan procesos evolutivos
GATTACCA GATGACCA GATTACCA
GATTACCA GATTATCA GATTACCA
GATCATCA
Deriva de un ancestro comn a travs de cambios incrementales debido a errores en la replicacin del DNA, mutaciones, dao o crossing-over desigual.
GATTGATCA GAT_ACCA
insercin delecin
sustitucin
10 /39
Anlisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos
GATTACCA GATGACCA GATTACCA
GATTACCA GATTATCA GATTACCA

Deriva a partir de un ancestro comn a travs de cambio incremental.
GATCATCA GATTGATCA GATACCA
Slo las secuencias actuales son conocidas, las secuencias ancestrales se postulan.
11 /39
Anlisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos
GATTACCA
GATGACCA GATTACCA GATTACCA GATTATCA GATTACCA

Deriva a partir de un ancestro comn a travs de cambio incremental. Mutaciones que no matan al individuo pueden pasar a la poblacin.
GATCATCA GATTGATCA GATACCA

La palabra homologa implica una herencia comn (un ancestro comn), el cual puede ser inferido a partir de observaciones de similitud de secuencia.
12 /39
Alineamientos
Qu es un alineamiento?
El procedimiento de comparacin de dos (o ms) secuencias de manera de lograr que una serie de caracteres individuales o patrones de caracteres que se encuentren en el mismo orden en ambas secuencias queden alineados verticalmente. AATTGGCCGTACGT AATTGGCCGTACGT
Cmo alineamos dos secuencias?

a mano o con la ayuda de un programa usando un mtodo/algoritmo
13 /39
Definicin de alineamiento: tipos

Alineamiento: Alineamiento global: Cada base se usa a lo sumo una vez Todas las bases se alinean con otra base o con un gap (-) No hay necesidad de alinear todas las bases
Alineamientos locales:
Align BILLGATESLIKESCHEESE and GRATEDCHEESE
G-ATESLIKESCHEESE GRATED-----CHEESE
or
G-ATES GRATED
& CHEESE & CHEESE

14 /39
Alineamientos buenos y malos?

Cul es el mejor alineamiento?
GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC
0 mismatches, 5 gaps
GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC
3 mismatches, 1 gap
15 /39
Cmo decidir cul es el mejor?

Respuesta: el ms significativo desde el punto de vista biolgico Pero: necesitamos una medida objetiva sistemas de puntaje (scoring)
reglas para asignar puntos el ms simple: match, mismatch, gap
16 /39
Un primer ejemplo de scores

Ejemplo de sistema de score
match = +1 mismatch = 0 gap = -1
G-ATESLIKESCHEESE GRATED-----CHEESE
Usando otro sistema de score
Score (10 * 1) + (1 * 0) + (6 * (-1)) = +14 2) +4
17 /39
Puedo comparar scores?

Primera conclusin importante:
no tiene sentido comparar scores de distintos alineamientos a menos que el sistema de scoring utilizado sea el mismo en los distintos alineamientos Es importante especificar el sistema de puntaje!
18 /39
Gap penalties
gap opening penalty = -5 gap extension penalty = -1
1- Abrir un gap es costoso
GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC
Penalty = 5 * (-5) + 6 * (-1) = -31
2 - Extender un gap es menos costoso
GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC
Penalty = 1 * (-5) + 6 * (-1) = -11
19 /39
Dot plots: introduccin

Dot-plot: Fitch, Biochem. Genet. (1969) 3, 99-108. Eje horizontal: secuencia 1
C
A
Eje vertical: secuencia 2
G
0
T
0
A
1
C
0
C
0
G
0
T
0
20 /39
21 /39
Dot Matrix Plot
22 /39
Dot Matrix Plot
23 /39
Dot Matrix Plot
24 /39
Similitud local
Dominios mezclados confunden a los algoritmos de alineamiento.
Mdulos en el factor XII de coagulacin y en el activador de plasmingneos tissue plasminogen activator (PLAT)
FXII
F2 E F1 E
Catalytic
Mdulos en orden Mdulos reversorepetidos
PLAT
F1 E
Catalytic
F1,F2 E K Catalytic
Fibronectin repeats EGF similarity domain Kringle domain Serine protease activitiy
25 /39
Dot plots: ejemplo

Coagulation Factor XII (F12) E F1 F2 E F1 E K Catalytic 26 /39 Catalytic K K
Tissue Plasminogen Activator (PLAT)
Dot plots: ejemplo (cont.)

Dominios repetidos muestran un patrn caracterstico.
Coagulation Factor XII (F12) E F1 F2 E F1 E K Catalytic 27 /39 Catalytic K K
Tissue Plasminogen Activator (PLAT)
Dot plots: path graphs

Dot plots sugieren caminos (paths) a travs del espacio de alineamientos posibles.
Dominios EGF conservados en la urokinse plasminogen activator (PLAU) y el tissue plasminogen activator (PLAT)
90 23 137 23 90 137
Path graphs son representaciones ms explcitas de un alineamiento.
72
PLAU PLAT
90 23
EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE
72
Cada path es un alineamiento nico.
137 72
28 /39
Path graphs: encontrar el mejor camino

Los problemas que involucran encontrar la mejor ruta o camino (Best-path problems) son comunes en computacin cientfica.
Rutear una llamada telefnica desde NY a San Francisco
El algoritmo para encontrar el mejor camino entre dos extremos y pasando por varios puntos se llama dynamic programming
29 /39
Dynamic programming: introduccin

Un ejemplo:
Construir un alineamiento ptimo entre estas dos secuencias
G A T A C T A G A T T A C C A
Match: Mismatch: Gap: +1 -1 -1
30 /39
Utilizando las siguientes reglas de scoring:
Dynamic programming: ejemplo

Ordenar las dos secuencias en una matriz bidimensional
31 /39
Los vrtices de cada celda se encuentran entre letras (bases). Needleman & Wunsch (1970)
El objetivo encontrar la (path) ptimo
Dynamic programming: ejemplo (cont.)

es ruta
Desde aqu
Hasta ac
32 /39
Dynamic programming: paths posibles

Cada path corresponde a un alineamiento nico
Cul es el ptimo?
33 /39
Dynamic programming: scores: match

El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).
A alineada con A
Match = +1
34 /39
Dynamic programming: scores: mismatch G A T A C T A G A T T A C C A

A alineada con T
Mismatch = -1
35 /39
Dynamic programming: scores: gaps

T alineada con NADA
Gap = -1
alineada con NADA
36 /39
Dynamic programming: paso a paso (1)

Extender el path paso por paso
0 -1
G A T A C T A
-1 +1
G G
+1
G
-1
G
-1
G A T T A C C A
37 /39

Incrementar el path paso a paso
0 -1
G A T A C T A
-1 -2 -2 +1
Recordar el mejor subpath que lleva a cada punto en la matriz.
G A T T A C C A
38 /39

0 -1
G A T A C T A
-1 -2 +1 0 -2 0 +2
G A T T A C C A
39 /39

0 -1 -2
G A T A C T A
-1 -2 +1 0 -2 0 +2
G A T T A C C A
40 /39

0 -1 -2 -3
G A T A C T A
-1 -2 -3 +1 0 -1 -2 0 +2 +1 -1 +1 +3
G A T T A C C A
41 /39

0 -1 -2 -3 -4 -5
G A T A C T A
-1 -2 0 +2 +1 0 -1 -3 -4 -5 +1 0 -1 -2 -3 -1 +1 +3 +2 +1 -2 0 +2 +2 +3 -3 -1 +1 +1 +2
G A T T A C C A
42 /39

0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -4 -5 -6 +1 0 -1 -2 -3 -4 -5 -6 -1 +1 +3 +2 +1 0 -1 -2 -2 0 +2 +2 +3 +2 +1 0 -3 -1 +1 +1 +2 +4 +3 +2 -4 -2 0 +2 +1 +3 +3 +2
G A T T A C C A
-7 -5 -3 -1 +1 +3 +2 +2 +4
43 /39
Dynamic programming: best path

Recorrer el camino de atrs hacia adelante para obtener el mejor path y alineamiento.
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -4 -5 -6 +1 0 -1 -2 -3 -4 -5 -6 -1 +1 +3 +2 +1 0 -1 -2 -2 0 +2 +2 +3 +2 +1 0 -3 -1 +1 +1 +2 +4 +3 +2 -4 -2 0 +2 +1 +3 +3 +2
G A T T A C C A
-7 -5 -3 -1 +1 +3 +2 +2 +4
44 /39
Dynamic programming: alineamiento obtenido G A T A C T A

Imprimir el alineamiento
G A - TA CTA G A T TA CCA
G A T T A C C A
45 /39
Dynamic programming: Smith-Waterman

El mtodo fue modificado (Smith-Waterman) para obtener alineamientos locales El mtodo garantiza la obtencin de un alineamiento ptimo (cuyo score no puede ser mejorado) La complejidad es proporcional al producto de las longitudes de las secuencias a alinear
46 /39
Gracias a
Hugues Sicotte (NCBI)
(slides DP, HMS Beagle)
Marcelo Viegas
(slides Dot Matrix)
47 /39
48 /39
Algoritmos de alineamiento optimo para pares de secuencias
49 /39
Alineamientos ptimos
Una vez fijado un sistema de puntuacin
Matriz de substitucin (Identidad, PAMxx, BLOSUM) Coste de la apertura y de la extensin de gaps
Se define el alineamiento ptimo entre dos secuencias como aquel cuya puntuacin s mxima entre todos los posibles alineamientos.
50 /39
51 /39
Un algoritmo exhaustivo para obtener alineamientos ptimos

Una posible aproximacin para encontrar el alineamiento ptimo es la bsqueda exhaustiva:
Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento ptimo es el que obtenga el valor ms grande (puede haber ms de uno!)
El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!
52 /39
La programacin dinmica es una tcnica de diseo de algoritmos consistente en

Considerar, en primer lugar, los casos ms sencillos de un problema Resolverlos Combinarlos para obtener la solucin de casos ms complicados Hasta resolver el caso completo original Veamos un ejemplo
Una alternativa a la bsqueda exhaustiva: La programacin dinmica (PD)
53 /39
Cmo utilizar programacin dinmica para obtener el alineamiento ptimo?

Se obtiene un alineamiento ptimo para una subsecuencia,
P.ej. el primer carcter de cada secuencia por la izquierda.
El alineamiento ptimo de la subsecuencia inicial se mantendr en el alineamiento ptimo final

cualquier otro puntuara menos que ste disminuira la puntuacin total
Tras alinear la primera subsecuencia ya no hace falta trabajar con ella Se pasa a la subsecuencia siguiente y as se va iterando hasta el final
el coste de cada paso es bajo el resultado final se obtiene de acumular los resultados de cada paso
54 /39
El algoritmo de Needleman y Wnsch: Alineamiento basado en programacin dinmica
55 /39
Un alineamiento puede representarse como un camino en una matriz (de puntuaciones)

T C G C A
T C C A T C G C A
TCGCA TC-CA
T C C A
56 /39
TCGCA T-CCA
Un alineamiento puede representarse como un camino en una matriz (de puntuaciones)

T C G C A
T C C A s22
El significado de cada punto en la matriz es el siguiente: Todos los caracteres hasta el punto se han alineado, Puede ser, sin embargo que haya muchos caminos que llevan al punto
La posicin etiquetada s22 representa TC alineado con TC --TC TC--TC T-C TC TC

57 /39
Calculo de la matriz de puntuaciones

Cualquier posicin de la matriz slo puede alcanzarse de tres maneras posibles:
En diagonal lo que significa emparejando el carcter de fila y de columna En vertical que significa insertando uno o ms gaps en la secuencia horizontal (S1) S2 En horizontal que representa insertar uno o ms gaps en la secuencia vertical (S2) T C
S1
G C A
T C C A s43
58 /39
Calculo de la matriz de puntuaciones

Para llenar la matriz de puntuaciones
Consideramos todas las maneras de llegar hasta cada celda de la matriz Nos quedamos con la(s) que consiguen la puntuacin ms alta: Puede haber ms de una T C
S1
G C A
S2
C C A s43
59 /39
Clculo de la matriz de puntuaciones

La matriz de puntuaciones (Score Matrix), P, se llena de arriba abajo y de izquierda a derecha mediante el siguiente procedimiento
1. Se llena la fila 0 y la columna cero con el coste de abrir un gap y extenderlo tantos caracteres como posicin en la fila (columna) se encuentre la celda 2. Se va llenando la matriz de izquierda a derecha y de arriba abajo. En cada celda se coloca la puntuacin mxima resultante de considerar todas las posibles maneras de acceder a aquella celda 3. La direccion (o direcciones) que han dado lugar a la mxima puntuacin se anota por separado en la matriz de reconstruccin que se utilizar para reconstruir el alineamiento
60 /39
Frmulas de clculo
Utilizamos la notacin siguiente:
S(i,j): Puntuacin para coincidencia o no Wk = a+bk : Penalizacin afn para un gap de longitud k P(0,0)=0; P(0,k)=-Wk, P(k,0)=-Wk,
Con esta notacin la puntuacin de la fila y la columna 0:
Y la puntuacin de cada celda de la tabla:
P(i 1, j 1) + S (i, j ), celda anterior en diagonal P(i, j ) = maxmax{ P (i x, j ) Wx } , celdas anteriores de la fila x 1 max{ P (i, j y ) W }, celdas anteriores de la columna y y 1
61 /39
Matriz de reconstruccin (Traceback)

Para reconstruir el alineamiento, al mismo tiempo que se llena la matriz de puntuaciones, se llena la matriz de reconstruccin, T de la siguiente forma:
T(i,j)=0, si el mximo viene de la diagonal T(i,j)=+y, si el mximo viene de un desplazamiento vertical de y celdas. A veces tan slo se indica que viene de arriba ( ) T(i,j)=-x, si el mximo viene de un desplazamiento horizontal de x celdas. A veces tan slo se indica que viene de la izquierda ()
Si hay empate anotamos todos los valores iguales
62 /39
Reconstruccin del alineamiento
Para reconstruir el alineamiento se busca, en la matriz de puntuaciones, la celda de la ltima fila o columna con la puntuacin ms grande Se escoge la misma celda en la matriz de reconstruccin y se va retrocediendo segn los valores indicados en sta Este procedimiento puede dar ms de un alineamiento ptimo
63 /39
Ejemplo
64 /39
Smith-Waterman Algoritmo de alineamiento local

P(i 1, j 1) + S (i, j ), m ax{ P(i x, j ) W } , x P(i, j ) = m ax x1 max{ P(i, j y ) Wy } , y 1 0
Matriz de puntuaciones: No se penalizan los gaps de las bandas derecha y izquierda
0 0 0 0 ..
..
Si el mejor alineamiento hasta un cierto punto tiene un valor negativo es mejor empezar uno nuevo en lugar de extender el viejo
P[i,0]= 0 ; per i= 0m a[0,j]= 0 ; per j= 0n

65 /39
Complementos
66 /39
Nomenclatura para el estudio de secuencias de caracteres

Cadena: Lista ordenada de caracteres de un alfabeto: GATTACA Prefijo: Caracteres consecutivos cogidos desde el inicio: G, GAT, GATTA, Sufijo: Caracteres consecutivos cogidos desde el final: A,CA,TACA,... Subcadena: Caracteres consecutivos desde los extremos o el medio: GAT,TACA,ATTA... Subsecuencia: Caracteres ordenados no necesariamente consecutivos: GAAA,TTC,...
67 /39
Ejemplo de programacin dinmica Nmeros de Fibonacci

Sub Fib(n, tab()) Dim j as integer Redim tab(n) tab
1 1 2 3 5 8 13 21 34 55 89 .
tab[1] = 1 tab[2] = 1; for j = 3 to n tab[j]=tab[j-1] + tab[j-2] next j End Sub
Empecemos resolviendo los problemas ms sencillos
Utilicemos las soluciones parciales para resolver problemas ms grandes
Tornar
68 /39
Gaps en el inicio del alineamiento
Si el dot-plot tiene este aspecto A T C G A * * C X G X A X Si el dot-plot tiene este aspecto G T C T * A * G T C
El alineamiento es: A T C G A C G A
El alineamiento es: G C T T A G C T
X X X
69 /39
70 /39
71 /39
Contenido
1. Conceptos bsicos 2. Mtodos grficos de alineamiento 3. Puntuacin de los alineamientos
72 /39
1. Conceptos bsicos
73 /39
Introduccin
El alineamiento de secuencias es probablemente la herramienta ms utilizada en bioinformtica Su objetivo es alinear dos o ms secuencias (de DNA o protenas) de forma que puedan destacarse las regiones similares entre las molculas Al determinar si una secuencia desconocida es similar, en algn sentido, a secuencias conocidas (e idealmente de estructura y funcin conocidas) podremos identificarla y predecir su estructura y funcin
74 /39
Aplicaciones
Mediante un alineamiento global entre genomas se puede identificar repeticiones internas (G1 vs G1) o encontrar secuencias conservadas entre especies (G1 vs G2) Para predecir la funcin de una protena desconocida suele buscarse dominios funcionales comunes, mediante alineamientos locales entre dos secuencias mediante alineamientos mltiples entre conjuntos de secuencias Para buscar una secuencia en una base de datos para lo que alinea por separado distintos fragmentos y se cuantifica el grado de similitud alcanzado
75 /39
Mtodos de alineamiento
Existen muchos programas disponibles en WWW para alinear secuencias y buscarlas en las BD Si se pretende que el resultado de dichos programas sea til no deben ser cajas negras La correcta eleccin del programa ( mtodo) y de sus parmetros es muy importante
Una eleccin inadecuada puede conllevar la no deteccin de similitudes relevantes
76 /39
Visin global de los mtodos

Alineamiento de dos secuencias
Mtodos grficos: Dotplot. Es intuitivo, pero difcil de cuantificar Algoritmos ptimos de alineamiento global (NW) o local (SW)
Obtienen el mejor alineamiento posible con programacin dinmica Son demasiado exigentes para ser prcticos en bsquedas extensivas
Alineamientos mltiples Algoritmos heursticos para bsqueda en bases de datos FASTA, BLAST
Dan soluciones buenas, no necesariamente ptimas 77 /39 Pueden ser mucho ms rpidos
Es el procedimiento consistente en comparar dos (pairwise) o ms (multiple) secuencias buscando los caracteres o patrones que aparezcan en el mismo orden en las secuencias Podemos distinguir entre alineamientos
Globales: Alineamiento de secuencias completas Locales : Alineamiento de subsecuencias
78 /39
Ejemplos de alineamientos
2 Secuencias no alineadas L G P S S K Q L N I T K S A Alineam iento global L G P S S L N I T T G G K K G G A S I S M R R I L W D G D N A
K K
Q S
T A
G G
K K
G G
S A
S M
R R
I L
W G
D D
N A
Alineam iento local
T A
G G
K K
G G
79 /39
Ejemplo de alineamiento mltiple

I I I I I I M A M P L E G I R A G I N C B A T L B I E I I I L C E A
LE
M A M P R A N F A
G C T L
N A B C A B B
L L L
E E E
80 /39
2. Mtodos grficos de alineamiento
81 /39
Los Dotplots
Se obtienen disponiendo dos secuencias S y T en los mrgenes horizontal y vertical de una tabla y marcando con una cruz (un punto) todas las posiciones en que coinciden los caracteres de S y T Si son idnticas se observa una diagonal definida Cuanto ms diferentes sean, ms difusa ser La aparicin de patrones permite revelar estructuras en las secuencias
82 /39
Para facilitar la visualizacin, se opta a menudo por mostrar nicamente las diagonales formadas por un nmero mnimo de puntos (umbral de severidad) Si el umbral de severidad es alto Eliminamos el ruido de fondo (filtrado alto) Solo detecta similitudes muy altas Si es bajo Hay ruido de fondo Detecta relaciones distantes
Umbral de severidad (Stringency threshold)
83 /39
Ejemplo de dotplot 1: Una secuencia con ella misma
84 /39
Ejemplo de dotplot 2: Secuencias que han divergido
85 /39
Ejemplo de dotplot 3: Inserciones y deleciones
86 /39
3. Puntuacin de los alineamientos
87 /39
Sistemas de puntuacin
Para cuantificar la similitud entre dos cadenas, S y T, definimos sistemas de puntuaciones de forma que para cada alineamiento se pueda calcular un nmero tal que, a mayor valor, mayor sea su significacin (biolgica) Pueden ser esquemas sencillos como por ej Coincidencia , S[i]=T[i] 1, No coincidencia, S[i]#T[i] 0, Insercin de espacios (gaps) -1, o bien sistemas ms complejos basados en afinidades qumicas o en frecuencias de emparejamiento observadas
88 /39
Puntuacin de un alineamento
Una vez establecido un sistema de puntuacin la puntuacin de una pareja de caracteres s,t alineados se define como p(s,t) La puntuacin (score) de un alineamiento entre S i T:
p( S[i],T [i])
i
Un alineamiento es ptimo si su puntuacin es la ms grande posible
89 /39
Ejemplo
S= T= p(s,t) A A 1 T T 1 G A 0 C A 0 A G 0 G T 0 T = 2
S= T= p(s,t)
A A 1
T T 1
G A 0
C A 0
A -1
G G 1
T T 1 = 3
S= T= p(s,t)
A A 1
T T 1
G -1
C A 0
A A 1
G G 1
T T 1 = 4
90 /39
Ejemplo
P untuac in c on es quem a s im ple S= T= p(s ,t) T -1 T T 1 Y G 0 G Y 0 A A 1 P P 1 P W C P P W 1 0 0 S S 1 = 4
S= T= p(s ,t)
T T 1
T G 0
Y Y 1
G A 0
A P 0
P P 1
P W P W 1 1
C S 0
S -1 = 4
91 /39
El sentido de las puntuaciones

Los dos alineamientos del ejemplo anterior puntan igual. Sin embargo a) conserva residuos comunes (A, P, S, T) b) conserva residuos menos habituales (W, Y) El sistema de puntuar los emparejamientos entre AA debera reflejar su relacin qumica y biolgica Residuos similares/distintos deberan puntuar alto/bajo pues el cambiar uno por otro afectar poco/mucho la funcin de la protena
92 /39
Matrices de puntuacin (scoring) o de substitucin (substitution)

Una forma usual de definir el sistema de puntuacin es utilizando una matriz de substitucin Es una tabla que contiene las puntuaciones que asignamos a cada pareja posible de caracteres, (sirve para las coincidencias y las no-coincidencias) El trmino substitucin refleja que lo que se pretende al puntuar un emparejamiento es valorar el coste evolutivo de cambiar un residuo por otro
93 /39
Matrices para alinear ADN

Suele utilizarse una matriz identidad
P(i,i)=1, P(i,i)=0.9, p (i,j)=0 p (i,j)=-0.1
o alguna variante de sta
94 /39
Matrices para protenas

No hay una matriz nica que se pueda usar siempre Segn la familia de protenas y el grado de similitud esperado se usar una u otra Las ms utilizadas PAM y BLOSUM PAM: Percent Accepted Mutation Matrix Derivadas de alineamientos globales de secuencias prximas PAM40 PAM250. A mayor n mayor distancia evolutiva BLOSUM Derivadas de alineamientos locales de secuencias distantes BLOSUM90 BLOSUM45 El n representa porcentaje 95 /39 de identifdad
96 /39
Penalizacin por gaps

En un sistema de puntuacin es importante definir el coste de insertar o eliminar un residuo, lo que en el alineamiento aparece como un hueco (gap) Suele penalizarse distinto
el primer hueco (gap opening) que los restantes (gap extension) que parten de l
La variacin de estos parmetros puede tener efectos importantes en el alineamiento final
97 /39
Efecto del valor de la penalizacin
Coste de Coste de apertura de extensin del gap gap Grande Grande
Comentario
Pocas inserciones o eliminaciones Bueno para protenas muy relacionadas Algunas inserciones grandes Bueno si puede que se hayan insertado dominios completos Muchas inserciones pequeas Bueno si se trata de protenas distantes
Grande
Pequeo
Pequeo
Grande
98 /39
4. Algoritmos de alineamiento ptimo para pares de secuencias
99 /39
Un algoritmo para obtener el alineamiento ptimo es: Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento ptimo es el que obtenga el valor ms grande (puede haber ms de uno!) El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!
Un algoritmo exhaustivo para obtener alineamientos ptimos
100 /39
Una alternativa a la bsqueda exhaustiva: La programacin dinmica (PD)

La programacin dinmica es una tcnica de diseo de algoritmos consistente en Considerar, en primer lugar, los casos ms sencillos de un problema Resolverlos Combinarlos para obtener la solucin de casos ms complicados Hasta resolver el caso completo original Veamos un ejemplo
101 /39
Algoritmos de alineamiento ptimo

Los dos ms conocidos son Needleman y Wunsch (1970) para alineamientos globales Smith y Waterman (1981), una variante para alineamientos locales Sirven para alinear tanto DNA como protenas Cada algoritmo retorna los alineamientos con la mxima puntuacin posible para una matriz de substitucin y un coste de gaps dados El alineamiento obtenido no tiene necesariamente un significado biolgico
102 /39
103 /39
Bioinformtica y Genmica
Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn
2004
104 /39
Un breve repaso histrico

La aparicin de las secuencias completas del genoma humano y cientos de otros genomas es el producto de un siglo de investigacin dirigido a comprender la informacin gentica. Comienzos del siglo XX: redescubrimiento de las leyes de Mendel Durante el primer cuarto de siglo, la biologa descubri que la base celular de la informacin eran los cromosomas Durante el segundo cuarto de siglo, se descubri que la base molecular de la informacin era el DNA Durante el tercer cuarto de siglo, se definieron los mecanismos que utilizan las clulas para leer esta informacin y se desarrollaron las herramientas de DNA recombinante Durante el ultimo cuarto de siglo, los bilogos se volcaron a colectar informacin gentica - primero de genes, luego de genomas completos.
105 /39
Informacin biolgica
106 /39
En que estamos hoy
107 /39
En que estamos hoy

El resultado: de ser una ciencia puramente experimental (con base en el laboratorio) la biologa est siendo transformada en una ciencia de la informacin La informacin acumulada no slo es informacin gentica (secuencias de DNA)
expresin de RNAs interaccin entre protenas estructuras tridimensionales Anulacin sistemtica de genes (knockouts, RNAi) que produce informacin de fenotipos
Cada vez ms diversos estudios comienzan con el anlisis de bases de datos para luego formular hiptesis o disear experimentos Cada vez ms el trabajo de laboratorio termina en la acumulacin de colecciones masivas de datos que deben ser luego analizados
108 /39
109 /39
Paradigma central de la bioinformtica
Genetic Information
Molecular Structure
Biochemical Function
Symptoms (phenotype)
110 /39
Genmica, Bioinformtica y Medicina

Genomics
Bioinformatics
Identify Targets
Molecular Diagnostics
Drug Design
Molecular Epidemiology
Genetic Therapy
111 /39
Informacin biolgica en formato electrnico Bases de datos

Fernn Agero
Instituto de Investigaciones Biotecnolgicas UNSAM
112 /39
Bases de datos: introduccin: conceptos bsicos

Qu es una base de datos? Una coleccin de datos
Cmo colecciono los datos?
Decisin del usuario. Diseo de la base de datos.
Puedo usar:
Procesador de texto? (Word) Si. Permite slo bsqueda y ordenamiento simples.
Planilla de Clculo? (Excel)
Tambin. Como los datos estn en columnas independientes, se puede ordenar en formas ms complejas. Las bsquedas siguen siendo simples.
113 /39
Introduccin: conceptos bsicos: registros

Una coleccin de registros (records).
Cada registro tiene varios campos. Cada campo contiene informacin especfica. Cada campo contiene datos de un tipo determinado.
Ej: dinero,texto, nmeros enteros, fechas, direcciones
Planilla Versin simple de una base de datos
Cada registro tiene una clave primaria. Un identificador nico que define al registro sin ambigedad.
gi 6226959 6226762 4557224 41
Accession NM _000014 NM _000014 NM _000014 X63129
version 3 2 1 1
date 01/06/2000 12/10/1999 04/02/1999 06/06/1996
Genbank Division PRI PRI PRI M AM
taxid 9606 9606 9606 9913
organims homo sapiens homo sapiens homo sapiens bos taurus
Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y
114 /39
Tipos de datos
Cada campo de una base de datos contiene un tipo particular de datos
021204
Es un numero? Es texto? Es una fecha?
Ejemplo de una busqueda: buscar todos los registros en donde el valor almacenado sea mayor que 021204
Es obvio que para poder comparar los valores almacenados tenemos que saber qe tipo de valores estamos comparando. Si es una fecha: 021204 (2.Dic.2004) > 211203 (21.Dic.2003) Si es un numero: 021203 < 211203 Si es texto: 021203 211203, las comparaciones < y > pueden dar distintos resultados (evaluan orden o longitud)
115 /39
Tipos de datos
Numericos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Logicos (boolean) = verdadero / falso Geometricos (punto, linea, circulo, poligonos, etc.)
116 /39
gi
Bases de datos: conceptos bsicos: clave primaria

Accession version date Genbank Division PRI PRI PRI M AM taxid organims Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y NM _000014 NM _000014 NM _000014 X63129 3 2 1 1 01/06/2000 12/10/1999 04/02/1999 06/06/1996 9606 9606 9606 9913 homo sapiens homo sapiens homo sapiens bos taurus
6226959 6226762 4557224 41
gi = Genbank Identifier: Clave nica : Clave primaria Cambia con cada actualizacin del registro correspondiente a la secuencia Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version es equivalente al gi (representa un identificador nico) Ejemplo: AF405321.2 Accession: AF405321 Version: 2
117 /39
gi 6226959 6226762 4557224 41
Accession NM _000014 NM _000014 NM _000014 X63129
Bases de datos: bases de datos relacionales

version 3 2 1 1 date 01/06/2000 12/10/1999 04/02/1999 06/06/1996 Genbank Division PRI PRI PRI M AM taxid 9606 9606 9606 9913 organims homo sapiens homo sapiens homo sapiens bos taurus
Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y
Base de datos relacional: Normalizar una base de datos para sub-elementos repetidos, repartiendola en bases de datos menores, relacionadas a travs de un identificador nico (clave primaria).
gi Accession 6226959 NM_000014 6226762 NM_000014 4557224 NM_000014 41 X63129 version date Genbank Division taxid 3 01/06/2000 PRI 9606 2 12/10/1999 PRI 9606 1 04/02/1999 PRI 9606 1 06/06/1996MAM 9913
taxid organims Number of Chromosomes 9606 homo sapiens 22 diploid + X+Y 9913 bos taurus 29+X+Y
118 /39
Bases de datos: distribucion de la informacion

gi 5693 5694 5695 5696 annotation Trypanosoma cruzi chromosome 3, ORF 1234, similar to gi|12345| AF934567 caseine kinase (Candida albicans) Candida albicans hypothetical protein in region 21922..24568 Sarcocystis cruzi 16SRNA gene Lutzomyia cruzi cytochrome b; best similarity to gi|1234568
gi 5693 5694 5695 5696
Organism Trypanosoma cruzi Candida albicans Sarcocystis cruzi Lutzomyia cruzi
Annotation Chromosome 3, ORF 1234 Hypothetical protein in region 21922..24568 16S RNA gene Cytochrome b
similar to 12345
786512 1234568
119 /39
Bsquedas en una base de datos: ndices

Para facilitar las bsquedas en una base de datos, se construyen ndices. Un ndice es una lista de claves primarias asociadas a un determinado campo (o grupo de campos)
gi 6226959 6226762 4557224 41 Accession NM _000014 NM _000014 NM _000014 X63129 version 3 2 1 1 date 01/06/2000 12/10/1999 04/02/1999 06/06/1996 Genbank Division PRI PRI PRI M AM taxid 9606 9606 9606 9913 organims homo sapiens homo sapiens homo sapiens bos taurus Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y
Genbank div PRI 6226959;6226762;4557224; MAM 41; Accession NM_000014 X63129 6226959;6226762;4557224; 41;
120 /39
Indices (cont)
Un ejemplo ms complejo: buscar todos los records que contengan la palabra kinase en la descripcin de la secuencia
gi 214734 123456 acc L07770 AF43567 def Xenopus laevis rhodopsin mRNA, complete cds. Mus musculus casein kinase mRNA, partial cds.
Indexar la columna def

word casein kinase laevis mus musculus rhodopsin xenopus list of GIs 1234,3245,43678,123456 ... 432,5678,32456,123456 ... 36314,214734, ... 23467,98732,123456,312456,567983 ... 23467,98732,123456,567983 ... 214734,223466,873212,23587,2942,12932 ... 28462,36314,98476,214734 ...
121 /39
Indexar es costoso
El proceso de indexacin es costoso en trminos computacionales, pero se realiza una nica vez (en realidad cada vez que se actualizan los datos) Desde el punto de vista de la base de datos, los ndices no son otra cosa que nuevas tablas relacionadas con la tabla que contiene el campo indexado Ejemplo ms obvio: buscadores de pginas de internet (Google, Altavista). Visitan pginas e indexan los trminos que encuentran
kewyword: url1, url2, url3, url4, etc.
122 /39
Bsquedas en bases de datos: bsquedas indexadas

Importante: no se busca en el total de los datos disponibles, sino sobre un subset pre-computado.
Buscadores de pginas en internet PubMed / Entrez / SRS BLAST
123 /39
Schemas
La distribucin de los datos en campos dentro de una tabla y de las relaciones entre tablas y sus campos es lo que se llama el diseo o schema
124 /39
Schemas (cont)
125 /39
RDBMS
Relational Database Management Systems
Comerciales
Oracle, Sybase
Open source, gratuitos

PostgreSQL, MySQL
Todos usan SQL (standard query language) para

crear tablas, ndices, etc. ingresar datos consultar
126 /39
Bsquedas simples
Los motores de bsqueda ofrecen bsquedas simples No imponen restricciones El usuario tipea palabras libremente Usan estrategias para intentar adivinar la intencin del usuario (sobre qu campo de la base de datos buscar)
127 /39
Ejemplo: term mapping - Entrez (PubMed)

Entrez busca en una serie de listas para ver si la palabra que ingresaron se encuentra en alguna
MeSH (Medical Subject Headings): vocabulario controlado utilizado para indexar artculos en PubMed. Journals: nombre completo del journal, abreviaturas usadas en MEDLINE y nmeros ISSN. Lista de frases: cientos de miles de frases generadas a partir de MeSH y otros vocabularios controlados similares. Indice de autores: apellido e iniciales. Stopwords: palabras comunes, presentes en casi todos los registros de la base de datos (a, an, by, of, the )
128 /39
Bsquedas simples: pros / cons

Ventajas rpidas de formular no hay que leer el manual ni hacer un curso Desventajas poco selectivas
129 /39
Bsquedas avanzadas
Presuponen un cierto conocimiento sobre la organizacin subyacente de los datos Hay que especificar sobre qu campos buscar: hay que conocer los campos Entrez: se especifican entre corchetes Tags predefinidos (hay que conocerlos)
Escherichia coli[organism] review[publication type] attenuator[feature key]
SRS: formulario avanzado (no hay que conocer trminos o tags)

130 /39
Bsquedas avanzadas: Entrez

Entrez provee adems Lmites: especie de formulario avanzado que les permite limitar la bsqueda a un campo determinado, sin tener que conocer los tags) History: una historia de las bsquedas que van realizando. En cualquier momento pueden combinar bsquedas o volver sobre alguna de ellas Preview/Index: les permite probar una bsqueda (preview) y ver el nmero de registros que selecciona o ver los ndices y el nmero de registros asociados a cada uno de ellos Details: permite analizar la traduccin que realiz Entrez de la bsqueda que realizamos (uso de sinnimos, lmites, etc)
131 /39
Operadores lgicos
En bsquedas simples o avanzadas siempre tienen a disposicin operadores lgicos para encadenar trminos AND (unin)
human AND genome +human +genome human && genome
OR (interseccin)
human OR genome human || genome
NOT (subconjunto)
human NOT genome
132 /39
Orden de los trminos en un query

El orden de los trminos es importante Un query se evala de izquierda a derecha
human NOT genome no es lo mismo que genome NOT human
Si el query tiene muchos trminos pueden forzar el orden de evaluacin usando parntesis
human AND cancer AND (cell OR science OR nature) casein kinase NOT (human OR mouse)
133 /39
134 /39
Bases de datos biolgicas: DNA

Nucleotide databases:
Genbank: International Collaboration
NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia)
Organism specific databases

FlyBase ChickBASE pigbase SGD (Saccharomyces Genome Database)
135 /39
Bases de datos biolgicas: protenas

Protein Databases:
NCBI:
Genpept: Translated Proteins from Genbank Submissions
EMBL
TrEMBL: Translated Proteins from EMBL Database
SwissProt:
recibe secuencias peptdicas cura y anota secuencias provenientes de TrEMBL (Gratuita para uso acadmico. Restricciones sobre los descubrimientos hechos utilizando la base de datos. La versin de 1998 es gratuita y libre de todas las restricciones.) http://www.expasy.ch (ltima versin no-gratuita) NCBI tiene la ltima versin gratuita.
136 /39
Bases de datos biolgicas: estructura

Structure databases:
PDB: Protein structure database.
http://www.rscb.org/pdb/
MMDB: NCBIs version of PDB with entrez links.

http://www.ncbi.nlm.nih.gov
SCOP: structural classification of proteins

family, superfamily, fold
CATH: structural classification of proteins

class, architecture, topology, homology
FSSP: fold classification based on structure-structure alignment
Genome Mapping Information:

http://www.il-st-acad-sci.org/health/genebase.html
NCBI(Human) Genome Centers:

Stanford, Washington University, UCSC
Research Centers and Universities

137 /39
Bases de datos biolgicas: literatura

Literature databases: NCBI: Pubmed: All biomedical literature.
www.ncbi.nlm.nih.gov
Abstracts and links to publisher sites for

full text retrieval/ordering journal browsing.
Publisher web sites. Pathways Database: KEGG: Kyoto Encyclopedia of Genes and Genomes:
www.genome.ad.jp/kegg/kegg/html
138 /39
Bases de datos biolgicas: GenBank

Es un Banco: no se intenta unificar datos.
No se pueden modificar las secuencias sin el consentimiento del autor (submitter). No se intenta unificar (puede haber ms de una secuencia para un locus/gen). Puede haber registros de diversas calidades de secuencia y diferentes fuentes ==> Se separan en varias divisiones de acuerdo a:
Secuencias de alta calidad en divisiones taxonmicas.
PRI -> Primates MAM -> Mamferos INV -> Invertebrados
Secuencias de baja calidad en divisiones uso-especficas.

GSS -> Genome Sequence Survey EST -> Expressed Sequence Tags HTG -> High Troughput Sequencing (unfinished contigs, BACs, cosmids, chromosomes).
139 /39
GenBank
Redundante Con errores Dificil de actualizar Para poder corregir, mejorar y mantener actualizada la anotacin de los registros, el NCBI cre RefSeq (coleccin curada de registros de GenBank)
toma records de GenBank y los actualiza/corrije unifica para reducir redundancia Accession numbers del tipo XX_123456
140 /39
Bases de datos primarias

Una base de datos primaria es un repositorio de datos derivados de un experimento o de conocimiento cientfico.
Genbank (Repositorio de secuencias nucleotdicas) Protein DB, Swissprot PDB Pubmed (literatura) Genome Mapping Kegg (Kyoto Encyclopedia of Genes and Genomes, base de datos de vas metablicas)
141 /39
Bases de datos secundarias

Una base de datos secundaria contiene informacin derivada de otras fuentes (primarias, entre otras).
Refseq (Coleccin curada de GenBank en NCBI) Unigene (Clustering de ESTs en NCBI)
Las bases de datos organismo especficas son en general una mezcla entre primaria y secundaria.
142 /39
Anlisis y anotacin de genomas

Fernn Agero
143 /39
Historia
Primer proyecto de secuenciacin de un genoma: Escherichia coli (US + Japn). Comenz en 1992 y termin en 1997. 4.6 MB Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB
144 /39
Qu es un genoma?
Una coleccin de
genes
que codifican productos proteicos que codifican RNAs
pseudogenes regiones no codificantes

regulatorias (expresin) estructurales
attachment a matriz nuclear mitosis / meiosis elementos repetitivos
145 /39
Qu es anotar?
Agregar informacin, de la manera ms confiable y actualizada que se pueda para describir una secuencia Informacin asociada a coordenadas genmicas (comienzo..fin), a distintos niveles Interpretar la informacin cruda de secuencia en un marco biolgico
146 /39
Anotacin genmica
Dos niveles de anotacin
Estructural: encontrar genes y otros sitios con relevancia biolgica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posicin en el genoma Funcional: los objetos son utilizados en bsquedas (y experimentos). El objetivo es atribuir informacin biolgica relevante a los objetos.
147 /39
Ms niveles de anotacin
Organismo: fenotipo: morfologa, fisiologa,
comportamiento, respuestas ambientales
Celula: vas metablicas, cascadas de sealizacin,

localizacin subcelular.
Molecula: sitios de binding, actividad cataltica,

estructura tridimensional
Dominio Motif Residuo
148 /39
De donde proviene la anotacin?

Fuentes utilizadas en la anotacin:
publicaciones que reportan nuevas secuencias reviews que actualizan peridicamente la anotacin de familias o grupos de protenas expertos externos anlisis de secuencia
149 /39
Anotacin genmica
Genomic DNA
transcription
Unprocessed RNA
ab initio gene prediction
RNA processing
Mature mRNA
Gm3 AAAAAAA
translation
Nascent polypeptide
Comparative gene prediction
folding
Active enzyme
Functional identification
Function
Reactant A
Product B
150 /39
Annotation & functional genomics

La anotacin del genoma es esencial en el desarrollo de estrategias funcionales (functional genomics)
proteome based functional genomics
RNAi phenotypes
Gene Knockout
Expression Microarray
151 /39
Buscar genes en el genoma

RNA
ribosomal RNAs tRNAs
Anotacin: busqueda de genes

BLASTN tRNAscan
protein coding
ab initio gene prediction ORFs, codon usage, frecuencia de hexmeros, modelos, etc.) similarity BLASTX, otros
Buscar regiones no codificantes

regulatorias
ab initio similarity Gibbs sampling patterns, profiles
repetitivas
similarity ab initio
En todos los casos
literatura!
152 /39
Integrar resultados
BLASTX BLASTN Secuencia genoma RepeatMasker tRNASCan gene prediction
flatfiles DB
Visualizacin
153 /39
Genome annotation: C. elegans
154 /39
Resumir resultados de anlisis

Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado Prcticamente cualquiera de los anlisis que se realizan sobre DNA o protenas para anotar un genoma pueden resumirse en:
secuencia cromosoma1 start end 1723 3456
Este formato bsico es la base del formato GFF (Sanger)

secuencia Contig1 Contig1 Contig1 metodo similarity cds similarity programa blastx glimmer blastn start 100 85 80 end 1000 1201 1300 frame +1 +1 . score 132 1321 136 extra gi|12345|AF34093 casein kinase ... ORF0001; overlap with ORF0002 gi|54321|AF09990 complete genome
155 /39
Anotacin: herramientas
Artemis
http://www.sanger.ac.uk/Software/Artemis Permite visualizar
secuencia, con sus traducciones virtuales (6) tracks de anotacin (entries) plots (built-ins y creados por el usuario)
Lee secuencias en formato FASTA, EMBL, GenBank Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST
156 /39
Artemis: main window
Sequence view
Sequence view
Feature list
157 /39
Artemis: plots
%GC plot
AA properties plot para un CDS
158 /39
Artemis: display de anlisis

Frameplot BLASTX BLASTN
159 /39
Artemis:
160 /39
Artemis: zoom
161 /39
Artemis: spliced genes
162 /39
Artemis: comparar anlisis
163 /39
ACT: Artemis Comparison Tool

Nature Genetics 35 (2003) Comparative analysis of the genome sequences of Bordetella pertussis, Bordetella parapertussis and Bordetella bronchiseptica.
164 /39
ACT: Artemis Comparison Tool
165 /39
Otras estrategias
Artemis se usa para anotar genomas bacterianos o para pequeos proyectos (csmidos, BACs, etc.) En genomas ms grandes, la tendencia es a distribuir la anotacin Los tracks de anotacin son generados en distintos centros Ejemplo: UCSC Genome Browser (genoma humano, ratn).
166 /39
Anotacin automtica: TrEMBL

La anotacin de TrEMBL (translated EMBL) se hace por mtodos automticos.
Requerimientos para anotar automticamente
Una base de datos de referencia bien anotada (ej. Swissprot) Una base de datos que sea altamente confiable (en el sentido diagnstico) en la asignacin de protenas a grupos o familias (ej CDD, InterPro) Una serie de reglas de anotacin
167 /39
Transferencia directa de anotacin

Realizar una bsqueda en la base de datos de referencia y transferir la anotacin XDB Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la lnea DE del mejor hit
Target
168 /39
Anotacin a partir de mltiples fuentes

Generalmente se usa ms de una base de datos externa XDB Hay que combinar los resultados Target
169 /39
Conflictos
Contradiccin Inconsistencia Sinnimos Redundancia
170 /39
Traduccin de anotaciones
Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar
XDB
Target
171 /39
Traducciones: algunos ejemplos

ENZYME TrEMBL CA L-ALANINE=D-ALANINE CC -!- CATALYTIC ACTIVITY: L-ALANINE= CC D-ALANINE. PROSITE TrEMBL /SITE=3,heme_iron FT METAL IRON Pfam TrEMBL FT DOMAIN FT ZN_FING zf_C3HC4 C3HC4-TYPE
172 /39
Requerimientos de un sistema de anotacin automtica

Correccin Escalable Actualizable Poco redundante Completo Vocabulario controlado
173 /39
Cmo funciona?
Una protena en TrEMBL es reconocida como un miembro de cierto grupo o familia de protenas Este grupo de protenas en Swissprot comparten entre s partes de la anotacin La anotacin comn es transferida automticamente a la protena en TrEMBL y marcada como annotated by similarity
174 /39
Anotacin: evidencias
Las anotaciones suelen estar acompaadas de TAGS que indican la evidencia en la que se basa la anotacin Ejemplos de algunos TAGS utilizados en TrEMBL: EMBL: la informacin fue copiada del original (EMBL/GenBank/DDBJ) TrEMBL: anotacin modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot Curator: juicio del curador Similarity: por similitud con otra secuencia, a juicio del curador Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. Opinion: opinin emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental Rulebase: informacin derivada del uso de una regla de anotacin automtica SignalP: programa de prediccin
175 /39
Anotacin: manual vs automtica

La anotacin de un genoma ocurre en etapas
anotacin automtica
correr todos los anlisis sobre el genoma generar un primer borrador con todos los datos organizados. Por ejemplo en pginas web o integrando todos los datos en un display unificado (Artemis)
anotacin manual: cura de los datos

una persona (curador) revisa la anotacin, gen por gen, verificando la anotacin automtica, agregando anotaciones manuales, corriendo eventualmente algn programa particular
176 /39
Qu herramientas se usan?
Oakridge Genome Annotation Channel
http://compbio.ornl.gov/channel
ENSEMBL
http://ensembl.ebi.ac.uk
Artemis
http://www.sanger.ac.uk/Software/Artemis
GeneQuiz
http://www.sander.ebi.ac.uk/genequiz
Genome browsers: varios

cada consorcio/proyecto desarroll el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans),
177 /39
Anotacin: fuentes de error

Transferencia transitiva de anotaciones
gen1 mal anotado como casein kinase presente en los bancos de datos gen2 con alta similitud con gen1, resulta anotado como casein kinase
Solucin:
usar bases de datos curadas: por ejemplo Swissprot revisar la anotacin de ms de un hit verificar que las anotaciones de todos los hits concuerden
178 /39
Anotacin confiable: proyecto HAMAP
High-quality Automated Microbial Annotation of Proteomes

Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute) CNRS Lyon INRIA Grenoble INRA Toulouse CNRS Marseille Pasteur Institute
179 /39
HAMAP
Hay muchos genomas bacterianos terminados, pero va a haber muchos ms en los prximos aos El nmero de protenas bacterianas proveniente de estos genomas llegar al milln muy rpidamente Pero el anlisis funcional y una caracterizacin detallada van a exsitir slo en unos pocos casos: todas las protenas de organismos modelo (E. coli, B. subtilis) protenas involucradas en patognesis (inters mdico e industrial) protenas involucradas en vas metablicas especficas (inters biotecnolgico)
180 /39
Prioridades del proyecto HAMAP

Anotacin de protenas hurfanas Pre-anotacin de protenas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH) Anotacin de alta calidad de protenas pertenecientes a familias bien caracterizadas Anotacin manual de protenas caracterizadas experimentalmente en ese organismo Anotacin manual de protenas no caracterizadas que muestren similitud con otras protenas
181 /39
Estrategia HAMAP
ORFans
182 /39
HAMAP: ORFans
No tienen similitud con otras protenas (excepto tal vez otras protenas de organismos muy cercanos) No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) Qu se hace:
Prediccin de seales Prediccin de regiones trans-membrana Prediccin de coiled-coils Anotacin de repeticiones
183 /39
HAMAP: ORFan antes
184 /39
HAMAP: ORFan despus
185 /39
HAMAP: large/complex families
186 /39
HAMAP: anotacin automtica

Transferencia automtica de anotacin
Usando reglas especficas para cada famila de protenas Usando reglas especficas para un organismo particular
La transferencia de anotacin puede ir acompaada de advertencias para el curador

Por ejemplo:
WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB)
187 /39
HAMAP: ejemplo reglas
188 /39
HAMAP: Escherichia coli

De acuerdo al anlisis original: 4286 protenas
60 protenas no detectadas (casi todas < 100 aa) 120 muy probablemente no existan 50 pares o tripletes de ORFs tuvieron que ser fusionados 719 con errores en la asignacin del codn de inicio ~1800 todava sin caracterizacin bioqumica (aproximadamente una asignacin funcional por semana)
189 /39
Chromosome browsers
UCSC Genome Browser
provee un display rpido de cualquier regin genmica con varios tracks de anotacin alineados al genoma Por el momento slo: Human & Mouse
Annotation tracks
genes conocidos (RefSeq, GenBank) predicted genes (Genscan, FGENESH, GeneID, Acembly) spliced ESTs CpG islands assembly gaps cobertura bandas cromosmicas elementos repetitivos etc
190 /39
191 /39
UCSC Genome browser

UCSC slo genera la mitad de los tracks El resto proviene de la comunidad biomdica El Genome Browser es una herramienta de visualizacin No saca conclusiones! Simplemente integra en forma grfica toda la informacin que posee sobre una regin, dejando la exploracin y la interpretacin al usuario.
192 /39
UCSC Genome Browser: gene expression
193 /39
UCSC Genome browser: alternative splicing
194 /39
UCSC Genome browser: complex transcription
195 /39
UCSC Genoma browser: user tracks

Ustedes pueden agregar sus propios tracks Pueden ser pblicos o privados No necesitan saber programar Tienen que proveer informacin en formato GFF (u otros similares: GTF, BED) chrom start end [name strand score] chr1 1302347 1302357 SP1 + 800 chr1 1504778 1504787 SP2 980
196 /39
Acknowledgements
Nicola Mulder, EBI Daniel Lawson, Sanger Centre
197 /39
Bioinformtica
Herramientas y aplicaciones
Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn
2004
198 /39
Entender la informacin gentica

La informacin gentica es redundante La informacin estructural es redundante Un gen, muchas funciones La informacin gentica es unidimensional, pero la funcin depende de la estructura tridimensional El reemplazo de 40% de los residuos de una protena no afectan la funcin
199 /39
Qu herramientas provee la computacin cientfica

Machine Learning (inteligencia artificial, aprendizaje automtico)
Distintos mtodos entrenables para reconocer o aprender disintas cosas:
Neural Networks Markov Models and Hidden Markov Models Nearest neighbor Otros
Prediccin en protenas
SignalP, Net-O-Glyc, TMHMM, TmPred, PSORT
Gene finding, Gene prediction

Genscan, Glimmer, GeneMark, FGENESH
Prediccin de estructura secundaria

nnpredict, PHDSec,
200 /39
Qu herramientas provee la computacin

Bases de datos
Organizar datos de manera eficiente Posibilidad de realizar consultas complejas, integrando y cruzando datos.
Entrez, SRS, FlyBase Oracle, Sybase, MySQL, PostgreSQL
Teora de la informacin
Medir la cantidad de informacin (en bits) Incertidumbre
Sequence Logos
Algoritmos
Mtodos para tratar con distintos tipos de problemas Una vez que se aprende como solucionar un problema particular, la solucin se generaliza a toda una clase de problemas similares
Dynamic programming Qu problema resuelve este algoritmo? El problema de encontrar el mejor camino entre muchos posibles. utilizado en mtodos de alineamiento de secuencias (Smith-Waterman, Needleman-Wunsch, BLAST, FASTA), en mtodos de prediccin de genes, en ruteo de llamadas telefnicas a travs de distintas centrales, etc. 201 /39
Bases de datos: conceptos bsicos

Qu es una base de datos? Cmo colecciono los datos? Una coleccin de datos Decisin del usuario. Diseo de la base de datos.
Puedo usar:
Procesador de texto? (Word) Si. Permite slo bsqueda y ordenamiento simples. Tambin. Como los datos estn en columnas independientes, se puede ordenar en formas ms complejas. Las bsquedas siguen siendo simples. Ideal. Permite representar los datos en formas complejas. Flexible para reordenar y buscar con distintos criterios
Planilla de Clculo? (Excel)
Un sistema de manejo de base de datos (Database Management System, DMS)
202 /39
Un experimento en la computadora no es distinto de cualquier experimento en la mesada:

Un experimento bioinformtico
los resultados deben contestar una pregunta concreta deben ser reproducibles por otra persona que utilice el mismo mtodo
Identificar el problema
cul es el mecanismo cataltico de la enzima X?
Identificar las herramientas necesarias para resolver el problema

bsquedas de secuencias similares, alineamientos mltiples, deteccin de profiles y motivos, modelado de la estructura tridimensional, evaluacin del modelo
Definir criterios de satisfaccin (xito del experimento)

Prcticamente todos los mtodos computacionales producen resultados. Una bsqueda utilizando BLAST casi siempre produce algn hit Es necesario distinguir resultados significativos del ruido para no terminar comparando superoxido dismutasas con alcohol dehidrogenasas. Hay que entender cmo funcionan los programas, en qu algoritmos estn basados, que puntos dbiles tienen, etc.
203 /39
Un experimento bioinformtico
Seleccionar el set de datos apropiados
En el laboratorio, los materiales y reactivos son objetos fsicos necesarios para realizar un experimento. Generalmente uno sabe cuando fueron preparados, quien los preparo, como fueron preparados, etc. En bioinformtica el mismo tipo de informacin es esencial. Las fuentes de informacin (bases de datos, por ej), fecha de ultima actualizacion, el crtiterio y el metodo utilizado para extraer los datos que van a ser utilizados en el experimento
El costo de un proyecto bioinformtico es bajo una vez que cubierto el gasto inicial en computadoras (y eventualmente software)
204 /39
Un ejemplo concreto
Un investigador interesado en estudiar genes en involucrados en la interaccin hospedador-parsito, con especial inters en identificar aquellos productos que sean secretados Un sitio web reporta los resultados de un anlisis sistemtico de expresin (usando microarrays) de todos los genes del genoma en todos los estados del ciclo de vida del parsito El investigador puede bajar un archivo con un resumen de estos experimentos Las secuencias de todas las protenas codificadas por el genoma se encuentran disponibles en una base de datos. Lo que se necesita es contar con la capacidad de identificar genes que se expresen en los estados del ciclo de vida que ocurren en el hospedador y extraer las secuencias de estos genes de la base de datos En ultima instancia el objetivo es analizar las secuencias de inters usando SignalP para predecir la posible presencia de un pptido seal
205 /39
Cuestiones a tener en cuenta:

Podemos hacer el trabajo a mano
Abrimos el resumen con los datos de los experimentos con microarrays en un procesador de texto buscamos los genes que muestran expresin en el estadio de inters Construimos una lista de genes (accession numbers) Luego vamos a nuestra base de datos con secuencias genmicas y sus traducciones y buscamos una por una las secuencias El ultimo paso es pasar todas las secuencias a un formato que entienda SignalP y ingresarlas una por una en el formulario correspondiente.
Hay tres problemas evidentes:

Si el nmero de genes que se expresan en nuestro estadio de interes es ms que unos cuantos el trabajo se vuelve tedioso y ms que nada lento por el tiempo que insume Peor aun, cada vez que aparezcan nuevos resultados de microarrays o se actualicen, hay que repetir todo el procedimiento El proceso de abrir el resumen con datos de microarrays (o la base de datos de genes) en un procesador de textos puede no ser factible si el tamao de los archivos excede los 5 o 10 MB
206 /39
Programacin en biologa
Cualquier persona que tenga experiencia en el diseo y llevado a cabo de experimentos para responder una pregunta puede programar una computadora Un experimento en el laboratorio comienza con una pregunta que evoluciona hacia una hiptesis testeable Finalmente el experimento sirve para afirmar o descartar una afirmacin En la computadora el programa que uno escriba debe estar diseado de manera de producir resultados que respondan a este tipo de afirmaciones Aprender un lenguaje de programacin puede resultar un desafo no trivial, pero es similar a aprender a utilizar una nueva herramienta, tecnologa u otro lenguaje (ingls, francs)
207 /39
Programacin en biologa
Ejemplos simples:
automatizar tareas identificar una o ms tareas que uno quiere realizar escribir un programa que las realice en forma automtica
Analizar todas las protenas de un genoma y seleccionar aquellas que sean (o parezcan) proteinasas
Un archivo con todas las secuencias Una base de datos de proteinas (Swissprot, GenPept) Un programa para buscar secuencias similares en bases de datos (BLAST) Una serie de instrucciones a seguir (un protocolo)
208 /39
Automatizar bsquedas con BLAST

Secuencias
BLAST
NO
Significativo?
SI
NO
Es una proteinasa?
SI
Guardar
209 /39
Automatizar BLAST
Muy lindo el diagrama, pero: cmo se hace? Por cada secuencia de una lista de secuencias hay que:
correr la comparacin (BLAST) contra una base de datos analizar el reporte que genera el programa y extraer dos tipos de datos:
score, expect, identidad, similitud (algn criterio cuantitativo que me sirva para tomar una decisin) descripcin de la secuencia obtenida de la base de datos
>gi|32172429|sp|P25807|CYS1_CAEEL Gut-specific cysteine proteinase precursor >gi|32172419|sp|P07268|PRZN_SERSP Serralysin precursor (Extracellular metalloproteinase) (Zinc proteinase)
210 /39
Programacin
Todo lenguaje de programacin provee construcciones para tomar decisiones:
if A then do B, else do C if A > 100 then continue else exit
Algunos lenguajes de programacin proveen mtodos para ejecutar otros programas

salir al sistema operativo, ejecutar el programa X y tomar el output blast secuencia vs swissprot system( blast -i secuencia -d swissprot )
Lo ms dificil: analizar el output y tomar los datos de inters

para poder tomar decisiones (hacer comparaciones) tenemos que tener los datos en variables
211 /39
Reportes de BLAST
Un reporte de BLAST tal como aparece en un navegador o al ejecutar el programa en la lnea de comando (Unix) es basicamente un archivo de texto (un archivo plano o flatfile) Ningun reporte es igual a otro. Sin embargo hay patrones similares (la apariencia de hecho es similar). Tenemos que entrenar a nuestro programa para reconocer patrones:
la primer linea contiene informacin sobre el programa la quinta lnea contiene informacin sobre la secuencia utilizada para la bsqueda la dcima lnea contiene informacin sobre la base de datos la lnea que comienza con > indica el comienzo de la descripcin de un hit etc.
212 /39
Anatoma de un reporte de BLAST

Header
Programa
$programa = TBLASTN $version = 2.2.6
Query
$id = GROU_DROME $accession = P16371 $descripcion = Groucho protein $longitud = 719
Base de datos
$database = GenBank non-mouse $secuencias = 8104717
213 /39

Hit List
214 /39

High scoring pairs (HSPs)
Subject
$gi = 132150256 $gb = CB923560 $version = 1 $desc = TcAmaPl03Run01_C08 Longitud = 653
HSP info
$score = 58.9 $expect = 7e-10 $identity = 24% $similarity = 43% $frame = +1
215 /39

Footer
Estadsticas para esta corrida

Base de datos Parmetros estadsticos Matriz Penalties Detalles sobre lo que hizo el algoritmo
216 /39
Nuevos formatos
Los reportes estaban diseados con un usuario (humano) en mente
Formato no estructurado Ideal para lectura
Cada vez ms los reportes que producen distintos programas se encuentran en formatos estructurados ms fciles de analizar desde el punto de vista de la computadora
XML ASN.1 Tabulado
Estos formatos no son amigables para un humano (no son fciles de leer)
217 /39
Representacin de la informacin
flatfiles
Ayer
procesamiento
resultados
218 /39
Representacin de la informacin
flatfiles
Hoy
procesamiento
DB resultados
219 /39
Analizando un reporte de BLAST

Nuestro programa ya ley el reporte Y almacen los valores que le pedimos en distintas variables Ahora podemos hacerle hacer lo que querramos:
(en pseudocdigo):
if $score < 100 { read next report } else { print $accession } if $description =~ proteinase { print $accession} else { read next report } if $score < 100 AND $description =~ proteinase { print $accession } else { read next report }
220 /39
Mdulos de software reusables

Resumiendo:
nuestro programa tiene que poder leer el reporte (FACIL) identificar dentro del reporte distintos elementos y almacenarlos en variables (MAS COMPLICADO) tomar decisiones en base a los valores contenidos en las variables y realizar acciones (imprimir algo en pantalla, almacenar datos en un archivo, base de datos, etc.) (Criterio del usuario)
El criterio del usuario es lo que va a hacer que el programa sirva para un fin u otro Es evidente que los pasos 1 y 2 van a ser necesarios para cualquier programas que intenten procesar reportes de BLAST
solo hay que programarlos una vez modulos reusables (subrutinas)
221 /39
Bibliotecas de modulos reusables

Perl, Python, Java, C
en general todos los lenguajes proveen bibliotecas de mdulos reusables el mdulo contiene cdigo que realiza ciertas operaciones no es necesario saber como funciona internamente el mdulo para poder usarlo solo necesitamos saber que datos necesita (por ejemplo: una secuencia) y que resultados produce (un valor: 135, una respuesta: SI/NO)
En el caso de aplicaciones biolgicas

BioPerl BioPython BioJava Otros
222 /39
Pipelines
Qu es un pipeline?
Una lnea automatizada de anlisis
Seq
BLAST
Pfam
TMHMM
SignalP
etc
Fbrica de resultados
Base de datos
Almacenamiento
CGI Integracin Y Visualizacin
Web Page 223 /39
Pipelines: ejemplos
Sistemas de anotacin automtica de genomas
Ensembl - http://www.ensembl.org UCSC Genome Browser - http://genome.ucsc.edu ORNL Genome Channel - http://compbio.ornl.gov/channel HAMAP - http://us.expasy.org/sprot/hamap
224 /39
Estrategia HAMAP
ORFans
225 /39
226 /39
227 /39
228 /39
Consideraciones prcticas
La bioinformtica es ms barata que el trabajo en el laboratorio El equipamiento es significativamente ms barato que el de un laboratorio de biologa molecular Los materiales (programas) y reactivos (datos) son en general gratuitos y libremente accesibles
Almacenamiento
La cantidad y tipos de bases de datos que se planean instalar (ejemplo: GenBank actualmente requiere 120 GB) La cantidad y tipo de datos que se planean generar
Memoria y Procesador
Los requerimientos de los distintos mtodos BLAST es principalmente memoria-intensivo HMMER es principalmente procesador-intensivo
229 /39
Consideraciones prcticas
Backup
CD Cinta Un segundo disco
Software
Sistema operativo: unix Paquetes: BLAST, FASTA, etc Software de manejo de bases de datos: MySQL, PostgreSQL Lenguajes de proramacin: Perl, Java, Python, C, C++
Para un laboratorio chico una PC con un disco un poco ms grande y un poco ms de memoria que lo comn pueden ser suficientes
230 /39
Con respecto a la protozoologa

Los genomas de varios protozoarios estn terminados o cerca de estarlo
Plasmodium falciparum, berghei, chabaudi, knowlesi Toxoplasma gondii Trypanosomatidos (T. cruzi, T. brucei, L. major)
Algunos otros se encuentran en distintos estados

Entamoeba hystolytica Theileria annulata Babesia bovis Eimeria tenella
En algunos casos hay proyectos post-genmicos en curso o recin comenzando

Proteomics Microarrays RNAi
231 /39
Bibliografa sugerida
Developing Bionformatics Computer Skills
OReilly & Associates
Bioinformatics. Sequence and genome analysis.

CSHL Press
Bioinformatics, a practical guide to the analysis of genes and proteins

Wiley InterScience
232 /39
233 /39
Bsqueda en bases de datos

Similitud, homologa. Mtodos heursticos.
234 /39
Bsqueda en bases de datos

Perspectiva general
235 /39
Bsqueda en BD frente al alineamiento de secuencias

Una de las aplicaciones ms conocidas es buscar [nuevas] secuencias en una BD. Esto suele hacerse alineando la secuencia contra todas las de la BD.
Proceso parecido al alineamiento por parejas. Objetivos distintos: interesa ms la puntuacin que el alineamiento en si. Los parmetros que mejor distingan entre secuencias relacionadas y las que no lo estn no son necesariamente los mismos que proporcionan el mejor alineamiento.
236 /39
Bsqueda en BD y prediccin de la funcin de una protena o un gen

La bsqueda de secuencias en bases de datos puede verse como un proceso de descubrimiento cientfico en el que.
Se utiliza la informacin acumulada. Para descubrir propiedades de nuevas secuencias.
Obviamente como en toda investigacin.

Es preciso proceder con meticulosidad y racionalidad. Un proceso incorrecto o descuidado puede llevar a conclusiones errneas o a omitir hallazgos.
237 /39
La evolucin es un proceso conservativo
Puede predecirse la funcin de una protena o un gen?

Cambian los residuos en una secuencia Pero se conservan las propiedades bioqumicas y los procesos fisiolgicos
Si somos capaces de encontrar en la BD secuencias homlogas a la secuencia problema concluimos que la nueva secuencia debe de tener propiedades similares a la secuencia conocida
238 /39
Homologa y similitud
Para inferir las propiedades de una nueva secuencia precisamos de secuencias homlogas a sta. Sin embargo la homologa no es observable, solo la similitud. Debemos pues determinar
Cual es la mejor forma de medir la similitud. Como determinar si de la similitud observada puede inferirse la homologa.
239 /39
Fuentes de informacin para la bsqueda en bases de datos
240 /39
Fuentes de informacin
La bsqueda en BD se fundamenta en tres tipos distintos de fuentes de informacin [conocimiento previo].
El sistema de puntuacin con el que se cuantifica el grado de similitud. El algoritmo utilizado para realizar las comparaciones. La base de datos en donde se realiza la bsqueda.
241 /39
El sistema de puntuacin
La similitud se cuantifica con matrices de sustitucin (PAM, BLOSUM, etc). Se han obtenido analizando sustituciones conocidas de unos AA por otros entre secuencias con grados distintos de divergencia y conservacin de funcin.
Siempre es mejor usar una matriz adecuada que suponer sustituciones equiprobables. Distintos grados de divergencia requieren distintas matrices de puntuacin.
242 /39
El algoritmo de bsqueda
Cada algoritmo (S-W, FASTA, Blast).
Aprovecha de forma distinta la informacin. Imponiendo restricciones distintas sobre el modelo evolutivo.
SW: pocas restricciones.

Muy sensitivo pero poco selectivo. Lento.
FASTA/Blast: restricciones heursticas.

Pueden resultar en menor sensibilidad. Ms selectivos y mucho ms veloces.
243 /39
La base de datos
Es la fuente ms evidente de conocimiento preexistente. Una bsqueda adecuada en BD puede ahorrar muchas horas de trabajo en el laboratorio.
244 /39
Suposiciones en que se basa la bsqueda en las BD

La bsqueda en BD presupone que
Las secuencias buscadas tienen ancestros comunes con la secuencia problema. El camino evolutivo ms adecuado es el que presupone un menor nmero de cambios.
No todas las sustituciones son igualmente probables: Debemos usar matrices de sustitucin que las ponderen adecuadamente. Las inserciones y eliminaciones son menos probables que las sustituciones
245 /39
En la prctica
La eleccin del algoritmo de bsqueda influye en
La sensibilidad y La especificidad
de la bsqueda. La eleccin de la matriz de similitud determina el patrn y la cantidad supuesta de sustituciones en las secuencias que se espera descubrir en la bsqueda.
246 /39
Sensibilidad y especificidad
247 /39
Exitos y fracasos en la bsqueda

Supongamos que conociramos TODAS las coincidencias entre una secuencia problema y una base de datos. En este caso podramos distinguir si, dada una coincidencia, sta es cierta o falsa. Esto nos lleva a distinguir entre.
Positivos verdaderos (True positives TP). Positivos Falsos . (False Positives, FP). Negativos Verdaderos (True Negatives, TN). Negativos Falsos (False Negatives, FN).
248 /39
Verdaderos/Falsos Positivos/Negativos
Realidad Deteccin Positivo: Positivo verdadero Se detecta coincidencia Falso positivo Coincidencia Cierta Coincidencia Falsa
Negativo: No se detecta la coincidencia
Falso Negativo
Negativo verdadero
249 /39
Sensibilidad frente a Especificidad (Selectividad)

Sensibilidad= TP /(TP+FN) % de coincidencias bien identificadas (% positivos entre las coincidencias) Especificidad = TP / (TP+FP) % de positivos correctos (% de correctos entre los positivos)
250 /39
Si en una bsqueda colocamos el umbral alto

Cuesta localizar los positivos Pocos FP Pero tendremos ms falsos negativos
El compromiso entre sensibilidad y especificidad
Es decir un umbral alto suele conllevar una baja sensibilidad y una alta especificidad AL reves si colocamos un umbral bajo
Tendremos muchos positivos Tambien ms FP Pero habran menos falsos negativos
Es decir un umbral bajo conlleva una alta sensibilidad y una baja especificidad
Idealmente:mirar de lograr un equilibrio, O en todo caso decidir que error nos interesa ms controlar en cada situacin
251 /39
< 0.05 < 1.00
Low sensitivity, many false negatives
High selectivity, few false positives

252 /39
High sensitivity, few false negatives Low selectivity, many false positives
< 1.00
253 /39
Algoritmos de bsqueda
De la programacin dinmica a los mtodos heursticos
254 /39
Busqueda basada en PD
Una forma razonable de buscar una secuencia en una base de datos es realizando alineamientos locales de sta contra todas las de la base de datos Algoritmo: Smith-Waterman
Encuentra una solucin ptima Slo impone una restriccin: Puntuacin > 0 Proporciona la mejor sensibilidad
255 /39
La busqueda basada en PD proporciona una gran sensibilidad pero

Es poco especfica Pocos falsos negativos: Fcil perder las homologas remotas Es necesariamente lenta.
Inconvenientes de la bsqueda basada en SW
Alternativa: Mtodos heursticos

Aproximaciones a SW con restricciones que:
Aumentan la especificidad (aunque baja la sensibilidad) Sn mucho ms rpidas
256 /39
FASTA
Aproximacin a S-W que utiliza dos heursticas para ir ms rpido a costa de perder sensibilidad Heursticas : Restricciones al modelo evolutivo implicito en la comparacin de secuencias
Tamao de palabra (Word size) Tamao de ventana (Window size)
257 /39
Tamao de palabra en FASTA

La comparacin entre secuencias no se realiza residuo a residuo sino por grupos de residuos,
2 residuos en AA. 6 bases en DNA.
A mayor tamao de palabra menor es la sensibilidad y mayor la especificidad. El efecto de variar el tamao de palabra se muestra en los dot-plots: A mayor tamao menor numero de coincidencias.
258 /39
Tamao de palabra=1
Ruidoso Es dificil localizatr las zonas de similitud
259 /39
Tamao de palabra=2
Se ven las regiones candidatas Aunque se pierden algunas coincidencias
260 /39
Tamao de palabra=3
Sin rudo pero Apenas sin coincidencias
261 /39
BLAST
Aproximacin similar a la anterior basada en aparear fragmentos cortos que ir extendiendo para buscar alineamientos locales Utiliza un modelo estadstico para encontrar los mejores alineamientos entre la secuencia desconocida y la BD HSP: High-scoring Segment Pair
La unidad fundamental de trabajo con BLAST Corresponde a una regin de mxima similitud entre dos subsecuencias (palabras, W) con una puntuacin ms grande o igual a una puntuacin umbral, T
262 /39
BLAST: Algoritmo
1. 2. 3. Compilar todas las palabras de medida n que den una puntuacin superior al umbral (HSP) Comparar estas palabras con las de la BD para identificar las identidades exactas (hits) Extender las palabras que han superado el umbral, en las dos direcciones mirando de mejorar la puntuacin
La extensin acabar si baja la puntuacin por debajo de otro umbral, si llega a cero o si se acaba la secuencia
1.
Listar los segmentos extendidos de puntuacin ms alta
263 /39
Algoritmo de BLAST (1)
264 /39
265 /39
266 /39
5. Significacin de los resultados
267 /39
E-values, p-values y bit-scores

Dado que los programas de bsqueda heurstica tan slo encuentran coincidencias aproximadas conviene poder cuantificar cuan aproximadas son Esto se hace mediante distintos estadsticos
E-value P-value Bit-scores
268 /39
E-values
Dado un High Scoring Pair el E-value es el nmero esperado de puntuaciones iguales o superiores a las del HSP dado Un E-value de 10 para una coincidencia significa, que, en una base de datos del mismo tamao en la que se ha realizado la bsqueda, se podra esperar encontrar hasta 10 coincidencias con la misma puntuacin o similar, simplemente por azar El E- value es la medida de corte ms utilizada en las bsquedas en bases de datos. Slo se informa de las coincidencias que superan un nivel mnimo El E-value oscila entre 0 y cualquier valor
269 /39
P-values
Refleja la probabilidad de obtener por azar una puntuacin superior o igual a la observada Se relaciona con el E-value en que: P=1-e-E Un P-valor de 0.03 significa que hay una probabilidad (>=) 3% de encontrar una puntuacin superior a la observada simplemente por azar Si E<0,01 Los P-valores y los E-valores son similares Los p-valores oscilan entre 0 y 1
270 /39
Bit scores
El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamao de la base de datos y el sistema de puntuacin Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlas
271 /39
Score
E-Value
272 /39
< 0.05 < 1.00
273 /39
274 /39
Bases de datos
275 /39
Tipos de bases de datos

Primarias
Principales depsitos de informacin. Datos de secuencia o estructura. Pueden contener datos adicionales.
Derivadas
Preparadas a partir de primarias. Informacin adicional procesada manual o automticamente
276 /39
Bases de datos biolgicas

Primarias
Informacin suministrada por trabajo experimental La institucin receptora organiza la informacin pero no aade nada Ejemplo EMBL/GenBank
Derivadas
Anotadas a posteriori Los datos son revisados, corregidos y se aade informacin bibliogrfica Ejemplo SWISS-PROT Derivadas computacionalmente Ejemplo PFAM Combinaciones especficas
Molecular Database Collection 2006 update
277 /39
Principales Tipos de Bsqueda

Acceso directo a la base de datos
Normalmente se obtiene una informacin ms elaborada
Sistemas de bsqueda global

SRS, NCBI Entrez Automatizado, uniforme. Permite una visin global de la informacin (varias BD simultneamente)
Acceso programtico (bioXXX, servicios Web, taverna)
278 /39
Bases de datos de secuencia

Contienen todas las secuencias obtenidas experimentalmente
DNA genmico cDNA, RNA EST Proyectos genoma (HTS) Protena ...
279 /39
Origen de la informacin
Trabajo individual de investigacin
Produce informacin de gran calidad en cantidades muy limitadas
Secuenciaciones masivas: EST, HTS, proyectos genoma.

Producen mucha informacin de una calidad inferior, en algunos casos dudosa.
280 /39
Principales repositorios
DNA/RNA
(EMBL, Genbank, DDBJ), RefSeq
Protena
Uniprot (Swissprot/TrEMBL), PIR
281 /39
282 /39
283 /39
284 /39
TEXT
285 /39
286 /39
287 /39
288 /39
Anotaciones
Traduccin
http://www.expasy.org
289 /39
290 /39
Informacin cruzada
La mayora de archivos de bases de datos incluyen enlaces a otras bases de datos
Secuencia DNA Secuencia protena Secuencia Estructura 3D Secuencia Datos bibliogrficos ....
291 /39
292 /39
293 /39
294 /39
295 /39
Busqueda integrada. SRS
296 /39
297 /39
Bsqueda integrada. Entrez
http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html
298 /39
Acceso prog. Web Services

String Uniprot ID PDB ID getHeadersfromPDBId PDBText
StringtoAAS
getAASfromUniprot getAASfromPDBId getPDBFilefromPDBId
Input/output Service Output AAS: AminoAcidSeq
AAS
getAASfromPDBText
PDBText
runPSIBlastfromAAS BLASTText
runFSOLVfromPDBText
runPHDfromBlastText PHDText
runPMUTHSfromBlastText PMUTText FSOLVText

299 /39
Notas de prudencia
Las bases de datos pueden contener errores Distintas versiones (releases) pueden contener diferencias significativas Todos los grupos bioinformticos publican bases de datos, no existe control
300 /39

Class 70 Sequence Alignment

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Class 70 Sequence Alignment

Uploaded by

Copyright:

Available Formats

INTRODUCCION A TECNICAS DE MINERIA DE DATOS

Mg. Samuel Oporto Daz

Mapa Conceptual Minera de Datos

Data Data Data Objetivo Pre-procesada Transformada

Muestreo y Seleccin Muestreo Seleccin

Modelado Descripcin Clasificacin Regresin Agrupamient o Asociacin Secuenciaci n

Dos protenas distintas pero con una regin o dominio similar

Un mRNA y el gen correspondiente: deteccin de la organizacin gnica

GATTACCA GATGACCA GATTACCA

GATTACCA GATTATCA GATTACCA

GATTACCA GATGACCA GATTACCA

GATTACCA GATTATCA GATTACCA

GATCATCA GATTGATCA GATACCA

GATGACCA GATTACCA GATTACCA GATTATCA GATTACCA

GATCATCA GATTGATCA GATACCA

Cmo alineamos dos secuencias?

Definicin de alineamiento: tipos

Align BILLGATESLIKESCHEESE and GRATEDCHEESE

& CHEESE & CHEESE

Alineamientos buenos y malos?

Cmo decidir cul es el mejor?

Un primer ejemplo de scores

Puedo comparar scores?

2 - Extender un gap es menos costoso

Dot plots: introduccin

Dot Matrix Plot

Dot Matrix Plot

Dot Matrix Plot

Mdulos en orden Mdulos reversorepetidos

Dot plots: ejemplo

Tissue Plasminogen Activator (PLAT)

Dot plots: ejemplo (cont.)

Tissue Plasminogen Activator (PLAT)

Dot plots: path graphs

Path graphs son representaciones ms explcitas de un alineamiento.

Cada path es un alineamiento nico.

Path graphs: encontrar el mejor camino

Rutear una llamada telefnica desde NY a San Francisco

Dynamic programming: introduccin

Construir un alineamiento ptimo entre estas dos secuencias

Utilizando las siguientes reglas de scoring:

Dynamic programming: ejemplo

El objetivo encontrar la (path) ptimo

Dynamic programming: ejemplo (cont.)

Dynamic programming: paths posibles

Dynamic programming: scores: match

Dynamic programming: scores: mismatch G A T A C T A G A T T A C C A

Dynamic programming: scores: gaps

alineada con NADA

Dynamic programming: paso a paso (1)

Dynamic programming: paso a paso (2)

Recordar el mejor subpath que lleva a cada punto en la matriz.

Dynamic programming: paso a paso (3)

Recordar el mejor subpath que lleva a cada punto en la matriz.

Dynamic programming: paso a paso (4)

Recordar el mejor subpath que lleva a cada punto en la matriz.

Dynamic programming: paso a paso (5)

Recordar el mejor subpath que lleva a cada punto en la matriz.

Dynamic programming: paso a paso (6)

Recordar el mejor subpath que lleva a cada punto en la matriz.

Dynamic programming: paso a paso (7)

Recordar el mejor subpath que lleva a cada punto en la matriz.

Dynamic programming: best path

Dynamic programming: alineamiento obtenido G A T A C T A