Professional Documents
Culture Documents
ALINEAMIENTO DE SECUENCIAS
DHW
Data cruda
Patrones
Evaluacin y Entendimien to
DBMS
Texto
Limpieza de Datos Limpieza de datos Datos que no existen Datos no clasificados Identificacin de
Transformacin de Datos Reduccin de Dimensionalidad Creacin de Caractersticas Normalizacin de Datos Variables Correlacionadas
Reportes y Visualizacin
Tabla de Contenido
Introduccin Pre-procesamiento Reduccin de Datos Seleccin de Instancias Seleccin de Caractersticas Ejemplo Planteamiento del Problema Procedimiento de solucin Algoritmos Fuentes de Datos Diseo de Experimentos Resultados Experimentales 4 9 26 36 40 49 53 58 64 66 68
3 /39
INTRODUCCION
4 /39
PREGUNTAS
5 /39
Alineamiento de secuencias
Fernn Agero
Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn <fernan at iib.unsam.edu.ar>
6 /39
Anlisis comparativo
El alineamiento de secuencias es similar a otros tipos de anlisis comparativo. En ambos es necesario cuantificar las similitudes y diferencias (scoring) entre un grupo relacionado de entidades.
Finches of the Galpagos Islands observed by Charles Darwin on the voyage of HMS Beagle
7 /39
Para qu alinear?
Para poder comparar dos secuencias
Dos protenas o genes con funcin similar pero provenientes de distintos organismos
Analizar variacin, conservacin de residuos importantes para la funcin Detectar patrones que sirvan para deteccin diferencial (diagnstico)
8 /39
Homologa vs similitud
Homologa entre dos entes biolgicos implica una herencia compartida Homologa es un trmino cualitativo Se es homlogo o no se es Similitud implica una apreciacin cuantitativa o una cuantificacin directa de algn caracter Podemos usar una medida de similitud para inferir homologa
9 /39
Anlisis comparativo
Los algoritmos que alinean secuencias modelan procesos evolutivos
GATCATCA
Deriva de un ancestro comn a travs de cambios incrementales debido a errores en la replicacin del DNA, mutaciones, dao o crossing-over desigual.
GATTGATCA GAT_ACCA
insercin delecin
sustitucin
10 /39
Anlisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos
Slo las secuencias actuales son conocidas, las secuencias ancestrales se postulan.
11 /39
Anlisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos
GATTACCA
12 /39
Alineamientos
Qu es un alineamiento?
El procedimiento de comparacin de dos (o ms) secuencias de manera de lograr que una serie de caracteres individuales o patrones de caracteres que se encuentren en el mismo orden en ambas secuencias queden alineados verticalmente. AATTGGCCGTACGT AATTGGCCGTACGT
13 /39
Alineamientos locales:
G-ATESLIKESCHEESE GRATED-----CHEESE
or
G-ATES GRATED
GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC
0 mismatches, 5 gaps
GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC
3 mismatches, 1 gap
15 /39
16 /39
G-ATESLIKESCHEESE GRATED-----CHEESE
Usando otro sistema de score
Score (10 * 1) + (1 * 0) + (6 * (-1)) = +14 2) +4
17 /39
18 /39
Gap penalties
gap opening penalty = -5 gap extension penalty = -1
1- Abrir un gap es costoso
GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC
Penalty = 5 * (-5) + 6 * (-1) = -31
GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC
Penalty = 1 * (-5) + 6 * (-1) = -11
19 /39
C
A
Eje vertical: secuencia 2
G
0
T
0
A
1
C
0
C
0
G
0
T
0
20 /39
21 /39
22 /39
23 /39
24 /39
Similitud local
Dominios mezclados confunden a los algoritmos de alineamiento.
Mdulos en el factor XII de coagulacin y en el activador de plasmingneos tissue plasminogen activator (PLAT)
FXII
F2 E F1 E
Catalytic
PLAT
F1 E
Catalytic
F1,F2 E K Catalytic
Fibronectin repeats EGF similarity domain Kringle domain Serine protease activitiy
25 /39
72
PLAU PLAT
90 23
EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE
72
137 72
28 /39
El algoritmo para encontrar el mejor camino entre dos extremos y pasando por varios puntos se llama dynamic programming
29 /39
G A T A C T A G A T T A C C A
Match: Mismatch: Gap: +1 -1 -1
30 /39
G A T A C T A G A T T A C C A
31 /39
Los vrtices de cada celda se encuentran entre letras (bases). Needleman & Wunsch (1970)
G A T A C T A G A T T A C C A
Desde aqu
Hasta ac
32 /39
G A T A C T A G A T T A C C A
Cul es el ptimo?
33 /39
G A T A C T A G A T T A C C A
A alineada con A
Match = +1
34 /39
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).
35 /39
G A T A C T A G A T T A C C A
T alineada con NADA
Gap = -1
36 /39
G A T A C T A
-1 +1
G G
+1
G
-1
G
-1
G A T T A C C A
37 /39
G A T A C T A
-1 -2 -2 +1
G A T T A C C A
38 /39
G A T A C T A
-1 -2 +1 0 -2 0 +2
G A T T A C C A
39 /39
G A T A C T A
-1 -2 +1 0 -2 0 +2
G A T T A C C A
40 /39
G A T A C T A
-1 -2 -3 +1 0 -1 -2 0 +2 +1 -1 +1 +3
G A T T A C C A
41 /39
G A T A C T A
-1 -2 0 +2 +1 0 -1 -3 -4 -5 +1 0 -1 -2 -3 -1 +1 +3 +2 +1 -2 0 +2 +2 +3 -3 -1 +1 +1 +2
G A T T A C C A
42 /39
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -4 -5 -6 +1 0 -1 -2 -3 -4 -5 -6 -1 +1 +3 +2 +1 0 -1 -2 -2 0 +2 +2 +3 +2 +1 0 -3 -1 +1 +1 +2 +4 +3 +2 -4 -2 0 +2 +1 +3 +3 +2
G A T T A C C A
-7 -5 -3 -1 +1 +3 +2 +2 +4
43 /39
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -4 -5 -6 +1 0 -1 -2 -3 -4 -5 -6 -1 +1 +3 +2 +1 0 -1 -2 -2 0 +2 +2 +3 +2 +1 0 -3 -1 +1 +1 +2 +4 +3 +2 -4 -2 0 +2 +1 +3 +3 +2
G A T T A C C A
-7 -5 -3 -1 +1 +3 +2 +2 +4
44 /39
G A - TA CTA G A T TA CCA
G A T T A C C A
45 /39
46 /39
Gracias a
Hugues Sicotte (NCBI)
(slides DP, HMS Beagle)
Marcelo Viegas
(slides Dot Matrix)
47 /39
48 /39
49 /39
Alineamientos ptimos
Una vez fijado un sistema de puntuacin
Matriz de substitucin (Identidad, PAMxx, BLOSUM) Coste de la apertura y de la extensin de gaps
Se define el alineamiento ptimo entre dos secuencias como aquel cuya puntuacin s mxima entre todos los posibles alineamientos.
50 /39
51 /39
El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!
52 /39
53 /39
Tras alinear la primera subsecuencia ya no hace falta trabajar con ella Se pasa a la subsecuencia siguiente y as se va iterando hasta el final
el coste de cada paso es bajo el resultado final se obtiene de acumular los resultados de cada paso
54 /39
55 /39
T C C A T C G C A
TCGCA TC-CA
T C C A
56 /39
TCGCA T-CCA
T C C A s22
El significado de cada punto en la matriz es el siguiente: Todos los caracteres hasta el punto se han alineado, Puede ser, sin embargo que haya muchos caminos que llevan al punto
S1
G C A
T C C A s43
58 /39
S1
G C A
S2
C C A s43
59 /39
60 /39
Frmulas de clculo
Utilizamos la notacin siguiente:
S(i,j): Puntuacin para coincidencia o no Wk = a+bk : Penalizacin afn para un gap de longitud k P(0,0)=0; P(0,k)=-Wk, P(k,0)=-Wk,
P(i 1, j 1) + S (i, j ), celda anterior en diagonal P(i, j ) = maxmax{ P (i x, j ) Wx } , celdas anteriores de la fila x 1 max{ P (i, j y ) W }, celdas anteriores de la columna y y 1
61 /39
62 /39
Para reconstruir el alineamiento se busca, en la matriz de puntuaciones, la celda de la ltima fila o columna con la puntuacin ms grande Se escoge la misma celda en la matriz de reconstruccin y se va retrocediendo segn los valores indicados en sta Este procedimiento puede dar ms de un alineamiento ptimo
63 /39
Ejemplo
64 /39
0 0 0 0 ..
..
Si el mejor alineamiento hasta un cierto punto tiene un valor negativo es mejor empezar uno nuevo en lugar de extender el viejo
Complementos
66 /39
67 /39
Tornar
68 /39
El alineamiento es: A T C G A C G A
El alineamiento es: G C T T A G C T
X X X
69 /39
70 /39
Alineamiento de secuencias
71 /39
Contenido
1. Conceptos bsicos 2. Mtodos grficos de alineamiento 3. Puntuacin de los alineamientos
72 /39
1. Conceptos bsicos
73 /39
Introduccin
El alineamiento de secuencias es probablemente la herramienta ms utilizada en bioinformtica Su objetivo es alinear dos o ms secuencias (de DNA o protenas) de forma que puedan destacarse las regiones similares entre las molculas Al determinar si una secuencia desconocida es similar, en algn sentido, a secuencias conocidas (e idealmente de estructura y funcin conocidas) podremos identificarla y predecir su estructura y funcin
74 /39
Aplicaciones
Mediante un alineamiento global entre genomas se puede identificar repeticiones internas (G1 vs G1) o encontrar secuencias conservadas entre especies (G1 vs G2) Para predecir la funcin de una protena desconocida suele buscarse dominios funcionales comunes, mediante alineamientos locales entre dos secuencias mediante alineamientos mltiples entre conjuntos de secuencias Para buscar una secuencia en una base de datos para lo que alinea por separado distintos fragmentos y se cuantifica el grado de similitud alcanzado
75 /39
Mtodos de alineamiento
Existen muchos programas disponibles en WWW para alinear secuencias y buscarlas en las BD Si se pretende que el resultado de dichos programas sea til no deben ser cajas negras La correcta eleccin del programa ( mtodo) y de sus parmetros es muy importante
Una eleccin inadecuada puede conllevar la no deteccin de similitudes relevantes
76 /39
Alineamientos mltiples Algoritmos heursticos para bsqueda en bases de datos FASTA, BLAST
Dan soluciones buenas, no necesariamente ptimas 77 /39 Pueden ser mucho ms rpidos
Alineamiento de secuencias
Es el procedimiento consistente en comparar dos (pairwise) o ms (multiple) secuencias buscando los caracteres o patrones que aparezcan en el mismo orden en las secuencias Podemos distinguir entre alineamientos
Globales: Alineamiento de secuencias completas Locales : Alineamiento de subsecuencias
78 /39
Ejemplos de alineamientos
2 Secuencias no alineadas L G P S S K Q L N I T K S A Alineam iento global L G P S S L N I T T G G K K G G A S I S M R R I L W D G D N A
K K
Q S
T A
G G
K K
G G
S A
S M
R R
I L
W G
D D
N A
T A
G G
K K
G G
79 /39
LE
M A M P R A N F A
G C T L
N A B C A B B
L L L
E E E
80 /39
81 /39
Los Dotplots
Se obtienen disponiendo dos secuencias S y T en los mrgenes horizontal y vertical de una tabla y marcando con una cruz (un punto) todas las posiciones en que coinciden los caracteres de S y T Si son idnticas se observa una diagonal definida Cuanto ms diferentes sean, ms difusa ser La aparicin de patrones permite revelar estructuras en las secuencias
82 /39
Para facilitar la visualizacin, se opta a menudo por mostrar nicamente las diagonales formadas por un nmero mnimo de puntos (umbral de severidad) Si el umbral de severidad es alto Eliminamos el ruido de fondo (filtrado alto) Solo detecta similitudes muy altas Si es bajo Hay ruido de fondo Detecta relaciones distantes
83 /39
84 /39
85 /39
86 /39
87 /39
Sistemas de puntuacin
Para cuantificar la similitud entre dos cadenas, S y T, definimos sistemas de puntuaciones de forma que para cada alineamiento se pueda calcular un nmero tal que, a mayor valor, mayor sea su significacin (biolgica) Pueden ser esquemas sencillos como por ej Coincidencia , S[i]=T[i] 1, No coincidencia, S[i]#T[i] 0, Insercin de espacios (gaps) -1, o bien sistemas ms complejos basados en afinidades qumicas o en frecuencias de emparejamiento observadas
88 /39
Puntuacin de un alineamento
Una vez establecido un sistema de puntuacin la puntuacin de una pareja de caracteres s,t alineados se define como p(s,t) La puntuacin (score) de un alineamiento entre S i T:
p( S[i],T [i])
i
89 /39
Ejemplo
S= T= p(s,t) A A 1 T T 1 G A 0 C A 0 A G 0 G T 0 T = 2
S= T= p(s,t)
A A 1
T T 1
G A 0
C A 0
A -1
G G 1
T T 1 = 3
S= T= p(s,t)
A A 1
T T 1
G -1
C A 0
A A 1
G G 1
T T 1 = 4
90 /39
Ejemplo
P untuac in c on es quem a s im ple S= T= p(s ,t) T -1 T T 1 Y G 0 G Y 0 A A 1 P P 1 P W C P P W 1 0 0 S S 1 = 4
S= T= p(s ,t)
T T 1
T G 0
Y Y 1
G A 0
A P 0
P P 1
P W P W 1 1
C S 0
S -1 = 4
91 /39
92 /39
93 /39
94 /39
96 /39
97 /39
Comentario
Pocas inserciones o eliminaciones Bueno para protenas muy relacionadas Algunas inserciones grandes Bueno si puede que se hayan insertado dominios completos Muchas inserciones pequeas Bueno si se trata de protenas distantes
Grande
Pequeo
Pequeo
Grande
98 /39
99 /39
Un algoritmo para obtener el alineamiento ptimo es: Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento ptimo es el que obtenga el valor ms grande (puede haber ms de uno!) El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!
100 /39
101 /39
102 /39
103 /39
Bioinformtica y Genmica
Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn
2004
104 /39
105 /39
Informacin biolgica
106 /39
107 /39
Cada vez ms diversos estudios comienzan con el anlisis de bases de datos para luego formular hiptesis o disear experimentos Cada vez ms el trabajo de laboratorio termina en la acumulacin de colecciones masivas de datos que deben ser luego analizados
108 /39
109 /39
Genetic Information
Molecular Structure
Biochemical Function
Symptoms (phenotype)
110 /39
Bioinformatics
Identify Targets
Molecular Diagnostics
Drug Design
Molecular Epidemiology
Genetic Therapy
111 /39
112 /39
Puedo usar:
Procesador de texto? (Word) Si. Permite slo bsqueda y ordenamiento simples.
Tambin. Como los datos estn en columnas independientes, se puede ordenar en formas ms complejas. Las bsquedas siguen siendo simples.
113 /39
Cada registro tiene una clave primaria. Un identificador nico que define al registro sin ambigedad.
version 3 2 1 1
114 /39
Tipos de datos
Cada campo de una base de datos contiene un tipo particular de datos
021204
Es un numero? Es texto? Es una fecha?
Ejemplo de una busqueda: buscar todos los registros en donde el valor almacenado sea mayor que 021204
Es obvio que para poder comparar los valores almacenados tenemos que saber qe tipo de valores estamos comparando. Si es una fecha: 021204 (2.Dic.2004) > 211203 (21.Dic.2003) Si es un numero: 021203 < 211203 Si es texto: 021203 211203, las comparaciones < y > pueden dar distintos resultados (evaluan orden o longitud)
115 /39
Tipos de datos
Numericos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Logicos (boolean) = verdadero / falso Geometricos (punto, linea, circulo, poligonos, etc.)
116 /39
gi
gi = Genbank Identifier: Clave nica : Clave primaria Cambia con cada actualizacin del registro correspondiente a la secuencia Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version es equivalente al gi (representa un identificador nico) Ejemplo: AF405321.2 Accession: AF405321 Version: 2
117 /39
Base de datos relacional: Normalizar una base de datos para sub-elementos repetidos, repartiendola en bases de datos menores, relacionadas a travs de un identificador nico (clave primaria).
gi Accession 6226959 NM_000014 6226762 NM_000014 4557224 NM_000014 41 X63129 version date Genbank Division taxid 3 01/06/2000 PRI 9606 2 12/10/1999 PRI 9606 1 04/02/1999 PRI 9606 1 06/06/1996MAM 9913
taxid organims Number of Chromosomes 9606 homo sapiens 22 diploid + X+Y 9913 bos taurus 29+X+Y
118 /39
Annotation Chromosome 3, ORF 1234 Hypothetical protein in region 21922..24568 16S RNA gene Cytochrome b
similar to 12345
786512 1234568
119 /39
Genbank div PRI 6226959;6226762;4557224; MAM 41; Accession NM_000014 X63129 6226959;6226762;4557224; 41;
120 /39
Indices (cont)
Un ejemplo ms complejo: buscar todos los records que contengan la palabra kinase en la descripcin de la secuencia
gi 214734 123456 acc L07770 AF43567 def Xenopus laevis rhodopsin mRNA, complete cds. Mus musculus casein kinase mRNA, partial cds.
121 /39
Indexar es costoso
El proceso de indexacin es costoso en trminos computacionales, pero se realiza una nica vez (en realidad cada vez que se actualizan los datos) Desde el punto de vista de la base de datos, los ndices no son otra cosa que nuevas tablas relacionadas con la tabla que contiene el campo indexado Ejemplo ms obvio: buscadores de pginas de internet (Google, Altavista). Visitan pginas e indexan los trminos que encuentran
kewyword: url1, url2, url3, url4, etc.
122 /39
123 /39
Schemas
La distribucin de los datos en campos dentro de una tabla y de las relaciones entre tablas y sus campos es lo que se llama el diseo o schema
124 /39
Schemas (cont)
125 /39
RDBMS
Relational Database Management Systems
Comerciales
Oracle, Sybase
126 /39
Bsquedas simples
Los motores de bsqueda ofrecen bsquedas simples No imponen restricciones El usuario tipea palabras libremente Usan estrategias para intentar adivinar la intencin del usuario (sobre qu campo de la base de datos buscar)
127 /39
128 /39
129 /39
Bsquedas avanzadas
Presuponen un cierto conocimiento sobre la organizacin subyacente de los datos Hay que especificar sobre qu campos buscar: hay que conocer los campos Entrez: se especifican entre corchetes Tags predefinidos (hay que conocerlos)
Escherichia coli[organism] review[publication type] attenuator[feature key]
Operadores lgicos
En bsquedas simples o avanzadas siempre tienen a disposicin operadores lgicos para encadenar trminos AND (unin)
human AND genome +human +genome human && genome
OR (interseccin)
human OR genome human || genome
NOT (subconjunto)
human NOT genome
132 /39
Si el query tiene muchos trminos pueden forzar el orden de evaluacin usando parntesis
human AND cancer AND (cell OR science OR nature) casein kinase NOT (human OR mouse)
133 /39
134 /39
135 /39
EMBL
TrEMBL: Translated Proteins from EMBL Database
SwissProt:
recibe secuencias peptdicas cura y anota secuencias provenientes de TrEMBL (Gratuita para uso acadmico. Restricciones sobre los descubrimientos hechos utilizando la base de datos. La versin de 1998 es gratuita y libre de todas las restricciones.) http://www.expasy.ch (ltima versin no-gratuita) NCBI tiene la ltima versin gratuita.
136 /39
Publisher web sites. Pathways Database: KEGG: Kyoto Encyclopedia of Genes and Genomes:
www.genome.ad.jp/kegg/kegg/html
138 /39
GenBank
Redundante Con errores Dificil de actualizar Para poder corregir, mejorar y mantener actualizada la anotacin de los registros, el NCBI cre RefSeq (coleccin curada de registros de GenBank)
toma records de GenBank y los actualiza/corrije unifica para reducir redundancia Accession numbers del tipo XX_123456
140 /39
141 /39
Las bases de datos organismo especficas son en general una mezcla entre primaria y secundaria.
142 /39
143 /39
Historia
Primer proyecto de secuenciacin de un genoma: Escherichia coli (US + Japn). Comenz en 1992 y termin en 1997. 4.6 MB Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB
144 /39
Qu es un genoma?
Una coleccin de
genes
que codifican productos proteicos que codifican RNAs
145 /39
Qu es anotar?
Agregar informacin, de la manera ms confiable y actualizada que se pueda para describir una secuencia Informacin asociada a coordenadas genmicas (comienzo..fin), a distintos niveles Interpretar la informacin cruda de secuencia en un marco biolgico
146 /39
Anotacin genmica
Dos niveles de anotacin
Estructural: encontrar genes y otros sitios con relevancia biolgica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posicin en el genoma Funcional: los objetos son utilizados en bsquedas (y experimentos). El objetivo es atribuir informacin biolgica relevante a los objetos.
147 /39
Ms niveles de anotacin
Organismo: fenotipo: morfologa, fisiologa,
comportamiento, respuestas ambientales
148 /39
149 /39
Anotacin genmica
Genomic DNA
transcription
Unprocessed RNA
RNA processing
Mature mRNA
Gm3 AAAAAAA
translation
Nascent polypeptide
folding
Active enzyme
Functional identification
Function
Reactant A
Product B
150 /39
RNAi phenotypes
Gene Knockout
Expression Microarray
151 /39
protein coding
ab initio gene prediction ORFs, codon usage, frecuencia de hexmeros, modelos, etc.) similarity BLASTX, otros
repetitivas
similarity ab initio
literatura!
152 /39
Integrar resultados
BLASTX BLASTN Secuencia genoma RepeatMasker tRNASCan gene prediction
flatfiles DB
Visualizacin
153 /39
154 /39
155 /39
Anotacin: herramientas
Artemis
http://www.sanger.ac.uk/Software/Artemis Permite visualizar
secuencia, con sus traducciones virtuales (6) tracks de anotacin (entries) plots (built-ins y creados por el usuario)
Lee secuencias en formato FASTA, EMBL, GenBank Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST
156 /39
Sequence view
Sequence view
Feature list
157 /39
Artemis: plots
%GC plot
158 /39
159 /39
Artemis:
160 /39
Artemis: zoom
161 /39
162 /39
163 /39
164 /39
165 /39
Otras estrategias
Artemis se usa para anotar genomas bacterianos o para pequeos proyectos (csmidos, BACs, etc.) En genomas ms grandes, la tendencia es a distribuir la anotacin Los tracks de anotacin son generados en distintos centros Ejemplo: UCSC Genome Browser (genoma humano, ratn).
166 /39
167 /39
Target
168 /39
169 /39
Conflictos
Contradiccin Inconsistencia Sinnimos Redundancia
170 /39
Traduccin de anotaciones
Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar
XDB
Target
171 /39
172 /39
173 /39
Cmo funciona?
Una protena en TrEMBL es reconocida como un miembro de cierto grupo o familia de protenas Este grupo de protenas en Swissprot comparten entre s partes de la anotacin La anotacin comn es transferida automticamente a la protena en TrEMBL y marcada como annotated by similarity
174 /39
Anotacin: evidencias
Las anotaciones suelen estar acompaadas de TAGS que indican la evidencia en la que se basa la anotacin Ejemplos de algunos TAGS utilizados en TrEMBL: EMBL: la informacin fue copiada del original (EMBL/GenBank/DDBJ) TrEMBL: anotacin modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot Curator: juicio del curador Similarity: por similitud con otra secuencia, a juicio del curador Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. Opinion: opinin emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental Rulebase: informacin derivada del uso de una regla de anotacin automtica SignalP: programa de prediccin
175 /39
176 /39
Qu herramientas se usan?
Oakridge Genome Annotation Channel
http://compbio.ornl.gov/channel
ENSEMBL
http://ensembl.ebi.ac.uk
Artemis
http://www.sanger.ac.uk/Software/Artemis
GeneQuiz
http://www.sander.ebi.ac.uk/genequiz
177 /39
Solucin:
usar bases de datos curadas: por ejemplo Swissprot revisar la anotacin de ms de un hit verificar que las anotaciones de todos los hits concuerden
178 /39
HAMAP
Hay muchos genomas bacterianos terminados, pero va a haber muchos ms en los prximos aos El nmero de protenas bacterianas proveniente de estos genomas llegar al milln muy rpidamente Pero el anlisis funcional y una caracterizacin detallada van a exsitir slo en unos pocos casos: todas las protenas de organismos modelo (E. coli, B. subtilis) protenas involucradas en patognesis (inters mdico e industrial) protenas involucradas en vas metablicas especficas (inters biotecnolgico)
180 /39
181 /39
Estrategia HAMAP
ORFans
182 /39
HAMAP: ORFans
No tienen similitud con otras protenas (excepto tal vez otras protenas de organismos muy cercanos) No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) Qu se hace:
Prediccin de seales Prediccin de regiones trans-membrana Prediccin de coiled-coils Anotacin de repeticiones
183 /39
184 /39
185 /39
186 /39
187 /39
188 /39
189 /39
Chromosome browsers
UCSC Genome Browser
provee un display rpido de cualquier regin genmica con varios tracks de anotacin alineados al genoma Por el momento slo: Human & Mouse
Annotation tracks
genes conocidos (RefSeq, GenBank) predicted genes (Genscan, FGENESH, GeneID, Acembly) spliced ESTs CpG islands assembly gaps cobertura bandas cromosmicas elementos repetitivos etc
190 /39
191 /39
192 /39
193 /39
194 /39
195 /39
196 /39
Acknowledgements
Nicola Mulder, EBI Daniel Lawson, Sanger Centre
197 /39
Bioinformtica
Herramientas y aplicaciones
Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn
2004
198 /39
199 /39
Prediccin en protenas
SignalP, Net-O-Glyc, TMHMM, TmPred, PSORT
Teora de la informacin
Medir la cantidad de informacin (en bits) Incertidumbre
Sequence Logos
Algoritmos
Mtodos para tratar con distintos tipos de problemas Una vez que se aprende como solucionar un problema particular, la solucin se generaliza a toda una clase de problemas similares
Dynamic programming Qu problema resuelve este algoritmo? El problema de encontrar el mejor camino entre muchos posibles. utilizado en mtodos de alineamiento de secuencias (Smith-Waterman, Needleman-Wunsch, BLAST, FASTA), en mtodos de prediccin de genes, en ruteo de llamadas telefnicas a travs de distintas centrales, etc. 201 /39
Puedo usar:
Procesador de texto? (Word) Si. Permite slo bsqueda y ordenamiento simples. Tambin. Como los datos estn en columnas independientes, se puede ordenar en formas ms complejas. Las bsquedas siguen siendo simples. Ideal. Permite representar los datos en formas complejas. Flexible para reordenar y buscar con distintos criterios
202 /39
Un experimento bioinformtico
los resultados deben contestar una pregunta concreta deben ser reproducibles por otra persona que utilice el mismo mtodo
Identificar el problema
cul es el mecanismo cataltico de la enzima X?
203 /39
Un experimento bioinformtico
Seleccionar el set de datos apropiados
En el laboratorio, los materiales y reactivos son objetos fsicos necesarios para realizar un experimento. Generalmente uno sabe cuando fueron preparados, quien los preparo, como fueron preparados, etc. En bioinformtica el mismo tipo de informacin es esencial. Las fuentes de informacin (bases de datos, por ej), fecha de ultima actualizacion, el crtiterio y el metodo utilizado para extraer los datos que van a ser utilizados en el experimento
El costo de un proyecto bioinformtico es bajo una vez que cubierto el gasto inicial en computadoras (y eventualmente software)
204 /39
Un ejemplo concreto
Un investigador interesado en estudiar genes en involucrados en la interaccin hospedador-parsito, con especial inters en identificar aquellos productos que sean secretados Un sitio web reporta los resultados de un anlisis sistemtico de expresin (usando microarrays) de todos los genes del genoma en todos los estados del ciclo de vida del parsito El investigador puede bajar un archivo con un resumen de estos experimentos Las secuencias de todas las protenas codificadas por el genoma se encuentran disponibles en una base de datos. Lo que se necesita es contar con la capacidad de identificar genes que se expresen en los estados del ciclo de vida que ocurren en el hospedador y extraer las secuencias de estos genes de la base de datos En ultima instancia el objetivo es analizar las secuencias de inters usando SignalP para predecir la posible presencia de un pptido seal
205 /39
206 /39
Programacin en biologa
Cualquier persona que tenga experiencia en el diseo y llevado a cabo de experimentos para responder una pregunta puede programar una computadora Un experimento en el laboratorio comienza con una pregunta que evoluciona hacia una hiptesis testeable Finalmente el experimento sirve para afirmar o descartar una afirmacin En la computadora el programa que uno escriba debe estar diseado de manera de producir resultados que respondan a este tipo de afirmaciones Aprender un lenguaje de programacin puede resultar un desafo no trivial, pero es similar a aprender a utilizar una nueva herramienta, tecnologa u otro lenguaje (ingls, francs)
207 /39
Programacin en biologa
Ejemplos simples:
automatizar tareas identificar una o ms tareas que uno quiere realizar escribir un programa que las realice en forma automtica
Analizar todas las protenas de un genoma y seleccionar aquellas que sean (o parezcan) proteinasas
Un archivo con todas las secuencias Una base de datos de proteinas (Swissprot, GenPept) Un programa para buscar secuencias similares en bases de datos (BLAST) Una serie de instrucciones a seguir (un protocolo)
208 /39
BLAST
NO
Significativo?
SI
NO
Es una proteinasa?
SI
Guardar
209 /39
Automatizar BLAST
Muy lindo el diagrama, pero: cmo se hace? Por cada secuencia de una lista de secuencias hay que:
correr la comparacin (BLAST) contra una base de datos analizar el reporte que genera el programa y extraer dos tipos de datos:
score, expect, identidad, similitud (algn criterio cuantitativo que me sirva para tomar una decisin) descripcin de la secuencia obtenida de la base de datos
>gi|32172429|sp|P25807|CYS1_CAEEL Gut-specific cysteine proteinase precursor >gi|32172419|sp|P07268|PRZN_SERSP Serralysin precursor (Extracellular metalloproteinase) (Zinc proteinase)
210 /39
Programacin
Todo lenguaje de programacin provee construcciones para tomar decisiones:
if A then do B, else do C if A > 100 then continue else exit
211 /39
Reportes de BLAST
Un reporte de BLAST tal como aparece en un navegador o al ejecutar el programa en la lnea de comando (Unix) es basicamente un archivo de texto (un archivo plano o flatfile) Ningun reporte es igual a otro. Sin embargo hay patrones similares (la apariencia de hecho es similar). Tenemos que entrenar a nuestro programa para reconocer patrones:
la primer linea contiene informacin sobre el programa la quinta lnea contiene informacin sobre la secuencia utilizada para la bsqueda la dcima lnea contiene informacin sobre la base de datos la lnea que comienza con > indica el comienzo de la descripcin de un hit etc.
212 /39
Query
Base de datos
213 /39
214 /39
HSP info
215 /39
216 /39
Nuevos formatos
Los reportes estaban diseados con un usuario (humano) en mente
Formato no estructurado Ideal para lectura
Cada vez ms los reportes que producen distintos programas se encuentran en formatos estructurados ms fciles de analizar desde el punto de vista de la computadora
XML ASN.1 Tabulado
Estos formatos no son amigables para un humano (no son fciles de leer)
217 /39
Representacin de la informacin
flatfiles
Ayer
procesamiento
resultados
218 /39
Representacin de la informacin
flatfiles
Hoy
procesamiento
DB resultados
219 /39
if $score < 100 { read next report } else { print $accession } if $description =~ proteinase { print $accession} else { read next report } if $score < 100 AND $description =~ proteinase { print $accession } else { read next report }
220 /39
El criterio del usuario es lo que va a hacer que el programa sirva para un fin u otro Es evidente que los pasos 1 y 2 van a ser necesarios para cualquier programas que intenten procesar reportes de BLAST
solo hay que programarlos una vez modulos reusables (subrutinas)
221 /39
222 /39
Pipelines
Qu es un pipeline?
Una lnea automatizada de anlisis
Seq
BLAST
Pfam
TMHMM
SignalP
etc
Fbrica de resultados
Base de datos
Almacenamiento
Pipelines: ejemplos
Sistemas de anotacin automtica de genomas
Ensembl - http://www.ensembl.org UCSC Genome Browser - http://genome.ucsc.edu ORNL Genome Channel - http://compbio.ornl.gov/channel HAMAP - http://us.expasy.org/sprot/hamap
224 /39
Estrategia HAMAP
ORFans
225 /39
226 /39
227 /39
228 /39
Consideraciones prcticas
La bioinformtica es ms barata que el trabajo en el laboratorio El equipamiento es significativamente ms barato que el de un laboratorio de biologa molecular Los materiales (programas) y reactivos (datos) son en general gratuitos y libremente accesibles
Almacenamiento
La cantidad y tipos de bases de datos que se planean instalar (ejemplo: GenBank actualmente requiere 120 GB) La cantidad y tipo de datos que se planean generar
Memoria y Procesador
Los requerimientos de los distintos mtodos BLAST es principalmente memoria-intensivo HMMER es principalmente procesador-intensivo
229 /39
Consideraciones prcticas
Backup
CD Cinta Un segundo disco
Software
Sistema operativo: unix Paquetes: BLAST, FASTA, etc Software de manejo de bases de datos: MySQL, PostgreSQL Lenguajes de proramacin: Perl, Java, Python, C, C++
Para un laboratorio chico una PC con un disco un poco ms grande y un poco ms de memoria que lo comn pueden ser suficientes
230 /39
231 /39
Bibliografa sugerida
Developing Bionformatics Computer Skills
OReilly & Associates
232 /39
233 /39
234 /39
235 /39
236 /39
237 /39
Si somos capaces de encontrar en la BD secuencias homlogas a la secuencia problema concluimos que la nueva secuencia debe de tener propiedades similares a la secuencia conocida
238 /39
Homologa y similitud
Para inferir las propiedades de una nueva secuencia precisamos de secuencias homlogas a sta. Sin embargo la homologa no es observable, solo la similitud. Debemos pues determinar
Cual es la mejor forma de medir la similitud. Como determinar si de la similitud observada puede inferirse la homologa.
239 /39
240 /39
Fuentes de informacin
La bsqueda en BD se fundamenta en tres tipos distintos de fuentes de informacin [conocimiento previo].
El sistema de puntuacin con el que se cuantifica el grado de similitud. El algoritmo utilizado para realizar las comparaciones. La base de datos en donde se realiza la bsqueda.
241 /39
El sistema de puntuacin
La similitud se cuantifica con matrices de sustitucin (PAM, BLOSUM, etc). Se han obtenido analizando sustituciones conocidas de unos AA por otros entre secuencias con grados distintos de divergencia y conservacin de funcin.
Siempre es mejor usar una matriz adecuada que suponer sustituciones equiprobables. Distintos grados de divergencia requieren distintas matrices de puntuacin.
242 /39
El algoritmo de bsqueda
Cada algoritmo (S-W, FASTA, Blast).
Aprovecha de forma distinta la informacin. Imponiendo restricciones distintas sobre el modelo evolutivo.
243 /39
La base de datos
Es la fuente ms evidente de conocimiento preexistente. Una bsqueda adecuada en BD puede ahorrar muchas horas de trabajo en el laboratorio.
244 /39
245 /39
En la prctica
La eleccin del algoritmo de bsqueda influye en
La sensibilidad y La especificidad
de la bsqueda. La eleccin de la matriz de similitud determina el patrn y la cantidad supuesta de sustituciones en las secuencias que se espera descubrir en la bsqueda.
246 /39
Sensibilidad y especificidad
247 /39
248 /39
Verdaderos/Falsos Positivos/Negativos
Realidad Deteccin Positivo: Positivo verdadero Se detecta coincidencia Falso positivo Coincidencia Cierta Coincidencia Falsa
Falso Negativo
Negativo verdadero
249 /39
250 /39
Es decir un umbral alto suele conllevar una baja sensibilidad y una alta especificidad AL reves si colocamos un umbral bajo
Tendremos muchos positivos Tambien ms FP Pero habran menos falsos negativos
Es decir un umbral bajo conlleva una alta sensibilidad y una baja especificidad
Idealmente:mirar de lograr un equilibrio, O en todo caso decidir que error nos interesa ms controlar en cada situacin
251 /39
High sensitivity, few false negatives Low selectivity, many false positives
< 1.00
253 /39
Algoritmos de bsqueda
De la programacin dinmica a los mtodos heursticos
254 /39
Busqueda basada en PD
Una forma razonable de buscar una secuencia en una base de datos es realizando alineamientos locales de sta contra todas las de la base de datos Algoritmo: Smith-Waterman
Encuentra una solucin ptima Slo impone una restriccin: Puntuacin > 0 Proporciona la mejor sensibilidad
255 /39
256 /39
FASTA
Aproximacin a S-W que utiliza dos heursticas para ir ms rpido a costa de perder sensibilidad Heursticas : Restricciones al modelo evolutivo implicito en la comparacin de secuencias
Tamao de palabra (Word size) Tamao de ventana (Window size)
257 /39
A mayor tamao de palabra menor es la sensibilidad y mayor la especificidad. El efecto de variar el tamao de palabra se muestra en los dot-plots: A mayor tamao menor numero de coincidencias.
258 /39
Tamao de palabra=1
Ruidoso Es dificil localizatr las zonas de similitud
259 /39
Tamao de palabra=2
Se ven las regiones candidatas Aunque se pierden algunas coincidencias
260 /39
Tamao de palabra=3
Sin rudo pero Apenas sin coincidencias
261 /39
BLAST
Aproximacin similar a la anterior basada en aparear fragmentos cortos que ir extendiendo para buscar alineamientos locales Utiliza un modelo estadstico para encontrar los mejores alineamientos entre la secuencia desconocida y la BD HSP: High-scoring Segment Pair
La unidad fundamental de trabajo con BLAST Corresponde a una regin de mxima similitud entre dos subsecuencias (palabras, W) con una puntuacin ms grande o igual a una puntuacin umbral, T
262 /39
BLAST: Algoritmo
1. 2. 3. Compilar todas las palabras de medida n que den una puntuacin superior al umbral (HSP) Comparar estas palabras con las de la BD para identificar las identidades exactas (hits) Extender las palabras que han superado el umbral, en las dos direcciones mirando de mejorar la puntuacin
La extensin acabar si baja la puntuacin por debajo de otro umbral, si llega a cero o si se acaba la secuencia
1.
263 /39
264 /39
265 /39
266 /39
267 /39
268 /39
E-values
Dado un High Scoring Pair el E-value es el nmero esperado de puntuaciones iguales o superiores a las del HSP dado Un E-value de 10 para una coincidencia significa, que, en una base de datos del mismo tamao en la que se ha realizado la bsqueda, se podra esperar encontrar hasta 10 coincidencias con la misma puntuacin o similar, simplemente por azar El E- value es la medida de corte ms utilizada en las bsquedas en bases de datos. Slo se informa de las coincidencias que superan un nivel mnimo El E-value oscila entre 0 y cualquier valor
269 /39
P-values
Refleja la probabilidad de obtener por azar una puntuacin superior o igual a la observada Se relaciona con el E-value en que: P=1-e-E Un P-valor de 0.03 significa que hay una probabilidad (>=) 3% de encontrar una puntuacin superior a la observada simplemente por azar Si E<0,01 Los P-valores y los E-valores son similares Los p-valores oscilan entre 0 y 1
270 /39
Bit scores
El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamao de la base de datos y el sistema de puntuacin Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlas
271 /39
Score
E-Value
272 /39
273 /39
274 /39
Bases de datos
275 /39
Derivadas
Preparadas a partir de primarias. Informacin adicional procesada manual o automticamente
276 /39
Derivadas
Anotadas a posteriori Los datos son revisados, corregidos y se aade informacin bibliogrfica Ejemplo SWISS-PROT Derivadas computacionalmente Ejemplo PFAM Combinaciones especficas
277 /39
278 /39
279 /39
Origen de la informacin
Trabajo individual de investigacin
Produce informacin de gran calidad en cantidades muy limitadas
280 /39
Principales repositorios
DNA/RNA
(EMBL, Genbank, DDBJ), RefSeq
Protena
Uniprot (Swissprot/TrEMBL), PIR
281 /39
282 /39
283 /39
284 /39
TEXT
285 /39
286 /39
287 /39
288 /39
Anotaciones
Traduccin
http://www.expasy.org
289 /39
290 /39
Informacin cruzada
La mayora de archivos de bases de datos incluyen enlaces a otras bases de datos
Secuencia DNA Secuencia protena Secuencia Estructura 3D Secuencia Datos bibliogrficos ....
291 /39
292 /39
293 /39
294 /39
295 /39
296 /39
297 /39
http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html
298 /39
StringtoAAS
AAS
getAASfromPDBText
PDBText
runPSIBlastfromAAS BLASTText
runFSOLVfromPDBText
runPHDfromBlastText PHDText
Notas de prudencia
Las bases de datos pueden contener errores Distintas versiones (releases) pueden contener diferencias significativas Todos los grupos bioinformticos publican bases de datos, no existe control
300 /39