Professional Documents
Culture Documents
para inferir
integridad ecolgica
en los ecosistemas
Agradecimientos
Al Dr. Octavio Prez Maqueo porque desde aquella vez que nos recibi en
el INECOL, nos permiti adentrarnos a sus proyectos. Tambin por
contagiarme el inters por las Redes Bayesianas y de su entusiasmo. Por
todo el apoyo brindado, la paciencia y sobretodo el conocimiento
impartido. Por aquella presentacin aterradora en la CONABIO y a todo el
equipo de ROBIN en general.
Al Dr. Nicandro Cruz Ramrez por haber aceptado dirigir mi trabajo, dado
que ya comenzaba a correr el tiempo, por todo los papers y material que
me proporciono as como la resolucin de dudas.
Resumen
Con nuestra vida se daa nuestro planeta, tan solo con un cambio se ve
afectado el ecosistema y todo lo que en l habita, se habla de la desaparicin de
especies vegetales y animales. Existe mucho inters en encontrar la manera de
medir la integridad de los ecosistemas, pero antes una definicin para sta
caracterstica deseable. En nuestro pas investigadores de dos instituciones
colaboran en un proyecto internacional para encontrar relaciones entre
variables y de esta manera inferir que tanto los ecosistemas de Mxico son
ntegros.
Se recurre a
Tabla de contenido
1.
INTRODUCCIN .................................................................................................................................. 1
1.1
1.2
ANTECEDENTES ................................................................................................................................... 3
1.3
1.4
JUSTIFICACIN .................................................................................................................................... 6
1.5
OBJETIVOS ......................................................................................................................................... 7
3.
4.
2.2
PROBABILIDAD CONDICIONAL................................................................................................................ 10
2.3
2.4
2.5
MTRICAS ......................................................................................................................................... 16
3.1
MDL.............................................................................................................................................. 17
3.2
ENTROPA ........................................................................................................................................ 18
3.3
REDES BAYESIANAS........................................................................................................................... 22
4.1
DEFINICIN ...................................................................................................................................... 22
4.2
4.2.1
4.2.2
4.3
4.4
CLASIFICACIN .................................................................................................................................. 33
4.4.1
5.
5.2
5.2.1
6.
5.2.2
K2 ........................................................................................................................................ 39
5.2.3
5.2.4
5.2.5
METODOLOGA ................................................................................................................................. 44
6.2
RESULTADOS .................................................................................................................................... 45
7.
8.
BIBLIOGRAFA ................................................................................................................................... 49
9.
ANEXOS .............................................................................................................................................. 1
9.1
9.2
1. Introduccin
Ejemplos de perturbaciones naturales son el fuego, las avalanchas de nieve, fenmenos meteorolgicos
extremos (vientos intensos, temperaturas anormalmente altas o bajas), inundaciones y deposicin de
partculas, las plagas de insectos, las enfermedades y algunos mamferos.
1.2 Antecedentes
Propgulo (del latn propagulum) en biologa es cualquier germen, parte o estructura de un organismo
(planta, hongo o bacteria), producido sexual o asexualmente, capaz de desarrollarse separada para dar lugar
a un nuevo organismo idntico al que le form.1 2 Es decir, es cualquier estructura de reproduccin y
propagacin biolgica. Consulta en lnea en http://es.wikipedia.org/wiki/Prop%C3%A1gulo
1.4 Justificacin
biolgico,
el
concepto
da
oportunidad
para
conjuntar
las
1.5 Objetivos
Objetivo general
Crear una red bayesiana a travs de distintos algoritmos para identificar la
estructura de las variables que definen a un ecosistema ntegro y que aporte
informacin til para la toma de decisiones dentro de los esfuerzos que se
hacen para la preservacin de los ecosistemas.
Objetivos especficos
a) Proponer una estructura de red bayesiana obtenida a partir de datos que
evalen integridad ecolgica.
b) Comparar esta red con otras propuestas existentes (incluida Naive o
ingenua).
2. Teora de la probabilidad
del
que
se
conocen
todos
los
resultados
posibles,
bajo
. Este
suceso,
(Degroot,
1988).
ocurrencias
de aparicin de un suceso
La
.
de un
Esta definicin tiene el problema de que las frecuencias slo son exactas
en el lmite de infinitas repeticiones (De Finetti, 1989).
La probabilidad es una herramienta que nos permitir modelar nuestro
conocimiento aproximado sobre un suceso.
En 1993, el matemtico ruso Andrei N. Kolmogorov estableci un conjunto
Liliana A. Snchez Parra
es un nmero real no
negativo, es decir:
Tercer axioma: si
es 1:
Normalizacin:
Monotonicidad: si
entonces
de ,
y su complementario
podemos deducir que
Sea
la
distribucin
de
probabilidad
conjunta
sobre
es decir
Sean
tales que ( )
dado
viene dada
por
|
10
puede obtenerse
como:
|
Sean
condicionalmente independiente de
es
, si y solo si para
se verifica que
|
De lo contrario se dice que
. Cuando
|
|
son condicionalmente dependientes dado
se nota como
dado
en trminos de la
dado
y la distribucin de
11
|
Teniendo en cuenta que
y que
La probabilidad
inicial de
La probabilidad
condicional de
La probabilidad
la observacin
12
Prueba
R. Positivo
Diabtico
R. Negativo
Poblacin
R. Positivo
No Diabtico
R. Negativo
|
(
13
de
y se define mediante la
serie
14
Ejemplo
Sea
toma valores
15
3. Mtricas
16
3.1 MDL
17
es el
sino de , el
Donde |
en la red Bayesiana
(Grnwald, 2005).
3.2 Entropa
e indica como es de
18
son
de una variable
se define como:
19
Propiedades de la entropa:
1.
, la funcin
con probabilidades
es mxima en el caso de que
, la funcin
con probabilidades
, es nula en el caso de que
para cualquier .
Donde
, est basado en el
. Se tiene:
son
20
. Schwarz (Schwarz,
1978) utiliza
medida
el
BIC para
desarrollar una
consistente
, y el tamao
latentes, investigaciones empricas (Lin & Dayton, 1997) sugieren que se debe
preferir utilizar el
21
4. Redes Bayesianas
4.1 Definicin
Nodos
Arcos o aristas
22
En 1985 Judea Pearl (Pearl, 1985) propuso el trmino red bayesiana para
representar e inferir en sistemas inteligentes, teniendo en cuenta las siguientes
caractersticas:
Liliana A. Snchez Parra
23
Systems
Probabilistic
Reasoning
in
Expert
Systems
24
25
26
27
que un recorrido exhaustivo por dicho conjunto con el fin de encontrar la mejor
red candidata no es factible en la mayora de los casos.
Podemos realizar la siguiente clasificacin de las estrategias de aprendizaje con
base a la tcnica utilizada para obtener la parte cualitativa de la red.
nodos sera
Por ejemplo,
28
29
son:
Donde
|
de la
distribucin conjunta
Es la probabilidad de pertenecer a la clase latente .
|
30
31
, pertenezca a la clase
de las variables
de la variable
de la siguiente
manera:
de la
de un conjunto de
(donde
es
32
4.4 Clasificacin
33
y as
Donde (
conjunto
) denota la proposicin
)
construida por el modelo \ en el
. Si
y probada en el conjunto
de lo contrario
34
Base 1
Nombre de
Variable
Idanofor
Hsi
Contfor
Descripcin
ndice de dao Forestal con base a los daos antropognicos
registrados en el INFyS.
ndice de Establecimientos Humanos (luces de zonas Urbanas)
Conectividad de fragmentos naturales de imgenes MODIS.
Dext
Rsg
Proporcin de Especialistas.
Nomam
Valores que
toma
0 0.23
0.126 2.89
0 1000
-1 0
0 0.43
0 63
35
Areabasl
alt_prom
Plagas
Arbolrip
Sppinvas
Hojarasc
Clase
6 44
13.25 24.20
174.15 519.51
3.72 10.53
1 presencia
0 ausencia
1 presencia
0 ausencia
1 presencia
0 ausencia
1 presencia
0 ausencia
04
36
Base 2
Nombre variable
Descripcin
Zvh_ph
Rf_arip
rf_na_correcion
rf_altde
rf_altprom_2
Rf_afust
rf_afustde_correction2
rf_dapde
Rf_dap
rf_dcopde
rf_dcop_correction
rf_musgo
rf_hojarasca
0 0.96
28.46 1414.64
0.48 9.45
2.09 20.66
0.67 12.72
0.34 7.14
2.15 32.39
10.99 47.26
0.29 3.13
1.45 8.28
12 580
0.03 0.97
37
Cresta: una cresta puede tener lados con fuertes pendientes, por lo que
la bsqueda llega a la parte superior de la cresta con facilidad. A menos
que suceda que los operadores que se mueven directamente a lo largo de
la parte superior de la cresta, la bsqueda puede oscilar desde de lado a
38
5.2.2 K2
Este algoritmo fue desarrollado por Cooper y Herskovits en 1992 (Cooper
& Herskovits, 1992). Se trata de un algoritmo de bsqueda, muy rpido que
Liliana A. Snchez Parra
39
Ordenamiento topolgico de un grafo acclico G dirigido es una ordenacin lineal de todos los nodos de G
que conserva la unin entre vrtices del grafo G original. La condicin que el grafo no contenga ciclos es
importante, ya que no se puede obtener ordenacin topolgica de grafos que contengan ciclos.
http://es.wikipedia.org/wiki/Ordenaci%C3%B3n_topol%C3%B3gica
40
41
Tomado de (Hernndez-Daz, Guerrero Casas, Caballero Fernandez, & Molina Luque, 2006)
42
43
6. Metodologa y resultados.
6.1 Metodologa
Exploracin
Bases
datos
Bsqueda de
estructuras
Algoritmo
Determinar red
EM
adecuada
Como primera etapa fue la obtencin de las bases de datos, por parte de
las personas del INECOL. Se realiz la exploracin de la base, con lo cual se
observa que no existen datos faltantes, y se convirti a formato .csv para poder
trabajarlos en Weka. Para el caso de la base 1, mediante el algoritmo EM
(vase seccin 4.2.2) se construy la variable latente clase, con niveles del 0 al
4.
Comienza un proceso iterativo en el que mediante los algoritmos se
encuentran las distintas estructuras y relaciones probabilistas entre las
variables, adems de incluir la consulta de los eclogos expertos para la toma
de decisiones en cuanto a la creacin de estas redes, y de sta manera
encontrar una red adecuada que modele el fenmeno de manera confiable.
Se calculan los criterios de informacin de cada estructura obtenida por
cada algoritmo, y mediante estos elegir la red Bayesiana ms parsimoniosa.
44
6.2 Resultados
as como el porcentaje de
correcta clasificacin.
La siguiente estructura pertenece a los datos de la primer base y se utiliz
el algoritmo Hill climbing.
45
a b c d e <-- classified as
333 20 1 0 0 | a = cluster0
16 336 16 3 0 | b = cluster1
0 21 523 0 0 | c = cluster2
0 5 0 542 37 | d = cluster3
0 0 0 37 363 | e = cluster4
AIC
-25379.84
-24915.16
-25663.81
-24383.23
-24813.51
BIC
-23398.60
-23562.14
-23462.45
-23555.74
-23558.23
% correcta clasificacin
93.1
93.7
93.3
94.2
94.5
menor, y
46
search.
Algoritmo
AIC
Base 2
BIC
Hill Climbing
K2
Simulated Annealing
Tab search
TAN
-914620.13
-982342.56
-883392.86
-811707.69
-811884.66
-741699.19
-751713.07
-747316.56
-747125.46
-742331.83
% correcta clasificacin
73.49
73.15
72.72
72.73
73.55
47
48
8. Bibliografa
Akaike, H. (1974). A new look at the statistical model identification. Automatic
control, IEEE Transactions on 19(6), 716-723.
Angermaier,
P.
(1994).
Does
Biodiversity
include
artificial
diversity?
Conservation Biology.
Biblioteca educacin y salud. (2002). Enciclopedia de la ecologa y la salud.
Espaa: Safeliz, S. L.
Bouckaert, R. (1993). Belief networks construction using the minimum
description length principle. Symbolic and Quantitative Approaches to
Reasoning and Uncertainty, Lecture Notes in Computer Science., 747, 4748.
Boulanger, P., y T. Brchet. (2005). Models for policy-making in sustainable
development: The state of the art and perspectives for research.
Ecological Economics 55, 337-350.
Carreo S, . (Diciembre de 2006). Recuperado el Diciembre de 2013, de
http://www.seden.org/files/7-CAP%207.pdf
Csari, M. I. (2006). Nivel de significacin estadstica para el aprendizaje de
una red bayesiana. Mendoza: ITBA.
Cooper, G., & Herskovits, E. (1992). A bayesian method fot the induction of
probabilistic networks from data. Machine Learning, 9, 309-347.
Cruz Ramrez, N. (2001). Building Bayesian Networks From Data: a Constraint
Based Approach. Ph D Thesis. Department of Psychology. The
University of Sheffield.
De Finetti, B. (1989). Probabilism: A critical essay on the theory of probability
and on the value of science. Erkenntnis, 31.
49
50
51
de
2013,
de
http://tarwi.lamolina.edu.pe/~clopez/Estadistica%20Bayesiana/Estadistic
a_Bayesiana.pdf
Mackey, B. (2005). Carta de la tierra en accin. msterdam, Los Pases Bajos:
KIT Publishers.
Mesa
P.,
e.
a.
(2011).
Recuperado
el
Diciembre
de
2013,
de
http://www.urosario.edu.co/urosario_files/38/38e60ea0-497e-4197-913de156ae0bb084.pdf
Montes S, F. (2007). Introduccin a la probabilidad. Valencia: Universidad de
Valencia, Departamento de Estadstica e Investigacin Operativa.
Morales, E., & Gonzlez, J. (Enero de 2012). Aprendizaje bayesiano. INAOE.
N. Kolmogorov, A. (1956). Foundations of the theory of probability (2 ed.). New
York: Chelsea Publishing Company.
Navarrete, M. (2001). A historical overview of the ecological.
Norvig, S. J. (1995). Artificial Intelligence, A Modern Approach. New Jersey:
Prentice-Hall.
Ortega, J. (2009). Captulo 6. Esperanza matemtica. Guanajuato, Mxico.
Pearl,
J.
(1985).
Recuperado
el
Diciembre
de
2013,
de
http://es.wikipedia.org/wiki/Red_de_inferencia
Prez, J., & Fajardo, M. (2001). Determinacin de la lealtad de voto mediante
52
Reina,
J.
(2006).
Recuperado
el
Diciembre
de
2013,
de
http://www.cs.us.es/cursos/ia2-2005/temas/tema-08.pdf
Snchez Parra, L. (2012). Anlisis sobre la percepcin, conocimientos y
prcticas de riesgo en relacin con el VIH y SIDA de consumidores de
drogas que asisten a Centros de Tratamiento en el Estado de Veracruz.
Xalapa, Veracruz, Mxico: Tesis de licenciatura, Facultad de Estadstica
e Informtica, Universidad Veracruzana.
Snchez S., D. (2009). Evaluacin del comportamiento de Clasificadores
basados en Redes Bayesianas. Xalapa, Veracruz, Mxico: Tesis para
obtener el grado de licenciado en Informtica. Facultad de Estadstica e
53
agosto
de
2014,
de
Bsqueda
Local:
http://www.lsi.upc.edu/~bejar/ia/transpas/teoria/2-BH3Busqueda_local.pdf
Vermunt y Magdison. (2000). Latent gold 4.0 user's guide. Nueva York:
Statistical Innovations.
Waikato, U. d. (1999-2013). Patente n Version 3.6.10 . Nueva Zelanda.
Westra, L. P. (2000). Ecological integrity and the aims of the global integrity
project. Island Press: Washington, DC.
54
9. Anexos
a b c d e <-- classified as
331 22 1 0 0 | a = cluster0
15 340 15 1 0 | b = cluster1
0 15 529 0 0 | c = cluster2
0 5 0 556 23 | d = cluster3
0 0 0 45 355 | e = cluster4
Algoritmo TAN
94.4518 %
Base 2
Algoritmo Hill climbing
73.4908 %
=== Confusion Matrix ===
b c d e f g h i j k <-- classified as
40 0 0 0 0 0 0 0 0 0 10 | a = V2
0 4943 59 0 0 426 6 237 212 5 0 | b = V5
0 9 6187 948 7 198 102 79 0 48 144 | c = V8
3 0 993 4119 204 5 1 2 0 6 677 | d = V9
2 0 1 54 993 0 0 0 0 0 270 | e = V11
1 282 324 16 2 2763 3 150 1 52 2 | f = V3
0 7 124 4 0 16 166 60 1 0 0 | g = V7
0 492 158 2 0 299 72 1063 7 7 0 | h = V6
0 202 0 0 0 16 0 3 388 0 0 | i = V1
0 0 41 6 0 77 0 0 0 125 0 | j = V4
7 0 69 393 362 0 0 0 0 0 1297 | k = V10
Tabla 9 Resultados con algoritmo Hill Climbing
Algoritmo K2
73.1481 %
72.7221 %
10
72.7255 %
=== Confusion Matrix ===
a b c d e f g h i j k <-- classified as
39 0 0 0 1 0 0 0 0 0 10 | a = V2
0 4901 59 1 0 424 7 251 241 4 0 | b = V5
3 6 6148 918 9 192 101 106 0 58 181 | c = V8
5 0 1045 3951 189 2 0 6 0 7 805 | d = V9
0 0 1 40 999 0 0 0 0 0 280 | e = V11
1 300 332 13 2 2716 4 161 1 61 5 | f = V3
0 7 118 5 0 20 175 53 0 0 0 | g = V7
0 470 155 4 0 312 80 1068 4 7 0 | h = V6
0 194 1 0 0 9 1 10 394 0 0 | i = V1
0 0 49 3 0 75 0 0 0 121 1 | j = V4
7 0 71 338 370 0 0 0 0 0 1342 | k = V10
Ilustracin 30 Resultados con algoritmo Tab search
Algoritmo TAN
11
73.5541 %
=== Confusion Matrix ===
a b c d e f g h i j k <-- classified as
32 0 0 1 0 0 0 0 0 0 17 | a = V2
0 4907 52 0 1 401 8 292 223 3 1 | b = V5
4 7 6309 811 8 178 88 107 0 33 177 | c = V8
1 0 1068 3987 190 7 2 2 0 3 750 | d = V9
0 0 3 52 998 0 0 0 0 0 267 | e = V11
0 301 279 6 3 2776 3 167 4 55 2 | f = V3
0 4 124 7 0 18 166 58 0 1 0 | g = V7
0 449 133 2 0 323 78 1108 4 3 0 | h = V6
0 204 0 0 0 11 1 21 371 1 0 | i = V1
0 0 58 2 0 78 0 0 0 109 2 | j = V4
7 0 120 307 354 0 0 0 0 0 1340 | k = V10
Tabla 12 Resultados con algoritmo TAN
12
de
sobre
los
entrada,
una
opcin
experimentos
permite
ms
objeto de ejecutar
algoritmos
sobre
definir
complejos,
con
uno o varios
uno
varios
estadsticamente
resultados
los
con
una
totalmente
grfica,
configuracin
inspirada
en
13
Estadsticas
descriptivas.
14
15
16
BayesNet
Elegir el algoritmo
17
18
Validacin
cruzada
Parmetros
Variable clase
Iniciar
Hill Climbing
19
K2
Simulated Annealing
20
Tab search
TAN
21