You are on page 1of 80

Redes Bayesianas

para inferir
integridad ecolgica
en los ecosistemas

Liliana Areli Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV

Agradecimientos

Al Dr. Octavio Prez Maqueo porque desde aquella vez que nos recibi en
el INECOL, nos permiti adentrarnos a sus proyectos. Tambin por
contagiarme el inters por las Redes Bayesianas y de su entusiasmo. Por
todo el apoyo brindado, la paciencia y sobretodo el conocimiento
impartido. Por aquella presentacin aterradora en la CONABIO y a todo el
equipo de ROBIN en general.

Al Dr. Nicandro Cruz Ramrez por haber aceptado dirigir mi trabajo, dado
que ya comenzaba a correr el tiempo, por todo los papers y material que
me proporciono as como la resolucin de dudas.

A la coordinacin de la EME y sobre todo a la Dra. Mara Luisa Hernndez


Maldonado, por todo el apoyo durante todo el ao de este programa. Por
aceptarme y por ser lectora de este trabajo, por guiarme en el proceso de
titulacin y los consejos dados.

Finalmente a mi familia por todo el apoyo y paciencia que siempre me han


tenido, y a Dios por darme la vida y ayudarme da a da.

Redes bayesianas para inferir integridad ecolgica


EME - UV

Resumen
Con nuestra vida se daa nuestro planeta, tan solo con un cambio se ve
afectado el ecosistema y todo lo que en l habita, se habla de la desaparicin de
especies vegetales y animales. Existe mucho inters en encontrar la manera de
medir la integridad de los ecosistemas, pero antes una definicin para sta
caracterstica deseable. En nuestro pas investigadores de dos instituciones
colaboran en un proyecto internacional para encontrar relaciones entre
variables y de esta manera inferir que tanto los ecosistemas de Mxico son
ntegros.
Se recurre a

las Redes Bayesianas para

determinar las relaciones

probabilistas, es una tcnica relativamente nueva que consta de dos partes:


una grfica y las tablas de probabilidades. Pertenece a la minera de datos por
lo que se pueden manejar bases de datos muy grandes y combinan los
principios de la teora de grafos, teora de la probabilidad, la informtica y la
estadstica, ya que las dependencias entre variables se estiman utilizando
mtodos estadsticos y computacionales.
En este trabajo se presentan estructuras generadas mediante algoritmos de
bsqueda y se finaliza eligiendo una red para cada una de las dos bases
empleadas y tomadas del Inventario Nacional Forestal y de Suelos, mediante
criterios de informacin.

Redes bayesianas para inferir integridad ecolgica


EME - UV

Tabla de contenido
1.

INTRODUCCIN .................................................................................................................................. 1
1.1

MARCO CONTEXTUAL ........................................................................................................................... 1

1.2

ANTECEDENTES ................................................................................................................................... 3

1.3

PLANTEAMIENTO DEL PROBLEMA ............................................................................................................. 5

1.4

JUSTIFICACIN .................................................................................................................................... 6

1.5

OBJETIVOS ......................................................................................................................................... 7

Objetivo general .................................................................................................................................. 7


Objetivos especficos............................................................................................................................ 7
2.

3.

4.

TEORA DE LA PROBABILIDAD ............................................................................................................. 8


2.1

PROBABILIDAD CONJUNTA Y MARGINAL ................................................................................................... 10

2.2

PROBABILIDAD CONDICIONAL................................................................................................................ 10

2.3

INDEPENDENCIA CONDICIONAL .............................................................................................................. 11

2.4

TEOREMA DE BAYES ........................................................................................................................... 11

2.5

ESPERANZA MATEMTICA .................................................................................................................... 14

MTRICAS ......................................................................................................................................... 16
3.1

MDL.............................................................................................................................................. 17

3.2

ENTROPA ........................................................................................................................................ 18

3.3

CRITERIOS DE SELECCIN: AIC Y BIC ...................................................................................................... 20

REDES BAYESIANAS........................................................................................................................... 22
4.1

DEFINICIN ...................................................................................................................................... 22

4.2

APRENDIZAJE DE LOS PARMETROS ........................................................................................................ 25

4.2.1

Aprendizaje de la estructura ................................................................................................ 28

4.2.2

Aprendizaje de variables latentes ......................................................................................... 29

4.3

INFERENCIA EN UNA RED BAYESIANA....................................................................................................... 32

4.4

CLASIFICACIN .................................................................................................................................. 33

4.4.1
5.

Mtodos de evaluacin ........................................................................................................ 33

MATERIALES & MTODOS................................................................................................................. 35


5.1

DESCRIPCIN DE LAS BASES DE DATOS ..................................................................................................... 35

5.2

ALGORITMOS QUE APRENDEN LA ESTRUCTURA DE LA RED BAYESIANA A PARTIR DE DATOS. .................................... 38

5.2.1

Hill Climbing (ascenso de colinas) ......................................................................................... 38

Redes bayesianas para inferir integridad ecolgica


EME - UV

6.

5.2.2

K2 ........................................................................................................................................ 39

5.2.3

Simulated annealing (recocido simulado) ............................................................................. 40

5.2.4

Tab Search (bsqueda tab) ............................................................................................... 41

5.2.5

TAN (Nave Bayes Aumentado a rbol) ................................................................................. 42

METODOLOGA Y RESULTADOS. ....................................................................................................... 44


6.1

METODOLOGA ................................................................................................................................. 44

6.2

RESULTADOS .................................................................................................................................... 45

7.

CONCLUSIONES Y TRABAJO FUTURO ................................................................................................ 48

8.

BIBLIOGRAFA ................................................................................................................................... 49

9.

ANEXOS .............................................................................................................................................. 1
9.1

RESULTADOS (COMPLETOS) .................................................................................................................... 1

9.2

USANDO WEKA ............................................................................................................................... 13

Redes bayesianas para inferir integridad ecolgica


EME - UV

1. Introduccin

1.1 Marco Contextual

Segn la Real Academia Espaola, algo es ntegro cuando no carece de


ninguna de sus partes1. Pero, cmo se mide la integridad en los seres vivos, en
los ecosistemas y espacios de nuestro entorno? Intuitivamente, se podra
pensar que en un estado de integridad debera estar toda especie vegetal y
animal segn la caracterizacin del ecosistema. Sin embargo la medicin de
integridad no es tan sencilla como se seala a continuacin, dado que se trata
de una variable latente.
Un anlisis de la literatura en la materia muestra que no existe una
definicin nica y objetiva de integridad ecolgica. Hasta ahora se ha recurrido
a conceptos como el de estabilidad o resiliencia para describir en la teora
ecolgica las respuestas de los ecosistemas a los factores de tensin (Kay, 1991).
Sin embargo existen algunas definiciones que se han propuesto en distintas
fuentes.
Groves define la integridad ecolgica como la capacidad de un sistema de
mantener comunidades biticas2 y una organizacin funcional comparable con
los hbitats naturales (sin disturbios antropognicos) (Groves, 2003). Por otro
lado, (Angermaier, 1994) la define como la habilidad de un ecosistema de

Consulta en lnea 2014 http://lema.rae.es/drae/srv/search?key=%C3%ADntegro


Conjunto de poblaciones que viven en un hbitat o zona definida que puede ser amplia o reducida. Las
interacciones de los diversos tipos de organismos conservan la estructura y funcin de la comunidad y
brindan la base para la regularizacin ecolgica de la sucesin en la misma. Consultado en
http://ecologiasomosnaturaleza.blogspot.mx/2007/04/comunidades-biticas.html
2

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
perpetuar su funcionamiento siguiendo su camino natural de evolucin y de
poder recuperarse tras una perturbacin3.
La enciclopedia de la salud y ecologa la define como la proteccin y
restauracin de los sistemas ecolgicos del planeta Tierra, prestando particular
atencin al mantenimiento de la diversidad ecolgica. Tambin como la
proteccin de todos los seres vivos evitando por todos los medios su destruccin.
(Biblioteca educacin y salud, 2002). Si bien es difcil contar con una definicin
nica de integridad ecolgica es posible tratar de encontrar indicadores sobre
una condicin deseable (integra) de los ecosistemas. Por tanto, en este trabajo y
de acuerdo con Equihua et al (Equihua Z., Miguel; Garca A., N; Prez M,
Octavio; Bentez Badillo, G; Kolb, M; Schmidt, M; Equihua Bentez, J; Maeda,
P) se considera que la integridad ecolgica constituye un atributo subyacente
no medible directamente (como lo seran la salud o la inteligencia humanas por
ejemplo).
A nivel nacional se cuenta con una gran cantidad de informacin que
puede ser utilizada en la evaluacin de integridad. Se tienen variables
contenidas en el Inventario Nacional Forestal (INFyS), el cual tiene un rico
acervo de datos y es operado por la Comisin Nacional Forestal (CONAFOR).
Este instrumento est basado en un esquema de muestreo constituido por una
retcula espaciada entre 5 y 20 km sobre el territorio nacional. Incluye 57 tipos
de vegetacin (Serie IV de INEGI) y tres grandes grupos de uso del suelo
(agricultura, ganadera y urbanizacin). En el protocolo de medicin vigente el
INFyS produce datos sobre la estructura y estado de la vegetacin as como de
la riqueza de especies en un conjunto de ms de 200 variables.
Aparentemente, existe un dilema por parte de los expertos en ecologa ya
que la formulacin de polticas pblicas orientadas hacia la sustentabilidad
3

Ejemplos de perturbaciones naturales son el fuego, las avalanchas de nieve, fenmenos meteorolgicos
extremos (vientos intensos, temperaturas anormalmente altas o bajas), inundaciones y deposicin de
partculas, las plagas de insectos, las enfermedades y algunos mamferos.

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
requiere de forma urgente evaluar sus impactos econmicos, sociales y
ambientales (Boulanger, P., y T. Brchet, 2005). Como respuesta, se ha optado
por usar ndices que denotan una condicin de integridad ante las dificultades
que se han encontrado distintos autores por medir esta caracterstica desde un
enfoque determinista.
Como se mencion se cuenta con una gran cantidad de informacin que
puede ser utilizada en la evaluacin de integridad. A travs del proyecto
internacional llamado ROBIN (Role Of Biodiversity In climate change
mitigatioN), en colaboracin con el Instituto de Ecologa, y la Comisin
Nacional para el Conocimiento y Uso de la Biodiversidad (CONABIO), haciendo
uso de la metodologa bayesiana se pretende modelar patrones de dependencia
entre un conjunto de variables (contenidas en el Inventario Nacional Forestal).

1.2 Antecedentes

A lo largo de las dcadas se le ha dado mayor importancia a la


preservacin de los ecosistemas en su forma natural. No obstante, fue en la
dcada de los 60s cuando comenz a ser utilizado el trmino de integridad. Se
dice que algo es ntegro cuando existe garanta de la exactitud de la
informacin frente a la alteracin, prdida o destruccin, ya sea de forma
accidental o con base en un propsito determinado.
En 1975 bajo la organizacin de la Agencia de Proteccin al Ambiente de
los Estados Unidos (EPA por sus siglas en ingls) se discuti el concepto de
integridad, como referencia a ser una caracterstica deseable de los
ecosistemas as como su principio cultural o moral. Como resultado de lo
anterior, existe una amplia gama de interpretaciones sobre lo que significa
integridad. No obstante, exista el consenso de que era necesario asegurar la
Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
integridad ecolgica en la prctica.
Ulanowicz public que nunca se puede decir que los ecosistemas estn
completos ya que hay cambios en ellos que conducen a una condicin madura
congruente con el entorno fsico prevaleciente (Ulanowicz, 1990).
Para mediados de los 90s el concepto de integridad ecolgica as como el
de integridad ecosistmica, fueron mencionados en un gran nmero de
instrumentos regulatorios en EUA (Navarrete, 2001). En Mxico ha ocurrido
algo semejante en relacin con el manejo de los ecosistemas o las consecuencias
de la intervencin humana en ellos. Se le concibe como un referente o bien
como una meta para el manejo con criterios de sustentabilidad.
De acuerdo con (Westra, 2000) un tema importante en biologa de la
conservacin es conocer qu requerimientos espaciales son necesarios para
mantener los ecosistemas nativos. No slo en trminos de superficie sino
tambin en cuanto a la configuracin espacial necesaria de modo que su
ocurrencia combinada constituya un elemento de integridad ecolgica.
Para promover la transicin hacia formas sostenibles de vida y una
sociedad global con base en un marco tico compartido ampliamente. Dicho
marco establecido en la Carta de la Tierra incluye el respeto y el cuidado de la
comunidad de vida, la integridad ecolgica, los derechos humanos universales,
el respeto a la diversidad, la justicia econmica, la democracia y una cultura de
paz. La Carta de la Tierra es un documento internacional y todos los pases
pueden firmarlo y de esta manera comprometerse. En la Carta de la Tierra
(Mackey, 2005) se menciona que la integridad ecolgica es el funcionamiento
permanente saludable o apropiado de los ecosistemas a escala global y local, as
como a su provisin continua de recursos renovables y servicios ambientales.
De esta forma los procesos naturales que sostienen la integridad ecolgica de
los ecosistemas incluyen la evolucin de nuevas especies y la dispersin de

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
especies existentes de flora y fauna y sus propgulos4.
En el proyecto ROBIN (antes mencionado) se manifiesta que la
biodiversidad juega un papel importante en el bienestar humano. En este
sentido, la prdida de biodiversidad podra considerarse como una de las
principales fuerzas mundiales del cambio ambiental. Para arrojar luz sobre el
papel de la biodiversidad en la mitigacin del cambio climtico en los procesos
de los ecosistemas, este proyecto analiza la relacin entre sta y la provisin de
servicios ambientales dentro de un contexto socio-ecolgico que considera por
ejemplo, el impacto de varias polticas relacionadas con la actividad humana.
Como parte de este proyecto, investigadores del INECOL y de la
CONABIO han propuesto el uso de redes bayesianas para evaluar la integridad
de los distintos ecosistemas presentes. Resultados preliminares se basan en
redes automticas utilizando el clasificador Nave. Este es el modelo ms
simple de clasificacin con redes bayesianas, ya que asume independencia
entre todos los atributos dada una clase, adems existen otras propuestas
basadas en opinin de expertos utilizando distintas fuentes de informacin.

1.3 Planteamiento del problema

Como se ha mencionado la integridad es una caracterstica deseable en


todos los ecosistemas, sin embargo poder decir si existe y en qu grado es un
proceso muy complejo. Si bien existen propuestas de redes basadas en
opiniones de expertos y con otras fuentes de informacin, mediante este trabajo
se proponen distintas redes para encontrar las relaciones entre variables y de
esta forma evaluar la integridad ecolgica haciendo uso de distintos algoritmos
4

Propgulo (del latn propagulum) en biologa es cualquier germen, parte o estructura de un organismo
(planta, hongo o bacteria), producido sexual o asexualmente, capaz de desarrollarse separada para dar lugar
a un nuevo organismo idntico al que le form.1 2 Es decir, es cualquier estructura de reproduccin y
propagacin biolgica. Consulta en lnea en http://es.wikipedia.org/wiki/Prop%C3%A1gulo

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
de bsqueda y determinar la mejor red en base a los criterios de informacin. A
partir de esto surgen las siguientes preguntas:
Cmo saber cundo un ecosistema es integro? Cules son las variables
que lo determinan? Se podran reducir algunos recursos en la medicin de
variables y emplearlos en mejorar la medida de otras?
A nivel nacional el principal objetivo de los distintos instrumentos
normativos mexicanos en materia ambiental se enfocan a la conservacin de los
ecosistemas, la vida silvestre y sus hbitats. El plan Nacional de Desarrollo
correspondiente convoca a detener la prdida y degradacin de ecosistemas y
lograr un uso sustentable del capital natural.

1.4 Justificacin

Si se asume que la integridad es una condicin valiosa y medible de un


sistema

biolgico,

el

concepto

da

oportunidad

para

conjuntar

las

preocupaciones de la ciencia y la poltica pblica. La prdida de integridad


interfiere con los procesos del ecosistema y al modificar su funcionamiento
altera las formas de produccin de los servicios ecosistmicos que ste provee.
Se pretende con las redes bayesianas tener mayor claridad para identificar la
relacin entre variables que mejor contribuyan a identificar condiciones de
integridad ecolgica.
En Mxico actualmente se hacen grandes esfuerzos por preservar los
ecosistemas en un estado

alto de conservacin. Este trabajo proporcionar

informacin relevante para las instituciones que tiene la responsabilidad de


realizar acciones en pro de la conservacin de los ecosistemas. Lo anterior a
travs de colaborar en la construccin de medidas sobre integridad que les

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
permitan disear y optimizar las estrategias de conservacin y desarrollo.

1.5 Objetivos

Objetivo general
Crear una red bayesiana a travs de distintos algoritmos para identificar la
estructura de las variables que definen a un ecosistema ntegro y que aporte
informacin til para la toma de decisiones dentro de los esfuerzos que se
hacen para la preservacin de los ecosistemas.
Objetivos especficos
a) Proponer una estructura de red bayesiana obtenida a partir de datos que
evalen integridad ecolgica.
b) Comparar esta red con otras propuestas existentes (incluida Naive o
ingenua).

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV

2. Teora de la probabilidad

La probabilidad es un mtodo por el cual se obtiene la frecuencia de un


acontecimiento determinado mediante la realizacin de un experimento
aleatorio,

del

que

se

conocen

todos

los

resultados

posibles,

bajo

condiciones estables. La Teora de la Probabilidad nos permite la obtencin de


modelos aleatorios o estocsticos mediante los cuales podremos conocer, en
trminos de probabilidad el comportamiento de los fenmenos aleatorios
(Montes S, 2007).
Se considera el siguiente fenmeno aleatorio: lanzar un dado y observar el
nmero de puntos en la cara. Lo cual da lugar a un resultado de entre un
conjunto de posibles resultados, los cuales pueden ser

. Este

conjunto de posibles resultados recibe el nombre de espacio muestral. Si se


considera alguna caracterstica en comn de los posibles resultados se habla de
un

suceso,

(Degroot,

1988).

probabilidad de que la cara del dado tenga un nmero par sera


De manera ms formal, la probabilidad
total de

casos posibles sera

ocurrencias

de aparicin de un suceso

La

.
de un

y se define como la razn entre el nmero de

en que dicho suceso es cierto y el nmero total de casos posibles

Esta definicin tiene el problema de que las frecuencias slo son exactas
en el lmite de infinitas repeticiones (De Finetti, 1989).
La probabilidad es una herramienta que nos permitir modelar nuestro
conocimiento aproximado sobre un suceso.
En 1993, el matemtico ruso Andrei N. Kolmogorov estableci un conjunto
Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
de axiomas (N. Kolmogorov, 1956), que deben satisfacerse para que podamos
determinar consistentemente la probabilidad sobre unos sucesos (Garca F. J.,
2009), dichos axiomas son:

Primer axioma: la probabilidad de un suceso

es un nmero real no

negativo, es decir:

Segundo axioma: la probabilidad del espacio muestral

Tercer axioma: si

es 1:

son un conjunto de sucesos mutuamente

excluyentes, entonces la probabilidad de que al menos uno de estos


sucesos ocurra, es la suma de las probabilidades individuales:
(

De estos axiomas hay una serie de propiedades que se pueden deducir:

Normalizacin:
Monotonicidad: si

entonces

Inclusin Exclusin: dado cualquier par de subconjuntos

de ,

se cumple siempre la siguiente igualdad:

Para cualquier suceso


Como

y su complementario
podemos deducir que

son dos sucesos disjuntos, es decir,

Antes de comenzar a describir las probabilidades conjunta y condicional es


necesario describir la distribucin de probabilidad de una variable aleatoria ,
esta es una funcin que asigna a cada evento definido sobre la variable

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
aleatoria una probabilidad. La distribucin de probabilidad describe el rango de
valores de la variable aleatoria as como la probabilidad de que el valor de la
variable aleatoria est dentro de un subconjunto de dicho rango (Garca F. J.,
2009).

2.1 Probabilidad conjunta y marginal

Sea

la

distribucin

de

probabilidad

conjunta

sobre

es decir

Entonces la distribucin de probabilidad marginal sobre la i-sima variable se


obtiene mediante la siguiente frmula:

2.2 Probabilidad condicional

Sean

dos variables que toman valores en

. Entonces la probabilidad condicional de

tales que ( )
dado

viene dada

por
|

Liliana A. Snchez Parra

10

Redes bayesianas para inferir integridad ecolgica


EME - UV
Por lo tanto, la distribucin de probabilidad conjunta de

puede obtenerse

como:
|

2.3 Independencia condicional

Sean

tres conjuntos disjuntos de variables. Se dice que

condicionalmente independiente de

dado que conocemos

es

, si y solo si para

se verifica que
|
De lo contrario se dice que
. Cuando
|

|
son condicionalmente dependientes dado

son condicionalmente independientes dado

se nota como

2.4 Teorema de Bayes

En la teora de la probabilidad el Teorema de Bayes se expresa como la


probabilidad condicional de un suceso aleatorio

dado

en trminos de la

distribucin de probabilidad condicional del suceso

dado

y la distribucin de

probabilidad marginal de slo . La capacidad de vincular la probabilidad de


dado , con la de

dado , a veces es llamado tambin teorema de las causas.

(Mesa P., 2011).


Este teorema nos permite representar la probabilidad condicionada

mediante la siguiente expresin (Garca F. J., 2009).

Liliana A. Snchez Parra

11

Redes bayesianas para inferir integridad ecolgica


EME - UV
|

|
Teniendo en cuenta que

y que

podemos representar el teorema de Bayes usando la siguiente expresin:


|

De la ecuacin anterior se puede distinguir:

La probabilidad
inicial de

se denomina probabilidad marginal, a priori o


puesto que puede ser obtenida antes de conocer la

evidencia, es decir, no tiene en cuenta ninguna informacin acerca de


.

La probabilidad
condicional de

es la probabilidad posterior, a posteriori, o

puesto que despus de conocer la evidencia, es decir,

depende del valor .

La probabilidad
la observacin

se le llama verosimilitud y es la probabilidad de


dado

Un ejemplo (Carreo S, 2006) de la aplicacin de este teorema es la


siguiente:
Imaginemos que, por ejemplo, nos interesa conocer cul ser la probabilidad
de que un paciente con resultado positivo en la prueba de la diabetes sea
realmente diabtico, sabiendo que dicha prueba presenta errores de deteccin.
Un esquema nos ser muy til para calcular su probabilidad:

Liliana A. Snchez Parra

12

Redes bayesianas para inferir integridad ecolgica


EME - UV
Diagnstico

Prueba
R. Positivo

Diabtico

R. Negativo

Poblacin

R. Positivo

No Diabtico

R. Negativo

Ilustracin 1 Ejemplo del diagnstico de diabetes

Para el ejemplo anterior, la prevalencia de la diabetes es de alrededor del


4%, de lo que se extrae que el 96% de los individuos no son diabticos. Adems,
dicha prueba diagnstica correctamente al 80% de los pacientes diabticos (el
20% restante obtiene valores errneos), mientras que lo hace correctamente en
el 90% de los pacientes no diabticos (aparece un resultado positivo cuando
debera ser negativo en el 10% de los no diabticos, se le conoce como falso
negativo).
Lo que nos interesa es conocer los resultados positivos que provienen de
pacientes diabticos, de entre todos los que son diabticos. Por tanto, segn el
teorema de Bayes, la probabilidad de que un paciente sea diabtico (D) cuando
el test sale positivo (+) sera la probabilidad de que el diagnstico positivo sea
correcto, de entre todas las posibilidades de que sea positivo sustituyendo en la
frmula del teorema, se obtiene lo siguiente:
|

|
(

De este modo se observa que a pesar de haber obtenido un resultado


positivo en la prueba, solo existe un 25% de posibilidades de que el paciente sea

Liliana A. Snchez Parra

13

Redes bayesianas para inferir integridad ecolgica


EME - UV
diabtico.
El teorema de Bayes es vlido en todas las aplicaciones de la teora de la
probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades
que emplea. En ciertas condiciones, los partidarios de la estadstica tradicional
slo admiten probabilidades basadas en experimentos repetibles y que tengan
una confirmacin emprica mientras que los llamados estadsticos bayesianos
permiten probabilidades subjetivas.
No elaboramos ms aqu sobre la teora bayesiana por no usarla en este
trabajo, sin embargo se sugiere consultar (Lpez de Castilla Vsquez, 2011).

2.5 Esperanza matemtica

Una variable aleatoria es discreta si existe una sucesin

de

nmeros reales tales que

El valor esperado para variables aleatorias discretas, se define como:


Sea

una variable discreta con la notacin anterior, y llamemos


diremos que existe el valor esperado, la media o la

esperanza matemtica si la serie es convergente (Ortega, 2009).


|

En ese caso, el valor esperado se denota

y se define mediante la

serie

Liliana A. Snchez Parra

14

Redes bayesianas para inferir integridad ecolgica


EME - UV

Ejemplo
Sea

el resultado de lanzar un dado, entonces

toma valores

con probabilidad uniforme en este conjunto. Por lo tanto

En este caso el valor esperado no es un valor posible de la variable aleatoria.

Liliana A. Snchez Parra

15

Redes bayesianas para inferir integridad ecolgica


EME - UV

3. Mtricas

Hay distintas mtricas, la mayora pueden ser agrupadas en dos categoras:


bayesianas y basadas en medidas de informacin (Garca F. J., 2009).
Las mtricas bayesianas (L. Buntine, 1994) buscan la estructura que
maximiza la probabilidad de una red condicionada a la base de datos

usando para ello la frmula de Bayes.


|
El trmino
candidata, y

representa la distribucin a priori de cada estructura


llamada evidencia, es la verosimilitud muestral promedio

que puede calcularse bajo ciertas suposiciones (diferentes suposiciones dan


lugar a diferentes mtricas) (Garca F. J., 2009).
Las mtricas basadas en teora de la informacin representan otra
opcin para medir el ajuste del grafo dirigido acclico al conjunto de datos
(Bouckaert, 1993). Estn basadas en conceptos de la teora de la codificacin e
informacin.
En la codificacin de un mensaje se trata de reducir lo ms posible el
nmero de elementos necesarios para representarlos atendiendo a su
probabilidad de ocurrencia esto es, los mensajes ms frecuentes tienen cdigos
cortos y los mensajes menos frecuentes tendrn cdigos largos. El principio de
mnima longitud de descripcin (Rissanen, 1978) (o MDL, del ingls Mnimum
Description Length), selecciona la codificacin que conduce a una mnima
longitud en la codificacin de los mensajes. En el caso de las redes bayesianas,
modelos muy complejos sern aquellos donde los nodos estn densamente
conectados (el caso extremo sera un grafo completo) y sern redes muy
precisas, bastante ajustadas a los datos. No obstante, redes tan complejas
Liliana A. Snchez Parra

16

Redes bayesianas para inferir integridad ecolgica


EME - UV
suponen serios problemas de comprensin, computacin y sobre ajuste, por lo
que se buscan redes ms simples aunque menos precisas (Garca F. J., 2009).

3.1 MDL

El comportamiento esperado para la mtrica MDL consiste en que


comienza con un valor x, y a medida que se van incrementando relaciones entre
variables (arcos), la complejidad del modelo va incrementando y el valor de
MDL se decrementa hasta llegar a su valor mnimo, lo que significa que MDL
ha encontrado el mejor modelo con el mejor balance entre bondad de ajuste y
complejidad. La bondad de ajuste se define como el ajuste que toman los datos
en relacin con una estructura de red Bayesiana propuesta, dicha de otra
manera, es la precisin con la que los datos pueden ser representados con la
estructura de red (Domnguez Snchez, 2009).
La idea principal en la que se basa el principio MDL es el considerar
equivalente el aprendizaje con el descubrimiento de regularidades (Gutirrez
Fragoso, 2007) (semejanzas entre datos). Entre ms datos existan, habr mayor
certeza en los resultados y mayor posibilidad de encontrar regularidades en los
datos (aunque puede no haberlas). A mayor cantidad de regularidades, mucho
mayor ser la comprensin de los datos. Entre mayor sea la comprensin de los
datos, mayor ser el aprendizaje obtenido a partir de ellos. Entre mayor sea el
aprendizaje obtenido, menor ser el valor de la entropa o incertidumbre. Se
entiende por entropa como el grado de certeza en cuanto a la aceptacin de
una hiptesis, por tanto, entre mayor aprendizaje se obtenga a partir de los
datos, disminuir la incertidumbre y por ende, tendremos mayor certeza en
cuanto a nuestras inferencias (Domnguez Snchez, 2009).

Liliana A. Snchez Parra

17

Redes bayesianas para inferir integridad ecolgica


EME - UV
La ecuacin para MDL es la siguiente:
|
Donde

representa los datos,

denota los parmetros del modelo,

representa la dimensin del modelo y es una nocin de complejidad,


tamao de la muestra y

es una constante que no depende de

es el

sino de , el

cual es un trmino que representa el nmero de variables.

Representa la longitud de la descripcin de la estructura de la red


Bayesiana y se define por la siguiente ecuacin:

Donde |

| denota la cardinalidad de los padres de

en la red Bayesiana

(Grnwald, 2005).

3.2 Entropa

Este trmino aparece en algunas otras teoras, pero en el mbito de la


teora de informacin se utiliza para medir la incertidumbre de una fuente de
informacin.
La entropa asociada a la variable aleatoria

es un nmero que depende

directamente de la distribucin de probabilidad de

e indica como es de

predictible el resultado del proceso sujeto a incertidumbre o experimento.


Desde un punto de vista matemtico cuanto ms plana sea la distribucin de
probabilidad ms difcil ser acertar cul de las posibilidades se dar en cada
Liliana A. Snchez Parra

18

Redes bayesianas para inferir integridad ecolgica


EME - UV
instancia. Una distribucin es plana (tiene alta entropa) cuando todos los
valores de

tienen probabilidades similares, mientras que es poco plana

cuando algunos valores de

son mucho ms probables que otros (se dice que la

funcin es ms puntiaguda en los valores ms probables). En una distribucin


de probabilidad plana (con alta entropa) es difcil poder predecir cul es el
prximo valor de

que va a presentarse, ya que todos los valores de

son

igualmente probables (Rodrguez-Caballero, 2012).


Shannon ofrece una definicin de entropa que satisface las siguientes
afirmaciones:

La medida de informacin debe ser proporcional (continua). Es decir, el


cambio pequeo en una de las probabilidades de aparicin de uno de los
elementos de la seal debe cambiar poco la entropa.

Si todos los elementos de la seal son equiprobables a la hora de


aparecer, entonces la entropa ser mxima.
La informacin que aporta un determinado valor
aleatoria discreta

de una variable

se define como:

A pesar del signo negativo de la ltima expresin, la informacin


siempre tiene signo positivo.
La entropa determina el lmite mximo al que se puede comprimir un
mensaje usando un enfoque smbolo a smbolo sin ninguna prdida de
informacin (demostrado analticamente por Shannon), el lmite de compresin
(en bits) es igual a la entropa multiplicada por el largo del mensaje. Tambin
es una medida de la informacin promedio contenida en cada smbolo del
mensaje. Su clculo se realiza a partir de su distribucin de probabilidad
mediante la siguiente frmula:

Liliana A. Snchez Parra

19

Redes bayesianas para inferir integridad ecolgica


EME - UV

Propiedades de la entropa:
1.

. Es decir, la entropa H est acotada superiormente


(cuando es mxima) y no supone perdida de informacin.

2. Dado un procesos con posibles resultados


relativas

, la funcin

con probabilidades
es mxima en el caso de que

3. Dado un proceso con posibles resultados


relativas

, la funcin

con probabilidades
, es nula en el caso de que

para cualquier .

3.3 Criterios de seleccin: AIC y BIC

Una de las caractersticas de los modelos estadsticos es la parsimonia, es


decir, que un modelo sea fcil de interpretar y que contenga pocos parmetros.
Los ndices ms comunes son:

Criterio de inferencia de Akaike (AIC (del ingls Akaike Information


Criterion)): Existen dos formas de calcular este ndice para comparar
conjuntos de MCL. El ndice propuesto originalmente por Akaike
(Akaike, 1974), est basado en el logaritmo de la funcin de
verosimilitud, . Un procedimiento alternativo
estadstico

Donde

, est basado en el

. Se tiene:

es el nmero de parmetros independientes estimados y

Liliana A. Snchez Parra

son
20

Redes bayesianas para inferir integridad ecolgica


EME - UV
los correspondientes grados de libertad. La decisin est basada en elegir
el modelo con el mnimo

Criterio Bayesiano de Schwarz (BIC (del ingls Bayesian Information


Criterion)) una crtica al criterio anterior, es el hecho de que no
considera explcitamente el tamao de muestra

. Schwarz (Schwarz,

1978) utiliza

medida

el

BIC para

desarrollar una

consistente

asintticamente basada en el logaritmo de la funcin de verosimilitud ,


el nmero de parmetros independientes a ser estimados
muestral. Una versin alternativa

, y el tamao

puede ser calculada utilizando

y los grados de libertad correspondientes .

El criterio de seleccin es igual al anterior.


Como regla, el

tiende a seleccionar modelos menos complejos (con

menos nmero de parmetros) que el

. En el contexto del modelo de clases

latentes, investigaciones empricas (Lin & Dayton, 1997) sugieren que se debe
preferir utilizar el

a menos que el tamao muestral sea de varios cientos de

casos o los modelos estimados estn basados en un nmero relativamente


pequeo de parmetros, en cuyo caso es preferible utilizar el ndice

Cuando se tienen valores pequeos en los ndices, implica que un modelo es


parsimonioso.

Liliana A. Snchez Parra

21

Redes bayesianas para inferir integridad ecolgica


EME - UV

4. Redes Bayesianas

4.1 Definicin

Las redes bayesianas tambin conocidas como redes de creencias (o redes


de Bayes para abreviar), pertenecen a la familia de los modelos grficos
probabilistas (GMS) (Ruggeri, Faltin, & Kenett, 2007). Estas estructuras
grficas se utilizan para representar el conocimiento acerca de un dominio
incierto. En particular, cada nodo en el grfico representa una variable
aleatoria, mientras que los arcos o aristas entre los nodos representan
dependencias probabilistas entre las correspondientes variables aleatorias. Los
nodos se clasifican en nodos padre y nodos hijo, en donde el nodo padre es aquel
donde inicia un arco y los nodos hijos son aquellos hacia los que va dirigido
dicho arco (Domnguez Snchez, 2009).
Una red probabilista tiene al menos un nodo raz (sin padre alguno) y un
nodo terminal (sin hijo alguno).

Nodos

Arcos o aristas

Ilustracin 2 Componentes de una red bayesiana

Por lo tanto, las redes bayesianas combinan los principios de la teora de


grafos, teora de la probabilidad, la informtica y la estadstica, ya que las
dependencias entre variables se estiman utilizando mtodos estadsticos y

Liliana A. Snchez Parra

22

Redes bayesianas para inferir integridad ecolgica


EME - UV
computacionales (Ruggeri, Faltin, & Kenett, 2007).
Las redes bayesianas o modelos bayesianos son grficos probabilistas que
representan un conjunto de variables aleatorias y sus dependencias
condicionales a travs de la topologa y un conjunto de tablas de probabilidad
condicional. La topologa es la parte grafica del modelo y est conformada por
dos elementos descritos en la figura anterior, y las tablas probabilistas son
aquellas en las que se almacenan los valores de probabilidad condicional para
cada nodo.
Las redes bayesianas estn dentro de las tcnicas de clasificacin, son
grafos dirigidos acclicos cuyos nodos representan variables aleatorias en el
sentido de Bayes: las mismas pueden ser cantidades observables, variables
latentes, parmetros desconocidos o hiptesis.
En la siguiente ilustracin se observa que la imagen (a) es un clico,
imagen (b) y (c) no lo son (Lauritzen & Spiegelhalter, 1988).

Ilustracin 3 Ejemplos de Redes Bayesianas

En 1985 Judea Pearl (Pearl, 1985) propuso el trmino red bayesiana para
representar e inferir en sistemas inteligentes, teniendo en cuenta las siguientes
caractersticas:
Liliana A. Snchez Parra

23

Redes bayesianas para inferir integridad ecolgica


EME - UV

La naturaleza subjetiva de la informacin de entrada.


La confianza en el condicionamiento de Bayes como la base para
actualizar la informacin.

La distincin entre los modos de razonamiento casual y evidencial.


A fines de la dcada de 1980 los textos Probabilistic Reasoning in
Intelligent

Systems

Probabilistic

Reasoning

in

Expert

Systems

sintetizaron las propiedades de las Redes Bayesianas y ayudaron a su


establecimiento como un campo de estudio.
Las redes bayesianas se pueden interpretar de dos formas (Morales &
Gonzlez, 2012):

Distribucin de probabilidad: Representa la distribucin de la


probabilidad conjunta de las variables representadas en la red.
A

Ilustracin 4 Ejemplo de distribucin de probabilidad

Base de reglas: Cada arco representa un conjunto de reglas que asocian


las variables involucradas, Si

Dichas reglas estn cuantificadas por las probabilidades respectivas.


Esta tcnica busca determinar relaciones probabilistas que expliquen un

Liliana A. Snchez Parra

24

Redes bayesianas para inferir integridad ecolgica


EME - UV
fenmeno y es aplicado en aquellos casos que son de carcter predictivo y
diagnstico. Es decir, el razonamiento probabilista o propagacin de
probabilidades consiste en difundir los efectos de la evidencia por medio de la
red para conocer la probabilidad a posteriori de las variables. Dicho de otra
forma a determinadas variables (conocidas) se les otorga una probabilidad y
con base a esto se obtiene una probabilidad posterior.

4.2 Aprendizaje de los parmetros

Una red bayesiana constituye un dispositivo potente para el razonamiento


probabilista. Pero Cmo se construye una red bayesiana? Existen tres
enfoques para de determinar la topologa de una red Bayesiana, es decir, las
relaciones de dependencia entre las variables relevantes involucradas en un
problema dado: de forma manual o tradicional, de forma automtica y el
enfoque Bayesiano que puede ser visto como una combinacin de los dos
anteriores (Cruz Ramrez, 2001).
En muchos casos, la estructura y la asignacin de probabilidades de una
red bayesiana son dadas a travs de la opinin de expertos ayudado por el
ingeniero del conocimiento, forma manual o tradicional. El experto humano
plasma su conocimiento dibujando la red con las relaciones de dependencia e
independencia condicional entre las variables involucradas en un problema
determinado. Aunque sta es una tarea bastante difcil y tardada, la
construccin de la estructura realizada de esta forma puede pensarse como la
determinacin de las relaciones entre las variables de una manera causal. Sin
embargo, en muchos de los casos, el mismo experto no tiene bien definidas las
relaciones de dependencia relevantes entre las variables del problema. Esto
significa que si dos variables estn conectadas, se piensa que la primera es la

Liliana A. Snchez Parra

25

Redes bayesianas para inferir integridad ecolgica


EME - UV
causa de la segunda (Jimnez, 2003). Debido al gran volumen de datos con los
que se trabaja, es de enorme inters proporcionarles a estos expertos
herramientas que adquieran este tipo de conocimiento de forma automtica a
partir de datos de ejemplos del problema en cuestin, para que de esta manera
tengan una herramienta de soporte para la decisin (Hernndez Orallo, Ferri
Ramrez, & Ramrez Quintana, 2004).
La forma automtica o de aprendizaje a partir de datos consiste en definir
la red probabilista a partir de datos almacenados en bases de datos en lugar de
obtener el conocimiento directamente del experto. Este tipo de aprendizaje
ofrece la posibilidad de inducir la estructura grfica de la red a partir de los
datos observados y de definir las relaciones entre los nodos basndose tambin
en dichos casos.
Obtener una red Bayesiana a partir de datos es un proceso de aprendizaje
que se divide en dos etapas: el aprendizaje estructural y el aprendizaje
paramtrico (Csari, 2006). La primera de ellas, consiste en obtener la
estructura de la red bayesiana, es decir, las relaciones de dependencia e
independencia entre las variables involucradas (se ver con detalle ms
adelante). La segunda etapa, tiene como finalidad obtener las probabilidades a
priori y condicionales requeridas a partir de una estructura dada.
A continuacin se presenta un ejemplo de Red Bayesiana automtica o
aprendizaje (Ruiz Reina, 2006).

Liliana A. Snchez Parra

26

Redes bayesianas para inferir integridad ecolgica


EME - UV

Ilustracin 5 Ejemplo diagnstico caries

En esta red observamos que:

Caries es una causa directa de Dolor y Huecos


Dolor y Huecos son condicionalmente independientes dada Caries
Tiempo es independiente de las otras variables

La combinacin de ambas posibilidades (enfoque bayesiano), permite


orientar al experto y al ingeniero del conocimiento para afianzar o corregir su
percepcin del dominio. Se puede optar por obtener el modelo de forma manual,
a travs de la ayuda de expertos humanos y aplicar alguno de los algoritmos de
aprendizaje para la obtencin de las probabilidades. Por otro lado, tambin se
puede aprender la red a partir de una base de datos y posteriormente realizar
una depuracin refinando la estructura y los parmetros con la ayuda de
expertos humanos (Garca D. , 2010).

Liliana A. Snchez Parra

27

Redes bayesianas para inferir integridad ecolgica


EME - UV
4.2.1 Aprendizaje de la estructura

Es una etapa del aprendizaje automtico, en la cual se buscan las


relaciones cualitativas entre las variables del problema, el conjunto de redes
bayesianas con

nodos es de orden sper-exponencial5 (Robinson, 1977), con lo

que un recorrido exhaustivo por dicho conjunto con el fin de encontrar la mejor
red candidata no es factible en la mayora de los casos.
Podemos realizar la siguiente clasificacin de las estrategias de aprendizaje con
base a la tcnica utilizada para obtener la parte cualitativa de la red.

Basadas en pruebas de Independencia: son mtodos que utilizan criterios


de independencia entre variables, para obtener la estructura que mejor
representa el conjunto de independencias que se deducen de los datos.

Mtricas + bsqueda: son paradigmas de aprendizaje que se basan en el


criterio de bondad del ajuste de una estructura a los datos. Utilizando
dicho criterio se realiza un proceso de bsqueda entre las estructuras
candidatas, dando como resultado aquella estructura que mejor se ajuste
a los datos.

Hbridos: son modelos que combinan ideas de las anteriores tcnicas.


La idea subyacente en el segundo tipo de mtodos, es encontrar el grafo que
mejor represente los datos, utilizando el menor nmero de arcos posibles, es
decir, la calidad de cada grafo candidato se cuantifica mediante algn tipo de
medida o mtrica. Dicha medida es utilizada por algn algoritmo de bsqueda
para encontrar las mejores soluciones desde el punto de vista de la medida
utilizada. Por lo tanto, estos mtodos se caracterizan tanto por lo mtrica usada
como por el algoritmo de bsqueda (Garca F. J., 2009).

El nmero de grafos dirigidos acclicos posibles para

nodos sera

Por ejemplo,

Liliana A. Snchez Parra

28

Redes bayesianas para inferir integridad ecolgica


EME - UV
4.2.2 Aprendizaje de variables latentes

El Anlisis de Clases (o variables) Latentes (ACL) es una tcnica de


reciente desarrollo, esta se puede aplicar en diversas reas, principalmente se
utiliza en estudios de mercado, en investigaciones cientficas, sociales,
educativas entre otras.
Esta tcnica permite estudiar identifica y define grupos de una muestra en
estudio, por medio del principio de Independencia Condicional, esta prueba nos
asegura que cada grupo es diferente de los restantes, metodologa que trabaja
con dos tipos de variables (Snchez Parra, 2012):

Las primeras se llaman indicadoras, son las variables que se han


observado, esta variable sirve para definir o medir la variable latente
(Vermunt y Magdison, 2000).

Las segundas variables se llaman latentes, son aquellas variables que no


son directamente observadas o cuantificadas y se construyen a partir de
otras variables (Vermunt y Magdison, 2000).

El ACL es una tcnica estadstica que permite estudiar la existencia de una


o varias variables latentes a partir de un conjunto de variables indicadoras
observadas y definir, a partir de sus clases, una clasificacin o topologa de los
datos con los que se trabaja. (Prez & Fajardo, 2001)
El diseo estadstico de clases latentes permite construir una variable nominal
no observada; es decir, una variable latente con k categoras, las cuales
representan a cada una de las clases identificadas en la poblacin bajo estudio
(Reyes, 2009).
El Modelo de Clases Latentes (MCL) es una tcnica estadstica que
permite estudiar la existencia de una o varias variables latentes a partir de un
conjunto de variables explicativas observadas, este modelo puede parametrizar
Liliana A. Snchez Parra

29

Redes bayesianas para inferir integridad ecolgica


EME - UV
de dos formas distintas, por probabilidades condicionadas entre las variables o
mediante un modelo log-lineal (Goodman, 1974).
Supngase que se tiene un conjunto de variables indicadoras
con un nmero de categoras
con un total de

. Por otro lado, sea

una variable latente

clases. Las ecuaciones bsicas del modelo de clases latentes

son:

Donde
|

Representa la probabilidad de estar en la celda

de la

distribucin conjunta
Es la probabilidad de pertenecer a la clase latente .
|

Es la probabilidad de tener un patrn de respuesta concreta dado

Son probabilidades condicionadas.


Como se observa que las variables son estadsticamente independientes
dentro de cada clase latente (Prez & Fajardo, 2001).
Por tanto, los parmetros del modelo de clases latentes son las
probabilidades condicionadas
latentes

y las probabilidades de las clases

que estarn sometidas a las siguientes restricciones:

Liliana A. Snchez Parra

30

Redes bayesianas para inferir integridad ecolgica


EME - UV

Los primeros mtodos que se utilizaban para resolver un MCL se basaba


en clculos matriciales y en sistemas de ecuaciones lineales, lo cual traa como
consecuencia una enorme cantidad de clculos y gran consumo de tiempo y
recursos computacionales, en la actualidad se utilizan procedimientos
numricos iterativos para obtener las soluciones a las ecuaciones de
verosimilitud, lo cual disminuye la complejidad del proceso de estimacin.
Para las estimaciones mximo-verosmiles de los parmetros de un
modelo de clases latentes se utilizan varios mtodos, lo ms usados son el
algoritmo de Newton-Raphson y el algoritmo EM (Dempster, Laird, & Rubin,
1977). En este trabajo se hace uso de este ltimo algoritmo.
Goodman en 1974 (Goodman, 1974) propone un proceso iterativo de estimacin
que consta de los siguientes pasos:
1. Esperanza se calculan todos los valores esperados dados los valores
observados y los actuales parmetros del modelo.
2. Maximizacin

se maximiza la funcin de verosimilitud de todos los

datos a partir de los valores esperados calculadas en el paso 1. Esto


implica el clculo de estimaciones actualizadas de los parmetros del
modelo como si no faltaran datos. Las iteraciones continan hasta que se
alcanza la convergencia.
As finalmente, se obtienen las estimaciones mximo-verosmiles

A partir de las que es posible calcular las probabilidades

Liliana A. Snchez Parra

31

Redes bayesianas para inferir integridad ecolgica


EME - UV
El siguiente paso en el anlisis es asignar cada individuo a las diferentes
clases de la variable latente , para ello se calcula la probabilidad condicionada
de que un individuo que se site en las categoras
indicadoras

, pertenezca a la clase

de las variables

de la variable

de la siguiente

manera:

Dada esta probabilidad, la regla de asignacin es mediante la


probabilidad modal, es decir, los individuos situados en la celda
tabla sern asignados a aquella clase latente cuya

de la

sea mayor. Como

vemos se utiliza un proceso bayesiano para realizar dicha asignacin (Reyes,


2009).

4.3 Inferencia en una red Bayesiana

Se entiende por inferencia cuando deducimos algo tomando en cuenta el


contexto o las otras opciones presentes, se puede llegar a alguna conclusin
teniendo en cuenta la incertidumbre.
De manera ms formal Inferencia se refiere a obtener conclusiones
basadas en premisas, es decir basada en una nueva informacin, permitiendo
realizar predicciones en caso de intervenciones que se hagan en base a las
nuevas probabilidades (Roche B., 2002).
La inferencia es el proceso de introduccin de nuevas observaciones y
calcular las nuevas probabilidades que tendrn las variables, dicho proceso
consiste en calcular la probabilidad a posteriori
variables

despus de obtener un conjunto de observaciones

Liliana A. Snchez Parra

de un conjunto de
(donde

es

32

Redes bayesianas para inferir integridad ecolgica


EME - UV
la lista de variables observadas e

es la lista correspondiente de los valores

observados para esas variables) (Felgaer, 2005).

4.4 Clasificacin

Al construir clasificadores debemos cuantificar de alguna manera qu tan


buenos o malos son, existen distintos criterios de evaluarlos puede ser el tiempo
que se tarda en construirlo, la interpretabilidad del modelo obtenido, la
sencillez del modelo o diferencias respecto al original; sin embargo es la
precisin que posee el modelo la caracterstica que ms importante se considera
(Garca F. J., 2009).

4.4.1 Mtodos de evaluacin

La precisin de un clasificador es la probabilidad con la que se clasifica


correctamente un caso seleccionado al azar (Kohavi, 1996), o tambin lo
podemos ver como el nmero de casos clasificados correctamente entre el
nmero total de elementos.

Adems de ser la medida ms aceptada para la evaluacin de un


clasificador, la precisin es utilizada en algunos procedimientos para guiar la
construccin (Garca F. J., 2009). Existen varias formas de obtener su valor,
una de stas y a la que se recurre en esta investigacin es la validacin

Liliana A. Snchez Parra

33

Redes bayesianas para inferir integridad ecolgica


EME - UV
cruzada.
Validacin cruzada de k-hojas (k-fold cross validation) (Stone, 1974). Se
puede ver como una generalizacin del criterio de re muestreo. Hacemos k
particiones del conjunto de datos mutuamente excluyentes y de igual tamao. k
- 1 conjuntos se utilizan para construir el clasificador y se valida con el
conjunto restante. Este paso se efecta k veces y la estimacin de la precisin
del clasificador se obtiene como la medida de las k mediciones realizadas.
El algoritmo de induccin es probado k veces de la siguiente manera: en
la primera iteracin el algoritmo es entrenado con los subconjuntos
probado con el subconjunto
con los subconjuntos

; en la segunda iteracin, el algoritmo se entrena


y se prueba con el subconjunto

y as

sucesivamente. El nmero total de clasificaciones correctas de las k iteraciones


se divide por el tamao completo del conjunto de datos para obtener la
estimacin de la exactitud en este mtodo (Jimnez, 2003).

Donde (
conjunto

) denota la proposicin

)
construida por el modelo \ en el

, la cual es asignada a la etiqueta

es el tamao total de conjunto de datos

. Si

y probada en el conjunto
de lo contrario

. Lo anterior quiere decir que la funcin de prdida usada para

calcular la exactitud del con el mtodo cross-validation es una funcin de


prdida 0/1, lo cual considera un costo igual para una clasificacin errnea.

Liliana A. Snchez Parra

34

Redes bayesianas para inferir integridad ecolgica


EME - UV

5. Materiales & mtodos

5.1 Descripcin de las bases de datos

Este proyecto de investigacin es retrospectivo, transversal, descriptivo y


observacional. Se utilizaran dos bases de datos, la primera fue proporcionada
por le INECOL y est conformada con 14 variables contenidas en 4 grupos:
integridad, composicin, funcional, de estructura. Tomadas del Inventario
Nacional Forestal y de Suelos, imgenes MODIS y reas de Distribucin
Potencial obtenidas a partir de la Comisin Nacional para el Conocimiento y
Uso de la Biodiversidad (CONABIO), consta de 2254 datos los cuales fueron
procesados previamente tanto por investigadores del INECOL como de
CONABIO para tener representada cada variable en pixeles de 1 km2.
Para el procesamiento de los datos y construccin de las redes
bayesianas se hace uso del software de acceso libre WEKA (Waikato, 19992013) vase anexo.

Base 1
Nombre de
Variable

Idanofor
Hsi
Contfor

Descripcin
ndice de dao Forestal con base a los daos antropognicos
registrados en el INFyS.
ndice de Establecimientos Humanos (luces de zonas Urbanas)
Conectividad de fragmentos naturales de imgenes MODIS.

Dext

Deuda de Extincin. Los valores de menos uno (-1) significan


extincin total en los sitios. Cero significa que no hay deuda de
extincin.

Rsg

Proporcin de Especialistas.

Nomam

Nmero de especies de la NOM presentes

Liliana A. Snchez Parra

Valores que
toma

0 0.23
0.126 2.89
0 1000
-1 0
0 0.43
0 63

35

Redes bayesianas para inferir integridad ecolgica


EME - UV
Carncon
Dap

Estimacin de conectividad por ocupacin de diferentes tipos de


habitat (ZVH).
Dimetro a la altura del pecho promedio por 1km2

Areabasl

rea basal del arbolado promedio por 1km2

alt_prom

Alturas promedio de los arboles por 1km2

Plagas

Arbolrip

Sppinvas

Hojarasc

Clase

En el INFyS se reportan impactos ambientales de las


actividades forestales percibidas en cada conglomerado; estos
se registran en 11 categoras, para el caso de plagas se toma la
categora nmero 8.
En el INFyS se reporta el tipo de vigor observado para cada
una de las especies reportadas en los sitios de muestreo y
posteriormente por conglomerado. A cada especie se le asigna
un tipo de vigor dependiendo si son arboles muy jvenes,
jvenes, maduros, viejos y sin vigor (muerto); para el caso de
rboles muertos se tom la ltima categora.
El INFyS, reporta las especies encontradas en cada sitio de
muestreo y posteriormente en cada conglomerado, estas
especies fueron cotejadas en 2011 por el Dr. Jos Luis
Villaseor, posteriormente son verificadas en el GLOBAL
INVASIVE SPECIES DATABASE para corroborar la
categora de invasora no invasora.
Se reporta la cantidad de mantillo (hojarasca) de tipo fbrico,
hemco y saprco, para cada conglomerado con presencia
ausencia.
Variable construida a partir del algoritmo EM.

6 44
13.25 24.20
174.15 519.51
3.72 10.53
1 presencia
0 ausencia

1 presencia
0 ausencia

1 presencia
0 ausencia

1 presencia
0 ausencia
04

Tabla 1 Descripcin de las variables de la base 1

La segunda base consta de 13 variables, fue tomada del Inventario


Nacional Forestal y de Suelos (INFyS), se trabaja con una muestra de 30051.
No fue necesario realizar la clasificacin ya que existe la variable zvh como
variable clase.

Liliana A. Snchez Parra

36

Redes bayesianas para inferir integridad ecolgica


EME - UV

Base 2
Nombre variable

Descripcin

Zvh_ph

Zonas de vida de Holdridge: clasifica las


diferentes reas terrestres segn su
comportamiento global bioclimtico

Rf_arip

rf_na_correcion
rf_altde
rf_altprom_2
Rf_afust
rf_afustde_correction2
rf_dapde
Rf_dap
rf_dcopde
rf_dcop_correction
rf_musgo
rf_hojarasca

En el INFyS se reporta el tipo de vigor


observado para cada una de las especies
reportadas en los sitios de muestreo y
posteriormente por conglomerado. A cada
especie se le asigna un tipo de vigor
dependiendo si son arboles muy jvenes,
jvenes, maduros, viejos y sin vigor
(muerto); para el caso de rboles muertos
se tom la ltima categora.
Cantidad de rboles
Desviacin estndar de la altura de los
rboles
Altura promedio de los rboles
Altura fuste: altura tomada de la base del
rbol a la base de la copa
Desviacin estndar de la altura fuste
Desviacin estndar del dimetro a la
altura del pecho
Dimetro a la altura del pecho
Desviacin estndar del dimetro de la
copa
Dimetro de la copa
Nmero de rboles con musgo
Porcentaje de cobertura en el suelo

Valores que toma


1. Desierto
2. Tundra
3. Estepa espinosa
4. Estepa
5. Matorral desrtico
6. Bosque espinoso
7. Bosque muy seco
8. Bosque seco
9. Bosque sub hmedo
10. Bosque hmedo
11. Bosque lluvioso

0 0.96

28.46 1414.64
0.48 9.45
2.09 20.66
0.67 12.72
0.34 7.14
2.15 32.39
10.99 47.26
0.29 3.13
1.45 8.28
12 580
0.03 0.97

Tabla 2 Descripcin de variables de la base 2

Liliana A. Snchez Parra

37

Redes bayesianas para inferir integridad ecolgica


EME - UV

5.2 Algoritmos que aprenden la estructura de la red bayesiana a partir


de datos.

A continuacin se presentan los algoritmos de bsqueda utilizados en esta


investigacin, sin embargo existen ms para continuar con lo descrito en la
seccin 4.2.1
5.2.1 Hill Climbing (ascenso de colinas)

Se trata simplemente de un bucle que continuamente mueve en la direccin


para incrementar el valor. El algoritmo no mantiene un rbol de bsqueda, por
lo que la estructura de datos de nodo slo tiene que registrar el estado y su
evaluacin, que denotamos por valor. Un refinamiento importante es que
cuando hay ms de un mejor sucesor para elegir, el algoritmo puede seleccionar
entre ellos al azar. Esta poltica simple tiene tres inconvenientes conocidos.

Mximos locales: un mximo local, en oposicin a un mximo global, es


un pico que es ms bajo que el pico ms alto en el espacio de estados.
Una vez en un mximo local, el algoritmo se detiene a pesar de que la
solucin puede estar lejos de ser satisfactoria.

Mesetas: una meseta es un rea del espacio de estado, donde la funcin


de evaluacin es esencialmente plana. La bsqueda realiza una
caminata aleatoria. Dado que el algoritmo realiza una bsqueda al azar,
un sucesor podra encontrarse en esta rea.

Cresta: una cresta puede tener lados con fuertes pendientes, por lo que
la bsqueda llega a la parte superior de la cresta con facilidad. A menos
que suceda que los operadores que se mueven directamente a lo largo de
la parte superior de la cresta, la bsqueda puede oscilar desde de lado a

Liliana A. Snchez Parra

38

Redes bayesianas para inferir integridad ecolgica


EME - UV
lado, haciendo pocos progresos.
En cada caso, el algoritmo llega a un punto en el que se est haciendo
ningn progreso. Si esto sucede, una cosa obvia a hacer es empezar de nuevo
desde un punto de partida diferente. Se reinicia aleatoriamente y en escalada
hace precisamente esto: que lleva a cabo una serie de allanamientos en
escalada desde inicial generada aleatoriamente estados, ejecutando cada uno
hasta que se detiene o hace ningn progreso discernible. Guarda el mejor
resultado encontrado tan lejos de cualquiera de la bsqueda. Se puede utilizar
un nmero fijo de iteraciones, o puede continuar hasta que el resultado mejor
guardado no ha sido mejorado para un cierto nmero de iteraciones.
Es evidente que si se permite suficientes iteraciones, el re arranque al azar
en escalada eventualmente encontrar la solucin ptima. El xito de este
algoritmo depende mucho de la forma del espacio "superficie" del estado si slo
hay unos pocos mximos locales, el re-arranque al azar de escalada encuentra
una buena solucin muy rpidamente (Norvig, 1995).

Ilustracin 6 Hill climbing

5.2.2 K2
Este algoritmo fue desarrollado por Cooper y Herskovits en 1992 (Cooper
& Herskovits, 1992). Se trata de un algoritmo de bsqueda, muy rpido que
Liliana A. Snchez Parra

39

Redes bayesianas para inferir integridad ecolgica


EME - UV
optimiza la probabilidad de la red dada la base de datos. En realidad lo que
hace este algoritmo es encontrar el conjunto de padres ms probables,
utilizando la mtrica Bayesiana, que mide precisamente la probabilidad de la
estructura dado los datos. La heurstica de este algoritmo se basa en un
ordenamiento topolgico 6que tiene que ser especificado por el usuario.
El funcionamiento del algoritmo inicia con la red ms simple, es decir,
una red sin arcos, y supone que los nodos se encuentran ordenados. Para cada
variable, el algoritmo aade a su conjunto de padres, el nodo menor de la
variable que conduce a un mximo de incremento de la calidad correspondiente
a la medida de calidad elegida para el proceso de bsqueda. El proceso se
repite hasta que no se incrementa la calidad, o se llega a una red completa
(Snchez S., 2009).
5.2.3 Simulated annealing (recocido simulado)
Es un algoritmo de Hill-Climbing (UPC, 2012) estocstico (elegimos un
sucesor de entre todos los posibles segn una distribucin de probabilidad, el
sucesor podra ser peor). Hacemos paseos aleatorios por el espacio de soluciones
Inspirado en el proceso fsico de enfriamiento controlado (cristalizacin,
templado de metales).
Se calienta un metal/disolucin a alta temperatura y se enfra
progresivamente de manera controlada Si el enfriamiento es adecuado se
obtiene la estructura de menor energa (mnimo global).
Debemos identificar los elementos del problema con los del problema fsico

Temperatura parmetro de control

Energa calidad de la solucin

Ordenamiento topolgico de un grafo acclico G dirigido es una ordenacin lineal de todos los nodos de G
que conserva la unin entre vrtices del grafo G original. La condicin que el grafo no contenga ciclos es
importante, ya que no se puede obtener ordenacin topolgica de grafos que contengan ciclos.
http://es.wikipedia.org/wiki/Ordenaci%C3%B3n_topol%C3%B3gica

Liliana A. Snchez Parra

40

Redes bayesianas para inferir integridad ecolgica


EME - UV

Funcin de aceptacin permite decidir si escoger un nodo sucesor


Funcin de la temperatura y la diferencia de calidad entre la solucin

actual y la solucin candidata. A menor temperatura menor probabilidad de


elegir sucesores peores.

Estrategia de enfriamiento nmero de iteraciones a realizar, como bajar


la temperatura y cuantos sucesores explorar para cada paso de
temperatura.

A continuacin se muestra el algoritmo

Ilustracin 7 Algoritmo Simulated Annealing

5.2.4 Tab Search (bsqueda tab)


La bsqueda tab se basa en la premisa de que la resolucin de
problemas, debe incorporar la memoria adaptativa y exploracin sensible 7. La
funcin de adaptacin de la memoria permite la aplicacin de procedimientos
que son capaces de buscar el espacio, la solucin econmica y efectiva. El
nfasis en la exploracin de respuesta en la bsqueda tab, ya sea en una
aplicacin determinista o probabilista, se deriva de la suposicin de que una
7

se concentra en buscar buenas caractersticas de las soluciones

Liliana A. Snchez Parra

41

Redes bayesianas para inferir integridad ecolgica


EME - UV
mala eleccin estratgica puede producir ms informacin que una buena
eleccin al azar (Glover, 1997).
En otras palabras, este algoritmo clasifica algunos movimientos y los
introduce en una lista tab: los movimientos que se encuentran aqu no sern
posibles de realizar. Enfrenta el problema de ciclos impidiendo temporalmente
movimientos que podran hacer volver a una solucin que ha sido revisada. En
una lista se guardan los movimientos prohibidos y en cada iteracin se elige el
mejor movimiento no tab. Se agregan a la lista los movimientos no factibles.

Ilustracin 8 Algoritmo Tab search8

5.2.5 TAN (Nave Bayes Aumentado a rbol)


El algoritmo TAN es un algoritmo de aprendizaje para clasificadores de
redes Bayesianas, es llamado as por sus siglas en ingls Tree Augmented
Naive Bayes (Jimnez, 2003). Hace uso de la clasificacin Nave Bayes y agrega
arcos entre los atributos, este algoritmo hace que sus componentes formen un
rbol. El atributo clase o salida es el nico padre de cada nodo de la red Nave
Bayes y el algoritmo considera agregar un segundo padre a cada nodo (Snchez
S., 2009).
La estructura para representar a una red Bayesiana TAN es como la que
se muestra en la figura siguiente.
8

Tomado de (Hernndez-Daz, Guerrero Casas, Caballero Fernandez, & Molina Luque, 2006)

Liliana A. Snchez Parra

42

Redes bayesianas para inferir integridad ecolgica


EME - UV

Ilustracin 9 Estructura de TAN

Liliana A. Snchez Parra

43

Redes bayesianas para inferir integridad ecolgica


EME - UV

6. Metodologa y resultados.

6.1 Metodologa

Exploracin

Bases

datos

Bsqueda de

estructuras

Algoritmo

Determinar red

EM

adecuada

Ilustracin 10 Pasos realizados para el desarrollo de las pruebas

Como primera etapa fue la obtencin de las bases de datos, por parte de
las personas del INECOL. Se realiz la exploracin de la base, con lo cual se
observa que no existen datos faltantes, y se convirti a formato .csv para poder
trabajarlos en Weka. Para el caso de la base 1, mediante el algoritmo EM
(vase seccin 4.2.2) se construy la variable latente clase, con niveles del 0 al
4.
Comienza un proceso iterativo en el que mediante los algoritmos se
encuentran las distintas estructuras y relaciones probabilistas entre las
variables, adems de incluir la consulta de los eclogos expertos para la toma
de decisiones en cuanto a la creacin de estas redes, y de sta manera
encontrar una red adecuada que modele el fenmeno de manera confiable.
Se calculan los criterios de informacin de cada estructura obtenida por
cada algoritmo, y mediante estos elegir la red Bayesiana ms parsimoniosa.

Liliana A. Snchez Parra

44

Redes bayesianas para inferir integridad ecolgica


EME - UV

6.2 Resultados

En esta parte se presenta solo el resultado as como las interpretaciones


de una red, las dems se incluyen en la parte de anexos. Despus de esto, se
presenta una tabla resumiendo los valores

as como el porcentaje de

correcta clasificacin.
La siguiente estructura pertenece a los datos de la primer base y se utiliz
el algoritmo Hill climbing.

Ilustracin 11 Estructura 1, base 1 algoritmo Hill Climbing

Dada la estructura de manera grfica y con relaciones directas de


variables como ndice de dao forestal, rea basal, conectividad de fragmentos

Liliana A. Snchez Parra

45

Redes bayesianas para inferir integridad ecolgica


EME - UV
naturales y dimetro a la altura del pecho, indican mayor probabilidad de que
la clasificacin sea en el clster 3.

Ilustracin 12 Probabilidad de pertenecer al Cluster, estructura 1

Con el logaritmo Hill climbing, se observa que se clasific correctamente


el 93% de los casos, se calcula un valor log score Bayes igual a -23398.60, y
segn la matriz de confusin se tiene que el clster 3, es el que mayor cantidad
de datos clasific correctamente.
Hill climbing false 10000 false

=== Confusion Matrix ===

Log Score Bayes: -23398.60317310535


Log Score BDeu: -30552.750398087293
Log Score MDL: -29260.869018823156
Log Score ENTROPY: -24022.836846239872
Log Score AIC: -25379.836846239872

a b c d e <-- classified as
333 20 1 0 0 | a = cluster0
16 336 16 3 0 | b = cluster1
0 21 523 0 0 | c = cluster2
0 5 0 542 37 | d = cluster3
0 0 0 37 363 | e = cluster4

Correctly Classified Instances 93.0759 %

Tabla 3 Resultados con algoritmo Hill Climbing

A continuacin se presenta el resumen de ambas bases y los resultados


segn los algoritmos usados as como los criterios de informacin.
Base 1
Algoritmo
Hill Climbing
k2
Simulated Annealing
Tab search
TAN

AIC
-25379.84
-24915.16
-25663.81
-24383.23
-24813.51

BIC
-23398.60
-23562.14
-23462.45
-23555.74
-23558.23

% correcta clasificacin
93.1
93.7
93.3
94.2
94.5

Tabla 4 Criterios de seleccin de acuerdo a los algoritmos empleados: Base 1

De acuerdo a lo descrito en la seccin 3.3, en este caso es preferible


utilizar el

ya que se tiene una muestra grande de datos. Sin embargo en la

tabla se presenta tambin el

De los algoritmos usados el Hill Climbing es el que presenta el

Liliana A. Snchez Parra

menor, y

46

Redes bayesianas para inferir integridad ecolgica


EME - UV
clasific de manera correcta el 93.1% de los datos. Ahora bien, si utilizramos
el

la estructura seleccionada sera la construida bajo el algoritmo Tab

search.

Algoritmo

AIC

Base 2
BIC

Hill Climbing
K2
Simulated Annealing
Tab search
TAN

-914620.13
-982342.56
-883392.86
-811707.69
-811884.66

-741699.19
-751713.07
-747316.56
-747125.46
-742331.83

% correcta clasificacin
73.49
73.15
72.72
72.73
73.55

Tabla 5 Criterios de seleccin de acuerdo a los algoritmos empleados: Base 2

Para los datos de la base 2, se observa que existe un comportamiento igual


en los criterios de seleccin, el BIC elige a Hill Climbing, mientras que AIC a Tab
search.

Liliana A. Snchez Parra

47

Redes bayesianas para inferir integridad ecolgica


EME - UV

7. Conclusiones y trabajo futuro

De acuerdo a los objetivos y las preguntas del planteamiento del problema


se encontr que:
Mediante redes bayesianas y con los algoritmos utilizados se gener una red
para cada base de datos, seleccionando la mejor mediante los criterios de
informacin, con las cuales se determinaron las relaciones probabilistas y se
observ que la mayora de ellas se relacionan directamente.
Como se mencion para ambas bases se elige la estructura creada con el
algoritmo Hill climbing, se podra decir que se adecua bien a este tipo de datos.
Slo con la primera base se puede llegar a un acuerdo con los expertos para
evaluar la integridad ya que se cre la variable Cluster, con la que se puede
tomar los valores como escala, en el caso se la segunda, se podr evaluar en qu
medida estn relacionadas las variables de acuerdo al tipo de ecosistema (zvh).
Este trabajo proporcionar informacin relevante con las relaciones
probabilistas encontradas, ser trabajo de los expertos evaluar la importancia y
pertinencia biolgicamente de stas. Si bien no se lograron algunos objetivos, se
presenta como un inicio de anlisis.
Se planea seguir con la evaluacin de cada una de las estructuras de los
expertos as como las relaciones probabilistas desde sus conocimientos
expertos. Adems del clculo de las tablas de probabilidad.

Liliana A. Snchez Parra

48

Redes bayesianas para inferir integridad ecolgica


EME - UV

8. Bibliografa
Akaike, H. (1974). A new look at the statistical model identification. Automatic
control, IEEE Transactions on 19(6), 716-723.
Angermaier,

P.

(1994).

Does

Biodiversity

include

artificial

diversity?

Conservation Biology.
Biblioteca educacin y salud. (2002). Enciclopedia de la ecologa y la salud.
Espaa: Safeliz, S. L.
Bouckaert, R. (1993). Belief networks construction using the minimum
description length principle. Symbolic and Quantitative Approaches to
Reasoning and Uncertainty, Lecture Notes in Computer Science., 747, 4748.
Boulanger, P., y T. Brchet. (2005). Models for policy-making in sustainable
development: The state of the art and perspectives for research.
Ecological Economics 55, 337-350.
Carreo S, . (Diciembre de 2006). Recuperado el Diciembre de 2013, de
http://www.seden.org/files/7-CAP%207.pdf
Csari, M. I. (2006). Nivel de significacin estadstica para el aprendizaje de
una red bayesiana. Mendoza: ITBA.
Cooper, G., & Herskovits, E. (1992). A bayesian method fot the induction of
probabilistic networks from data. Machine Learning, 9, 309-347.
Cruz Ramrez, N. (2001). Building Bayesian Networks From Data: a Constraint
Based Approach. Ph D Thesis. Department of Psychology. The
University of Sheffield.
De Finetti, B. (1989). Probabilism: A critical essay on the theory of probability
and on the value of science. Erkenntnis, 31.

Liliana A. Snchez Parra

49

Redes bayesianas para inferir integridad ecolgica


EME - UV
Degroot, M. (1988). Probabilidad y estadstica. EUA: ADDISON-WESLEY
IBEROAMERICA.
Dempster, A., Laird, N., & Rubin, D. (1977). Maximum Likelihood from
Incomplete Data via the EM Algorithm. Journal of the Royal Statistical
Society., 39(1), 1-38.
Domnguez Snchez, F. (2009). Evaluacin emprica del comportamiento de
MDL en el aprendizaje de redes Bayesianas para Minera de datos.
Mxico: Tesis de Licenciatura. Universidad Veracruzana. Facultad de
Estadstica e Informtica.
Equihua Z., Miguel; Garca A., N; Prez M, Octavio; Bentez Badillo, G; Kolb,
M; Schmidt, M; Equihua Bentez, J; Maeda, P. (s.f.). Integridad ecolgica
como indicador de la calidad ambiental. (A. V.-P. C. Gonzalez-Zuarth,
Ed.) Bioindicadores: guardianes de nuestro futuro ecolgico.
Felgaer, P. (2005). Optimizacin de Redes Bayesianas basado en tcnicas de
aprendizaje por induccin. Buenos Aires, Argentina: Tesis de grado en
Ingeniera Informtica, Facultad de Ingeniera, Universidad de Buenos
Aires.
Garca, D. (2010). Desarrollo de un entorno de usuario para aplicacin de redes
bayesianas dinmicas a problemas de fusin de informacin. Madrid:
Tesis de licenciatura. Universidad Carlos III de Madrid.
Garca, F. J. (2009). Modelos bayesianos para la clasificacin supervisada.
Aplicaciones al anlisis de datos de expresin gentica. Granada, Espaa:
Tesis Doctotal, Universidad de Granada.
Glover, F. y. (1997). Tabu Search. Boston: Kluwer Academic Publishers.
Goodman. (1974). Exploraty latent analysis using both identificable and
inidentificable models. Biometrika.

Liliana A. Snchez Parra

50

Redes bayesianas para inferir integridad ecolgica


EME - UV
Groves, C. R. (2003). Drafting a conservation Blueprint: a practitioner's guide
to planing for Biodiversity. Washington: Island Press.
Grnwald, P. (2005). A tutorial inroduction to the Minimun Description Length
Principle. (P. Grnwald, I. Myung, & M. Pitt, Edits.) Advances in
Minimum Description Length: Theory and Applications.
Gutirrez Fragoso, K. (2007). Anisis del compportamiento de MDL en el
contexto del aprendizaje de la estructura de redes Bayesianas a partir de
datos. Veracruz, Mxico: Departamento de Inteligencia Artificial,
Universidad Veracruzana. Tesis para obtener el grado de Maestra en
Inteligencia Artificial.
Hernndez Orallo, J., Ferri Ramrez, C., & Ramrez Quintana, J. (2004).
Introduccin a la minera de datos. PEARSON EDUCACIN.
Hernndez-Daz, A., Guerrero Casas, F., Caballero Fernandez, R., & Molina
Luque, J. (2006). Algoritmo Tab para un problema de distribucin de
espacios. Mtodos cuantitativos para la economa y la empresa, 25-37.
Jimnez, J. L. (2003). BayesN: Un Algoritmo para Aprender Redes Bayesianas
Clasificadoras a partir de datos. Xalapa, Veracruz: Tesis de maestra.
Universidad Veracruzana. Facultad de Fsica e Inteligencia Artificial.
Kay, J. J. (1991). A nonequilibrium thermodynamic framework for discussing
ecosystem integrity. Environmental Management.
Kohavi, R. (1996). Wrappers for performance enhancement and oblivious
decision graphs. Stanford, CA, USA: Tesis doctoral, Stanford University.
L. Buntine, W. (1994). Operations for learning with graphical models. Journal
of Artificial Intelligence Research.(2), 159-225.
Lauritzen, S., & Spiegelhalter, D. (1988). Local computations wilh probabililics
on graphical structures and their application to expert systems. Journal

Liliana A. Snchez Parra

51

Redes bayesianas para inferir integridad ecolgica


EME - UV
of the Royal Statistical Society, 157-224.
Lin, T. S., & Dayton, C. M. (1997). Model-selection information criteria for
nonnested latent class models. Journal of Educational and Behavioral
Statistics(22), 249-264.
Lpez de Castilla Vsquez, C. (19 de Octubre de 2011). Recuperado el
Noviembre

de

2013,

de

http://tarwi.lamolina.edu.pe/~clopez/Estadistica%20Bayesiana/Estadistic
a_Bayesiana.pdf
Mackey, B. (2005). Carta de la tierra en accin. msterdam, Los Pases Bajos:
KIT Publishers.
Mesa

P.,

e.

a.

(2011).

Recuperado

el

Diciembre

de

2013,

de

http://www.urosario.edu.co/urosario_files/38/38e60ea0-497e-4197-913de156ae0bb084.pdf
Montes S, F. (2007). Introduccin a la probabilidad. Valencia: Universidad de
Valencia, Departamento de Estadstica e Investigacin Operativa.
Morales, E., & Gonzlez, J. (Enero de 2012). Aprendizaje bayesiano. INAOE.
N. Kolmogorov, A. (1956). Foundations of the theory of probability (2 ed.). New
York: Chelsea Publishing Company.
Navarrete, M. (2001). A historical overview of the ecological.
Norvig, S. J. (1995). Artificial Intelligence, A Modern Approach. New Jersey:
Prentice-Hall.
Ortega, J. (2009). Captulo 6. Esperanza matemtica. Guanajuato, Mxico.
Pearl,

J.

(1985).

Recuperado

el

Diciembre

de

2013,

de

http://es.wikipedia.org/wiki/Red_de_inferencia
Prez, J., & Fajardo, M. (2001). Determinacin de la lealtad de voto mediante

Liliana A. Snchez Parra

52

Redes bayesianas para inferir integridad ecolgica


EME - UV
un modelo de clases latentes. Estadstica espaola, 147(43), 89-103.
Reyes, Y. (2009). Introduccin al anlisis de clases latentes. Xalapa, Veracruz,
Mxico: Tesis de licenciatura, Facultad de Estadstica e Informtica,
Universidad Veracruzana.
Rissanen, J. (1978). Modelling by the shortest data description. Automatica 14,
465-471.
Robinson, R. W. (1977). Counting unlabeled acyclic digraphs. Combinatorial
mathematics V: Proceedings of the Fifth Australian Conference, 28-43.
Roche B., D. (2002). Mtodos para obtener conocimiento utilizando redes
Bayesianas y procesos de aprendizaje con algoritmos evolutivos. Sevilla,
Eapaa: Tesis Doctoral. Universidad de Sevilla, Departamento de
Lenguajes y Sistemas Informticos.
Rodrguez-Caballero, C. (2012). Entropa y teora de la informacin.
Econometra I. (U. Facultad de Ciencias, Ed.) Mxico.
Ruggeri, F., Faltin, F., & Kenett, R. (2007). Encyclopedia of Statistics in
Quality & Reliability: Bayesian Networks. Wiley & Sons.
Ruiz

Reina,

J.

(2006).

Recuperado

el

Diciembre

de

2013,

de

http://www.cs.us.es/cursos/ia2-2005/temas/tema-08.pdf
Snchez Parra, L. (2012). Anlisis sobre la percepcin, conocimientos y
prcticas de riesgo en relacin con el VIH y SIDA de consumidores de
drogas que asisten a Centros de Tratamiento en el Estado de Veracruz.
Xalapa, Veracruz, Mxico: Tesis de licenciatura, Facultad de Estadstica
e Informtica, Universidad Veracruzana.
Snchez S., D. (2009). Evaluacin del comportamiento de Clasificadores
basados en Redes Bayesianas. Xalapa, Veracruz, Mxico: Tesis para
obtener el grado de licenciado en Informtica. Facultad de Estadstica e

Liliana A. Snchez Parra

53

Redes bayesianas para inferir integridad ecolgica


EME - UV
Informtica. Universidad Veracruzana.
Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics
6, 461-464.
Stone, M. (1974). Cross Validatory choice and assessment of statistical
predictions. Journal of the Royal Statistical Society B 36(1), 111-147.
Ulanowicz, R. E. (1990). Ecosystem integrity and network theory. Edwards y
H. A. Higashi.
UPC. (2012). Departament de Llenguatges i Sistemes Informtics. Recuperado
el

agosto

de

2014,

de

Bsqueda

Local:

http://www.lsi.upc.edu/~bejar/ia/transpas/teoria/2-BH3Busqueda_local.pdf
Vermunt y Magdison. (2000). Latent gold 4.0 user's guide. Nueva York:
Statistical Innovations.
Waikato, U. d. (1999-2013). Patente n Version 3.6.10 . Nueva Zelanda.
Westra, L. P. (2000). Ecological integrity and the aims of the global integrity
project. Island Press: Washington, DC.

Liliana A. Snchez Parra

54

Redes bayesianas para inferir integridad ecolgica


EME - UV

9. Anexos

9.1 Resultados (completos)


En la seccin 6.2 se presentan los resultados del primer algoritmo, Hill
climbing. A continuacin se presentan las estructuras, probabilidad de
clasificacin as como tabla de resultados de cada uno de los dems algoritmos.
Algoritmo K2

Ilustracin 13 Estructura 2, base 1 algoritmo K2

Ilustracin 14 Probabilidad de pertenecer al Cluster, estructura 2

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
K2 - false 10000 false
=== Confusion Matrix ===
LogScore Bayes: -23562.136961983902
LogScore BDeu: -28516.442440905295
LogScore MDL: -28001.10477652969
LogScore ENTROPY: -23836.155097666495
LogScore AIC: -24915.155097666502
Correctly Classified Instances 93.6973 %

a b c d e <-- classified as
331 22 1 0 0 | a = cluster0
15 340 15 1 0 | b = cluster1
0 15 529 0 0 | c = cluster2
0 5 0 556 23 | d = cluster3
0 0 0 45 355 | e = cluster4

Tabla 6 Resultados con algoritmo K2

Algoritmo Simulated Annealing

Ilustracin 15 Estructura 3, base 1 algoritmo Simulated Annealing

Ilustracin 16 Probabilidad de pertenecer al Cluster, estructura 3

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
Simulated Annealing - false false
LogScore Bayes: -23462.453977319026
LogScore BDeu: -31289.523440510202
LogScore MDL: -29893.759509092393
LogScore ENTROPY: -24184.80624214273
LogScore AIC: -25663.806242142724
Correctly Classified Instances 93.3422 %

=== Confusion Matrix ===


a b c d e <-- classified as
329 24 1 0 0 | a = cluster0
16 339 12 4 0 | b = cluster1
0 21 523 0 0 | c = cluster2
0 5 0 543 36 | d = cluster3
0 0 0 31 369 | e = cluster4

Tabla 7 Resultados con algoritmo Simulated Annealing

Algoritmo Tab search

Ilustracin 17 Estructura 4, base 1 algoritmo Tab search

Ilustracin 18 Probabilidad de pertenecer al Cluster, estructura 4

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV

Tab search - false false


LogScore Bayes: -23555.73888413739
LogScore BDeu: -26658.780952017503
LogScore MDL: -26410.977202515976
LogScore ENTROPY: -23674.23084263275
LogScore AIC: -24383.23084263275

=== Confusion Matrix ===


a b c d e <-- classified as
333 19 2 0 0 | a = cluster0
15 340 14 2 0 | b = cluster1
0 14 530 0 0 | c = cluster2
0 5 0 554 25 | d = cluster3
0 0 0 35 365 | e = cluster4

Correctly Classified Instances 94.1855 %


Ilustracin 19 Resultados con algoritmo Tab search

Algoritmo TAN

Ilustracin 20 Estructura 5, base 1 algoritmo TAN

Ilustracin 21 Probabilidad de pertenecer al Cluster, estructura 5

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
TAN - S Bayes
LogScore Bayes: -23558.230518833705
LogScore BDeu: -28119.16526410393
LogScore MDL: -27684.960995344474
LogScore ENTROPY: -23809.511989247483
LogScore AIC: -24813.511989247476
Correctly Classified Instances

94.4518 %

=== Confusion Matrix ===


a b c d e <-- classified as
333 20 1 0 0 | a = cluster0
14 339 13 5 0 | b = cluster1
1 14 529 0 0 | c = cluster2
0 3 0 563 18 | d = cluster3
0 0 0 36 364 | e = cluster4

Tabla 8 Resultados con algoritmo TAN

Base 2
Algoritmo Hill climbing

Ilustracin 22 Estructura 1, base 2 algoritmo Hill Climbing

Ilustracin 23 Probabilidad de pertenecer al zvh estructura 1

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV
Hill climbing false 10000 false
LogScore Bayes: -741699.1910544233
LogScore BDeu: -1513892.9755854046
LogScore MDL: -1240425.4366588404
LogScore ENTROPY: -836213.1262494246
LogScore AIC: -914620.1262494408
Correctly Classified Instances

73.4908 %
=== Confusion Matrix ===

b c d e f g h i j k <-- classified as
40 0 0 0 0 0 0 0 0 0 10 | a = V2
0 4943 59 0 0 426 6 237 212 5 0 | b = V5
0 9 6187 948 7 198 102 79 0 48 144 | c = V8
3 0 993 4119 204 5 1 2 0 6 677 | d = V9
2 0 1 54 993 0 0 0 0 0 270 | e = V11
1 282 324 16 2 2763 3 150 1 52 2 | f = V3
0 7 124 4 0 16 166 60 1 0 0 | g = V7
0 492 158 2 0 299 72 1063 7 7 0 | h = V6
0 202 0 0 0 16 0 3 388 0 0 | i = V1
0 0 41 6 0 77 0 0 0 125 0 | j = V4
7 0 69 393 362 0 0 0 0 0 1297 | k = V10
Tabla 9 Resultados con algoritmo Hill Climbing

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV

Algoritmo K2

Ilustracin 24 Estructura 2, base 2 algoritmo K2

Ilustracin 25 Probabilidad de pertenecer a ZVH, estructura 2

K2 false 10000 false


LogScore Bayes: -751713.0678051873
LogScore BDeu: -1794866.5042554142
LogScore MDL: -1415059.8158636456
LogScore ENTROPY: -878206.5609655143
LogScore AIC: -982342.5609655415
Correctly Classified Instances

Liliana A. Snchez Parra

73.1481 %

Redes bayesianas para inferir integridad ecolgica


EME - UV
=== Confusion Matrix ===
a b c d e f g h i j k <-- classified as
33 0 0 0 0 0 0 0 0 0 17 | a = V2
0 4952 72 10 0 433 20 241 149 11 0 | b = V5
1 13 6145 913 10 320 91 65 0 14 150 | c = V8
2 1 983 4154 138 1 0 0 0 4 727 | d = V9
0 0 2 73 965 0 0 0 0 0 280 | e = V11
1 294 392 8 0 2698 5 144 6 46 2 | f = V3
0 9 125 5 1 21 163 54 0 0 0 | g = V7
0 468 177 3 0 315 66 1063 5 3 0 | h = V6
0 195 3 1 0 13 0 17 374 3 3 | i = V1
0 4 73 2 0 69 0 2 1 98 0 | j = V4
9 0 98 380 304 0 0 0 0 1 1336 | k = V10
Tabla 10 Resultados con algoritmo K2

Liliana A. Snchez Parra

Redes bayesianas para inferir integridad ecolgica


EME - UV

Algoritmo Simulated Annealing

Ilustracin 26 Estructura 3, base 2 algoritmo Simulated Annealing

Ilustracin 27 Probabilidad de pertenecer a ZVH, estructura 3

Simulated Annealing false false


LogScore Bayes: -747316.5603340995
LogScore BDeu: -1339555.003229849
LogScore MDL: -1148543.1248765974
LogScore ENTROPY: -819582.8595020369
LogScore AIC: -883392.8595020572
Correctly Classified Instances

Liliana A. Snchez Parra

72.7221 %

Redes bayesianas para inferir integridad ecolgica


EME - UV
=== Confusion Matrix ===
a b c d e f g h i j k <-- classified as
29 0 0 0 2 0 0 0 0 0 19 | a = V2
0 5044 48 0 1 373 9 233 174 6 0 | b = V5
0 10 6127 955 8 205 111 102 2 45 157 | c = V8
1 1 984 4119 184 1 1 0 1 4 714 | d = V9
0 0 1 63 970 0 0 0 1 0 285 | e = V11
0 329 304 17 2 2713 4 178 0 46 3 | f = V3
0 14 141 6 0 24 151 41 0 1 0 | g = V7
0 541 157 1 0 364 64 950 5 18 0 | h = V6
0 236 0 0 0 7 0 3 362 1 0 | i = V1
0 0 40 6 1 85 0 3 0 113 1 | j = V4
8 0 91 385 368 0 0 0 1 0 1275 | k = V10
Tabla 11 Resultados con algoritmo Simulated Annealing

Algoritmo Tab search

Ilustracin 28 Estructura 4, base 2 algoritmo Tab search

Ilustracin 29 Probabilidad de pertenecer a ZVH, estructura 4

Liliana A. Snchez Parra

10

Redes bayesianas para inferir integridad ecolgica


EME - UV
Tab Search false - 10000 false
LogScore Bayes: -747125.4574814732
LogScore BDeu: -1009911.9749531187
LogScore MDL: -943480.8518110849
LogScore ENTROPY: -779995.6937550211
LogScore AIC: -811707.693755022
Correctly Classified Instances

72.7255 %
=== Confusion Matrix ===

a b c d e f g h i j k <-- classified as
39 0 0 0 1 0 0 0 0 0 10 | a = V2
0 4901 59 1 0 424 7 251 241 4 0 | b = V5
3 6 6148 918 9 192 101 106 0 58 181 | c = V8
5 0 1045 3951 189 2 0 6 0 7 805 | d = V9
0 0 1 40 999 0 0 0 0 0 280 | e = V11
1 300 332 13 2 2716 4 161 1 61 5 | f = V3
0 7 118 5 0 20 175 53 0 0 0 | g = V7
0 470 155 4 0 312 80 1068 4 7 0 | h = V6
0 194 1 0 0 9 1 10 394 0 0 | i = V1
0 0 49 3 0 75 0 0 0 121 1 | j = V4
7 0 71 338 370 0 0 0 0 0 1342 | k = V10
Ilustracin 30 Resultados con algoritmo Tab search

Algoritmo TAN

Ilustracin 31 Estructura 5, base 2 algoritmo TAN

Liliana A. Snchez Parra

11

Redes bayesianas para inferir integridad ecolgica


EME - UV

Ilustracin 32 Probabilidad de pertenecer a ZVH, estructura 5

TAN false - 10000 false


LogScore Bayes: -742331.8334505183
LogScore BDeu: -1023802.95231424
LogScore MDL: -952845.2059700268
LogScore ENTROPY: -777961.6597813366
LogScore AIC: -811884.6597813367
Correctly Classified Instances

73.5541 %
=== Confusion Matrix ===

a b c d e f g h i j k <-- classified as
32 0 0 1 0 0 0 0 0 0 17 | a = V2
0 4907 52 0 1 401 8 292 223 3 1 | b = V5
4 7 6309 811 8 178 88 107 0 33 177 | c = V8
1 0 1068 3987 190 7 2 2 0 3 750 | d = V9
0 0 3 52 998 0 0 0 0 0 267 | e = V11
0 301 279 6 3 2776 3 167 4 55 2 | f = V3
0 4 124 7 0 18 166 58 0 1 0 | g = V7
0 449 133 2 0 323 78 1108 4 3 0 | h = V6
0 204 0 0 0 11 1 21 371 1 0 | i = V1
0 0 58 2 0 78 0 0 0 109 2 | j = V4
7 0 120 307 354 0 0 0 0 0 1340 | k = V10
Tabla 12 Resultados con algoritmo TAN

Liliana A. Snchez Parra

12

Redes bayesianas para inferir integridad ecolgica


EME - UV

9.2 Usando WEKA


Como se mencion en la es un software de uso libre y se puede descargar
http://www.cs.waikato.ac.nz/ml/weka/. La siguiente es la pantalla inicial, se
mostraran los pasos para reproducir los resultados aqu mostrados.

Es la opcin que permite


llevar a cabo la ejecucin de
los algoritmos de anlisis
implementados
ficheros

de

sobre

los

entrada,

una

ejecucin independiente por


cada prueba. En esta opcin
se trabajaron los resultados.
Esta

opcin

experimentos

permite
ms

objeto de ejecutar
algoritmos

sobre

definir

complejos,

con

uno o varios
uno

varios

conjuntos de datos de entrada, y


comparar

estadsticamente

resultados

los

Es una novedad de WEKA 3-4 que permite


llevar a cabo las mismas acciones del
"Explorer",

con

una

totalmente

grfica,

configuracin
inspirada

en

herramientas de tipo "data-flow" para


seleccionar componentes y conectarlos en
un proyecto de minera de datos, desde
que se cargan los datos, se aplican
algoritmos de tratamiento y anlisis,
hasta el tipo de evaluacin deseada.

Despus de elegir Explorer aparece la siguiente pantalla, en esta se carga la


base de datos y aparece una pequea descripcin del comportamiento, tambin
se puede elegir las variables que se usaran y remover las dems, y/o aplicar

Liliana A. Snchez Parra

13

Redes bayesianas para inferir integridad ecolgica


EME - UV
algn filtro.

Estadsticas
descriptivas.

Filtros que se pueden


seleccionar, para
discretizar, re muestrear,
etc.

Cargar base de datos,


pueden leer archivos .arff,
.csv entre otros

Se puede observar la distribucin de los datos


de acuerdo a la variable clase, si es que existe.

Liliana A. Snchez Parra

14

Redes bayesianas para inferir integridad ecolgica


EME - UV

De las opciones que se tienen en la parte superior:


Preprocess: seleccin de la fuente de datos y preparacin (filtrado).
Clasify: Facilidades para aplicar esquemas de clasificacin, entrenar
modelos y evaluar su precisin
Cluster: Algoritmos de agrupamiento
Associate: Algoritmos de bsqueda de reglas de asociacin
Select Attributes: Bsqueda supervisada de subconjuntos de atributos
representativos
Visualize: Herramienta interactiva de presentacin grfica en 2D.
Proceso para crear variable latente.
Una vez seleccionada la base de datos en la seccin de Preprocess, pasamos a
la seccin de Cluster. En la imagen pequea se observa la lista de algoritmos
disponibles para hacer los Cluster, en este trabajo se utiliz EM. Una vez
seleccionado el algoritmo, oprimir Start.

Liliana A. Snchez Parra

15

Redes bayesianas para inferir integridad ecolgica


EME - UV

En el caso de la base 1, en donde se crea la variable clase, se debe


guardar e incluir en la base para cargarla de nuevo.

Liliana A. Snchez Parra

16

Redes bayesianas para inferir integridad ecolgica


EME - UV
Una vez incluida en la base de datos, se procede a generar las
estructuras mediante los algoritmos. Se realiza en la seccin de Classify. En
choose se elige BayesNet.

BayesNet

Elegir el algoritmo

Liliana A. Snchez Parra

17

Redes bayesianas para inferir integridad ecolgica


EME - UV
Una vez elegido, con un click aparece el editor en el que se pueden elegir los
algoritmos.

Elegido el algoritmo se pueden editar los parmetros.

Liliana A. Snchez Parra

18

Redes bayesianas para inferir integridad ecolgica


EME - UV

Validacin
cruzada

Parmetros

Variable clase
Iniciar

A continuacin se muestran los parmetros utilizados en este trabajo.

Hill Climbing

Liliana A. Snchez Parra

19

Redes bayesianas para inferir integridad ecolgica


EME - UV

K2

Simulated Annealing

Liliana A. Snchez Parra

20

Redes bayesianas para inferir integridad ecolgica


EME - UV

Tab search

TAN

Liliana A. Snchez Parra

21

You might also like