You are on page 1of 57

UNIVERSIDAD NACIONAL AUTNOMA

DE MXICO

GEOESTADSTICA
APLICADA
Tema: Anlisis Exploratorio
de Datos
Instructores:
Dr. Martn A. Daz Viera (mdiazv@imp.mx)
Dr. Ricardo Casar Gonzlez (rcasar@imp.mx)

2009

Anlisis Exploratorio de Datos

Qu es el AED?
Importancia del AED
Etapas de cualquier AED
Herramientas del AED
Estadstica univariada
Estadstica bivariada
Estadstica multivariada
Regresin lineal y mnimos cuadrados

05/02/2009

CG2-Anlisis Exploratorio de Datos

Qu es el AED?
Es un conjunto de tcnicas estadsticas y
grficas que permiten establecer un buen
entendimiento bsico del comportamiento de
los datos y de las relaciones existentes entre
las variables que se estudian.

05/02/2009

CG2-Anlisis Exploratorio de Datos

Importancia del AED


El anlisis exploratorio de datos (AED) es un paso
previo e indispensable para la aplicacin exitosa
de cualquier mtodo estadstico.
En particular permite la deteccin de fallos en el
diseo y toma de datos, el tratamiento y/o la
evaluacin de datos ausentes, la identificacin de
valores atpicos y la comprobacin de los
supuestos requeridos por parte de las tcnicas
geoestadsticas.
05/02/2009

CG2-Anlisis Exploratorio de Datos

Etapas de un AED
Realizar un examen grfico de la naturaleza de las variables
individuales y un anlisis descriptivo numrico que permita cuantificar
algunos aspectos grficos de los datos.
Realizar un examen grfico de las relaciones entre las variables y un
anlisis descriptivo numrico que cuantifique el grado de interrelacin
existente entre ellas.
Evaluar algunos supuestos bsicos subyacentes a muchas tcnicas
estadsticas, por ejemplo, normalidad, linealidad y homocedasticidad.
Identificar los posibles valores atpicos (outliers) y evaluar el impacto
potencial que puedan ejercer en anlisis estadsticos posteriores.
Evaluar, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
05/02/2009

CG2-Anlisis Exploratorio de Datos

Herramientas del AED


Estadstica univariada
Estadstica bivariada
Regresin lineal y mnimos cuadrados

05/02/2009

CG2-Anlisis Exploratorio de Datos

Estadstica univariada

Variable Aleatoria (V.A.): Es una variable Z que


puede tomar una serie de valores o realizaciones
(zi) cada una de las cuales tienen asociadas una
probabilidad de ocurrencia (pi).
Ejemplo: Al lanzar un dado puede resultar {1, 2,
3, 4, 5 o 6} con una probabilidad de ocurrencia
igual a 1/6.
Las probabilidades cumplen las condiciones:
a) pi 0,

b)

=1

i
05/02/2009

CG2-Anlisis Exploratorio de Datos

Estadstica univariada

Variable Aleatoria Discreta: cuando el nmero


de ocurrencias es finito o contable, se conoce
como variable aleatoria discreta.
Ejemplo: tipos de facies en un yacimiento.
Variable Aleatoria Continua: si el nmero de
ocurrencias posibles es infinito.
Ejemplo: el valor de la porosidad de un medio se
encuentra en el intervalo [0,100%].

05/02/2009

CG2-Anlisis Exploratorio de Datos

Estadstica univariada
Funcin de Distribucin de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.
Se define como: F ( z ) = Pr {Z z} [ 0,1]
Su grfica es el histograma acumulativo

05/02/2009

CG2-Anlisis Exploratorio de Datos

Estadstica univariada
Funcin de Densidad de Probabilidad (fdp).
dF ( z )
Se define como:
f ( z) =
dz
Su grfica es el histograma.

05/02/2009

CG2-Anlisis Exploratorio de Datos

10

Estadstica univariada
Percentiles o cuantiles de una distribucin .
El percentil de una distribucin F(z) es el valor zp
de la V.A. que corresponde a un valor p de
probabilidad acumulada, es decir:

F (zp ) = p
Si existe la funcin inversa se puede expresar
como:
1

z p = F ( p)

05/02/2009

CG2-Anlisis Exploratorio de Datos

11

Estadstica univariada
Algunos cuantiles de inters:
Mediana, p=0.5

M = F 1 (0.5)

Cuartiles
(primer cuartil o inferior) p=0.25

z0.25 = F 1 (0.25)

(tercer cuartil o superior) p=0.75

z0.75 = F 1 (0.75)

Rango o intervalo intercuartil (IR)

05/02/2009

CG2-Anlisis Exploratorio de Datos

[ z0.25 , z0.75 ]
12

Estadstica univariada
Ejemplo de cuartiles y rango intercuartil

Z0.50
Z0.25
05/02/2009

Z0.75

CG2-Anlisis Exploratorio de Datos

13

Estadstica univariada
Valor esperado o esperanza matemtica de una VA.
Es el valor ms probable que puede tomar una VA. Se
conoce tambin como valor medio o media. Se define
como:
+
+

m = E [Z ] =

zdF ( z ) = zf ( z )dz

Su estimador ms comn es el promedio de todas las


observaciones de la variable Z

1
m =
N
*

z
i =1

Este estimador es muy sensible a los valores atpicos


(outliers)
05/02/2009

CG2-Anlisis Exploratorio de Datos

14

Estadstica univariada
Momento de orden r de una FDP
mr = E Z r =

z r dF ( z ) = z r f ( z )dz

Momento central de orden r de una FDP


r
r = E ( Z m ) =

05/02/2009

( z m ) dF ( z ) = ( z m ) f ( z )dz
r

CG2-Anlisis Exploratorio de Datos

15

Estadstica univariada
Varianza de una VA (2do momento central)
Se define como 2
2

= Var [ Z ] = E ( Z m ) 0

Y caracteriza la dispersin de la distribucin


alrededor de la media.
Su estimador es

05/02/2009

( )

2 *

1 N
2
=
( zi m )

N 1 i =1

CG2-Anlisis Exploratorio de Datos

16

Estadstica univariada
Distribucin Normal o Gaussiana.
Esta
distribucin
est
completamente
caracterizada por sus dos parmetros: media y
varianza y se designa mediante
N ( m, 2 )
La fdp normal o Gaussina est dada por
2

1
1 zm
g ( z) =
exp

2
2

Es simtrica respecto a la media


05/02/2009

CG2-Anlisis Exploratorio de Datos

17

Estadstica univariada
Ejemplos de distribuciones Gaussianas

05/02/2009

CG2-Anlisis Exploratorio de Datos

18

Estadstica univariada
Distribucin LogNormal
Una VA positiva Y se dice que tiene una
distribucin lognormal si su logaritmo ln(Y) esta
normalmente distribuido.
Y > 0 log N ( m, 2 ) , si X = ln Y N ( , 2 )

Muchas distribuciones experimentales en Ciencias


de la Tierra tienden a ser asimtricas y la mayora
de las variables toman valores no negativos.
05/02/2009

CG2-Anlisis Exploratorio de Datos

19

Estadstica univariada
Ejemplos de distribuciones Lognormales

05/02/2009

CG2-Anlisis Exploratorio de Datos

20

Estadstica univariada
Desviacin Estndar

= Var [ Z ]

Coeficiente de variacin (dispersin relativa)

CV = / m

Coeficiente de simetra (medida de la simetra)

3
1 = 3/ 2
2

Coeficiente de curtosis (medida del achatamiento)

05/02/2009

4
2 = 2 3
2

CG2-Anlisis Exploratorio de Datos

21

Estadstica univariada
Simetra y Curtosis de una distribucin

05/02/2009

CG2-Anlisis Exploratorio de Datos

22

Estadstica univariada
BOX PLOT

05/02/2009

CG2-Anlisis Exploratorio de Datos

23

Estadstica univariada
BOX PLOT

05/02/2009

CG2-Anlisis Exploratorio de Datos

24

Estadstica univariada
Histograma (Porosidad)

05/02/2009

CG2-Anlisis Exploratorio de Datos

25

Estadstica univariada
Histograma (Permeabilidad)

05/02/2009

CG2-Anlisis Exploratorio de Datos

26

Estadstica univariada
Transformacin logartmica de la Permeabilidad

05/02/2009

CG2-Anlisis Exploratorio de Datos

27

Estadstica univariada
Q-Q Plot de la Permeabilidad
Antes de transformar

Net.kh

30000

20000

10000

-2

05/02/2009

-1

0
Normal Distribution

CG2-Anlisis Exploratorio de Datos

28

Estadstica univariada
Q-Q Plot de la Permeabilidad
Despus de transformar
11

logKH

1
-2

05/02/2009

-1

0
Normal Distribution

CG2-Anlisis Exploratorio de Datos

29

Estadstica univariada
Con valores atpicos (outliers)

05/02/2009

CG2-Anlisis Exploratorio de Datos

30

Estadstica univariada
Con valores atpicos (outliers)

05/02/2009

CG2-Anlisis Exploratorio de Datos

31

Estadstica univariada
Sin valores atpicos (outliers)

05/02/2009

CG2-Anlisis Exploratorio de Datos

32

Estadstica univariada
Sin valores atpicos (outliers)

05/02/2009

CG2-Anlisis Exploratorio de Datos

33

Estadstica univariada
Sern valores atpicos?

05/02/2009

CG2-Anlisis Exploratorio de Datos

34

Estadstica univariada
Sern valores atpicos?

05/02/2009

CG2-Anlisis Exploratorio de Datos

35

Estadstica univariada
Despus de eliminar los valores atpicos

05/02/2009

CG2-Anlisis Exploratorio de Datos

36

Estadstica univariada
Despus de eliminar los valores atpicos

05/02/2009

CG2-Anlisis Exploratorio de Datos

37

Estadstica bivariada

Hasta el momento, slo hemos considerado a las


variables aleatorias por separado, sin que exista
ninguna interrelacin entre stas.
En muchos campos de aplicacin y en particular,
en las Ciencias de la Tierra, es frecuentemente
ms importante conocer el patrn de
dependencia que relaciona a una variable
aleatoria X (porosidad) con otra variable
aleatoria Y (permeabilidad).
Por lo que le dedicaremos especial atencin al
anlisis conjunto de dos variables aleatorias,
conocido como anlisis bivariado.

05/02/2009

CG2-Anlisis Exploratorio de Datos

38

Estadstica bivariada
Funcin de Distribucin de Probabilidad Bivariada

La distribucin de probabilidad conjunta de un


par de variables aleatorias X y Y se define
como:

FXY ( x, y ) = Pr { X x, Y y}

En la prctica se estima mediante la proporcin


de pares de valores de X y Y que se encuentran
por debajo del umbral x, y respectivamente.

05/02/2009

CG2-Anlisis Exploratorio de Datos

39

Estadstica bivariada

Diagrama de Dispersin (Scattergram)


El equivalente bivariado del histograma es el
diagrama de dispersin o scattergram, donde
cada par (xi, yi) es un punto.

El grado de dependencia entre dos variables


aleatorias X y Y puede ser caracterizado por el
diagrama de dispersin alrededor de cualquier
lnea de regresin.

05/02/2009

CG2-Anlisis Exploratorio de Datos

40

Estadstica bivariada

Covarianza
Se define la covarianza de manera anloga
a los momentos centrales univariados,
como
Cov ( X , Y ) = XY = E {( X mX )(Y mY )}

Se calcula como
XY

05/02/2009

1
=
N

1
( xi mX )( yi mY ) =

N
i =1
CG2-Anlisis Exploratorio de Datos

x y m
i =1

mY

41

Estadstica bivariada

Semivariograma
Es el momento de inercia del diagrama de
dispersin con respecto a una lnea con
pendiente de 45o y se define como
XY

1
=
N

[d ]
i =1

1
=
2N

Permite caracterizar
dependencia

05/02/2009

[ x y ]
i =1

la

CG2-Anlisis Exploratorio de Datos

carencia

de

42

Estadstica bivariada
y

Semivariograma

Mientras mayor sea el


valor del semivariograma
ms dispersos estarn los
valores en el diagrama de
dispersin y menor ser
la dependencia entre las
dos variables aleatorias.

xi yi
di
x

yi

( xi , yi )
45
x

05/02/2009

xi

x
x

CG2-Anlisis Exploratorio de Datos

43

Estadstica bivariada

Coeficiente de correlacin lineal de Pearson

Se define como:
Cov { X , Y }
XY
rXY =
=
[ 1,1]
XY
Var { X }Var {Y }
Caracteriza el grado de dependencia lineal entre
dos variables aleatorias.
Por ejemplo si Y=aX+b, entonces se cumple que:

rXY
05/02/2009

1, para a > 0
=
1, para a < 0

CG2-Anlisis Exploratorio de Datos

44

Estadstica bivariada
Diagrama de Dispersin (Scattergram)
Coeficiente de correlacin=0.716875

Antes de transformar

Net.phixh

12

05/02/2009

5000

10000

15000
20000
Net.kh

25000

CG2-Anlisis Exploratorio de Datos

30000

35000

45

Estadstica bivariada
Diagrama de Dispersin (Scattergram)
Coeficiente de correlacin=0.8819055

Despus de transformar

Net.phixh

10

-5
2

05/02/2009

6
logKH

CG2-Anlisis Exploratorio de Datos

10

46

Estadstica multivariada
Existen muchas tcnicas multivariadas:

Anlisis de Regresin
Anlisis de Conglomerados
Anlisis de Componentes Principales
Anlisis Factorial
Anlisis Discriminante, etc

05/02/2009

CG2-Anlisis Exploratorio de Datos

47

Regresin lineal y Mnimos cuadrados

La regresin trata de establecer relaciones


funcionales entre variables aleatorias.
En particular la regresin lineal consiste en
establecer una relacin descrita mediante una
recta.
Los modelos de regresin nos permiten hacer
predicciones o pronsticos a partir del modelo
establecido.
El mtodo que se emplea para estimar los
parmetros del modelo de regresin es el de los
Mnimos Cuadrados

05/02/2009

CG2-Anlisis Exploratorio de Datos

48

Regresin lineal

Dados N valores de dos v.a. X y Y.


Suponemos que:
1. X es una variable independiente
2. Y depende de X en forma lineal
Modelo lineal: Y = 0 + 1 X
Donde
y = + x + e , i =1,...,N
i

1 i

0 , 1 son los parmetros del modelo


ei errores o residuos del modelo
05/02/2009

CG2-Anlisis Exploratorio de Datos

49

Regresin lineal

Condiciones
residuos

E {ei } = 0,

que

deben

cumplir

los

(valor esperado cero)

Var {ei } = e2 , (varianza constante)


Cov {ei , e j } = 0,

i j , (no correlacionados)

e N ( 0, e2 ) , (distribucin normal)

05/02/2009

CG2-Anlisis Exploratorio de Datos

50

Mnimos Cuadrados Ordinarios (MCO)

Mnimos Cuadrados Ordinarios consiste en


hallar los parmetros del modelo de manera que
la suma de los cuadrados de los errores sea
mnima.
N

SCR = e = [ yi y i ] = yi 0 + 1 xi

i =1
i =1
i =1
2
i

Sistema de ecuaciones a resolver

SCR
SCR
= 0,
=0
0
1
05/02/2009

CG2-Anlisis Exploratorio de Datos

51

Mnimos Cuadrados Ordinarios (MCO)


Coeficiente de determinacin R2
Para los modelos lineales
1. Mide el grado de la bondad del ajuste
2. Es igual al coeficiente de correlacin
lineal al cuadrado.
3. Representa la proporcin de varianza
explicada por la regresin lineal.
05/02/2009

CG2-Anlisis Exploratorio de Datos

52

Mnimos Cuadrados Ordinarios (MCO)


Criterios de la bondad del ajuste

Si R21, el ajuste es bueno (Y se puede calcular


de modo bastante aproximado a partir de X y
viceversa).
Si R20, las variables X y Y no estn
relacionadas (linealmente al menos), por tanto
no tiene sentido hacer un ajuste lineal.
Sin embargo no es seguro que las dos variables
no posean ninguna relacin en el caso r=0, ya
que si bien el ajuste lineal puede no ser
procedente, tal vez otro tipo de ajuste s lo sea.

05/02/2009

CG2-Anlisis Exploratorio de Datos

53

Regresin lineal
Y=Permeabilidad, X=Porosidad
Antes de transformar

05/02/2009

CG2-Anlisis Exploratorio de Datos

54

Regresin lineal
Y=logPermeabilidad, X=Porosidad
Despus de transformar

05/02/2009

CG2-Anlisis Exploratorio de Datos

55

Regresin lineal
Y=logPermeabilidad, X=Porosidad
Anlisis de los residuos
2

residuals

-1

-2

-3

-2

05/02/2009

-1

0
Normal Distribution

CG2-Anlisis Exploratorio de Datos

56

Regresin lineal
Y=logPermeabilidad, X=Porosidad
Anlisis de los residuos
Estadstica Residuos
Min: -2.600848e+000
1st Qu.: -6.021758e-001
10

Mean:

1.156482e-018

Median: -1.075592e-001
8

0
-2.600848
-1.717491
-0.834134
0.049223
0.932580
1.815937
-2.159170
-1.275813
-0.392456
0.490901
1.374258
residuals

05/02/2009

CG2-Anlisis Exploratorio de Datos

3rd Qu.:

6.815479e-001

Max:

1.815937e+000

Total N:

4.800000e+001

Variance:

7.146409e-001

Std Dev.:

8.453644e-001

SE Mean:

1.220178e-001

Skewness:

1.878733e-001

Kurtosis:

6.868942e-001

57

You might also like