Professional Documents
Culture Documents
DE MXICO
GEOESTADSTICA
APLICADA
Tema: Anlisis Exploratorio
de Datos
Instructores:
Dr. Martn A. Daz Viera (mdiazv@imp.mx)
Dr. Ricardo Casar Gonzlez (rcasar@imp.mx)
2009
Qu es el AED?
Importancia del AED
Etapas de cualquier AED
Herramientas del AED
Estadstica univariada
Estadstica bivariada
Estadstica multivariada
Regresin lineal y mnimos cuadrados
05/02/2009
Qu es el AED?
Es un conjunto de tcnicas estadsticas y
grficas que permiten establecer un buen
entendimiento bsico del comportamiento de
los datos y de las relaciones existentes entre
las variables que se estudian.
05/02/2009
Etapas de un AED
Realizar un examen grfico de la naturaleza de las variables
individuales y un anlisis descriptivo numrico que permita cuantificar
algunos aspectos grficos de los datos.
Realizar un examen grfico de las relaciones entre las variables y un
anlisis descriptivo numrico que cuantifique el grado de interrelacin
existente entre ellas.
Evaluar algunos supuestos bsicos subyacentes a muchas tcnicas
estadsticas, por ejemplo, normalidad, linealidad y homocedasticidad.
Identificar los posibles valores atpicos (outliers) y evaluar el impacto
potencial que puedan ejercer en anlisis estadsticos posteriores.
Evaluar, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
05/02/2009
05/02/2009
Estadstica univariada
b)
=1
i
05/02/2009
Estadstica univariada
05/02/2009
Estadstica univariada
Funcin de Distribucin de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.
Se define como: F ( z ) = Pr {Z z} [ 0,1]
Su grfica es el histograma acumulativo
05/02/2009
Estadstica univariada
Funcin de Densidad de Probabilidad (fdp).
dF ( z )
Se define como:
f ( z) =
dz
Su grfica es el histograma.
05/02/2009
10
Estadstica univariada
Percentiles o cuantiles de una distribucin .
El percentil de una distribucin F(z) es el valor zp
de la V.A. que corresponde a un valor p de
probabilidad acumulada, es decir:
F (zp ) = p
Si existe la funcin inversa se puede expresar
como:
1
z p = F ( p)
05/02/2009
11
Estadstica univariada
Algunos cuantiles de inters:
Mediana, p=0.5
M = F 1 (0.5)
Cuartiles
(primer cuartil o inferior) p=0.25
z0.25 = F 1 (0.25)
z0.75 = F 1 (0.75)
05/02/2009
[ z0.25 , z0.75 ]
12
Estadstica univariada
Ejemplo de cuartiles y rango intercuartil
Z0.50
Z0.25
05/02/2009
Z0.75
13
Estadstica univariada
Valor esperado o esperanza matemtica de una VA.
Es el valor ms probable que puede tomar una VA. Se
conoce tambin como valor medio o media. Se define
como:
+
+
m = E [Z ] =
zdF ( z ) = zf ( z )dz
1
m =
N
*
z
i =1
14
Estadstica univariada
Momento de orden r de una FDP
mr = E Z r =
z r dF ( z ) = z r f ( z )dz
05/02/2009
( z m ) dF ( z ) = ( z m ) f ( z )dz
r
15
Estadstica univariada
Varianza de una VA (2do momento central)
Se define como 2
2
= Var [ Z ] = E ( Z m ) 0
05/02/2009
( )
2 *
1 N
2
=
( zi m )
N 1 i =1
16
Estadstica univariada
Distribucin Normal o Gaussiana.
Esta
distribucin
est
completamente
caracterizada por sus dos parmetros: media y
varianza y se designa mediante
N ( m, 2 )
La fdp normal o Gaussina est dada por
2
1
1 zm
g ( z) =
exp
2
2
17
Estadstica univariada
Ejemplos de distribuciones Gaussianas
05/02/2009
18
Estadstica univariada
Distribucin LogNormal
Una VA positiva Y se dice que tiene una
distribucin lognormal si su logaritmo ln(Y) esta
normalmente distribuido.
Y > 0 log N ( m, 2 ) , si X = ln Y N ( , 2 )
19
Estadstica univariada
Ejemplos de distribuciones Lognormales
05/02/2009
20
Estadstica univariada
Desviacin Estndar
= Var [ Z ]
CV = / m
3
1 = 3/ 2
2
05/02/2009
4
2 = 2 3
2
21
Estadstica univariada
Simetra y Curtosis de una distribucin
05/02/2009
22
Estadstica univariada
BOX PLOT
05/02/2009
23
Estadstica univariada
BOX PLOT
05/02/2009
24
Estadstica univariada
Histograma (Porosidad)
05/02/2009
25
Estadstica univariada
Histograma (Permeabilidad)
05/02/2009
26
Estadstica univariada
Transformacin logartmica de la Permeabilidad
05/02/2009
27
Estadstica univariada
Q-Q Plot de la Permeabilidad
Antes de transformar
Net.kh
30000
20000
10000
-2
05/02/2009
-1
0
Normal Distribution
28
Estadstica univariada
Q-Q Plot de la Permeabilidad
Despus de transformar
11
logKH
1
-2
05/02/2009
-1
0
Normal Distribution
29
Estadstica univariada
Con valores atpicos (outliers)
05/02/2009
30
Estadstica univariada
Con valores atpicos (outliers)
05/02/2009
31
Estadstica univariada
Sin valores atpicos (outliers)
05/02/2009
32
Estadstica univariada
Sin valores atpicos (outliers)
05/02/2009
33
Estadstica univariada
Sern valores atpicos?
05/02/2009
34
Estadstica univariada
Sern valores atpicos?
05/02/2009
35
Estadstica univariada
Despus de eliminar los valores atpicos
05/02/2009
36
Estadstica univariada
Despus de eliminar los valores atpicos
05/02/2009
37
Estadstica bivariada
05/02/2009
38
Estadstica bivariada
Funcin de Distribucin de Probabilidad Bivariada
FXY ( x, y ) = Pr { X x, Y y}
05/02/2009
39
Estadstica bivariada
05/02/2009
40
Estadstica bivariada
Covarianza
Se define la covarianza de manera anloga
a los momentos centrales univariados,
como
Cov ( X , Y ) = XY = E {( X mX )(Y mY )}
Se calcula como
XY
05/02/2009
1
=
N
1
( xi mX )( yi mY ) =
N
i =1
CG2-Anlisis Exploratorio de Datos
x y m
i =1
mY
41
Estadstica bivariada
Semivariograma
Es el momento de inercia del diagrama de
dispersin con respecto a una lnea con
pendiente de 45o y se define como
XY
1
=
N
[d ]
i =1
1
=
2N
Permite caracterizar
dependencia
05/02/2009
[ x y ]
i =1
la
carencia
de
42
Estadstica bivariada
y
Semivariograma
xi yi
di
x
yi
( xi , yi )
45
x
05/02/2009
xi
x
x
43
Estadstica bivariada
Se define como:
Cov { X , Y }
XY
rXY =
=
[ 1,1]
XY
Var { X }Var {Y }
Caracteriza el grado de dependencia lineal entre
dos variables aleatorias.
Por ejemplo si Y=aX+b, entonces se cumple que:
rXY
05/02/2009
1, para a > 0
=
1, para a < 0
44
Estadstica bivariada
Diagrama de Dispersin (Scattergram)
Coeficiente de correlacin=0.716875
Antes de transformar
Net.phixh
12
05/02/2009
5000
10000
15000
20000
Net.kh
25000
30000
35000
45
Estadstica bivariada
Diagrama de Dispersin (Scattergram)
Coeficiente de correlacin=0.8819055
Despus de transformar
Net.phixh
10
-5
2
05/02/2009
6
logKH
10
46
Estadstica multivariada
Existen muchas tcnicas multivariadas:
Anlisis de Regresin
Anlisis de Conglomerados
Anlisis de Componentes Principales
Anlisis Factorial
Anlisis Discriminante, etc
05/02/2009
47
05/02/2009
48
Regresin lineal
1 i
49
Regresin lineal
Condiciones
residuos
E {ei } = 0,
que
deben
cumplir
los
i j , (no correlacionados)
e N ( 0, e2 ) , (distribucin normal)
05/02/2009
50
SCR = e = [ yi y i ] = yi 0 + 1 xi
i =1
i =1
i =1
2
i
SCR
SCR
= 0,
=0
0
1
05/02/2009
51
52
05/02/2009
53
Regresin lineal
Y=Permeabilidad, X=Porosidad
Antes de transformar
05/02/2009
54
Regresin lineal
Y=logPermeabilidad, X=Porosidad
Despus de transformar
05/02/2009
55
Regresin lineal
Y=logPermeabilidad, X=Porosidad
Anlisis de los residuos
2
residuals
-1
-2
-3
-2
05/02/2009
-1
0
Normal Distribution
56
Regresin lineal
Y=logPermeabilidad, X=Porosidad
Anlisis de los residuos
Estadstica Residuos
Min: -2.600848e+000
1st Qu.: -6.021758e-001
10
Mean:
1.156482e-018
Median: -1.075592e-001
8
0
-2.600848
-1.717491
-0.834134
0.049223
0.932580
1.815937
-2.159170
-1.275813
-0.392456
0.490901
1.374258
residuals
05/02/2009
3rd Qu.:
6.815479e-001
Max:
1.815937e+000
Total N:
4.800000e+001
Variance:
7.146409e-001
Std Dev.:
8.453644e-001
SE Mean:
1.220178e-001
Skewness:
1.878733e-001
Kurtosis:
6.868942e-001
57