You are on page 1of 56

Fundamentos de Estadstica

Goestadstica Clase 2
Definicin
La estadstica es una ciencia que que estudia los principios y los mtodos aplicado a la
recoleccin, anlisis, presentacin e interpretacin de datos. Se pueden dividir en dos
ramas:
Estadstica descriptiva:
Se centra en la descripcin y resumen de un conjunto de datos de algn fenmeno
estudiado. Sirve para capturar caractersticas de una poblacin y presentar resultados del
estudio.
Estadstica Inferencial:
Se centra en la obtencin de conclusiones desde los datos considerando su naturaleza
aleatoria. Incluye la estimacin de parmetros, el testeo de hiptesis y el modelamiento de
relaciones entre variables.
Conceptos Bsicos
Poblacin:
Conjunto de todos los individuos o eventos similares que son de inters para un estudio.
Por ejemplo:
Tangible: Los integrantes de una Universidad
Hipottico: El conjunto de todos los resultados posibles del Torneo de Futbol
Profesional.

Muestra:
Conjunto de datos recolectados a partir de una poblacin mediante un procedimiento de
muestreo. Dependiendo de las caractersticas del muestreo, es posible inferir
caractersticas de la poblacin a partir del estudio de la muestra.
Conceptos bsicos
Representatividad de la muestra:
Una muestra se dice representativa si el procedimiento de muestreo asociado cumple
ciertas caractersticas de calidad y tamao. Si la muestra es representativa, sus
caractersticas representan de buena manera las caractersticas de la poblacin
Inferencia estadstica.
Tipos de muestreo:
1. Aleatorio: Cada individuo escogido a partir de la poblacin se elige de manera
aleatoria, con igual probabilidad.
2. Sistemtico: Se elige un punto de partida aleatorio, y se muestrea cada cierto
intervalo.
3. Estratificado: Se divide la poblacin en estratos, y cada estrato es muestreado de
manera aleatoria.
Conceptos Bsicos
Tipos de Muestreo

Aleatorio Estratificado Sistemtico


Conceptos Bsicos
Tipos de Muestreo en Minera
Conceptos Bsicos
Inferencia estadstica:
Toda muestra est sujeta a un error dada la variabilidad del fenmeno estudiado, lo cual
puede generar errores en la interpretacin de las caractersticas de la poblacin. Sin
embargo, la realizacin de un censo muchas veces es costoso o impracticable.
Para poder determinar caractersticas de la poblacin a partir de la muestra de manera
consistente, se utiliza el formalismo de teora de probabilidad.

Supuesto Principal: Los datos recolectados en la muestra son generados por un proceso
estocstico. Es importante verificar que las variaciones en las muestras son producto de
este proceso estocstico y no de un fenmeno no-estacionario subyacente.
Conceptos Bsicos
Estacionaridad
Las caractersticas de la poblacin no
cambian con el tiempo/ubicacin.
Si un fenmeno es estacionario, se puede
asumir que las muestras provienen de la
misma poblacin estadstica, aunque sean
tomadas en momentos o lugares diferentes.
Variable Aleatoria
Si se considera que los datos tomados son aleatorios, es necesario introducir el formalismo
de variable aleatoria.

Una Variable Aleatoria (v.a.) es una variable cuyos posibles valores son funcin de un
proceso aleatorio subyacente.
Variable Aleatoria
Toda variable aleatoria tiene un dominio , que es el conjunto de posibles resultados del
proceso.
Tirar un dado: = 1,2,3,4,5,6
Tirar una moneda: = {cara, sello}
Pasar el ramo?: = {aprobar, reprobar}

Formalmente, una v.a : es una funcin que a cada posible resultado en le asigna
un valor tpicamente real.
Una v.a. no entrega, directamente, probabilidades. Slo entrega ocurrencias del proceso
aleatorio.
La probabilidad de ocurrencia viene dada en el espacio de probabilidad (, , )
Variable Aleatoria
Ejemplo en clases:
Proceso: Lanzamiento de 3 monedas de forma consecutiva.
Variable Aleatoria: Nmero de caras en el lanzamiento

Posibles resultados de la v.a?


Probabilidad de ocurrencia?
Distribucin de probabilidad
La distribucin de probabilidad describe la probabilidad que la variable aleatoria tome
un valor, o un rango de valores dado el fenmeno aleatorio estudiado.

Funcin de distribucin: = Prob(X < x)

Variable Discreta
Variable Continua
Distribucin de probabilidad
Densidad de probabilidad:
()
, =

Masa de probabilidad:

, = ( = )
Distribucin de probabilidad
Cuando se repite un experimento, es
posible determinar la distribucin de
probabilidad emprica ().
Esta distribucin emprica converge casi
seguramente a la distribucin real, por la
Ley de los Grandes Nmeros, cuando las
muestras son iid para cada .
..

Hay convergencia ms fuerte, por el


teorema de Glivenko-Cantelli:
..

sup | | 0

Momentos Estadsticos
Una distribucin puede ser descrita utilizando momentos estadsticos:
+

= ()

Esperanza: Momento de primer orden que indica el valor promedio de la distribucin
+

= = () () = ( )
=
Varianza: Momento de segundo orden que indica la dispersin con respecto a la
Esperanza.
+

2 = Var = 2 = () ( )
2 =
= 2 2
Momentos Estadsticos
Si se posee una muestra de la v.a. = {1, , }, con realizaciones, es posible definir
los siguientes estimadores para los momentos estadsticos de primer y segundo orden
para variables continuas y discretas:
Media Experimental:

1
=


=1

Varianza Experimental:


1
= 2
1
=1
Momentos Estadsticos
Si cada realizacin de la muestra fue independiente del resto (calidad del muestreo) es
posible interpretar los estimadores anteriores como una v.a., por lo cual puede
comprobarse que estos son los estimadores insesgados de los momentos estadsticos.
Condicin de insesgo: un estimador es insesgado cuando su Esperanza es igual al
parmetro estimado.
= ( ) =

[Ejercicio Propuesto: Verificar la condicin de insesgo]

Por Ley de los Grandes Nmeros, cuando N crece, el estimador converge al momento
estadstico respectivo:
2 2
+ +
Momentos Estadsticos
Propiedades de la Esperanza:
1. Sea c una constante:
=
2. Linealidad:
a) Sean , Y variables aleatorias, entonces:
+ = X + ()
a) Sea c una constante, entonces:
= ()
3. Multiplicacin:
= X + C ,
4. Desigualdad de Jensen: Sea convexa
X
Momentos Estadsticos
Propiedades de la Varianza:
1. Sea c una constante:
Var c = 0
2. No-Linealidad:
a) Sean X, Y variables aleatorias, entonces:
Var X + Y = Var X + Var Y + 2Cov(X, Y)
b) Sea c una constante, entonces:
Var cX = c 2 Var X
Var c + X = Var X
3. Multiplicacin de X e Y independientes:
Var XY = X 2 Y 2 X 2 Y 2
Distribuciones Comunes
Gaussiana o Normal:
1 2

, = 22
2 2
2 = varianza = esperanza

Si = 0 y 2 = 1Normal estndar
Distribuciones Comunes
Teorema del Lmite Central
Sean 1 , , un conjunto de v.a. independientes e idnticamente distribuidas, con media
y varianza 2 . Se define la v.a.:
= 1 + 2 + +
Entonces:

lim Prob < =

Donde es la distribucin normal estndar

La suma de N variables aleatorias iid con varianza finita tienen a una distribucin normal a
medida que N tiene a infinito.
Distribuciones Comunes
Suma de valor en lanzamiento de N dados:
Distribuciones Comunes
Distribucin Lognormal
Una v.a. sigue una distribucin lognormal si su
logaritmo se distribuye como una normal.
1 ln() 2

+ , = 22
2 2
2 = varianza de ln X
= esperanza de ln(X)
Uso: Un proceso descrito por el producto de v.a.
iid positivas se distribuye como una log-normal.
Distribuciones Comunes
Trivia: cosas que se distribuyen como una log-normal
El ingreso del 99% de la poblacin
El tamao de las ciudades
El tiempo de reparacin de un sistema
El largo de los comentarios de los foros de internet
La ley de cobre en un yacimiento tipo prfido (a veces)
El tamao de particulas despus de la molienda convencional
Distribuciones Comunes
Distribucin gamma
Distribucin con parmetro de forma y
escala :
1 1

+ . =

Donde es la funcin gamma
Momentos: =
2 = 2
Distribuciones Comunes
Distribucin Exponencial
Distribucin con tasa > 0:
+ , =

Es un caso especial de la distribucin


gamma con = 1 y = 1/.
La distribucin exponencial no tiene
memoria, por lo que sirve para modelar
fallas y procesos donde el tiempo ya
transcurrido no condiciona la probabilidad.
Distribuciones Comunes
Dsitribucin Chi Cuadrado
Sean 1 , , v.a. que se distribuyen como una
normal estandar. Su suma de cuadrados se
distribuye como una 2 de k grados de libertad:

1
1

+ , = 2 2

22
2
= , 2 = 2k
Es un caso especial de distribucin gamma con

= y = 2.
2
Se utiliza en test estadsticos como el de bondad
de ajuste.
Distribuciones Comunes
Student
Una distribucin con grados de libertad:

+1 +1
2
2
2
, = 1+

2
Equivalentemente, sea una normal
2
estndar y 1 una v.a. independiente
distribuida como una Chi cuadrado con
1 grados de libertad:
1
1 = 2
1
Distribuciones Comunes
Se usa tpicamente para test de hiptesis para comparar medias de muestras, dado que si
1 , , son v.a. normales e iid con esperanza y varianza 2 , la variable aleatoria:


1 =

Es una student con N-1 grados de libertad. Con este resultado, es posible calcular
intervalos de confianza sobre y permite hacer test de hiptesis para comparar medias
solo conociendo la media y la varianza experimental de las muestras
Distribuciones Comunes
Fisher
Una v.a. se distribuye como una de
parmetros 1 y 2 :

(1 )1 2 2
(1 + 2 )1 +2
+ , =
1 2
B ,
2 2

O, equivalentemente:
2 1

1
1 , 2 = 2
2

2
Distribuciones Comunes
Uniforme
La densidad de probabilidad es constante
en un intervalo [, ]

1
, = [, ]
0
Distribuciones Bivariables
En ocasiones, son necesarias dos variables aleatorias para analizar algn experimento de
inters. Es necesario describir como se comportan conjuntamente estas variables, y definir
algn grado de dependencia entre ellas con el fin de describir de mejor forma el
experimento aleatorio. Para eso, se utilizarn las distribuciones de probabilidad
bivariables.
Distribuciones Bivariables
Sea , dos variables aleatorias. Se define la funcin de distribucin bivariable como:
, 2 , , = Prob < , <
Esta definicin indica la probabilidad de que el valor de y el valor de sean,
simultneamente, menores a los umbrales definidos.
La densidad de probabilidad en este caso se define como sigue:

2 (, )
, = , = Prob = , =

Densidad de probabilidad Masa de probabilidad
(v.a. continuas) (v.a. discretas)
Distribuciones Bivariables
Dos v.a. se dicen independientes si la probabilidad conjunta puede ser descompuesta en sus
probabilidades individuales:
, 2 , , =

Esto indica intuitivamente que el valor de una variable no afecta la probabilidad de obtener
cualquier valor de la segunda.
Ejemplo: Lanzamiento de 2 monedas consecutivas.
Distribuciones Bivariables
Si se posee una muestra de pares (x,y), es posible representar su distribucin bivariable
mediante un scatter plot, que grafica todos estos pares de puntos en funcin de los valores
de ambas variables. Este grafico da una idea de la relacin de dependencia entre ambas
variables aleatorias:
Distribuciones Bivariables
Distribucin Binormal 2
1 2
1 + 2
2(12 ) 2
, =
2 1 2
: coeficiente de correlacin
, : Medias de las distribuciones univariables marginales.
2 , 2 : Varianzas de la distribuciones univariables marginales.

Ambas distribuciones univariables tambin son una


distribucin gaussiana
Distribuciones Marginales
Dada una distribucin bivariable (, ), se definen las distribuciones a priori o marginales
como:

= , + = ( < )
= +, = <

Con sus respectivas densidades de probabilidad:

+
= , , = = = ,
+
= , (, ) = = = ,
Distribuciones Marginales
Es posible graficar las densidades
bivariables en funcin de las densidades
marginales con elipsoides de iso-
probabilidad en dos dimensiones. Los
elipsoides interiores tienen una frecuencia
mayor que los elipsoides ms externos.
Distribuciones Marginales
En el caso discreto, es posible graficar esta
relacin con nubes de dispersin en funcin
de ambos histogramas.
Distribuciones Marginales
Cuando se tiene una muestra de ambas
variables, es posible graficar elipses de
confianza, de forma similar a los intervalos
de confianza unidimensionales.

Esto permite estimar regiones donde se


encuentra un % de los datos si las
distribuciones son gaussianas, o intervalos
de confianza para la media de las
distribuciones considerando que sta se
distribuye como una gaussiana (TLC).
Distribucin condicional
Fijar un valor de alguna de las dos variables puede condicionar la distribucin a priori de la
otra. Esto indica que al conocer el valor de una de las variables da suficiente informacin
como para poder modificar como se distribuye la segunda, siempre y cuando exista una
dependencia entre ellas.
Sean , v.a. La distribucin de condicional a = se define como:

Funcin Distribucin: = Prob < =

,
Densidad de probabilidad: = =

Teorema de Bayes
El teorema de Bayes es una frmula que vincula la probabilidad de un evento B dado que
ocurre un evento A con la probabilidad de que ocurra el evento A dado que ocurre el
evento B. Formalmente:
()
=
()

Otro resultado relevante, es que si el evento A tiene dos posibles resultados (ocurrir o no
ocurrir), la probabilidad de B puede escribirse como:
= + ~ (~)
Es decir, es posible descomponer la probabilidad de B en las probabilidades parciales
segn la ocurrencia o no del evento condicionante.
Teorema de Bayes
Ejemplo: Falsos positivos en test de drogas
Sensibilidad del test: 99% (proporcin de positivos para personas que si la usan)
Especificidad del test: 95% (proporcin de resultados negativos para personas que no la
usan)
Prevalencia del consumo: 0.5% de la poblacin

Cul es la probabilidad de que un individuo sea usuario, dado que sali su test positivo?
Qu pasa si aumento la sensibilidad?
Y si aumento la especificidad?
Distribuciones Condicionadas
Gaussiana bivariable:
Toda distribucin condicional sigue siendo
gaussiana.

Por otro lado, toda combinacin lineal de


distribuciones gaussianas, sigue siendo
gaussiana.
Covarianza
Es necesario introducir una medida que indique la relacin entre ambas variables
aleatorias. Esta medida se conoce como Covarianza y mide la variabilidad conjunta de
ambas variables. Si , son v.a., la covarianza entre ellas se define como:

Cov X, Y = =
Donde , son las esperanzas de las variables , respectivamente.

Si los valores altos de una variable se corresponden con valores altos de la otra, mientras
que los valores bajos se corresponden entre ellos, entonces la Covarianza tiene valor
positivo. Si la relacin es contraria, la covarianza tiene valor negativo.
Covarianza
Propiedades de la Covarianza
Sean , v.a. y , , constantes:
1. Covarianza de una constante: Cov X, c = 0
2. Covarianza de la misma variable: Cov X, X = 0
3. Conmutatividad: Cov X, Y = Cov Y, X
4. Constantes multiplicativas: Cov aX, bY = abCov X, Y
5. Constantes Aditivas: Cov X + a, Y + b = Cov X, Y
6. Varianza y Covarianza: Var X + Y = Var X + Var Y + 2Cov X, Y
7. Independencia: Si , son independientes: , = (no al revs!)
Covarianza
Ejemplo
Covarianza entre dos variables aleatorias

: 1,1 = 2

Cal es el valor de la Covarianza entre , ?


Qu significa este valor?
Covarianza
El valor absoluto de la Covarianza es difcil de interpretar, pues depende del fenmeno en
estudio. Por este motivo, se define la Covarianza normalizada o el coeficiente de
correlacin de Pearson:

Cov X, Y
=

Donde , son las desviaciones estndar de las variables respectivas.


Este coeficiente mide de mejor forma la relacin lineal pues su interpretacin es sencilla.
No muestra relaciones no lineales!
Covarianza
Correlacin no implica Causalidad

Fuente: http://tylervigen.com/spurious-correlations
Covarianza
Correlacin no implica Causalidad

Fuente: http://tylervigen.com/spurious-correlations
Covarianza
Correlacin no implica Causalidad
En resumen:
- Un coeficiente de correlacin nulo no implica independencia.
- Un coeficiente de correlacin alto no implica dependencia.

Para afirmar dependencia (o independencia) se debe establecer una relacin clara de


causalidad (o ausencia de ella) entre las variables aleatorias en estudio.
Pregunta: En el caso de un depsito mineral, cules seran estas causas probables para
afirmar dependencia entre la ley de elementos de inters?
Covarianza
Si se tiene una muestra de N realizaciones del par , . Es posible estimar la covarianza y
la correlacin como sigue:
Covarianza Experimental:

1
= )
( )(
1
=1
Este es el estimador insesgado de la Covarianza entre e .
En caso de que las medias sean conocidas, el estimador insesgado es:

1
= ( )( )

=1
Correlacin Experimental:

=
2 2
Distribuciones Multivariables
Si se tienen varias variables aleatorias 1 , , es posible describir la distribucin
multivariable con la siguiente funcin distribucin:

1 , , , 1 , , = Prob(1 < 1 , , < )

Y las siguientes densidades de probabilidad:

1 , , = Prob 1 = 1 , , =

1 , ,
1 , , =
1
Distribucin Multigaussiana
Se define la distribucin multigaussiana como:

1 1
2 ()
=
2
Donde:
= 1 , , : vector de posibles valores de 1 , ,
: vector de esperanzas (1 , , ) de 1 , ,
: matriz de varianza-covarianza de 1 , ,
Distribucin Multigaussiana
Consideraciones
1. Para el caso multigaussiano, la ausencia de correlacin equivale a la independencia
2. Las distribuciones marginales son normales, al igual que las distribuciones bivariables
son binormales, etc.
3. Las distribuciones condicionales tambin son gaussianas.
4. Toda combinacin lineal de las variables es gaussiana.
Referencias
Jean-Paul Chils & Pierre Delfiner, 1999. Geostatistics: Modeling Spacial Uncertainty,
Wiley.
A.G. Journel & Ch.J. Huijbregts, 1989. Mining Geoestatistics, Academic Press.
J. Ortiz, Apuntes de curso: MI5041 Evaluacin de Yacimientos, Universidad de Chile.
X. Emery, Apuntes de curso: MI4040 Anlisis Estadstico y Geoestadstico de Datos,
Universidad de Chile.

You might also like