You are on page 1of 60

Estads3cayMtodosNumricos

Tema5.InferenciaEstads3ca

ngelBarnCaldera
ngelCoboOrtega
MaraDoloresFrasDomnguez
JessFernndezFernndez
FranciscoJavierGonzlezOr@z
CarmenMaraSordoGarca
DEPARTAMENTODEMATEMTICAAPLICADAY
CIENCIASDELACOMPUTACIN
UNIVERSIDADDECANTABRIA
License:
Crea3veCommonsBYNCSA3.0

TEMA5: Inferencia Estadstica

1. Muestreo:
Tamao y calidad de la muestra
Muestreo aleatorio
2. Inferencia estadstica:
Estimacin de una proporcin
Estimacin de una media
Estimacin de una varianza
3. Contraste de hiptesis usando
intervalos de confianza

Muestreo
muestra

POBLACIN: todos los


Universidad de Cantabria

estudiantes

de

la

MUESTRA: alumnos de 1 de Grado de


Ingeniera Civil de la Universidad de Cantabria.
poblacin

Necesidad del muestreo:

1. Coste reducido: la recogida y tratamiento de datos resulta


ms barato al trabajar con una pequea parte de la poblacin
2. Mayor rapidez en la evaluacin del resultado final (ej.
escrutinio de votos de las primeras mesas electorales).
3. Imposibilidad material por destruccin del objeto a estudio
(ej. duracin de bombillas, si se estudia toda la poblacin no
quedaran bombillas para vender).
Es importante elegir una muestra que represente bien a la poblacin.

Muestreo Aleatorio
Todos los elementos tienen la misma probabilidad de ser
incluidos en la muestra.
Sin reposicin de los elementos: no se permite que un mismo
individuo sea seleccionado ms de una vez.
Con reposicin: un elemento puede ser extrado varias veces.
Cuando la poblacin es grande la diferencia entre ambos casos
es mnima.
1-1
1-2
1-3
.
3-1
.
6-5
6-6

Inferencia Estadstica
El problema que aparece con ms frecuencia en la prctica es
el de la estimacin de parmetros de la poblacin, que son
desconocidos.
Existe una
utilizados para describir la
parmetros
poblacin

POBLACIN

utilizados
para estimar

de donde se
extrae una
muestra
aleatoria

la muestra
genera

utilizados
para evaluar
datos
numricos

estadsticos

El objetivo es doble: describir la muestra (mediante la estadstica


descriptiva) y sacar conclusiones sobre la poblacin.

Inferencia Estadstica
Se desea conocer la altura de los alumnos de la Universidad de
Cantabria
V.A. Altura
utilizados para describir la

POBLACIN:
alumnos de la
U.C

parmetro
poblacin

utilizados
para estimar

de donde se
extrae una

muestra aleatoria:
Alumnos
de 1 de
Grupo alumnos
Ingenieria Civil

utilizados
para evaluar

la muestra
genera
1.72,1.69,1.57...
23,18,20,1.90

2 0 .5
x = 1.71
S n = 0.53
1.7

Conjunto de mtodos estadsticos que permiten deducir (inferir)


como se distribuye la poblacin en estudio a partir de la
informacin que proporciona una muestra.

Inferencia Estadstica
Estimacin puntual: Obtener un pronstico numrico
nico sobre un parmetro de la distribucin
Estimacin por intervalos: Obtener un margen de
variacin para un parmetro de la distribucin

Poblacin, parmetro

proporcin P
media
varianza 2

Muestra, estimador parmetro


proporcin p
media
Varianza S2

Objetivo:min

Estimacin de una proporcin


Dada una poblacin con N individuos de los cuales M poseen
cierta propiedad (e.g. mujeres) que no poseen los dems, la
proporcin poblacional se define como P = M/N
Si se elige una muestra de esa poblacin de tamao n, en la
que aparecen m individuos con esa propiedad, entonces la
proporcin muestral se define como p = m/n

La proporcin poblacional (P) es


constante mientras que cada
muestra puede tener una
proporcin muestral (p) distinta.

p1
p2

p3

p4

La proporcin muestral es una variable aleatoria por lo que


es importante determinar su distribucin.

Distribucin de la proporcin muestral


La distribucin de la proporcin muestral es la distribucin de
probabilidad de todos los valores posibles de la proporcin
muestral (p)
Muestreo con reemplazamiento o poblacin infinita:
El nmero de individuos (m) que poseen la propiedad en la
muestra es una variable aleatoria binomial.
La media y varianza de la proporcin muestral sern:

Distribucin de la proporcin muestral


La distribucin de la proporcin muestral es la distribucin de
probabilidad de todos los valores posibles de la proporcin
muestral (p)
Muestreo sin reemplazamiento y poblacin finita:
El nmero de individuos (m) que poseen la propiedad en la
muestra es una variable aleatoria hipergeomtrica.
La media y varianza de la proporcin muestral sern:

Distribucin de la proporcin muestral

El valor medio de la funcin de probabilidad coincide con


la proporcin poblacional P.

La varianza disminuye a medida que aumenta el tamao


de la muestra(n).

La funcin de probabilidad de p converge a la normal de


=E(p) y 2=Var(p) para n tendiendo a infinito.
Cuando la aproximacin Normal sea vlida, se podr utilizar la
variable tipificada z para obtener la informacin necesaria en la
toma de decisiones.
N(, 2)

x
z=

N(0, 1)

Intervalos de probabilidad de una proporcin


Conocer la funcin de probabilidad de p permite, en el supuesto
de conocer el valor de P, fijar unos intervalos tales que la
probabilidad de que la variable aleatoria p pertenezca a dicho
intervalo sea un valor dado.
Dado un porcentaje 100(1-)%, siempre es posible encontrar
un intervalo alrededor de P que contenga a dicho porcentaje de
la muestra.
Se denomina intervalo de
probabilidad de una
proporcin a aquel intervalo
para el cual se sabe con una
confianza 1- que la proporcin
muestral se encuentra en dicho
intervalo.

P-e

P+e

Intervalos de probabilidad de una proporcin


1- (nivel de confianza, 90% 95% 99%)
es el nivel de significacin

Pueden existir numerosos intervalos 1-, sin embargo tiene


mayor inters el simtrico respecto al valor central P.

Intervalos de probabilidad de una proporcin


El intervalo (a,b] es un intervalo para p con probabilidad 1- si
se verifica:

P(a p b) = 1

Tiene especial inters el intervalo de amplitud mnima que, para


muestras grandes es aproximadamente el simtrico respecto
de P.
1-

P(P e p P + e) = 1
P-e
-

P+e
+

Si el tamao de la muestra es suficientemente grande, la


variable aleatoria p tiende a la ley normal y los intervalos de
probabilidad pueden obtenerse con las tablas de la ley normal.

Intervalos de probabilidad de una proporcin


Si el tamao de la muestra es suficientemente grande, la
variable aleatoria p tiende a la ley normal y los intervalos de
probabilidad pueden obtenerse con las tablas de la ley normal.

P+e
P(P e p P + e) = FN ( , )( P + e) FN ( , )( P e) = FN ( 0,1)


e
e
e
Pe
FN ( 0,1)
= FN ( 0,1) 1 FN ( 0,1) = 2 FN ( 0,1) 1 = 1




2

FN (0,1)(e / ) = 1 / 2
Donde

Intervalos de probabilidad de una proporcin


1- (nivel de confianza, 90% 95% 99%)
es la significacin

P-z/2

P+z/2

Los intervalos de probabilidad permanecen constantes para


diferentes muestras.
La probabilidad (1- ) indica que para el 100(1- )% de las
muestras, el valor de p est contenido en el intervalo de
probabilidad y para el resto est fuera.

Intervalos de probabilidad de una proporcin

Pe

Muestreo sin reemplazamiento y


poblacin finita

Muestreo con reemplazamiento


o poblacin infinita

nP > 5
n(1 P) > 5
n / N < 0.9

Condiciones
de validez

nP > 5
n(1 P) > 5

Ejemplo: La poblacin de internados en un centro mdico es


de 1000 enfermos, de los cuales el 20% padecen afecciones
cardiacas. Se elige una muestra de 50 enfermos del fichero de
registro. Calcular el intervalo de probabilidad al 0.95 de p para el
caso de muestreo sin y con reemplazamiento.

Intervalos de probabilidad de una proporcin

Pe

Muestreo sin reemplazamiento y


poblacin finita

Muestreo con reemplazamiento


o poblacin infinita

nP > 5
n(1 P) > 5
n / N < 0.9
Ejemplo:

Condiciones
de validez

nP > 5
n(1 P) > 5

Estimadores de una proporcin


En la realidad, el problema ms frecuente es el de la estimacin de
los parmetros de la poblacin. Para ello se extrae de la poblacin
una muestra de tamao n y conocida sta se trata de estimar P.

Estimacin puntual: Se estima el valor de la proporcin de la


poblacin (P) con el valor del parmetro de la muestra.

No da informacin alguna de la precisin de la estimacin.

Intervalo de confianza: Determina entre que valores (a, b] se


encuentra la proporcin de la poblacin P con cierta probabilidad o
certeza (1-).

P(a P b) = 1

Complementa la estimacin puntual precisando la exactitud de la estimacin.

Intervalos de Confianza de una Proporcin


Se dice que el intervalo (a,b] es un intervalo de confianza
para P al nivel (1-) si se verifica:

P(a P b) = 1
Partiendo del intervalo de probabilidad (1- ):

P(P e p P + e) = 1
Esta expresin se puede escribir como:

P(p e P p + e) = 1
Por lo que el intervalo [p-e, p+e] tiene una probabilidad
asociada de (1- ) de contener al parmetro P.

Intervalos de confianza de una proporcin

pe
Muestreo sin reemplazamiento y
poblacin finita

n ( p e) > 5
n(1 p e) > 5
n / N < 0.9

Muestreo con reemplazamiento


o poblacin infinita

Condiciones
de validez

n ( p e) > 5
n(1 p e) > 5

Ejemplo: En una muestra aleatoria de 50 rocas tomadas de


una mina se observa que 20 de ellas son ricas en contenido
mineral. Estimar puntualmente la proporcin de rocas con alto
contenido mineral en la mina. Calcular un intervalo de confianza
0.95 de esta proporcin.

Intervalos de Confianza de una Proporcin

Los intervalos de confianza s cambian con las muestras.

El 100(1- )% de las muestras dan intervalos de confianza


que contienen a la proporcin poblacional.

Tamao de muestra para estimar proporcin


En la prctica el experimentador se plantea con qu error y nivel
de confianza desea estimar la proporcin y se calcula el tamao
de la muestra necesario.
Es decir, se conocen e y 1- y se busca calcular n.
Muestreo sin reemplazamiento y
poblacin finita

Muestreo con reemplazamiento o


poblacin infinita

Tamao de muestra para estimar proporcin


El clculo de n implica el conocimiento
previo de la proporcin muestral, en
p(1-p), que es el valor que se busca.
Si no se tiene idea del rango de
valores de p(1-p), se puede usar el
valor que es la cota superior de p(1p).

Muestreo sin reemplazamiento y


poblacin finita

Muestreo con reemplazamiento o


poblacin infinita

Ejercicio
Ejemplo: Se quiere estimar la proporcin de zurdos en una poblacin con una
confianza del 95% y una precisin de 0.01.
1. Cul debe ser el tamao de la muestra escogida?
2. Mediante un muestreo previo se estima que p0.1, qu tamao debe tener la
muestra si para calcularlo se utiliza la estimacin de p obtenida?

Ejercicio

Estimacin de una media


x1

x4

x2

x3

Dada una poblacin con N individuos que poseen


cierta propiedad (altura), esa propiedad o
variable tendr su media poblacional , an
cuando su valor numrico se desconozca.

Si se elige una muestra aleatoria de esa poblacin de tamao


n, se puede observar dicha variable y obtener la media
muestral
La media muestral es una variable aleatoria ya que cada
muestra tiene un valor distinto, por lo que tiene inters estudiar
su funcin de probabilidad y en especial su media y su
varianza.
La distribucin de la media muestral es la distribucin de
probabilidad de todos los valores posibles de la media
muestral.

Distribucin de la media muestral


Muestreo sin reemplazamiento y
poblacin finita

Muestreo con reemplazamiento o


poblacin infinita

La media de las medias muestrales coincide con la media


poblacional.
La varianza disminuye a medida que aumenta el tamao de la
muestra (n).
La funcin de probabilidad converge a la normal para n
tendiendo a infinito (teorema central del lmite).

Intervalos de probabilidad de una media


Se denomina intervalo de probabilidad de una media a aquel
intervalo para el cual se sabe con una confianza 1- que la
media muestral se encuentra en dicho intervalo.
El intervalo (a,b] es un intervalo para la media muestral con
probabilidad 1- si se verifica:

P(a x b) = 1
Al igual que para proporciones, para la media el intervalo de
especial inters es el simtrico respecto de la media de la
poblacin.

P( e x + e) = 1

[ e, + e]

Intervalos de probabilidad de una media


Varianza de la poblacin conocida y n grande (n30): la
distribucin muestral se puede aproximar por una normal, Teor.
central del lmite.

Muestreo sin reemplazamiento y


poblacin finita

Muestreo con reemplazamiento o


poblacin infinita

N n
z / 2
n(N 1 )
Varianza de la poblacin desconocida y n es pequea.
No se puede emplear 2/n, en su lugar se toma S2/n a partir de la muestra, por lo
que la distribucin ya no es exactamente una distribucin normal.
En este caso, si la distribucin de partida es normal, se considera el estadstico t
que se distribuye segn una t de Student con n-1 grados de libertad.

t de Student, t(n)
Forma de campana, simtrica y unimodal.
Eje de simetra en la recta X=0, por lo que su mediana = 0

n =1, 4, 16,

Cuando n tiende a infinito la distribucin t(n) tiende a la N(0,1)

t de Student, t(n)
Los cuantiles de la
distribucin t(n)
aparecen en muchas
frmulas de inferencia
estadstica y se
aproximan mediante
tablas o mediante
programas de
ordenador.

> qt(0.95, 9)
[1] 1.833113

Ejercicio
En un instituto se sabe que la estatura de los
alumnos se ajusta a una N(165,82) en cm. Calcular la probabilidad
de que la altura media de 64 alumnos, elegidos al azar, est entre
163 y 167 cm.

Estimadores de una media


Como ya se ha mencionado antes, en la realidad, el problema ms
frecuente es el de la estimacin de los parmetros de la poblacin.
Para ello se extrae de la poblacin una muestra de tamao n y
conocida sta se trata de estimar .

Estimacin puntual: La media muestral es un buen estimador de la


media de la poblacin.

x-

No da informacin alguna de la precisin de la estimacin.

Intervalo de confianza: Determina entre que valores (a, b] se


encuentra la media de la poblacin con cierta probabilidad o
certeza (1-).

P(a b) = 1

Complementa la estimacin puntual precisando la exactitud de la estimacin.

Intervalos de confianza de una media


Se dice que el intervalo (a,b] es un intervalo de confianza para
al nivel (1-) si se verifica:

P(a b) = 1
Usando la hiptesis de normalidad y de la misma manera que se
hizo para las proporciones:

Si la aproximacin normal no es vlida (n pequea y


desconocida), al igual que se hizo con el intervalo de probabilidad,
es necesario considerar el valor de la cuasivarianza muestral S2 y
calcular la variable t, que se distribuye segn una t de Student.

Intervalos de confianza de una media

xe
Varianza de la poblacin conocida y n grande (n30):
Muestreo sin reemplazamiento y
poblacin finita

N n
e = z / 2
n(N 1 )

Muestreo con reemplazamiento o


poblacin infinita

e = z / 2

Varianza de la poblacin desconocida y n es pequea.

e = tn1, / 2

S
n

Tamao de muestra para estimar media


Al igual que con la proporcin, en la realidad el problema que se
plantea se centra en estimar el tamao de muestra necesario
para estimar una media con un error y nivel de confianza dados.
Es decir, se conocen e y 1- y se busca calcular n.

e = z / 2

n = z/2 2
e

Si la aproximacin Normal no es vlida, este clculo se complica


ya que n aparece implcitamente en tn-1,/2

Ejercicio
Si la vida en horas de una bombilla elctrica de 75 watios se
distribuye de forma normal con una desviacin tpica de 5 horas
y elegimos una m.a.s. de 30 bombillas cuya vida media es de
1014 horas, se pide:
1. Construir un intervalo de confianza para la vida media de las
bombillas con un nivel de significacin del 0.05.
2. Si queremos tener un nivel de confianza del 95% de que el
error en la estimacin de la vida media fuera menor de una hora,
Qu tamao de la muestra elegiramos?

Ejercicio

Estimacin de una varianza


S

x142

Sx

2
24

2
1

2
3

S 2 , S n2

La varianza poblacional (2) es constante mientras que cada


muestra puede tener una varianza o cuasi-varianza muestral
(Sn2, S2) distinta.
Sn2 y S2 son variables aleatorias por lo que es importante
determinar su distribucin
La distribucin de la varianza (cuasi-varianza) muestral es la
distribucin de probabilidad de todos los valores posibles de la
varianza (cuasi-varianza) muestral.

Distribucin de la varianza muestral

4 es el momento de orden cuatro respecto de la media:

El valor medio de las varianzas muestrales no coincide con el


de la varianza de la poblacin (estimador sesgado)

El valor medio de las cuasi-varianzas muestrales si coincide


con el de la varianza de la poblacin (estimador centrado).

Las varianzas tienden a cero cuando n tiende a infinito.

Intervalos de probabilidad de una varianza


Se denomina intervalo de probabilidad de una varianza a
aquel intervalo para el cual se sabe con una confianza 1- que
la varianza muestral se encuentra en dicho intervalo.

P(a S b) = 1
2
n

Para el caso de la varianza y cuasi-varianza muestrales, no


existe una distribucin a la que converjan todos los casos
posibles de distribucin poblacional.
La distribucin de la varianza o cuasi-varianza muestral
depende en alto grado de cual sea la distribucin poblacional
de partida.
Para simplificar vamos a considerar en lo que sigue slo el
caso de poblacin normal.

Intervalos de probabilidad de una varianza


Si asumimos que la poblacin sigue una distribucin N(, 2),
entonces la variable aleatoria

Intervalos de probabilidad de una varianza


Si asumimos que la poblacin sigue una distribucin N(, 2),
entonces la variable aleatoria

Intervalos de probabilidad de una varianza


Si asumimos que la poblacin sigue una distribucin N(, 2),
entonces la variable aleatoria

Por tanto:

Pero hay infinitos valores de a y b que cumplen esta relacin


para una confianza dada.

Intervalos de probabilidad de una varianza

Intervalos de probabilidad de una varianza

Intervalos de probabilidad de una varianza

n=30

Intervalos de probabilidad de una cuasi-varianza

Para la cuasi-varianza el intervalo de probabilidad se calculara de la


misma manera:

n1 S

sigue una distribucin Chi-cuadrado con n-1


grados de libertad,

El intervalo de probabilidad vendra dado de la forma:

Estimadores de una varianza


En la realidad, el problema ms frecuente es el de la estimacin de
los parmetros de la poblacin. Para ello se extrae de la poblacin
una muestra de tamao n y conocida sta se trata de estimar 2.

Estimacin puntual: La varianza y cuasi-varianza muestral son


buenos estimadores de la varianza de la poblacin. La cuasivarianza
tiene la ventaja de se un estimador centrado de 2.

-2
S

No da informacin alguna de la precisin de la estimacin.

Intervalo de confianza: Determina entre que valores (a, b] se


encuentra la varianza de la poblacin con cierta probabilidad o
certeza (1-).

P(a b) = 1
2

Complementa la estimacin puntual precisando la exactitud de la estimacin.

Intervalos de confianza de una varianza


De la misma manera que se hizo para el intervalo de probabilidad (1- ):

es un intervalo de confianza para la varianza poblacional si la poblacin


de partida es normal. Por la definicin de la cuasi-varianza muestral, este
intervalo tambin se puede escribir como:

Ejercicio
Se sabe que el peso por bloque de un cierto preparado de
hormign se distribuye de forma normal. Con el objeto de
estudiar la varianza de la distribucin, se extrae una m.a.s de 6
bloques. Sabiendo que la varianza muestral es igual a 40,
estimar la varianza poblacional mediante un intervalo de
confianza al 90%.

Ejercicio
La resistencia a fractura X, en kg/cm2, de unas placas de acero
fueron:
69.5; 71.9; 72.6; 73.3; 73.5; 75.5; 75.7; 75.8; 76.1; 76.2;
77; 77.9; 78.1; 79.6; 79.7; 79.9; 80.1; 82.2; 83.7; 93.7
Calcular un intervalo de confianza para la desviacin tpica de la
distribucin de la resistencia a fractura al nivel de confianza 0.99
es vlido este intervalo cualquiera que sea el tipo de
distribucin de la v.a. X?

Contraste de hiptesis usando intervalos de confianza

El objetivo del contraste de hiptesis es decidir si una


determinada hiptesis o conjetura sobre la distribucin
poblacional estudiada es confirmada o invalidada
estadsticamente a partir de las observaciones de una
muestra, es decir, avalar o rechazar tales informaciones sobre
la caracterstica de la poblacin, pero no estimarla.

Ejemplo:
La proporcin de mujeres en Madrid toma un valor determinado:
P = 50.58%

Contraste de hiptesis usando intervalos de confianza


El planteamiento general de un problema de contraste es el
siguiente:

Se formula una hiptesis o conjetura acerca de la poblacin


Se trata de ver si esa afirmacin se encuentra apoyada por la
evidencia experimental que se obtiene a travs de una
muestra aleatoria.

Hiptesis nula, H0, es la hiptesis que se contrasta.


Una hiptesis estadstica es una afirmacin que se hace con
El nombre de nula proviene de que H0 representa la hiptesis que
respecto a una o ms caractersticas desconocidas de una
mantendremos a no ser que los datos indiquen su falsedad, y debe entenderse,
poblacin de inters.
por tanto, en el sentido de neutra.
Ejemplo:
Se desea contrastar que la proporcin de mujeres en Madrid
toma un valor determinado:
H0: P = 50.58%

Contraste de hiptesis usando intervalos de confianza


La realizacin de un contraste implica la existencia de dos
hiptesis:
La hiptesis nula H0 es la que se formula y se quiere contrastar.
Es la que el investigador asume como correcta y que no
necesita ser probada, es decir, la aceptacin de H0 no implica
que sta sea correcta o que haya sido probada, sino que los
datos no han proporcionado evidencia suficiente como para
rechazarla.
La hiptesis alternativa es la hiptesis opuesta de H0, de forma
que si a partir de la muestra se rechaza H0 entonces se acepta
como cierta H1.
Ejemplo:
Se desea contrastar que la proporcin de mujeres en Madrid
toma un valor determinado:
H0: P = 50.58%
H1: P 50.58%

Contraste de hiptesis usando intervalos de confianza


Las afirmaciones no son todas del mismo tipo, pueden involucrar
ya sea el valor numrico de algn parmetro, suponiendo la
distribucin conocida (generalmente la Normal), o la forma
funcional no conocida de la distribucin de inters a partir de la
cual se obtiene la muestra .
1. H0 : P = 0.5
2. H0 : = 1.68
3. H0 : F ~ Normal

Contraste paramtrico
Contraste no paramtrico

Contrastes paramtricos:

Si:

H0 : = 0.5,
entonces H1 puede ser: H1 : > 0.5 Contraste unilateral derecho
H1 : < 0.5 Contraste unilateral izquierdo
H1 : 0.5 Contraste bilateral

Contraste de hiptesis usando intervalos de confianza


La estimacin del intervalo de confianza de un parmetro
implica el clculo de lmites para los cuales es "razonable" que
el parmetro en cuestin est dentro de ellos.
En el contraste se decide si hay evidencias suficientes de que
el parmetro en cuestin tenga un determinado valor.
Ambos mtodos basan su decisin en el mismo estadstico,
cuya distribucin muestral es conocida.
La prueba de

H0 : = 0
H1 : 0

Contraste bilateral

es equivalente a calcular un intervalo de confianza (a un nivel


de confianza 1-) de y rechazar H0 (a un nivel de confianza
1-) si 0 no est dentro del intervalo de confianza y
aceptarla en caso contrario

Ejercicio
Una muestra aleatoria de 36 cigarrillos de una marca
determinada dio un contenido promedio de nicotina de 3mg.
Suponga que el contenido de nicotina de este tipo de cigarrillos
sigue una distribucin normal con una desviacin estndar de
1mg.
1. Obtenga e interprete un intervalo de confianza del 95% para
el verdadero contenido promedio de nicotina en estos cigarrillos.
2. El fabricante garantiza que el contenido promedio de nicotina
es de 2.9 mg, qu puede decirse de acuerdo con el intervalo
hallado?

Ejercicio

You might also like