Professional Documents
Culture Documents
La seleccin de elementos en una muestra se puede hacer de distintas formas, El muestreo aleatorio es
la seleccin al azar de los elementos que constituyen una poblacin. El muestreo puede ser sin
reemplazo, en este caso, los elementos que se extraen no son devueltos. El muestreo con reemplazo
ocurre cuando el elemento extrado es devuelto a la poblacin. En el caso de que el tamao de la
poblacin sea muy grande, el muestreo sin reemplazo no afecta las estimaciones, de lo contrario debe
considerarse el efecto de la extraccin de los elementos de la poblacin. La seleccin y extraccin
aleatoria de los elementos de la poblacin para realizar inferencias sobre atributos poblacionales es
necesaria para evitar sesgos, lograr independencia entre las observaciones y mantener objetividad en
las inferencias realizadas. Puesto que los elementos de la muestra varan de manera impredecible (si la
extraccin es aleatoria), los estimadores tambin varan. Por lo tanto, los estimadores son variables
aleatorias.
Para la estimacin de los estadsticos de posicin se toma como base el clculo combinatorio y
permutacional. Se utilizan fundamentalmente las tcnicas de remuestreo, Bootstrap y Jackknife. Estas
tcnicas no han sido suficientemente desarrolladas y utilizadas porque histricamente los economistas
(padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posicin,
medianas o cuartiles. Esto es lgico cuando hablamos de dinero.
La estimacin de parmetros puede ocurrir de dos formas: a) Estimacin puntual, la cual es la
estimacin del valor del parmetro y b) Estimacin por intervalo, en este caso se construye un
intervalo probabilstico que expresa la probabilidad de que el parmetro se encuentre dentro de dicho
intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentacin de estimaciones
puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es
recomendable presentar tambin el error estndar y tamao de muestra
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
informacin sobre el valor del parmetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporcin observada en la muestra es un estimador de la proporcin en la poblacin.
Una estimacin es puntual cuando se obtiene un slo valor para el parmetro. Los estimadores ms
probables en este caso son los estadsticos obtenidos en la muestra, aunque es necesario cuantificar el
riesgo que se asume al considerarlos. Recordemos que la distribucin muestral indica la distribucin
de los valores que tomar el estimador al seleccionar distintas muestras de la poblacin. Las dos
medidas fundamentales de esta distribucin son la media que indica el valor promedio del estimador y
la desviacin tpica, tambin denominada error tpico de estimacin, que indica la desviacin
promedio que podemos esperar entre el estimador y el valor del parmetro.
Ms til es la estimacin por intervalos en la que calculamos dos valores entre los que se encontrar
el parmetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al
parmetro que se est estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parmetro. Se indica por 1 habitualmente se da en porcentaje (1- )100%. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extrada la muestra, el intervalo de confianza contendr
al verdadero valor del parmetro o no, lo que sabemos es que si repitisemos el proceso con muchas
muestras podramos afirmar que el (1- )% de los intervalos as construidos contendra al verdadero
valor del parmetro. Por lo general los nivele de confianza ms utilizados son: 99, 95 y 90 %, a estos
se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo
contenga el valor desconocido del parmetro; estos son simplemente convencionales.
Un intervalo de confianza tiene un lmite inferior de confianza (LIC) y un lmite superior de confianza
(LSC). Esos limites se encuentran calculando primero la media muestral, X . Luego se suma una cierta
cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC, estos valores
que se suman y restan a la media muestral se les denominan errores de estimacin.
Confianza e Intervalos de confianza
La estimacin de parmetros mediante un solo valor se conoce como estimacin puntual. Es bastante
arriesgada puesto que no conocemos ni la imprecisin ni se establece el grado de confianza que nos
merece el resultado. Estos dos inconvenientes se obvian con la estimacin por intervalos
confidenciales. Por un lado proporcionan un valor de la imprecisin dado por la longitud del intervalo
de confianza. Por otro proporcionan un valor de la fiabilidad que nos debera merecer nuestra
estimacin, o nivel de confianza.
Afortunadamente algo tan sutil como la confianza se puede cuantificar, y no slo eso sino que se
mueve en unos lmites tan cmodos para el pensamiento como son entre el cero y el cien por ciento.
Por convenio, y nadie parece en desacuerdo, para la mayora de las ocasiones una confianza del 95%
parece suficiente. Este es el valor que gobierna la longitud del intervalo de confianza.
Como se interpreta una confianza del 95%?. Si llevamos a cabo un experimento 100 veces
obtendramos 100 distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100
intervalos, 95 de ellos cubriran el valor del verdadero parmetro poblacional. Desgraciada o
afortunadamente, nosotros solo realizamos el experimento una sola vez. Con lo que nunca sabremos si
nuestro intervalo es uno de esos 95 que contienen el parmetro de estudio.
Tcnicamente, aunque esto suene a una sofisticacin innecesaria, no podemos asociar el concepto de
nivel de confianza con el concepto de probabilidad. As no se puede establecer que tenemos una
probabilidad del 95% de que el parmetro buscado este dentro de nuestro intervalo.
Las tcnicas de estimacin de parmetros poblacionales se incluyen dentro de la estadstica inferencial.
Un Teorema Importante
Todos los parmetros poblacionales pueden ser estimados a partir de tcnicas de estimacin. La
mayora de los estimadores se basan en la distribucin de los estadsticos en el muestreo y toman como
base algunas propiedades deseables del teorema del lmite central. Este teorema tiene unas propiedades
tan deseables que es la base de la estadstica analtica. Viene a decir fundamentalmente dos cosas:
3
1.- Que las muestras individualmente son diferentes de las poblaciones pero en conjunto son muy
parecidas
2. Que las muestras no son gobernadas por el azar, sino que en conjunto siguen, no importa de lo que
estemos tratando, las leyes universales de las funciones tericas de probabilidad. La funcin de
probabilidad normal rige, en la mayora de las ocasiones cuando las muestras son mayores de 30, estas
distribuciones muestrales.
Otro Enfoque
Para la estimacin de los estadsticos de posicin se toma como base el clculo combinatorio y
permutacional. Se utilizan fundamentalmente las tcnicas de remuestreo, Bootstrap y Jackknife. Estas
tcnicas no han sido suficientemente desarrolladas y utilizadas porque histricamente los economistas
(padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posicin,
medianas o cuartiles. Esto es lgico cuando hablamos de dinero.
La estimacin de parmetros puede ocurrir de dos formas: a) Estimacin puntual, la cual es la
estimacin del valor del parmetro y b) Estimacin por intervalo, en este caso se construye un
intervalo probabilstico que expresa la probabilidad de que el parmetro se encuentre dentro de dicho
intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentacin de estimaciones
puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es
recomendable presentar tambin el error estndar y tamao de muestra.
ESTIMACIN DE PARMETROS
La teora clsica de la Inferencia Estadstica trata de los mtodos por los cuales se selecciona una
muestra de una poblacin y, basndose en las pruebas de las muestras, se trata de:
* Estimar el valor de un parmetro desconocido, por ejemplo .
* Verificar si es o no igual a cierto valor predeterminado, por ejemplo 0.
El primero de estos dos procedimientos, de inferir de una muestra a una poblacin, se llama estimacin
de un parmetro; el segundo, prueba de una hiptesis acerca de un parmetro. Dentro del primer
procedimiento, la estimacin de un parmetro puede tener por resultado un solo punto (estimacin
puntual), o un intervalo dentro del cual exista cierta probabilidad de encontrarlo (estimacin por
intervalos).
Un estimador puntual es un nico punto o valor, el cual se considera va a estimar a un parmetro. La
expresin E( ) = sugiere que el nico valor de es un estimador puntual insesgado o no viciado de
.
Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero adems,
proporciona algn grado de exactitud del estimador. Como el trmino lo sugiere, un estimador por
intervalo es un rango o banda dentro de la cual el parmetro se supone va a caer.
Las tcnicas estadsticas de estimacin intentan conocer el valor de estos parmetros. La media de edad
de un conjunto de personas es fcilmente calculable y no est sometido a ninguna clase de imprecisin.
La media de edad de la poblacin de donde proviene esa muestra es desconocida. Si la muestra cumple
la condicin de ser aleatoria, es posible intentar calcular la media poblacional. El clculo de los
parmetros se basa en la informacin suministrada por la muestra.
En el proceso de ir de la informacin de la muestra (estadsticos) al estimado de los parmetros
poblacionales ocurren dos cosas, una buena y otra mala:
a.- Ganamos en generalizacin. Esto es, pasamos de la parte al todo. De las muestras a las poblaciones
b.- Perdemos precisin o lo que es lo mismo, ganamos en imprecisin. La estimacin de parmetros
poblacionales se realiza construyendo intervalos (segmentos) que suponemos cubren o contienen el
parmetro buscado.
POBLACIN
PARMETRO
Media Aritmtica
Variancia
Desvo Estndar
Coeficiente
Correlacin
Tamao
de
poblacin, el cual puede ser computado; luego la poblacin es tcnicamente finita. Afortunadamente no
es necesario crear problemas en cuanto a la distincin entre poblaciones infinitas y finitas.
El mtodo usado para seleccionar la muestra es muy importante al juzgar la validez de la inferencia que
se hace de la nuestra a la poblacin. Para que una muestra sirva adecuadamente como base para obtener
estimadores de parmetros poblacionales, debe ser representativa de la poblacin. El muestreo al azar
de una poblacin producir muestras que "a la larga" son representativas de la poblacin. Si una
muestra se extrae aleatoriamente, es representativa de la poblacin en todos los aspectos, esto es, el
estadgrafo diferir del parmetro solo por azar. La habilidad para estimar el grado de error debido al
azar (error de muestreo), es un rasgo importante de una muestra al azar.
PROPIEDADES DE UN BUEN ESTIMADOR
Para poder utilizar la informacin que se tenga de la mejor manera posible, se necesita identificar los
estadgrafos que sean buenos estimadores, cuyas propiedades son:
Insesgabilidad: , estimador de es una variable aleatoria y por lo tanto tiene una distribucin de
probabilidad con una cierta media y variancia. Se puede definir estimador insesgado diciendo: Si se
En smbolos: es insesgado E ( )
O sea que es de esperar que si se toman muchas muestras de igual tamao partiendo de la misma
distribucin y si de cada una se obtiene un valor , la media de todos los valores de ha de estar
muy cerca de .
* La media muestral es un estimador insesgado de la media poblacional, o sea que E( ) =
* La variancia muestral, es un estimador insesgado de la variancia poblacional?
La respuesta depende de como se defina la variancia muestral.
Si
( xi X 2 ) 2
E (S 2 )
2 pues
. Mas an,
n 1 2
. Pero el sesgo se puede corregir alterando la definicin de variancia muestral.
n
En efecto, si S*2
( xi X ) 2
n 1
estimador insesgado de 2 .
Eficiencia: si se utilizan dos estadsticos o estadgrafos como estimadores del mismo parmetro,
entonces aquel cuya distribucin muestral tenga menor variancia, es un estimador ms eficiente o ms
eficaz que el otro. Es decir:
es eficiente
mnima.
entre la primera y la quinta observacin. Pero estos estimadores no son suficientes pues no contienen
toda la informacin disponible de la muestra. La media aritmtica calculada con las 30 observaciones
s lo es pues tiene en cuenta todas las observaciones. En definitiva, por ejemplo la media aritmtica
muestral y la forma corregida de la variancia muestral, son estadsticas que satisfacen los criterios o
propiedades de "buenos" estimadores.
Evaluacin de la bondad de un Estimador
Para evaluar si un estadstico es mejor estimador que otro, se evalan cuatro criterios:
Imparcialidad: Se dice que un estadstico es un estimador imparcial si, en promedio, tiende a tomar
valores que estn por encima del parmetro de la poblacin que se est estimando con la misma
frecuencia y la misma extensin con la que tiende a asumir valores por debajo del parmetro que se
est estimando. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una
media de poblacin, porque la media de distribucin de muestreo de las medias de muestras tomadas de
la misma poblacin es igual a la media de la poblacin misma. Podemos decir que una estadstica es un
estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que estn por encima del
parmetro de la poblacin y la misma extensin con la que tiende a asumir valores por debajo del
parmetro de poblacin que se est estimando.
Eficiencia: Esta caracterstica se refiere al tamao del error estndar del estadstico, mientras ms
pequeo sea el error estndar, en ms eficiente el estimador. Se refiere al tamao del error estndar de
la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir
cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el menor error
estndar o la menor desviacin estndar de la distribucin de muestreo. Tiene sentido pensar que un
estimador con un error estndar menor (con menos desviacin) tendr una mayor oportunidad de
producir una estimacin ms cercana al parmetro de poblacin que se est considerando.
Coherencia: Un estadstico es un estimador coherente de un parmetro de poblacin si al aumentar el
tamao de la muestra, se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al
valor del parmetro de la poblacin. Si un estimador es coherente, se vuelve ms confiable si tenemos
tamaos de muestras ms grandes.
Suficiencia: Un estimador es suficiente si utiliza una cantidad de la informacin contenida en la
muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el
parmetro de la poblacin.
ESTIMACIN POR INTERVALOS DE CONFIANZA
Lo dicho hasta ahora se refiere a una estimacin puntual, es decir, estimar un parmetro a travs de un
nico valor. Esta estimacin no es muy conveniente pues con ella no se puede determinar el error de
muestreo, ni la precisin de la estimacin, ni la confianza que merece tal estimacin. Existen otros
mtodos para estimar parmetros poblacionales que son mucho ms precisos. Por ejemplo:
* Mtodo de los mnimos cuadrados.
* Mtodo de los momentos.
* Mtodo de la mxima verosimilitud se basa en el principio de que generalmente ocurre lo ms
probable.
* Mtodo de estimacin por intervalos de confianza, este ser el que se desarrollara en este curso.
El procedimiento de determinar un intervalo (a, b) que comprenda un parmetro de poblacin con
cierta probabilidad 1 , se llama estimacin por intervalos. Se vern los casos paramtricos, es
decir, aquellos en los que se tiene conocimiento del tipo de distribucin de la poblacin (Binomial,
Normal, etc.).
DISTRIBUCIONES MUESTRALES
Este concepto se relaciona con la idea de variacin o fluctuaciones al azar, para lo cual todas las
posibles muestras de un tamao N en una poblacin dada (con o sin reposicin). Para cada muestra,
podemos calcular un estadstico (tal como la media o la desviacin tpica) que variar de muestra a
muestra. De esta manera obtendremos una distribucin del estadstico que se llama su distribucin de
7
muestreo. Si, por ejemplo, el estadstico utilizado es la media muestral, entonces la distribucin se
llama la distribucin de muestreo de medias, o, distribucin de muestreo de la media. Anlogamente,
podramos tener distribuciones de muestreo de la desviacin tpica, de la varianza, de la mediana, de
las proporciones, etc. Para cada distribucin de muestreo podemos calcular la media, la desviacin
tpica, etc. As pues, podremos hablar de la media y la desviacin tpica de la distribucin de muestreo
de medias, etc.
DISTRIBUCIN DE MUESTREO DE MEDIAS
Es una distribucin probabilstica que consta de una lista de todas las medias muestrales posibles de un
tamao dado de una poblacin y la probabilidad de ocurrencia asociada con cada media muestral. Si
tomamos varias muestras de una poblacin con el objetivo de obtener la media poblacional,
observaramos que cada una de ellas posiblemente nos dan diferentes valores de dicha media. Si se
organizaran las medias de todas las muestras posibles de un tamao especfico tomadas de una
poblacin se obtendra lo que se conoce como una distribucin muestral de medias.
Para muestras de tamao N, sin reposicin, de una poblacin finita de tamao Np>N tenemos,
y X
NP N
NP 1
y X
los niveles de confianza que no aparecen en la tabla, los valores de z c se pueden encontrar gracias a las
tablas de reas bajo la curva normal.
NIVELES DE CONFIANZA
NIVEL
DE 99.73% 99%
CONFIANZA
3.00
2.58
ZC
98%
96%
95.45%
95%
90%
80%
68.27%
50%
2.33
2.05
2.00
1.96
1.645
1.28
1.00
0.6745
Una normal de media y desviacin se transforma en una z. De acuerdo a las siguientes figuras.
Llamando z al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva de
, es decir, que la probabilidad que la variable sea mayor que ese valor es (estos son los valores que
X
ofrece la tabla de la normal). Podremos construir intervalos de la forma Z1 2
Z 2 ,
n
para los que la probabilidad es 1 - .
ERRORES TPICOS:
La desviacin tpica de una una distribucin de muestreo de un estadstico se suele llamar su error
tpico. En la siguiente tabla, se presentan errores tpicos de distribucin de muestreo para varios
estadsticos bajo las condiciones de muestreo aleatorio de una poblacin infinita (o muy grande) o de
muestreo con reposicin de una finita. Tambin recoge observaciones particulares que garantizan la
validez de estos resultados y otras notas pertinentes.
Se debe tomar en cuenta que si el tamao de la muestra es lo bastante grande, las distribuciones de
muestreo son normales o casi normales. Por ellos, los mtodos se conocen como mtodos de grandes
muestras. Cuando N30, las muestras se llaman pequeas. Cuando los parmetros de la poblacin, tales
como ro, son desconocidos, pueden ser estimados con precisin por sus correspondientes
estadsticos muestrales, a saber, s, X , y r, si las muestras son suficientemente grandes.
DISTRIBUCIN
DE MUESTREO
ERROR TPICO
OBSERVACIONES
Esto es cierto para muestras grandes y
pequeas. La distribucin muestral de medias
es casi normal para 30, incluso cuando la
poblacin no es normal.
Medias
Desviaciones Tpicas
(1)
(2)
Varianzas
(1)
(2)
X Z 2
,
n
n
donde Z 2 es el valor de z que delimita un area de 2 a su derecha. Este teorema se cumple en el
caso de muestras de tamao n 30.
X Z 2
, es decir:
10
X Z 2
X Z 2
Una vez determinado el intervalo, es decir, una vez calculados numricamente los limites inferiores y
superiores, ya no debe hablarse en trminos de confiabilidad ni en trminos probabilsticos, pues la
situacin pasa a ser completamente determinstica. De tal manera, asociado a un intervalo de confianza
ya calculado, se tiene una probabilidad 0 1 de que contenga al parmetro a estimar y no hay otra
opcin, ya que lo contiene o no lo contiene. Resumiendo, los extremos del intervalo son variables
aleatorias, mientras que el parmetro a determinar es constante.
En general, los pasos a seguir para estimar un parmetro por el mtodo de los intervalos de confianza,
son:
* Fijar el coeficiente de confianza que se desea en la estimacin.
* Extraer la muestra y calcular el o los estadsticos necesarios.
* Determinar la distribucin en el muestreo que tiene el estadstico empleado.
la media muestral.
Se sabe que X .., N ,
independientemente del valor de n, por el teorema central del lmite.
n
11
, N (0,1)
n
Luego, tipificando:
Z Z 2
1
Se plantea:
entonces:
P X Z 2
X Z 2
1
n
n
Observaciones:
Si las muestras se toman sin reposicin de una poblacin finita de tamao N, debe emplearse el factor
de correccin por finitud y el intervalo ser:
X Z 2
N n
; X Z 2
n 1
n
N n
n 1
Si la poblacin es slo aproximadamente normal, la igualdad sigue siendo vlida en forma aproximada.
Figura: La distribucin N (0,1) y el intervalo ms pequeo posible cuya probabilidad es 1 . Por
simetra, los cuartiles Z 2 y Z1 2 slo difieren en el signo.
hall que
puls/seg. Los investigadores saben que la desviacin estndar de los cambios de
presin sangunea para todos los pacientes es = 3 puls/seg segn estudios anteriores. Ellos desean
estimar el cambio medio de la presin sangunea por paciente con un intervalo del 95% de confianza,
suponiendo que la variable aleatoria "cambios de presin sangunea" tiene asociada una distribucin
normal de probabilidad.
Respuesta:
X = cambio en la presin sangunea por paciente del sanatorio (en pulsaciones por segundo)
, = 3, 1 - = 0.95
n = 30,
Por tabla:
Z 2 1.96
Entonces:
30
5 1,073 3.9
3
30
5 1,073 6.1
Por lo tanto resulta el Intervalo del 95% de confianza para la media: (3,9; 6,1). Entonces, se puede
afirmar que el cambio medio en la presin sangunea por paciente, pertenece al intervalo (3,9; 6,1)
pulsaciones, con un nivel de confianza del 95%.
En cuanto al tamao ptimo de muestra, e
3
30
Si se utiliza X como una estimacin de , se puede tener una confianza de (1 )100% de que el
error ser menor que una cantidad especificada e cuando el tamao de la muestra es
Z2 2 * 2
Z 2 *
Z 2 *
Z 2 *
e
n
n
n
e
e
n
e2
Si se desea elevar el nivel de confianza a 99% en el problema anterior, pero sin aumentar el error e de
estimacin, el tamao de la muestra debera ser:
Z 2 *
n
e
(2,575) 2 32
(1,073) 2
n 51.8 52.0
Es decir, que se debe tomar una muestra de aproximadamente 52 pacientes en lugar de 30.
Por el contrario, si el investigador deseara un error de estimacin menor, por ejemplo 1 puls/seg,
manteniendo el nivel de confianza en 95%, el tamao de la muestra requerido ser:
13
(1,96) 2 (3) 2
(1) 2
EJEMPLO 1A.-Para una muestra de 81 habitantes de cierta poblacin se obtuvo una estatura media de
167 cm. Por estudios anteriores se sabe que la desviacin tpica de la altura de la poblacin es de 8 cm.
Construye un intervalo de confianza para la estatura media de la poblacin al 95%.
Datos: 8,....n 81,...Z 2 1.96(95%),...X 167
P X Z 2
X Z 2
1
n
n
167 1.96
8
81
167 1.96
8
81
Z 2 *
n
e
n (1.96)(0.3) n 138
0.05
Por lo tanto, se puede tener una confianza de 95 % de que una muestra aleatoria de tamao 138
proporcionar una estimacin de la media aritmtica de la muestra que ser diferente de la media
aritmtica de la poblacin en una cantidad menor que 0.05.
EJEMPLO: La desviacin tpica de la altura de los habitantes de un pas es de 8 cm. Calcular el
tamao mnimo que ha de tener una muestra de habitantes de dicho pas para que el error cometido al
estimar la altura media sea inferior a 1 cm. con un nivel de confianza del 90%.
Z 2 *
SOLUCIN: Se aplica la formula para calcular el tamao de la muestra n
e
, donde
(13.16) 2
(1,645)(8)
n
173.
1
12
Por lo tanto, se puede tener una confianza de 90 % de que una muestra aleatoria de tamao 173
proporcionar una estimacin de la media aritmtica de la muestra que ser diferente de la media
aritmtica de la poblacin de ese pas en una cantidad menor que 1 cm.
14
( xi X ) 2 ,
ya que
n 1
segn se ha visto, es un estimador insesgado del correspondiente parmetro poblacional .
S
Reemplazando en la variable tipificada
por S X
resulta el siguiente teorema:
n
Intervalo de Confianza de Muestras Pequeas para ; con desconocida
Si X y S son la media y la desviacin estndar de una muestra aleatoria de tamao n < 30, tomada
de una poblacin aproximadamente normal con varianza desconocida 2 , un intervalo de confianza
S
S
, donde t 2 es el valor
X t 2
(1 )100% para viene expresada por, X t 2
n
n
t con v = n 1 grados de libertad, que delimitan un rea de x / 2 a su derecha.
Por lo tanto:
P [ X t 2
S
n
X t 2
S
n
] 1
Dada la distribucin del estadstico y el nivel de confianza, se tiene la siguiente igualdad probabilstica:
P t 2
t 2 1 , donde
S
n
verificando P(T t 2 ) 2.
S
n
X t 2
S
n
, X t 2
) contendr el valor
n
n
medio . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media
muestral y desviacin tpica muestral, tratndose de variables aleatorias. La probabilidad a que se
refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizs ms clara: "Si
15
consideramos todas las muestras distintas de tamao n que puedan ser extradas de la poblacin X, y
con las observaciones de cada una construimos los correspondientes intervalos, segn la estructura
anterior, el (1- de estos intervalos contendrn el parmetro "
Por tanto, si extraemos una muestra de tamao n y con los datos u observaciones, x1, x2 ,..., xn ,
calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el
S
S
parmetro ( X t 2
, X t 2
) que, en funcin de la interpretacin informal anterior,
n
n
contendr dicho parmetro con una confianza (1-
Observacin: el nivel de confianza establece en alguna medida la longitud del correspondiente
intervalo de confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud
(menor precisin).
Figura: La distribucin de Student tiene las mismas
propiedades de simetra que la normal tipificada
Ejemplo 2: Una muestra de 15 pollos tomadas al azar en un galpn con 5000 pollos, (que elabora
alimentos balanceados), permiti establecer un aumento de peso promedio de 90 g por semana y por
pollo, y un desvo tpico de 10 g. Se busca estimar el incremento de peso promedio para los 5000 pollos
del establecimiento con un intervalo de confianza del 90%.
Respuesta:
X = aumento de peso por ave
n = 15;
= 90g; S = 10 g.
Por tabla:
t 2 1,761
X t 2
S
n
90 1,761
10
15
90 4,55 (85,5;..94,6)
Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento
est entre 85,5 y 94,6 gramos, con un 90% de confianza.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS
ESTIMACIN DE LA DIFERENCIA DE DOS MEDIAS
CASO 1: Poblaciones normales y 1 y 2 con 1 y 2 conocidos.
Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 22 respectivamente, un
estimador puntual de la diferencia entre 1 y 2 esta dado por el estadstico X 1 X 2 . Por lo cual,
1 2 , se seleccionaran dos muestras aleatorias
para obtener una estimacin puntual de
16
2 2
. De acuerdo con
media X X 1 2 y desviacin estndar X X 1 2
n1
n2
1
2
1
2
este planteamiento se puede afirmar con una probabilidad de 1 que la variable normal estndar es:
( X 1 X 2 ) ( 1 2 )
12 22
n1
n2
( X 1 X 2 ) ( 1 2 )
1
P Z 2
2
2
1 2
n1
n1
( X 1 X 2 ) Z 2
12
2
2 2
2 1 2 ( X 1 X 2 ) Z 2 1 2 , donde Z 2 es el valor Z
n1 n2
n1 n2
( X 1 X 2 ) Z 2
12
2 .
n1 n2
2
17
Respuesta:
X1 = superficie de cada explotacin agropecuaria de la primera zona
X2 = superficie de cada explotacin agropecuaria de la segunda zona
, n = 40; S12 300.., S 22 150 , por ser una muestra grande se
300 2 150 2
IC0.90 (900 600) 1,645
( X 1 X 2 ) Z 2
6 2.05
12
n1
22
n2
64 36
3.43 1 2 8.57
DISTRIBUCIN DEL MUESTREO DE PROPORCIONES
Supongamos que una poblacin es infinita y que la probabilidad de ocurrencia de un suceso (su xito)
es p, mientras la probabilidad de que no ocurra es q =1 p. Por ejemplo, la poblacin puede ser la de
todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p = .
Consideremos todas las posibles muestras de tamao N de tal poblacin, y para cada una de ellas
determinemos la proporcin de xitos P. En el caso de una moneda, P sera la proporcin de caras en
N tiradas. Obtenemos as una distribucin de muestreo de proporciones cuya media p y cuya
desviacin tpica p viene dada por
p p
pq
p(1 p)
n
poblaciones finitas en que se haga muestreo sin reposicin, dichas ecuaciones quedan sustituidas por
y
pq
pq
, donde
p p Z 2
n
n
general la formula se puede expresar as:
p Z 2
p Z 2
Z 2 es el valor de
x / 2 a su derecha. En forma
pq
.
n
valor de p y se trata de la cantidad que se debe estimar. Para estar seguro de su confiabilidad, se
0.68 1.96
(0.68)(0.32)
0.68 1.96 x0.021 068 0.04 El .. int ervalo..de..confianza ..es :
500
(0.64 p 0.72)
Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80
curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.
80
p
0.80;..q 1 p q 0.20;..Z 2 1.96;..n 100 .
100
Intervalo de confianza al 95 %: 0.80 1.96
(0.80)(0.20)
0.80 1.96(0.04) 0.80 0.0784
100
19
pq
,
q 1 p q 0.965 , por tabla Z 2 2,575 , ahora aplicando la formula general p Z 2
n
se tiene:
(0.035)(0.965)
(0.035) 2,575(0.013) (0.035) (0.033) ,
200
buscado es: (0.002; 0.068).
(0.035) 2,575
luego
el
intervalo
Se deja al estudiante que calcule los intervalos para los niveles de confianza de 90% y 95%
valor de p. Sin embargo, la mayora de las veces p no ser exactamente igual a p, y la estimacin
puntual ser errnea. El tamao de ese error ser la diferencia positiva que separa p y p , y puede
pq
tenerse una confianza de (1 )100% de que esa diferencia no exceder de Z 2
. De acuerdo
n
con este planteamiento se afirma que:
Si p se utiliza como una estimacin de p, puede tenerse una confianza de (1 )100% de que el error
pq
no exceder de Z 2
. Por lo tanto, se puede afirmar que:
n
Si p se utiliza como una estimacin de p, puede tenerse una confianza de (1 )100% de que el
error ser menor que una cantidad especificada e cuando el tamao de la muestra es
Z2 2 pq
aproximadamente de n
.
e2
EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisin en la
ciudad de El Tigre se encontr que x = 340 se suscribieron a Cables El Tigre. De qu tamao debe
ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimacin de p este dentro
de 0.02?
SOLUCIN: Se tomarn las 500 familias como una muestra preliminar que proporcionar una
Z2 2 pq
340
0.68 ; por tabla Z 2 1.96 ; e = 0.02. Luego se aplica la formula n
muestra p
500
e2
(1.96) 2 (0.68)(0.32)
(0.02) 2
2090.
Por lo tanto, si la estimacin de p se basa en una muestra aleatoria de tamao 2090, se puede tener una
confianza de 95 % de que la proporcin de la muestra no ser diferente de la proporcin real en ms de
0.02.
Algunas veces ser poco prctico obtener una estimacin de p que habr de utilizarse al determinar el
tamao de la muestra para un grado de confianza especificado. Si esto ocurre, se establece un lmite
superior para n, observando que pq p(1 p), lo cual debe ser por lo menos igual a , ya que p
debe estar entre 0 y 1. De acuerdo con este planteamiento se puede enunciar lo siguiente:
Si p se utiliza como una estimacin de p, se puede tener por lo menos una confianza de (1 )100%
de que el error no exceder de una cantidad especificada e cuando el tamao de la muestra sea
Z2 2
Z 2
4e 2 2e
20
Z 2
as:
de 0.02 si se elige una muestra de tamao aplicando la formula n
2e
Datos: Z 2 1.96,..e 0.02 y como se desconoce p esta se toma como p = 05.
2
1.96
2401.
n
(2)(0.02)
EJEMPLO: Imagina que queremos estimar con un error mximo del 3%, el porcentaje de audiencia de
un programa de TV, y queremos un 95% de confianza para nuestros resultados. No disponemos de
informacin previa sobre el posible valor de p. Cuntos teleespectadores debern ser encuestados?
SOLUCIN: Puesto que desconocemos p, tomaremos p = 0,5. Para un nivel de confianza del 95%
deberemos tomar Z 2 =1,96. Aplicando la formula
Z 2
2
e
, entonces se tiene:
1.96
2 3,8416 3,8416 1067
n
2(0.03) 2
4(0.0009) 0.0036
Con lo que n =1067. Tenemos pues un 95% de confianza en que el porcentaje que encontremos se
halle a menos de tres puntos porcentuales de la proporcin exacta.
Estimacin de la diferencia entre dos proporciones
Considrese el problema en el que se desea estimar la diferencia entre dos parmetros binomiales, p1 y
p2. Por ejemplo, se puede considerar que p1 es la proporcin de fumadores con cncer pulmonar y p2 la
de los que no fuman y tienen tambin cncer pulmonar. El problema, entonces, es estimar la diferencia
entre estas dos proporciones. En prmer lugar, se seleccionan muestras aleatorias independientes de
tamao n1 y n2 a partir de las dos poblaciones binomiales con medas n1 p1 y n2 p2, y variancia n1p1 q1 y
n2p2q2 , respectivamente; luego se determinan los nmeros x1 y x2 de personas de cada muestra con
puntual de p1 p2 .
Un intervalo de confianza para p1 p 2 puede establecerse considerando la distribucin muestral de
p1 p2 . Se sabe que p1 y p 2 estn distribuidos aproximadamente en forma normal cada uno, con
medias p1 y p2 y variancias p1q1/n1 y p2q2 /n2, respectivamente. Eligiendo muestras independientes a
partir de las dos poblaciones, las variables p1 y p 2 sern independientes; luego, por la propiedad de
21
P( z 2 Z z 2 ) 1
que
, donde
( p1 p 2 ) ( p1 p 2 )
Z
p1q1 p 2 q 2
n1 n2
simplificaciones algebraicas usuales, se reemplazan p1, p2, q1, . y.q2 en el radical por sus estimaciones
( p1 p2 ) Z x 2
p1q1 p2 q2
p1 p2 ( p1 p2 ) Z x 2
n1
n2
p1q1 p2 q2
, donde
n1
n2
Z x 2 es el
825 760
( p1 p2
Z x 2 1.96 , p1
0.825,..q1 0.175;.. p2
0.76;..q2 0.24;..n 1000
1000
1000
(0.825)(0.175) (0.76)(0.24)
( p1 p2 ) 1.96
Estimacin puntual: un solo nmero que se utiliza para estimar un parmetro de poblacin
desconocido.
Estimador eficiente: estimador con un menor error estndar que algn otro estimador del
parmetro de la poblacin, esto es, cuanto ms pequeo sea el error estndar de un estimador,
ms eficiente ser ese estimador.
Estimador suficiente: estimador que utiliza toda la informacin disponible en los datos
correspondientes a un parmetro.
Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que
incluya el valor real del parmetro de la poblacin.
Nivel de confianza: probabilidad que los estadsticos asocian con una estimacin de intervalo
de un parmetro de poblacin, sta indica qu tan seguros estn de que la estimacin de
intervalo incluir el parmetro de la poblacin. Probabilidad, designada de antemano, de que un
intervalo de confianza incluya al valor del parmetro desconocido.
23