You are on page 1of 53

UNIVERSIDAD DE LA COSTA

ESTADISTICA INFERENCIAL

DOCENTE:
MGc. KENNEDY HURTADO IBARRA

BARRANQUILLA COLOMBIA
Referencias:
Llínas, Humberto; Estadística Inferencial.
Montgomery, Douglas, Probabilidad y Estadísticas Aplicaciones y
Métodos.

REPUBLICA DE COLOMBIA - UNIVERSIDAD DE LA COSTA


Introducción:
En este capitulo, dedicaremos gran parte de nuestra atención a analizar
problemas que tienen por objeto averiguar algo acerca de las
propiedades de una población a partir de la información
proporcionada por una muestra de dicha población. Este es el objetivo
de la estadística inferencial. La razón principal para observar una
muestra en lugar de la población completa es el hecho de que la
población es grande. Incluso en los casos en que se dispone de
recursos suficientes para analizar la población completa, puede
resultar preferible dedicar esos recursos a un subconjunto pequeño de
la población, con la esperanza que tal concentración de esfuerzos
produzca medidas más precisas.

REPUBLICA DE COLOMBIA - UNIVERSIDAD DE LA COSTA -


Definición: El error muestral es la diferencia entre un estadístico de la
muestra y el parámetro correspondiente de la población.
Definición: El sesgo muestral es la tendencia sistemática a favorecer la
selección de ciertos elementos de una muestra en lugar de otros.

TECNICAS DE MUESTREOS ALEATORIOS

El sesgo muestral puede suprimirse, o minimizarse, usando el principio


de aleatorización. Este principio se refiere a cualquier proceso de
selección de una muestra de la población en el que la selección es
imparcial o no está sesgada. Una muestra elegida con procedimientos
aleatorios se llama muestra aleatoria. Los tipos más comunes de
técnicas de muestreo aleatorio son:

REPUBLICA DE COLOMBIA - UNIVERSIDAD DE LA COSTA


• El muestreo aleatorio simple.
• El muestreo estratificado.
• El muestreo por conglomerados.
• El muestreo sistemático.

Muestreo aleatorio simple.


Definición: Un procedimiento de muestreo aleatorio simple es
aquel en el que todas las posibles muestras del mismo tamaño
tienen la misma probabilidad de ser escogidas. A las muestras
obtenidas por procedimientos de este tipo se las denomina
muestras aleatorias simples.
Muestreo estratificado.
Definición : Suponga que una población de N individuos puede subdividirse
en K grupos mutuamente excluyentes (disyuntos), llamados estratos. El
muestreo (aleatorio) estratificado es la selección de muestras aleatorias
simples independientes de cada uno de los estratos de la población.

Muestreo por conglomerados.


Definición: Supongamos que una población puede dividirse
convenientemente en unidades relativamente pequeñas y geográficamente
compactas llamadas conglomerado. En el muestreo por conglomerados, se
selecciona de la población una muestra aleatoria simple de conglomerados, y
se contacta con cada individuo de los conglomerados de la muestra, es decir,
se lleva a cabo un censo completo en cada uno de los conglomerados
elegidos.
Muestreo sistemático

Definición: El muestreo sistemático es una técnica de


muestreo que requiere de una selección aleatoria inicial de
observaciones seguida de otra selección de observaciones
obtenida usando algún sistema o regla.
Definición de inferencia estadística.

Es el proceso de sacar conclusiones de la población basada en la


Información de una muestra tomada de ella.

Objetivos de la estimación:

• Estimación de parámetros.
• Intervalos de confianzas.
• Pruebas de hipótesis.
Definición: Distribución muestral.

La distribución de un estadístico muestral recibe el nombre de


distribución muestral, o distribución en el muestreo y se define
como la distribución de probabilidades de los valores que puede
tomar el estadístico a lo largo de todas las posibles muestras con el
mismo numero de observaciones que pueden ser extraídas de la
población.
Distribución muestral de la media

Si sacamos muestras aleatorias de tamaños n de una población con


media µ y desviación estándar σ, entonces la distribución muestral
tiene las siguientes propiedades.
• El promedio de todos los valores posibles de medias muéstrales es
igual al parámetro µ .
µ𝑥 = µ
• Error estándar de la media muestral.
Es la desviación estándar de las posibles medias muéstrales,
• Si la población original tiene distribución normal , entonces para cualquier
tamaño muestral n la distribución de la media muestral es también normal.
( Teorema de limite central)
X ~ N(µ, σ), entonces, la distribución de la media muestral ~ N (µ, σ/ 𝑛)

• Si la población original no es normal, pero n es suficientemente grande la


distribución de la media es aproximadamente normal

X ~ N(µ, σ), entonces, la distribución de la media muestral ~ N (µ, σ/ 𝑛)


El caso para muestras grandes.

Teorema: Sea 𝑥ҧ la media de una muestra aleatoria de tamaño n


tomada de una población con media µ y varianza σ2> 0

Supongamos que se cumple alguna de las siguientes condiciones:


a) La población es normal y es σ2 conocida (no importa el tamaño
de n).

b) La población es normal, σ2es desconocida y n ≥ 30

c)La forma de la población es desconocida (o no normal), σ2


es conocida o desconocida y n ≥ 30.

Entonces, la distribución muestral de la media muestral X es normal


con media µ y varianza σ2.
Como consecuencia de este teorema, se puede concluir
𝑋ത − µ
que la variable aleatoria Z = σ
𝑛
Está distribuida normalmente con media 0 y varianza 1.
Además,
en los casos en que la varianza sea desconocida y n ≥ 30,
reemplazamos la desviación poblacional σ por la
desviación muestral s.
Ejemplo:
Supongamos que el incremento porcentual de los salarios de los
funcionarios de todas las corporaciones medianas se distribuye
siguiendo una normal con media 12,2% y desviación típica 3,6%. Se
toma una muestra aleatoria de nueve observaciones de esta población
de incrementos porcentuales de salario. ¿Cuál es la probabilidad de que
la media muestral sea mayor del 10%?.
Solución:
Tenemos que µ = 12,2, σ = 3,6 y n = 9.
Nos piden calcular P(X > 10). Como no conocemos el tamaño de la
población, supondremos que esta es infinita. Entonces, por el teorema,
la media y el error estándar de la distribución muestral de X son:
µ𝑥 = µ = 12,2 y 𝜎𝑥 = σ / 𝑛= 3,6/ 9 = 1,2.

P(X > 10) = P([Z > (10−µ) /σ ] = P[Z > (10−12,2)/ 1,2] = P(Z > −1,83) =
1−P(Z ≤−1,83)
Ahora, como la población es normal y la varianza poblacional es
conocida, entonces, por el teorema, la distribución muestral de la
media muestral es normal o, lo que es equivalente, la variable Z tiene
normal estándar .

Por tanto, teniendo que φ es la función de distribución normal


estándar, entonces, de la tabla normal,
Tenemos que:

P(X > 10) = 1−P(Z ≤−1,83) = 1− φ(−1,83) = 1−0,0336 = 0,9664 ≈ 97%.

Concluimos, entonces, que la probabilidad de que la media muestral


sea mayor que un 10% es aproximadamente del 97%.
Ejemplo:
Un fabricante declara que la duración de las bujías que él fabrica sigue
una distribución normal con una media de 36.000 kilómetros y una
desviación estándar de 4.000 kilómetros. Para una muestra aleatoria de
dieciséis bujías, se obtuvo una duración media de 34.500 kilómetros. Si la
afirmación del fabricante es correcta, ¿cuál es la probabilidad de obtener
una media muestral tan pequeña como esta o menor?

Solución:
Tenemos que µ = 36.000, σ = 4.000 y n = 16.
Nos piden calcular P(X < 34.500).
Como no conocemos el tamaño de la población, supondremos que esta
es infinita. Entonces, por el teorema, la media y el error estándar de la
distribución muestral de X son:
µ𝑥 = µ = 36.000 y
𝜎𝑥 = σ / 𝑛=
4.000 / 16 = 1.000.

Entonces:

P(X < 34.500) = P[Z < (34.500−µ𝑥 ) /σ𝑋 = P[Z < (34.500−36.000) /1.000]

= P(Z < −1,5)


Ahora, como la población es normal y la varianza poblacional es conocida,
entonces, por el teorema, la distribución muestral de la media muestral es
normal o, lo que es equivalente, la variable Z tiene normal estándar.
Por tanto, teniendo que φ es la función de distribución normal estándar,
entonces, de la tabla normal.
Tenemos que:
P(X < 34.500) = P(Z < −1,5) = φ(−1,5) = 0,0668 ≈ 6,68%.
Ejemplo:
Los tiempos requeridos para que unos trabajadores terminen cierta labor, se
distribuyen normalmente con media de 30 minutos y una desviación estándar
de 9 minutos. Si de la planta de trabajadores se toma una muestra aleatoria de
25, encuentre la probabilidad de que la media del tiempo requerido para
concluir la tarea en la muestra, esté entre 28 y 33 minutos.
Solución:
En este ejemplo
µ = 30, σ=9 y n = 25.
Nos piden calcular P(28 < X < 33).
Como no conocemos el tamaño de la población, supondremos que esta es
infinita. Entonces, por el teorema, la media y el error estándar de la distribución
muestral de X son:
µ𝑥 = µ = 30 y 𝜎𝑥 = σ / 𝑛= 9 / 25 = 1,8

.
Por consiguiente, la probabilidad requerida es:

P(28 < X < 33) = P[(28−µ𝑥 )/ 𝜎𝑥 < Z <(33−µ𝑥 ) /𝜎𝑥 ]

P[(28−30) / 1,8 < Z < (28−33) / 1,8]

= P(−1,11 < Z < 1,67) = P(Z < 1,67) − P(Z < −1,11).

Ahora, como la población es normal y la varianza poblacional es conocida,


entonces, la variable Z tiene normal estándar.
Por tanto, de la tabla normal.
Tenemos que P(28 < X < 33) = P(Z < 1,67) − P(Z < −1,11) = φ(1,67) − φ(−1,11) =
0,819 ≈ 82%.
Por consiguiente, la probabilidad pedida es aproximadamente del 82%.
Distribución muestral de la media muestral para
muestras pequeñas

Teorema:
Si el muestreo se hace en una población normal con varianza desconocida y
si las muestras seleccionadas son de tamaño n < 30, entonces, la
distribución muestral de la media muestral X es la t de Student con n−1
grados de libertad.
(𝑥ҧ − µ)
Este teorema implica que la variable aleatoria t = 𝑠
𝑛
tiene distribución t – estudent con v= n − 1 grados de libertad.
La distribución t, de la misma manera que la distribución normal
estándar, tiene forma de campana y tiene media igual a 0, alrededor de la
cual es simétrica. Su varianza, en cambio, es mayor que 1, hecho que
origina que la típica distribución t sea menos aguda en el centro y “más
alta” en las colas que la distribución normal estándar.

El área total bajo la distribución t es igual a 1. Hay una distribución t


diferente para cada valor de n − 1 (llamado grado de libertad). .
Ejemplo:
Suponga que de una población normal con media 20 se toma una muestra
de tamaño 16. Si la desviación estándar muestral es 4, encuentre la
probabilidad de que la media muestral sea estrictamente mayor que 21,753.

Solución:
Tenemos que µ = 20, s = 4 y n = 16.
Debido a que la población es normal con σ desconocida y a que n < 30,
entonces, aplicaremos el teorema. Es decir,
la distribución muestral de la media muestral es la t de Student con v= n−1 =
15 grados de libertad.
Entonces: µ𝑥 = µ = 20 y σ𝑥 = s / 𝑛 =4/ 16 = 1.
Con esto, encontramos el valor de t para 21,753. Debido a que:

t = (X −µ𝑥 )/ σ𝑥 = (21,753−20) /1 = 1,753


y teniendo en cuenta la tabla t de Student con 15 grados de libertad, entonces, la
probabilidad pedida será.

P(X > 21,753) = P(t > 1,753) = 0,05 = 5%.

Ejemplo:
Una muestra aleatoria de seis autos de un determinado modelo
consumen las siguientes cantidades en kilómetros por litro:
18,6 18,4 19,2 20,8 19,4 20,5. Determine la probabilidad de que el
consumo de gasolina medio muestral de los automóviles de este
modelo sea menor que 17,6 kilómetros por litro, suponiendo que la
distribución de la población es normal con media 17.
Tenemos que µ = 17 y, en este caso, la muestra escogida es de tamaño
n = 6.
La media de la muestra es 𝑥ҧ =19.4833 y S = 0.98.
Debido a que la población es normal con varianza desconocida y a que n < 30,
entonces, por el teorema, la distribución muestral de la media muestral es la t de
Student con n−1 = 5 grados de libertad.,
Encontramos que:
µ𝑥 = µ = 17 y σ𝑥 =s / 𝑛 = 0,98 / 6 ≈ 0,4.

Con esto, el valor de t para 17,6 es t =(X −µ𝑥 )/ σ𝑥 = (17,6−17) / 0,4 = 1,5

Con ayuda de la tabla t de Student con 15 grados de libertad, entonces, la


probabilidad pedida será:

P(X ≤ 17,6) = P(t ≤ 1,5) = 1−P(t > 1,5) ≈ 1−0,10 = 0,90.


Distribución muestral de una proporción muestral
Sea X el número de éxitos en una muestra binomial de n observaciones,
donde la probabilidad de éxito es p. Entonces, la proporción de éxitos en la
muestra 𝑝= Ƹ X/ n recibe el nombre de proporción muestral.

Teorema:
Sea 𝑝Ƹ la proporción de éxitos en una muestra aleatoria de n observaciones.
Sea 𝑝0 la proporción de éxitos en la población. Entonces, la distribución
muestral de la proporción muestral 𝑝Ƹ tiene media µp = 𝑝0 y varianza σ2 dada:
por:
𝑝 (1−𝑝0 )
σ2𝑝 0 si la población es infinita,
𝑛

𝑁−𝑛 𝑝 (1−𝑝 )
σ2𝑝 = . 0 0
, si la población es finita, de tamaño N y si N no es
𝑁−1 𝑛
demasiado grande en comparación con n.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DE LA COSTA - Especialización en
Estadística.
Teorema:
(Teorema de De Moivre-Laplace) Sea 𝒑ෝ la proporción de
éxitos en una muestra aleatoria de n observaciones. Si
se cumple alguna de las dos condiciones siguientes:
• n ≥ 30 o
• np ≥ 5 y n(1−p) ≥ 5,
Entonces, la distribución muestral de la proporción
muestral 𝒑 ෝ se puede aproximar con una distribución
normal.
ෝ − 𝒑𝟎
𝒑
z=
σ
Ejemplo:
Se toma una muestra de 250 casas de una población de edificios antiguos para
estimar la proporción de casas de este tipo cuya instalación eléctrica resulta
insegura. Supongamos que, de hecho, el 30% de todos los edificios de esta
población tienen una instalación insegura. Hallar la probabilidad de que la
proporción de edificios de la muestra con instalación insegura esté entre 0,25 y
0,35.
Solución:
Tenemos que p0= 0,30 y n = 250. Por consiguiente, tenemos que:
0,25 −p0 0.25−p0
P(0,25 < p < 0,35) = < 𝑧 <
σ σ

𝑝0 (1− 𝑝0 ) 0.30(1−0.30)
σ = = = 0.029
𝑛 250

0,25 −0,30 0.35−0.30


P(0,25 < p < 0,35 = 0.029
<𝑧< 0,029
=
= P(−1,72 < Z < 1,72) = P(Z < 1,72) − P(Z < −1,72).
Ahora, como n ≥ 30, entonces, por el teorema de De Moivre-Laplace , la
variable Z tiene distribución normal estándar. Por tanto, de la tabla
normal, tenemos que:

P(0,25 < p < 0,35) = P(Z < 1,72) − P(Z < −1,72) = φ (1,72) − φ (−1,72) =

0,9573 − 0,0427 = 0,9146.

Por tanto, la proporción de casas con instalación insegura estará dentro de


este rango para, aproximadamente, el 91,5% de las muestras de 250
observaciones de esta población.
Ejemplo: Se desea estudiar una muestra de 20 personas para saber la proporción de
ellas que tienen más de 40 años. Sabiendo que la proporción en la población es del
40%, ¿cuál es la probabilidad de que la proporción en la muestra sea menor del
50%?
SOLUCIÓN:
Aquí, n = 20 y p0= 0,4. tenemos que:

𝑝0(1− 𝑝0 ) 0.40(1−0.40)
σ = = = 0,1095
𝑛 20
Por consiguiente, la probabilidad pedida es:
0,5 −𝑃0 0,5 −0,4
P(p < 0,5) =P 𝑍 < = P 𝑍 < = P(Z< 0,91)
σ 0,1095

Ahora, observe que n < 30. Pero, debido a que


• np = 8 ≥ 5
• n(1−p) = 12 ≥ 5,
entonces, por el teorema de De Moivre-Laplace, la variable Z tiene
distribución normal estándar. Con esto y con la tabla normal, tenemos
que:

P(p < 0,5) = P(Z < 0,91) = φ (0,91) = 0,8186.

Por tanto, la probabilidad de que la proporción en la muestra sea menor


del 50% es aproximadamente del 82%.
entonces, por el teorema de De Moivre-Laplace, la variable Z tiene
distribución normal estándar. Con esto y con la tabla normal, tenemos
que:

P(p < 0,5) = P(Z < 0,91) = φ (0,91) = 0,8186.

Por tanto, la probabilidad de que la proporción en la muestra sea menor


del 50% es aproximadamente del 82%.
Distribución muestral de diferencia de dos
proporciones muestrales.
En muchas situaciones practicas el investigador necesita
hacer inferencias sobre la diferencia entre dos
proporciones poblacionales. A continuación se dan
algunos ejemplos:
• Medicina. ¿Es más alto el porcentaje de los casos de
cáncer pulmonar en una población que fuma que en
otra compuesta por no fumadores?
• Administración. ¿Hay diferencia entre los porcentajes
de hombres y mujeres en posiciones gerenciales?
TEOREMA:
Sea 𝑝Ƹ1 la proporción de éxitos observada en una muestra aleatoria de
tamaño 𝑛1 , procedente de una población con proporción 𝑝1 de éxitos, y sea
𝑝Ƹ 2 la proporción de éxitos observada en una muestra aleatoria
independiente de tamaño 𝑛2 , procedente de una población con proporción
de éxitos 𝑝2 . Si los tamaños muestrales son grandes, entonces, la
distribución muestral de 𝑝1 − 𝑝2 es la normal con media 𝑝01 −𝑝𝑜2 y varianza

𝑝1 ( 1−𝑝1 ) 𝑝2 ( 1− 𝑝2 )
+ .
𝑛1 𝑛2

(𝑝ො1−𝑝ො2 ) −(𝑝1 − 𝑝2 )
Esto implica que: z = , tiene distribución normal
𝑝
𝑝1 (1− 𝑝2 ) (1− 𝑝2 )
2
𝑛1
+ 𝑛2
estándar. Además, esta aproximación es valida si se cumple alguna de las dos
condiciones siguientes:
• 𝑛1 ≥ 30 y 𝑛2 ≥ 30.
• • 𝑛1 𝑝1 ≥ 5, 𝑛1 (1−𝑝1 ) ≥ 5, 𝑛2 𝑝2 ≥ 5 y 𝑛2 (1−𝑝2 ) ≥ 5.

Ejemplo:
Los hombres y mujeres adultos radicados en una ciudad grande del norte
de cierto país difieren en sus opiniones sobre la promulgación de la pena
de muerte para personas culpables de asesinato. Se cree que el 12% de
los hombres adultos están a favor de la pena de muerte, mientras que
sólo el 10% de las mujeres adultas lo están. Si se pregunta a dos muestras
aleatorias, una de 150 hombres y otra de 100 mujeres, su opinión sobre
la promulgación de la pena de muerte para personas culpables de
asesinato, determine la probabilidad de que el porcentaje de hombres a
favor sea al menos 3% mayor que el de mujeres.
Representemos con:
𝑝1 el porcentaje de hombres a favor de la pena de muerte
𝑝2 el de mujeres.
𝑝1 −𝑝2 = 0,12−0,10 = 0,02

El error estándar de las diferencias entre las proporciones muestrales es:


𝑝
𝑝1 (1−𝑝1 ) 2(1− p2 ) 0,12 (0 ,88) 0,10(1−0,90)
σ𝑝1−𝑝2 = + = + = 0,04
𝑛
1 𝑛 2 150 100

Entonces, el valor Z para 𝑝1 −𝑝2 = 0,03 esta´ dado por:


𝑝1 − 𝑝2 −µ𝑝 − 𝑝2 0,03 −0,02 0,01
Z= = = = 0,25
σ𝑝1 − σ𝑝2 0,04 0,04

Fácilmente, podemos verificar que se cumplen las condiciones que se necesitan para
poder utilizar la aproximación del teorema. Por tanto, por este teorema, la
probabilidad pedida será:
P(𝑝1 −𝑝2 ≥ 0,03) = P(Z ≥ 0,25) = 1 − P(Z ≤ 0,25) = 1 − 0,5987 = 0,4013.

REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Especialización


en Estadística.
Distribución muestral de diferencia de medias

En muchas situaciones practicas el investigador concentra su


investigación en dos poblaciones. A menudo se desea sacar
inferencias acerca de la diferencia entre dos medias
poblacionales. El método apropiado para analizar esta
información depende del procedimiento empleado al
seleccionar las muestras. Para ello se deben considerar las dos
posibilidades siguientes:
• Datos pareados (o muestras dependientes)
• Muestras independientes.
Datos pareados (o muestras dependientes)
Teorema:
Supongamos que disponemos de una muestra aleatoria de datos
pareados procedentes de distribuciones con medias µ1 y µ2 . Sean d y
𝑠𝑑 la media y la desviación estándar muestral para las n < 30
diferencias di = xi −yi. Si se asume que la distribución de las
diferencias es normal, entonces, la distribución muestral del D = X −Y
es la t de Student con n−1 grados de libertad.

Ejemplo: La tabla de abajo recoge los datos de consumo de gasolina


correspondiente a una muestra aleatoria de 8 automóviles
norteamericanos de dos modelos diferentes. Se formaron pares con
las dos muestras y cada elemento de un determinado par fue
conducido por la misma ruta y por el mismo piloto.
Xi =(Auto A) 19,4 18,8 20,6 17,6 19,2 20,9 18,3 20,4
Yi =(Auto B) 19,6 17,5 18,4 17,5 18,0 20,0 18,8 19,2

(a) Determine la media y la desviación muestral de las diferencias en el


consumo de gasolina.
(b) Suponiendo que la distribución de las diferencias poblacionales es normal
con media -0,807, encuentre la probabilidad de que el consumo promedio de
gasolina del auto A sea mayor que el del auto B.

SOLUCIÓN:
(a) En la siguiente tabla se incluyen las diferencias di entre los datos de la tabla
anterior. Estas diferencias forman una muestra aleatoria procedente de una
población cuya media es µA−µB, la diferencia entre las medias poblacionales
entre dos modelos de autos.
Xi =(Auto A) 19,4 18,8 20,6 17,6 19,2 20,9 18,3 20,4
Yi =(Auto B) 19,6 17,5 18,4 17,5 18,0 20,0 18,8 19,2
di -0,2 1,3 2,2 0,1 1,2 0,9 -0,5 1,2

d = 0,775 v = n -1 = 7
𝑠𝑑2 = 0,816

Por lo que 𝑠𝑑 = 0,903

𝑏. ) µ1 - µ2 = -0,807
𝑠𝑑
µ𝑑 = −0,27 σ𝑑 = = 0,3413
𝑛

0−(−0,807)
P(d1>d2) = P 𝑡 > =P(t>2,3645) = 0,025
0,3413
Muestras independientes
Consideremos dos poblaciones con medias µ1 , µ2 y varianzas 𝜎1 y 𝜎2,
respectivamente, y supongmos que se seleccionan dos muestra
aleatorias independientes de tamaños 𝑛1 , 𝑛2 , con medias 𝑋1 , 𝑋2 y
varianzas 𝑆1 y 𝑆2 , respectivamente. El objetivo también es
determinar la distribución muestral de 𝑋1 − 𝑋2 . Para ello
distinguiremos los siguientes casos:
Primer caso: varianzas poblacionales conocidas o desconocidas y
muestras grandes.
Si las dos poblaciones son normales, entonces, 𝑋1 −𝑋2 también es
normal. Por tanto, la variable aleatoria,
𝑋 −𝑋 − µ1 − µ2
Z = 1 2 ,tiene una distribuci´on normal estándar.
𝜎2
1 𝜎2
2
+
𝑛1 𝑛2
Teorema:
Sean 𝑥1 , y 𝑥2 , las medias de muestras aleatorias
independientes de tamaños 𝑛1 y 𝑛2 de poblaciones con
medias µ1 , µ2 y varianzas 𝜎12 y 𝜎22 respectivamente.
Supongamos que se cumple alguna de las siguientes
condiciones:
(a) Ambas poblaciones son normales y ambas varianzas
poblaciones 𝜎12, 𝜎22 son conocidas;
(b) Ambas poblaciones son desconocidas o no normales,
ambas varianzas poblacionales 𝜎12 y 𝜎22 son conocidas o
desconocidas y 𝑛1 ≥ 30, 𝑛2 ≥ 30.
Ejemplo:
En un estudio para comparar los pesos promedios de niños y niñas de
sexto grado en una escuela de instrucción media, se usará una muestra
aleatoria de 20 niños y otra igual de 25 niñas. Se sabe que, tanto para
niños y niñas, los pesos siguen una distribución normal. El promedio de
los pesos de todos lo niños de sexto grado de esa escuela es de 100
libras y su desviación estándar es de 14,142, mientras que el promedio
de los pesos de todas las niñas del sexto grado es de 85 libras y su
desviación estándar es de 12,247. Encuentre la probabilidad de que el
promedio de los pesos de los 20 niños sea al menos 20 libras más
grande que el de los de las 25 niñas.
Supongamos que 𝑋1 representa el promedio de los pesos de 20 niños y
𝑋2 , el promedio de los pesos de una muestra de 25 niñas. Nos piden
calcular P( 𝑋1 − 𝑋2 > 20). Como las dos poblaciones en cuestión son
normales y con varianzas conocidas, entonces, por el teorema, tenemos.

La distribución muestral de 𝑋1 −𝑋2 es aproximadamente normal.


La media de la distribución muestral de es igual a 𝑋1 −𝑋2 = 100 -85 = 15.
La varianza de la distribución muestral de 𝑋1 −𝑋2 es:
𝜎12 𝜎22 14,1422 12,2472
+ = + = 16
𝑛1 𝑛2 𝑛1 𝑛2

Entonces, para determinar P(𝑋1 −𝑋2 > 20), encontramos el valor Z para una
diferencia de 20 libras.
20 −15
𝑍 < = 1,25,
16
P(𝑋1 −𝑋2 > 20) = P(Z ≥ 1,25) = 1 − P(Z ≤ 1,25) = 1 − 0,8944 = 0,1056.

REPUBLICA DE COLOMBIA - UNIVERSIDAD DE LA COSTA - Especialización en


Estadística.
Por tanto, la probabilidad de que el promedio de los pesos de la muestra
de niños sea al menos 20 libras más grande que el de la muestra de las
niñas es 0,1056.

Segundo caso: varianzas poblacionales desconocidas,


iguales y muestras pequeñas.
Considere el caso en que se desconocen 𝜎12 y 𝜎22 , pero iguales, digamos,
𝜎12 = 𝜎22. Entonces, la variable aleatoria tiene 𝑋1 −𝑋2 media µ1 − µ2 y
varianza:

σ2 σ2
+ , Además, se puede probar que si las dos poblaciones son
𝑛1 𝑛2
normales, entonces, 𝑋1 −𝑋2 también es normal. Por tanto, la variable
aleatoria-
𝑋1 −𝑋2 − µ1 − µ2
t = , 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑠2 𝑠2
+
𝑛1 𝑛2

𝑛1 −1 𝑠12 + 𝑛2 −1 𝑠22
𝑆 2
= 𝑛1 − 𝑛2 −2
; varianza muestral combinada.

Teorema:
Si 𝜎12 = 𝜎22. son iguales y desconocidas, entonces, la distribución
muestral de la media tiene media µ1 − µ2 y varianza estimada igual a
𝑠2 𝑠2
+ , siendo 𝑠 2 es la varianza muestral combinada. Además, si las
𝑛1 𝑛2
dos poblaciones en cuestión son normales y los tamaños de las
muestras son pequeños (es suficiente considerar que sean
estrictamente menores que 30), entonces, la variable aleatoria
𝑋1 −𝑋2 − µ1 − µ2
t = esta distribuida se según la distribución t con
𝑠2 𝑠2
𝑛1
+ 𝑛2
v=𝑛1 − 𝑛2 − 2 grados de libertad.

Ejemplo:
Suponga que dos drogas A y B, de las que se dice que reducen el tiempo de
respuesta de las ratas a determinado estimulo, se están comparando en un
experimento de laboratorio. El experimentador supone que las respectivas
poblaciones de los tiempos de respuesta al estimulo no están distribuidos
normalmente y tienen varianzas iguales. Se administra la droga A a 12 ratas
y la droga B a 13. Cuando se lleva a cabo el experimento, la reducción
promedio de tiempo de respuesta al estimulo por parte de las ratas que
están recibiendo la droga A es 30,45 milisegundos con una desviación típica
de 5 milisegundos.
Los datos correspondientes a la droga B son 24,9 y 6 milisegundos. ¿Cual es
la probabilidad de que la diferencia entre la reducción promedio de tiempo
de respuesta al estimulo por parte de las ratas que están recibiendo la droga
A y la reducción promedio de tiempo de respuesta al estimulo por parte de
las ratas que están recibiendo la droga B sea menor o igual a la que se
observo´ en el experimento? Suponga que no hay diferencia alguna entre las
dos drogas con respecto a la reducción promedio en tiempos de respuestas y
que las drogas son igualmente efectivas.

SOLUCIÓN: Como las dos poblaciones en cuestión son normales y los


tamaños de las muestras son pequeñas (obsérvese que los tamaños
muestrales son estrictamente menores que 30)
La distribución muestral de𝑋𝐴 −𝑋𝐵 es aproximadamente la t de Student con
nA+nB−2 = 12 + 13−2 = 23 grados de libertad.

Debido a que no hay diferencia alguna entre las dos drogas con respecto a
la reducción promedio en tiempos de respuestas y que las drogas son
igualmente efectivas, entonces, . Por µ𝐴 − µ𝐵 consiguiente, la media de
la distribución muestral de 𝑋𝐴 −𝑋𝐵 = 0.

2 𝑛𝐴 −1 52 + 𝑛𝐵 −1 62
𝑆 = = 30,74
12 −13−2

entonces, la varianza de la distribución muestral de 𝑋𝐴 −𝑋𝐵 es:

𝑠2 𝑠2 30,74 30,74
+ = + = 4,92
𝑛𝐴 𝑛𝐵 12 13
Con base en los datos, el valor t está dado por:

𝑋1 −𝑋2 − µ1 − µ2 5,55− 0
t = = = 2,25
𝑠2 𝑠2 2,22
+
𝑛1 𝑛2

Por consiguiente 𝑃(𝑋𝐴 −𝑋𝐵 ≤ 5,55) = 𝑃(𝑡 ≤ 2,5) = 0,01.


Tercer caso: varianzas poblacionales desconocidas,
diferentes y muestras pequeñas.
En este situación supondremos que las poblaciones originales están
distribuidas normalmente, que las varianzas poblacionales son
desconocidas y diferentes y que las muestras son pequeñas. En este
caso, se utilizaran las varianzas muestrales 𝑠12 𝑦 𝑠12 en vez de las
varianzas poblacionales desconocidas 𝜎12 𝑦 𝜎22. , respectivamente
Teorema:
Si 𝜎12 𝑦 𝜎22. son diferentes y desconocidas, entonces, la distribución
muestral de la media tiene media µ1 − µ2 y varianza estimada igual a
s2 1 n1 + s2 2 n1. Además, si las dos poblaciones en cuestión son
normales y los tamaños de las muestras son pequeños (es suficiente
considerar que sean estrictamente menores que 30), entonces, la
variable aleatoria
𝑥ҧ 1 −𝑥ҧ 2 − µ1 − µ2
t =
𝑠2
1 𝑠2
2
𝑛1
+ 𝑛2

esta´ distribuida según la distribución t de Student con:

𝑠2 𝑠 2 2
1+ 2
𝑛1 𝑛2
V= 2 2 grados de libertad.
𝑠2
1 𝑠2
2
𝑛1 𝑛2
+
𝑛1 −1 𝑛2 −1
Ejemplo:
Repita el ejemplo anterior, pero ahora suponiendo que las poblaciones
no tienen distribución normal, que los tamaños muestrales son menores
que 30 (digamos 𝑛𝐴 = 12 y 𝑛𝐵 = 13) y que las varianzas poblacionales son
diferentes.
𝑠2 𝑠 2 2 2
1+ 2 52 62
𝑛1 𝑛2 +
12 13
V = 2 2 = 2 2 = 22,78 se aproxima 23
𝑠2
1 𝑠2
2 52 62
𝑛1 𝑛2 12 13
+ 𝑛 −1 +
11 12
𝑛1 −1 2

De nuevo, la media de la distribución muestral de 𝑋𝐴 −𝑋𝐵 = 0.


La varianza de la distribución muestral de es 𝑋𝐴 −𝑋𝐵 es:

𝑋ത1 −𝑋ത2 − µ1 − µ2 5,55 − 0


t = = = 2,52
2,2
𝜎2
1 𝜎2
2
𝑛1
+ 𝑛2
Por consiguiente,
P(𝑋𝐴 −𝑋𝐵 ≤ 5,55) = P(t ≤ 2,52) ≈ 0,01.

Es decir, la probabilidad de que la diferencia entre la reducción


promedio de tiempo de respuesta al estimulo por parte de las ratas
que están recibiendo la droga A y la reducción promedio de tiempo de
respuesta al estimulo por parte de las ratas que están recibiendo la
droga B sea menor o igual a la que se observo´ en el experimento es
aproximadamente del 1%.
GRACIAS

You might also like