Professional Documents
Culture Documents
2.1 Definición
El muestreo aleatorio simple no solamente es el más sencillo de aplicar, sino que constituye
la unidad elemental de diseño a partir de la cual se suelen plantear muestras complejas.
También es el que se apoya en el menor número de supuestos y en esa sencillez reside su
flexibilidad y capacidad de aplicación a todo tipo de poblaciones.
a) El tamaño de la población es N.
b) El tamaño de la muestra es n.
d) Las muestras que tengan las mismas unidades aunque el orden de extracción sea
distinto se consideran iguales y por tanto una muestra es diferente de otra, cuando al
menos existe una unidad diferente.
Puesto que se seleccionan sin reemplazo (b) y el orden no importa (c), el número total de
muestras está dado por todas las formas posibles de seleccionar n unidades de N en total.
Este número de formas corresponde a las combinaciones de los N elementos de la población
tomados n a la vez:
N N!
n N n ! n!
2.2 Notación
La notación que se empleará en el muestreo aleatorio simple (M.A.S.) será la siguiente:
N Tamaño de la población
n Tamaño de la muestra
f Fracción de Muestreo
n
f
N
Y Total de la población
N
Y yi
i 1
Y Media de la población
N
y i
Y i 1
N
y Media de la Muestra
Profr. Francisco Sánchez Villarreal 8
Facultad de Ciencias UNAM.
Introducción al Muestreo Probabilístico
y i
y i 1
n
Y Estimador de la Media
y i Y
2
2 i 1
Varianza poblacional
N
y Yˆ
n
2
i
ˆ 2 i 1
Varianza muestral
n
y i Y
2
S2 i 1
Cuasivarianza poblacional
N 1
y
i 1
i Y
2
Sˆ 2 Cuasivarianza muestral
n 1
La primera tabla de números aleatorios de la que se tiene noticia fue "Random Sampling
numbers"; Tracts for Computers editada por la Universidad de Cambridge.
Las tablas se suelen presentar en columnas de 3,4 ó 5 dígitos. Para el empleo correcto de
éstas, se deben seguir unas sencillas reglas:
b) Se toma una página de las tablas y se parte de cualquier posición tomando el número
de dígitos que convenga. El arranque puede darse por coordenadas aleatorias de
acuerdo al número de columnas y renglones de la página.
1 1 1 1 N n !
. . ...
N N 1 N 2 N n 1 N!
Como el orden no importa, entonces se multiplica por todas las posibles formas de ordenar o
permutar n elementos tomados todos a la vez, es decir n!
N n ! n ! 1
N! N
n
Si cada unidad se toma con reemplazo, entonces la probabilidad de una muestra particular
está dada por la potencia n del cociente de 1 entre N.
1 1 1 1
. ... n
N N
N N
n
1
1ª Extracción
N
N 1 1 1
2ª Extracción
N N 1 N
N 1 N 2 1 1
3ª Extracción
N N 1 N 2 N
…………………. ……………………………………
N 1 N 2 1 1
nª Extracción ...........
N N 1 N (n 1) N
Como son eventos mutuamente excluyentes, la probabilidad de la unión está dada por la
suma de las probabilidades, es decir, la probabilidad de observar la unidad en la 1ª, 2ª, ó
nésima extracción estará dada por
1 1 1 n
...
N
N N N
n
Por lo tanto, la probabilidad de que cualquier elemento pertenezca a la muestra es el
cociente
n
N
2.6 Estimadores para Medias y Totales
El estimador usual de la media poblacional Y es la media muestral.
y
1
Yˆ y i
n i 1
N
Y yi Si esta expresión se multiplica y se divide con N, la relación no se altera:
i 1
N
N yi
Y i 1
y, por definición de Y , se tiene el total como el producto: Y NY
N
Para estimar el total se adopta una forma lógica, basta conocer N y una estimación de la
media Y . Como la media muestral y es el estimador adoptado de la media poblacional Y
se tendrá como estimador del total el siguiente producto.
Yˆ Ny
1 Si la observación y i en la muestra
Xi
0 Si la observación y i en la muestra
Por la forma como se definió Xi, se trata de una variable aleatoria que se distribuye Bernoulli,
de modo que:
Pr X i 1 Pr X i 0 1
n n
N N
COV X i X j E X i X j E X i E X j
n n 1
1 Si y i y j en la muestra con probabilidad N N 1
Xi X j
n n 1
0 Si y i y j en la muestra con probabilidad asociada a tres casos 1 -
N N 1
n n 1 n n 1
E X i X j 1
De aquí se obtiene: 01
N N 1 N N 1
n n 1
E X i X j
N N 1
COV X i X j E X i X j E X i E X j
2
n n 1 n
=
N N 1 N
n 1 N 1
n n
=
NN - 1 N
n n
= 1
NN - 1 N
COV X i X j
n n
1
N N 1 N
y i X i yi
y i 1 i 1
n n
Se verifica a continuación que la media muestral es un estimador insesgado.
1 N
E(y) E
n
X y
i 1
i i
EX y
1
i i
n i 1
N
Ny
1 n
i
n i 1
N
y
1
i Y
N i 1
E Yˆ E Ny NE ( y ) NY Y
N N
y i Y 2 y i Y
2
2 i 1
S2 i 1
N N 1
N 1 2
2 S
N
Los desarrollos algebraicos se suelen simplificar con el empleo de S2, sobre todo bajo el
enfoque de análisis de varianza, de ahí su presencia más frecuente en todo tipo de
desarrollos.
1 N
1 N
Entonces su varianza se expresa: V ( y ) V
n
i 1
X i yi 2 V
n
X y
i 1
i i
Por otra parte, recuérdese que la varianza de una suma de variables aleatorias es igual a la
suma de varianzas, más el doble de la Cuma de sus covarianzas.
N N 1 N
V y = COV ( X y , X
1 V ( X i yi ) 2 y j )
n2 i i j
i 1 i j
N 2
1
y i V X i 2
y i y j COV X i X j
i 1
n2 i j
1 n
N
n n
n
= 2 y i2 1 2 yi y j 1
n i 1 N N i j
N N 1 N
n
N
1
2
= 1 y i2 yi y j
nN N i 1
N 1 i j
1- f N 1
N N N 1 N
=
Nn N 1 i 1
y i2
N 1 i 1 i
y 2
2 y i y j
i j
1 - f N
2
1
N N
=
Nn N 1 i 1
y i2
N 1 i 1
yi
1- f N Y
N
2
= y i2
Nn N 1 i 1 N
1- f N
N
= y i2 Y 2
Nn N 1 i 1
n S2
V y 1
N n
2 n S2
Por lo tanto V Y N 1 N n
Esta última fórmula se apoya en la propiedad de la varianza de una constante que multiplica
a una variable aleatoria.
V KX K 2V X
y
i 1
i y
2
Sˆ 2
n 1
E Sˆ 2 S 2
Recuérdense las siguientes expresiones y sus equivalencias algebráicas:
N N
X i X X i2 NX 2
2
i 1 i 1
V X E X X E X 2 X 2
2
n S2
Debido a que y es una variable aleatoria se tendrá: E y 2 V y Y 2 1 Y 2
N n
1 n
E S E
ˆ 2
y i y 2
n 1 i 1
n
1
E y 2 i ny 2
n 1 i 1
N
1
E ( X i y i ) 2 ny 2
n 1 i 1
N
1
E X i2 y i2 ny 2
n 1 i 1
1
N
n 1 i 1
E ( X i2 ) y i2 nE y 2
1
N
n S2
n 2
y n 1 Y 2
n 1 i 1 N
i
N n
n 1
N
n S2
n 1 N
i 1
y i2 1
N n
Y 2
n 1 n S 2
N
NY 2
n 1 N y
i 1
2
i
N
1
N n
n 1 n S 2
N
(n 1) N
i 1
y i2 NY 2 1
N n
n N 1 2 N n S 2
S
(n 1) N N n
nS 2 1
N 1 N n
N (n 1) n
S2
E Sˆ 2 S 2
Al aplicar los resultados previos se tendrán los estimadores de las varianzas insesgados de
y y Ŷ dados por:
n Sˆ 2
Vˆ Yˆ N 2 1
ˆ2
Vˆ y 1
n S
N n N n
Sus respectivos errores estándares se obtienen al extraer raíz cuadrada de ambas fórmulas.
n Sˆ 2 n Sˆ 2
EE y 1 EE Yˆ N 2 1
N n N n
La distribución asociada a una muestra con reemplazo es una multinomial con las siguientes
propiedades:
n
f x1 , x 2 ,..........x n P 1
n! x x x
P1 1 P2 2 ............Pn n i
x1! x 2 !........x n ! i 1
E X i nPi n(1 / N )
Cov X i , X j nPi Pj n / N 2 .
2
V yR
n
1
N
V y R 2
V
n i 1
yi X i
1
N N 1 N
2
n i 1
y i2V ( X i ) 2
i
y y Cov( X , X
j
i j i j )
N 2 N 1 N
1
yi V ( X i ) 2 y i y j Cov( X i , X j )
n2 i 1 i j
N 2 n N 1 N 1 N
n
1
yi 2 yi y j 2
n2 i 1 N N i j N
n
N N 1 N
1
y i
2
N 1 2 yi y j
n2 N i 1
2
i j
1 n N 2
N N 1 N
N
n 2 N 2 i 1 y 2
i
i 1
y i 2 y i y j
i j
1 n
2
N 2
N N
2 2 N
n N i 1 yi 2
2
N i 1 yi
1 nN
2
N
1 N
2 2
n N i 1 y i2 N
N
yi
i 1
1 22
N
yi Y
nN i 1
Lím y vi Yv
2
i 1
0
v nV 1S v2
Sin embargo, influye de manera definitiva el conocimiento previo que se tenga de la variable,
ya que variables con un comportamiento francamente asimétrico, como son: los tamaños de
las ciudades, de empresas ó tiendas, el ingreso de la población, etc.; requieren tamaños
mayores de muestra para su convergencia a la normalidad que los requeridos para variables
de comportamiento simétrico, como son las medidas antropométricas y sus equivalentes en
cualquier tipo de organismos.
vivienda del año 2000. La distribución de sus tamaños tiene un comportamiento claramente
asimétrico. El tamaño promedio de las 153 AGEBs es de 4,185.8 personas.
n S2
Si se supone que y N Y , 1 y por otro lado recordamos que para una variable
N n
aleatoria ZN (0,1) un intervalo del 100 (1-)% de confianza se obtiene de la siguiente
forma:
P Z 1 2 Z Z 1 2 1
y Y
Se estandariza la media Z y se obtienen los límites del intervalo.
n S2
1
N n
y Y
P Z 1 / 2 Z 1 / 2 1
n S2
1
N n
n S2 n S2
P y Z 1 / 2 1 Y y Z 1 / 2 1 1
N n N n
n S2
y Z 1 / 2 1
N n
Debido a que Y Ny , se tiene como corolario que los límites para un intervalo de 100(1-)
para el total Y, serán:
n S2
Y NZ 1 / 2 1
N n
Ejemplo 2.1
En una biblioteca se han puesto los libros en 130 anaqueles de tamaño semejante. El
número de libros de 15 estantes seleccionados al azar fue registrado en la siguiente forma:
28,23,25,33,31,18,22,29,30,22,26,20,21,28,25
y
i 1
i
y
i 1
i y
2
n S2
Error Estándar de la Media EE ( y ) 1 1.06568178
N n