Professional Documents
Culture Documents
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
I INTRODUCCION
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Tipos de
No Probabilisticas
Aleatoria
muestras
Estratificada
Pr
obabilisticas
Sistematica
Conglomerados
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Nominales
Cualitativas
Ordinales
Variables Estadsticas:
Discretas
Cuantitativas
Continuas
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Tal es el caso por ejemplo, de una longitud, en donde ya existen varias unidades
de medicin universalmente aceptadas, como pudieran ser el metro, la pulgada,
el milmetro, etc.
En otros casos sin embargo, la situacin no es tan clara, pues no existe tal
unidad de medida, y se hace necesario definir una escala de medicin.
Por ejemplo, si el universo es el conjunto de clientes de una empresa de
servicios, y lo que se quiere estudiar es el nivel de satisfaccin de cada uno de
ellos por el servicio prestado, inmediatamente nos preguntaremos: cmo medir
ese nivel de satisfaccin?
La seleccin de una escala de medicin adecuada es una decisin importante
en cualquier investigacin, pues de ella depender la metodologa estadstica a
seguir, y las conclusiones que se deriven de la investigacin.
En 1948, el cientfico S.S. Stevens propuso una clasificacin lgica para los
tipos de medicin, con la que no todos los estadsticos concuerdan, pero que es
la ms divulgada y conocida.
Stevens seal que si no existieran mediciones el mundo sera catico, y no
existira ciencia estadstica, y si las mediciones fuesen totalmente exactas,
habra una demanda mucho ms reducida para emplear la Estadstica.
Stevens reconoce cuatro tipos de escalas de medicin: nominal, ordinal, de
intervalos, y de razn.
Las escalas nominales se emplean para medir variables cualitativas nominales,
y se utilizan como medidas de identidad. Una escala de este tipo tendra que ser
necesariamente usada para representar los distintos valores de variables como
sexo, religin, etc.
En una escala nominal, los diferentes valores de la variable se suelen
numerar por orden alfabtico de las categoras, y los nmeros asignados no
corresponden a ninguna medicin, ni entre ellos existe relacin jerrquica
alguna.
La escala ordinal refleja orden o jerarqua entre los distintos niveles de la
variable, y se disponen de la ms alta a la ms baja, o viceversa.
El ejemplo clsico de este tipo de escala es el empleado para evaluar la
dureza de los minerales. Esta propiedad se define como el grado de resistencia
a la abrasin, y en esta escala el nmero 1 corresponde a un material muy
suave y fcil de desmenuzar como el talco, mientras que el nmero 10 en el
extremo opuesto de la escala, corresponde al diamante, que puede rayar a
todos los dems, y no puede ser rayado por ninguno.
Con relacin a este tipo de escalas, hay dos comentarios importantes que hacer:
Iguales diferencias entre los nmeros de la escala, no necesariamente reflejan
iguales diferencias de intensidad para la variable medida.
Consideremos por ejemplo, el siguiente caso: Supongamos que para medir el
grado de satisfaccin de los clientes por un determinado servicio, se propone la
siguiente escala nominal:
1. Totalmente insatisfecho.
2. Bastante insatisfecho.
3. Medianamente satisfecho.
4. Bastante satisfecho.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
5. Totalmente satisfecho.
En esta escala, a pesar de que la diferencia 5 - 3 = 3 -1, no podemos decir que
la diferencia entre el grado de satisfaccin entre los clientes del nivel 5 y los del
nivel 3, es la misma que entre los clientes del nivel 3 y el nivel 1.
En una escala nominal tampoco podemos hacer comparaciones de razn entre
los diferentes niveles o nmeros de la escala.
As por ejemplo, en el caso anterior sera absurdo decir que como 4 es el doble
de 2, entonces los clientes del nivel 4 estn doblemente satisfechos que los del
nivel 2.
La escala de intervalos es para variables cuantitativas, y por lo tanto
proporciona valores numricos .En este tipo de escala hay que seleccionar una
unidad de medida, y la medicin expresa el nmero de unidades que posee el
elemento medido.
En una escala por intervalos hay tres caractersticas fundamentales:
El cero es completamente arbitrario, y no significa necesariamente la
ausencia de la cantidad medida.
Diferencias iguales reflejan idnticas diferencias, entre los niveles de la
variable en estudio.
No se pueden hacer comparaciones de razn.
Un ejemplo de escala por intervalos es la utilizada para medir la hora del da.
En esta escala el cero que corresponde a la medianoche, es completamente
arbitrario, el tiempo transcurrido entre las 5:00 y las 8:00, es el mismo que entre
las 14:00 y las 17:00, y no se puede decir que 8:00 a.m. es el doble de 4:00 am.
Otro ejemplo de escala por intervalos es la utilizada para medir la temperatura,
bien sea en C o en F. En la escala centgrada el cero es arbitrario, y
corresponde a la temperatura de congelacin del agua, y la diferencia de
temperatura entre 10C y 14C es la misma que entre 25C y 29C.
En una escala por intervalos no se pueden hacer comparaciones de razn entre
los valores de la variable, y as por ejemplo si en un da la temperatura fue de
15C y en otro de 30C, es incorrecto decir que en el segundo da hizo el doble
de calor que en el primero.
La escala de razn o de cociente es tambin para variables cuantitativas, y se
diferencia de la de intervalos en que en ella el cero no es arbitrario, y
corresponde realmente a una total ausencia de la propiedad estudiada.
En una escala de razn, lo mismo que en una de intervalos, a iguales
diferencias entre los nmeros asignados corresponden iguales diferencias de
intensidad de la variable en estudio, pero ahora si es posible hacer
comparaciones de razn entre los elementos, y decir que en un elemento A el
valor de la variable es tres veces o cuatro veces el valor de otro elemento "B.
El peso y la estatura son ejemplos claros de una escala de razn, pues una
persona que pese 90 Kg., pesa el triple que un nio que pese 30 Kg.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
10
= 1 2+
= =1 = Media Poblacional
Resulta obvio, que en la gran mayora de las situaciones prcticas, este valor
resultar desconocido, porque para calcularlo necesitaramos conocer las
estaturas de todos los estudiantes de la referida Universidad.
El objetivo principal del muestreo es justamente, estimar el valor de estos
parmetros poblacionales, a partir del resultado arrojado por una muestra de esta
poblacin; y de all la necesidad de introducir el concepto de estimador.
Un estimador es un valor calculado sobre la base del resultado muestral obtenido,
y que se utilizar para estimar a un parmetro poblacional.
En el ejemplo anterior, al tomar una muestra de n estudiantes (tamao de la
muestra), y medir sus estaturas, encontraremos un conjunto de valores numricos
{1 , 2 , }, sobre los cuales podemos definir la siguiente funcin:
1 +2+ +
=1
= Media muestral
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
11
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
12
E ( ) = Valor Esperado de
Var ()= Varianza de
Las siguientes propiedades nos permiten reconocer a un buen estimador, y sern
explicadas de una manera intuitiva, sin el tratamiento riguroso propio de la
Estadstica Matemtica
1 Estimadores insesgados: Se dice que un estimador es insesgado, cuando su
valor esperado coincide con el parmetro poblacional que pretende estimar, es
decir cuando E ( ) = ; caso contrario, se dice que es sesgado.
Para entender mejor desde un punto de vista prctico lo que significa sesgar una
muestra consideremos el siguiente caso hipottico.
Imaginemos que para realizar una encuesta electoral seleccionamos la muestra
entre los asistentes a una concentracin a favor de un candidato. Resulta obvio,
que en esa muestra no esperamos encontrar un reflejo de lo que realmente opina
la poblacin. En este caso diremos que la muestra est sesgada, es decir
adulterada.
Un estimador sesgado es como un arma que no tiene la mira calibrada, que
pretende dar en un blanco pero est apuntando a otro; mientras que un estimador
insesgado es uno que realmente apunta hacia al blanco, en el caso de muestreo
el parmetro poblacional , y que espera dar en l.
Suponiendo que tenemos dos estimadores 1 y 2 que siguen cada uno, una
distribucin normal, el primero insesgado y el segundo no, la siguiente grfica nos
muestra como con el primer estimador estamos en condiciones de hacer una
mejor estimacin que con el segundo, debido a que se espera que el primero
coincida con el parmetro poblacional a estimar, mientras que con el segundo se
esperar caer en un punto alejado de l
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
13
muestra existe una mayor probabilidad de que el estimador caiga muy cercano al
parmetro poblacional que pretende estimar.
Un estimador que carezca de esta propiedad queda prcticamente descalificado,
pues no devuelve en precisin el esfuerzo de tomar un mayor tamao de muestra.
Resulta fcil intuir que es un estimador consistente para , pues a medida que
ms grande sea el tamao de muestra, ms elementos de la poblacin se
incorporan a ella, y por lo tanto el valor de se acercar ms al de .
De hecho cuanto n = N (censo), podemos afirmar con certeza que =
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
14
100%
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
15
29
1280
100% = 2,27%
Al analizar el informe de la muestra, el lector debe estar atento acerca del margen
de error de la muestra, e identificar si el error de muestreo est expresado de
manera absoluta o de manera relativa.
Una regla muy simple para hacer esta identificacin es la siguiente:
El error absoluto viene expresado en las mismas unidades que el
parmetro a estimar, mientras que el error relativo siempre
viene expresado en porcentaje
Esta regla presenta una nica excepcin:
Cuando el parmetro a estimar es un porcentaje, el error absoluto viene
expresado tambin como un porcentaje, y no se trata de una cifra relativa
Por ejemplo, si una encuesta electoral predice que un cierto candidato obtendr
un 32% de la votacin, y una vez celebrada las elecciones resulta que obtuvo el
34% de los votos, entonces el error de estimacin fue del 2% , y se trata una cifra
absoluta, no relativa.
Es prctica comn en los estudios por muestreo fijar el mximo error relativo
tolerado en 1%, 2,5% o 5% en el caso general, y en esos mismos valores
porcentuales para el error absoluto, cuando se trate de la estimacin de
porcentajes.
Lo anterior significa que cuando un estudio por muestreo concluye en una cierta
estimacin para un parmetro, el lector debe interpretar que el verdadero valor es
anunciado el porcentaje de error; de manera que si se lee en el informe,
= 1251 unidades, =2,5 % entonces se debe inferir que el verdadero valor de
est en el 1251 (2,5% de 1251) = 1251 31,275, es decir dentro del intervalo
[1219,725 ; 1282,275] , mientras que si el informe se refiere a la estimacin de un
porcentaje, como en el caso de una encuesta electoral, que dice
=32%, =2,5 %, entonces la inferencia es que = Verdadero Porcentaje
Poblacional, est en el intervalo 32% 2,5%, es decir dentro del intervalo [29,5%;
34,5%]
II.4 Riesgo y Confianza en una estimacin por muestreo
Tal como hemos visto en la seccin anterior, cuando se hace una estimacin por
muestreo, lo ideal es que el error de estimacin resulte como mximo igual al
tolerado. Esto sucede cuando -
Sin embargo, en el momento de tomar la muestra no se puede garantizar que
esto realmente va a ocurrir as, pues al ser el estimador una variable aleatoria,
existe una cierta probabilidad de que el error de estimacin sea mayor que el
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
16
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
17
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
18
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
19
grupo, tendra una probabilidad nula de ser tomada, mientras que una muestra
formada por elementos de grupos diferentes tendra una probabilidad muy alta de
ser tomada. En caso de que la muestra se tome de forma estratificada, las
frmulas y principios a aplicar, son otros, diferentes a los que se vern en esta
seccin
Los pasos a seguir para obtener una muestra aleatoria simple son los siguientes:
Paso 1: En primer lugar es necesario definir el universo sobre el cual se va a
tomar la muestra
Paso 2: En segundo lugar es necesario conseguir una lista numerada del 1 al N
que contenga a todos los elementos del universo. La numeracin puede ser
hecha por cualquier criterio, alfabtico, por el nmero de la cedula de identidad,
etc.
Si no es posible obtener esta lista, entonces se debe establecer previo a la
muestra, una regla de conteo que permita identificar a cada elemento del
universo.
Ejemplo 3.1: En los estudios de calidad, es comn que se deba examinar para su
aceptacin, lotes de piezas las cuales vienen empacadas dentro de una caja.
Para tomar una muestra aleatoria, se deben enumerar las cajas, o en su defecto
establecer una regla de numeracin. Si estn colocadas sobre el suelo, decir por
ejemplo que la caja ms a la izquierda es la No 1, luego la No 2, y as
sucesivamente hasta la ltima. Posteriormente se debe tambin establecer otra
regla de numeracin dentro de la caja, que permita identificar cada pieza.
Supongamos que se debe tomar una muestra de botellas para medir su
contenido, y que estas se encuentran distribuidas en 100 cajas cada una de las
cuales contiene 36 botellas.
En este caso N = 100 x 36 = 3600 botellas
Para identificar cada una de las botellas del universo, debemos asignarle un
nmero a cada caja, y otro nmero a cada posicin dentro de la caja, y as
sabremos que la botella No 1 es la que ocupa la posicin No 1 dentro de la caja No
1, la botella No 40 es la que ocupa la posicin No 4 dentro de la caja No 2, la
botella No 348 la que ocupa la posicin No 24 dentro de la caja No 10, etc., y la
botella No 3600, la que ocupa la posicin No 36 de la caja No 100.
Paso 3: Hacer un sorteo sin reemplazo, seleccionando al azar y con igual
probabilidad, n nmeros cualesquiera dentro de los N que existen en el
universo.
Para efectuar este sorteo, existen varios procedimientos. El ms antiguo es
escribir N papeles con los nmeros del 1 al N, colocarlos dentro de un sombrero,
y seleccionar uno a uno, los n elementos que conformarn la muestra.
Otro procedimiento un poco ms moderno para hacer el sorteo, es mediante la
tabla de nmeros aleatorios, la cual se construye seleccionando con reemplazo
los dgitos del 0 al 9, y segn vayan apareciendo se colocan en filas y columnas.
Con la aparicin de las calculadoras electrnicas esta tabla cay en desuso, y hoy
en da, el procedimiento ms usado es el de la generacin de nmero aleatorios,
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
20
Por ejemplo, si el universo est formado por los 5 elementos {a, b, c, d, e}, y se va a
5!
5
= 10 muestras
tomar una muestra de 2 de ellos, entonces existen =
2! 3!!
2
posibles, que son {ab, ac, ad, ae, bc, bd, be, cd, ce, de}, y la probabilidad de
seleccionar cualquiera de ellas es 1/10
Segn sea el parmetro que se quiera estimar en la poblacin, debemos distinguir
entre "Muestreo aleatorio para Variables, "Muestreo aleatorio para Proporciones
y Porcentajes, Muestro aleatorio para Razones
III.1 Muestreo Aleatorio para Variables:
En este caso, la poblacin est formada por un conjunto de valores numricos
asociados a cada uno de los elementos del universo; tal como puede ser un grupo
de personas, en donde estamos observando el peso de cada uno de ellos, o un
conjunto de residencias que cada una tiene un nmero variable de habitantes, o
una produccin de cigarrillos, en donde cada uno tiene una longitud, o un
dimetro distinto.
La variable estadstica en este caso es cuantitativa, y la poblacin est formada
por el conjunto de valores numricos que ella toma sobre cada uno de los
elementos del universo.
La nomenclatura seguir es la siguiente:
N = Tamao de la Poblacin
Poblacin = {x1 , x2 , x3 , xN }
xi = Valor de la variable estadstica asociado al i-simo elemento de la poblacin
(i=1, 2,3...N); Cada x i es un nmero real
=
i=N
x
i=1
= Total Poblacional.
i =n
=
= Media Poblacional.
N
N
i =i
Muestreo Aleatorio
Angel Francisco Arvelo
i =N
(y
2 =i=1
Pag.
21
)2
= Varianza Poblacional.
n = Tamao de la muestra.
Muestra= {y1 , y2 , y3 , yn }
y=
y
j =1
T = = N y = Estimador de
j =n
s =
2
(y
j =1
y)2
n 1
n
f=
= Fraccin de muestreo.
N
1 f
N N z/2
1 f
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
22
El valor de z /2, depende del nivel de confianza (1-) deseado, siendo los ms
frecuentes 90%, 95% o 99% de confianza, para los cuales el valor de z /2 puede
ser ledo en las tablas de La Distribucin Normal, encontrndose:
z/2
Confianza
90 %
95 %
99 %
1,645
1,960
2,576
Es costumbre que los intervalos de confianza sean simtricos y que por lo tanto el
riesgo se reparta por mitad entre las dos colas de la Distribucin Normal.
El trmino sin multiplica por la abscisa z /2 , se suele llamar el error estndar de
la estimacin, mientras que una vez multiplicarlo por la abscisa, representa el
error de muestreo para el nivel de confianza establecido.
As por ejemplo
1 es el error estndar en la estimacin de , mientras
que z/2
Ejemplo: Una de las reas en donde las tcnicas de muestreo han encontrado un
gran campo de aplicacin, es en las auditoras contables.
En efecto, as como el contador debe preocuparse para que las cuentas cuadren
al cntimo, el auditor debe certificar que el estado financiero refleja cifras crebles,
y en este sentido, el muestreo constituye una herramienta muy til, pues si la cifra
dada en el estado financiero cae dentro del intervalo de confianza obtenido por
muestreo, el auditor puede validar esa cifra, sin necesidad de examinar la
totalidad de documentos.
Consideremos el siguiente caso: Se quiere estimar el monto total de las ventas de
una empresa durante un periodo de tiempo dado. Existen 32.500 facturas de
venta emitidas durante ese lapso.
Una muestra aleatoria simple de 100 facturas los siguientes montos expresados
en unidades monetarias:
1.565,81
1.272,97
1.589,60
1.681,15
2.160,39
2.554,25
1.569,50
1.426,80
2.145,41
2.179,82
1.797,69
2.387,37
1.448,19
1.572,99
1.966,96
3.202,97
1.151,57
999,62
1.791,71
2.326,23
1.415,03
1.652,48
2.722,45
1.652,15
1.538,34
1.618,40
1.810,55
2.225,79
1.565,78
1.554,80
Muestreo Aleatorio
Angel Francisco Arvelo
1.712,11
2.120,34
1.164,33
1.894,14
2.130,09
948,98
1.077,25
2.413,25
1.781,19
1.819,62
1.772,66
2.095,72
1.587,10
876,39
Pag.
2.085,90
2.530,04
782,58
1.192,46
2.239,11
1.900,94
1.628,44
1.599,76
1.662,57
2.476,30
2.362,04
1.960,13
2.428,22
1.150,14
2.393,09
1.956,70
1.942,82
1.877,08
1.593,56
1.727,20
2.565,92
1.443,49
2.081,10
2.166,43
2.002,05
1.398,05
778,04
1.061,72
1.967,46
1.494,16
817,62
1.793,70
1.832,01
2.098,32
842,67
1.944,56
1.099,40
1.132,65
2.249,14
1.467,12
1.209,68
2.091,25
1.098,63
2.428,79
1.671,05
1.546,75
1.372,94
2.797,18
1.825,83
23
1.928,56
1.681,24
2.342,90
674,06
1.719,57
2.363,02
2.389,28
Para inferir en base a esta muestra el monto total de las ventas (Total poblacional)
hay que calcular la media y la desviacin estndar de la muestra, que dan por
resultado: y = 1.776,90; s = 505,35
En base a esta informacin, el intervalo del 95% de confianza para el monto
promedio de estas 32.500 facturas resulta ser:
1.776,90 1,96
505,35
100
100
32500
= 1.776,90 98,90
Mientras que para el total poblacional, el intervalo del 95% de confianza es:
32500 x 1.776,90 32500 x1, 96
505,35
100
100
32500
= 57.749.250,00 3.214.123,25
Esto significa que con 95% de confianza, se puede afirmar que las ventas totales
estn dentro del intervalo [54.535.126,75; 60.963.373,25], de manera que si
estado financiero reporta un monto comprendido dentro del intervalo, el auditor
considerar aceptable esta cifra, caso contrario har una investigacin ms
exhaustiva.
3.214.123,25 representa el error absoluto en la estimacin, mientras que
(3.214.123,25/ 57.749.250,00) 100% = 5,57% el error relativo
Ejemplo: De un lote de 10.000 pilas, se tom una muestra de 25, y se observ su
duracin en horas, encontrndose los siguientes resultados:
Duracin
Frecuencia
(horas)
10-40
2
40-70
4
70-100
8
100-130
5
130-160
6
Obtngase un intervalo del 95% de confianza, para la duracin media de las pilas
del lote.
Solucin:
En primer lugar, es necesario calcular la media y la desviacin
estndar de la muestra.
Estas resultan ser: y = 95,80 s= 37,63
Se tiene n = 25, y Z 0.025 = 1,96 para 95% de confianza
Reemplazando, se obtiene que el intervalo del 95 % de confianza para es:
37,63
25
95,80 1,96
= 95,80 14,73 = [81,07; 110,53]
1
10000
25
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
24
100%
Fijar el error mximo que estamos dispuestos a tolerar, no basta para poder
calcular el tamao de la muestra, porque siendo sta aleatoria, siempre
tendremos un cierto riesgo de que este formada por elementos extremos, que nos
lleven a una falsa inferencia; es por ello, que el otro trmino que hace falta fijar,
para poder definir el tamao de la muestra, es el riesgo del muestreo, que se
define como la probabilidad de tomar una muestra que nos haga cometer un error
de estimacin mayor que el mximo tolerado; es decir:
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
25
Es tambin evidente, que cuanto menor sea el riesgo que estemos dispuestos a
correr, mayor ser el tamao de muestra necesario, y que en el caso =0, se
necesitar un censo, es decir: n = N.
Usualmente el riesgo se fija en 1%, 5% o 10%.
Una vez definido el error mximo tolerado, y el riesgo del muestreo, el tamao de
la muestra puede ser calculado mediante la aplicacin de la siguiente frmula:
2
N z/2
2
n= 2 2
z/2 + (N 1) 2
En donde:
N = Tamao de la poblacin.
2= Varianza Poblacional.
= Mximo error absoluto tolerado.
= Riesgo del muestreo
z /2 = Abscisa que en la normal estndar deja a la derecha un rea "/2".
Con relacin a la frmula anterior, es importante hacer las siguientes
observaciones:
a) Una de las creencias ms arraigadas, es la de pensar que para un nivel de
riesgo y de error fijos, el tamao de muestra es siempre un porcentaje fijo de la
poblacin. La frmula anterior, nos muestra que esta creencia es falsa, puesto
que si graficamos la forma como varia el tamao de muestra al variar el tamao
de la poblacin, manteniendo fijos el error tolerado, y el riesgo, encontramos una
curva como la siguiente:
z2/2 2
2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
N z2/2 2
26
z2/2 2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
27
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Sustituyendo encontramos: =
28
= 172,54
320
173
173
20000
= 5640,00 47,48
estimacin de , y =
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
29
1655134
4
= 380,25
Cuanto mayor sea , mayor ser el tamao de muestra requerido, por lo tanto si
se quiere un clculo de n que evite futuras iteraciones, se deber tomar la
estimacin mayor, en este caso =380,25
Hay que calcular tambin la media de la muestra piloto = = 645,65
Adems N = 5000 = 5% de 645,55 =32,28, z /2 = 1,645 para 90 % de confianza
Ntese que a pesar de que se desea estimar un total poblacional, se procede de
la misma manera como si se tratara de una media poblacional. Esto es debido a
que estimar un total poblacional con un error relativo del 5% es equivalente a
estimar la media poblacional con ese mismo error relativo
346
350
350
5000
= 3.425.00, 00 146.696,40
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
30
n = Tamao de la muestra.
t = Total de elementos que en la muestra, poseen una cierta caracterstica.
= = Fraccin de muestreo
N
i=N
x
i=1
presentes en la muestra.
Con este simple argumento, resulta fcil caer en cuenta, que en el muestreo por
p(1p)
n1
1 f
p(1p)
n1
1 f
Muestreo Aleatorio
Angel Francisco Arvelo
Solucin: =
12
150
Pag.
31
149
7000
150
7000
= 0,0800 0,0431
para
:7000
(0.08)
(1,96)
(0,08) (0,92)
149
150
7000
580 301,70
Es decir, que con 95% de confianza, se puede afirmar que el nmero
defectuosos en el lote est entre 278 y 882
=
de
Es importante aclarar, que en este tipo de estimacin jams se trabaja con errores
relativos; siempre que se d un error, este debe interpretarse como absoluto.
As por ejemplo, cuando decimos que se quiere estimar el porcentaje de votos
que va a obtener un candidato en unas elecciones, con un error del 1%; este 1%
debe interpretarse como la diferencia absoluta, entre la estimacin hecha, y el
verdadero porcentaje de votos a favor del candidato.
Una vez definido el error mximo tolerado y el riesgo, el tamao de la muestra
puede ser calculado mediante la aplicacin de la siguiente frmula:
2
/2
(1 )
=
2
( 1) 2 + /2
(1 )
Para poblaciones infinitas, el tamao de muestra requerido resulta ser:
2
2
/2
(1 )
/2
(1 )
= lim
=
( 1) 2 + 2 (1 )
2
/2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
32
2
/2
4 2
, y
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
33
= (49999)(0,02)2
50000 (1,96)2
(0,125)(0,875)
= 1029 piezas
(0,125)(0,875)
(49999)(0,02)2 +(1,96)2
10
= 0,125, y
80
2
/2
2
4 (1)2 +/2
50000 (1,96)2
= 2291 piezas
4 (49999)(0,02)2 +(1,96)2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
34
0.07 1,96
10291
1029
50000
= =
r z/2
1f
x n
2
n
2 n 2
n
1 yi 2r 1 xi yi +r 1 xi
n1
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
35
Por ejemplo, si en el par (X, Y), Y representa el gasto que una familia dedica
mensualmente para alimentacin, y X representa el ingreso mensual de esa
familia; entonces R representa la proporcin de los ingresos familiares que son
destinados para alimentacin.
Ejemplo: (Tomado del texto "Tcnicas de Muestreo" de William G. Cochran, Pag.
58) La siguiente tabla, muestra el nmero de personas (Tamao), el ingreso
semanal ($) de la familia (Ingreso), y los gastos semanales ($) de la familia en
alimentacin (y).
Una muestra aleatoria de 33 familias tomada al azar en una gran ciudad arroj:
Tamao Ingreso Alimentacin
Tamao Ingreso Alimentacin
2
62
14.3
4
83
36.0
3
62
20.8
2
85
20.6
3
87
22.7
4
73
27.7
5
65
30.5
2
66
25.9
4
58
41.2
5
58
23.3
7
92
28.2
3
77
39.8
2
88
24.2
4
69
16.8
4
79
30.0
7
65
37.8
2
83
24.2
3
77
34.8
5
62
44.4
3
69
28.7
3
63
13.4
6
95
63.0
6
62
19.8
2
77
19.5
4
60
29.4
2
69
21.6
4
75
27.1
6
69
18.2
2
90
22.2
4
67
20.1
5
75
37.7
2
63
20.7
3
69
22.6
Totales: 123
2394
907.2
A partir de la muestra, se quiere estimar con 95%, los siguientes parmetros
poblacionales:
a) el promedio de gasto semanal en alimentacin por familia,
b) el gasto semanal en alimentacin por persona
c) el porcentaje de los ingresos familiares que son destinados a alimentacin.
Solucin: El caso a) es claramente una estimacin por variables, pues cada
familia tiene un solo valor numrico asociado, mientras que los casos b) y c) son
estimaciones de razn.
Las estimaciones puntuales obtenidas para estos tres parmetros, resultan:
907,2
907,20
907,20
a) =
= 27.49 $/familia, b) 1 =
= 7,38 $/persona, y c) 2 =
= 0,3789 o
33
123
2394
37.98% de los ingresos familiares son destinados a alimentacin.
Para obtener intervalos del 95 % de confianza, es preciso realizar los siguientes
clculos, donde x 1 = Tamao, x 2 = Ingreso, y= Alimentacin
33
33
33
2
2
2
2
33
=1 1 =533, =1 2 =177254, =1 = 28224, =1 1 =3595,5
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
36
2
33
=1 2 = 66678 En los tres casos, la fraccin de muestreo f se puede
despreciar, pues la poblacin se considera infinita.
=33( )2
a) 2 = =1
= =1
=
= 102,68 = 10,13
32
32
32
Intervalo del 95 % de confianza para el ingreso medio poblacional por familia Y :
27, 49 1, 96
b)
1 =
123
33
10,13
= 27, 49 3, 46
33
= 3,73
c)
2 =
33
3,7333
331
1 1
= 72,55
0,3789 1,96
72,5533
= 7,38 1.05
1 2
331
= 0,3789 0,0466
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
37
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
38
1
15
2
2
10
3
3
12
1
4
20
3
5
18
2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
39
1 2 =
Figura N 7: Particin del Universo en Estratos
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
40
Wi =
Obviamente W 1 + W 2 + ..+ W L = 1
1 , 2 . , = Poblacin perteneciente al estrato i
=
= =1 = Total del estrato i
i =
2i
Ni
=
N
j=N
j=1 i xij
Ni
1 i (xij i )2
Ni
= =
= =
=1 = =1 =1 = Total Poblacional
= = 1 = 1 = =1 = Media Poblacional
Muestreo Aleatorio
Angel Francisco Arvelo
si2
j=n
j=1 i yij
ni
=n
Pag.
41
j=1 i (yij )2
ni 1
= =
=
=1
= N
Para :
Para :
z/2 1
W2i S2i
L
N
N z/2 1
ni
(1
W2i S2i
ni
(1 i )
Ni
Ejemplo: Se quiere estimar la nmina de una organizacin que tiene en total 6500
empleados, pero dado que existen diferencias importantes entre sus sueldos,
segn sus responsabilidades, se decide estratificarlos en tres categoras: E 1
obreros, E 2 empleados administrativos y E 3 personal profesional, donde caen
1000, 5000 y 500 personas respectivamente.
Se tom una muestra de 50 obreros, 100 empleados administrativos y 20
profesionales, encontrndose una media mensual de $1200, $ 1800 y $ 4000, con
desviaciones tpicas de $180, $350 y $ 250 respectivamente.
En base a esta informacin, obtenga un intervalo del 95% de confianza para la
nmina mensual.
1000
5000
500
Solucin: Los pesos de cada estrato son: W 1 =
, W2 =
, W3 =
1000
6500
(1200) +
5000
6500
(1800) +
500
6500
6500
(4000) =1876,92
6500
6500
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
10 2
65 (180)2
50
= 12.200.000,00 347.191,75
50
1000
50 2
65 (350)2
100
100
5000
5 2
65 (250)2
20
20
42
500
1 f
(1
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
43
Este coeficiente tiene la ventaja de ser una cifra adimensional, libre de unidades,
que compara de manera porcentual, la magnitud de la desviacin estndar de un
estrato con su correspondiente media.
En trminos generales, podra decirse que un estrato con un coeficiente de
variacin de hasta 10% o 15%, podra considerarse bastante homogneo, y hasta
de 30% con una variabilidad aceptable.
Por supuesto, que nuevamente se presenta el ya conocido inconveniente de que
ni i , ni i son conocidos, pues al hacer la estratificacin se ignoran los
parmetros con que resultaran los diferentes estratos.
En este sentido, las muestras piloto representan una ayuda importante, pues ellas
nos pueden advertir acerca de la bondad del criterio de estratificacin utilizado.
Es perfectamente posible que despus de tomada la muestra piloto, adems de
corregir posibles errores en el diseo de la encuesta, se deba revisar el criterio de
estratificacin utilizado, pues estratos que inicialmente se crean homogneos, en
realidad no lo sean, o viceversa; y por lo tanto se deban subdividir estratos, o en
otros casos fundir estratos en uno solo, segn su heterogeneidad u
homogeneidad respectivamente.
En el ejemplo anterior, el coeficiente de variacin para cada estrato resulto ser:
180
350
Obreros:
100% = 15% ; Empleados:
100% = 19,44%
1200
Profesionales:
250
4000
1800
100% = 6,25 %
- | )
Sin embargo, el clculo del tamao de muestra puede complicarse por que es
necesario calcular el correspondiente para cada estrato.
Es importante aclarar que cuando se fija un mximo error tolerado para el
parmetro poblacional, este mismo mximo error tolerado no aplica para cada
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
44
ni
n
Ni
N
= Wi ni = Wi n
n=
2
L1 Wi 2i
Nz/2
2
L1 Wi 2i + N 2
z/2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
45
0 - 1000
1
1000-2000
1
2000-3000
2
3000-4000
1
0 - 500
4
500-1000
6
1000-1500
7
1500-2000
3
10200
y por consiguiente: n =
200
10000
1140,182 +
499,342 )
10200
10200
200
10000
(1,96)2
1140,182 +
499,34 2 +10200(49,85)2
10200
10200
10200 (1,96)2 (
= 401
Muestreo Aleatorio
Angel Francisco Arvelo
1 =
200
10200
Pag.
10000
10200
46
10200
200 2
(1400)2
10200
200
10000 2
(200)2
10200
393
27,15
774,71
393
10000
100% = 3,50%
Ni
Obviamente W 1 + W 2 + ..+ W L = 1
1 , 2 . , = Poblacin perteneciente al estrato i = 0 o 1
=
= =1 = Total de elementos con el atributo en el estrato i
i =
j=N
j=1 i xij
Ni
Ni
=
=1 =
=
=
=1 =1 = Total Poblacional
= = 1 = 1 = =1 = Proporcin Poblacional
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
47
fi =
j=n
j=1 i yij
ni
ni
2 (1 )
Para : N pst /2
(1 )
2 (1 )
1
(1 )
0,44 (1,96) 2
(0,16)(10,16)
5001
1 2
2 (072)(10,72)
5001
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
48
2 (1 )
1
producto p i (1-p i ) para cada estrato, y resulta ser que este producto alcanza su
valor mximo cuando p i =
De lo anterior se deduce que si la estratificacin es tal que el atributo en cuestin
divide a cada estrato en dos mitades iguales, mitad que lo tiene y mitad que no lo
tiene, entonces se habr hecho una psima estratificacin, pues el error estndar
alcanzar su valor mximo, y el intervalo de confianza resultar muy amplio.
Por el contrario, cuando pi este cercano a 0 cercano a 1, en cualquiera de estos
dos casos, el producto p i (1-p i ) resultara prximo a cero, y en consecuencia el
error estndar ser muy pequeo.
De all se deduce la siguiente regla para hacer la estratificacin:
Los estratos deben ser definidos de manera tal que el atributo en
cuestin sea muy raro o muy frecuente dentro de cada estrato.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
49
En poblaciones finitas:
n=
En poblaciones infinitas:
2
L1 Wi (1 )
Nz/2
2
L1 Wi (1 ) + N 2
z/2
z2/2 L1 Wi (1 )
=
2
En caso de que el investigador considere que no es conveniente tomar una
muestra piloto para obtener una estimacin preliminar de cada uno de los i , le
quedan las siguientes dos opciones:
a) Tomar la muestra mxima dada por: =
z2/2
Nz2/2
z2/2 +4 N 2
para poblaciones
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
50
z2/2 L1 Wi (1 )
2
= 4922
Al repartir proporcionalmente este tamao total de muestra, entre los dos estratos,
n 0,75(
=
=
4922 ) 3692
se obtiene: 1
=
=
4922 ) 1231
n2 0,25(
La estimacin puntual de es:
= pst = 0,75(0,25) + 0,25(0,38) = 0,2825
y el intervalo del 90% de confianza para :
(0,75)2 (0,25)(10,25)
0,2825 1,645
36921
(0,25)2 (038)(10,38)
12311
= 0,2825 0,0105 =
28,25 % 1.05 %
EJERCICIOS POPUESTOS
1) Una industria tiene dos mquinas, que trabajan en paralelo para producir un
mismo artculo.
Las caractersticas de estas mquinas son:
Mquina 1: Es una mquina moderna, cuya velocidad de produccin es el triple
de la otra, y que segn una muestra piloto, produce apenas un 1% de
defectuosas.
Mquina 2: Es una mquina antigua, cuya velocidad de produccin es la tercera
parte de la otra, y que segn una muestra piloto, produce un 8% de defectuosas.
Se quiere estimar el porcentaje de piezas defectuosas dentro de la produccin
total, con un error no mayor al 0.5%, y un 5% de riesgo.
Calcule con ese tamao de muestra, se obtiene un 0.8% de defectuosas en la
mquina 1, y un 8.6 % de defectuosas en la mquina 2, establezca un intervalo
del 95 % de confianza, para el porcentaje de defectuosos producidos por la
industria.
2) Se tiene un lote de 60.000 bombillos, de los cuales 40.000 son de una marca
A y 20.000 de otra marca B.
Se quiere estimar la duracin media de los bombillos del lote, con un error no
mayor al 2,5% y 5% de riesgo.
Una muestra piloto de ambas marcas, arroj los siguientes resultados:
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
51
Duracin (hrs)
0 a 100
100 a 200
200 a 300
300 a 400
400 a 500
Marca A
2
8
25
31
14
Marca B
6
24
10
5
0
a) Con asignacin proporcional, calcule el tamao de muestra necesario para
cada marca
b) Suponga que con el tamao de muestra calculado en a.3, se obtienen los
siguientes resultados:
Media Muestral (hrs)
Desviacin estndar (hrs)
Marca A
320
90
Marca B
170
50
Obtenga un intervalo del 95% de confianza para la duracin media de los
bombillos del lote.
3) En una poblacin con 100.000 elementos, se quiere estimar el total
poblacional, a travs de un muestreo estratificado, que considera dos estratos
que representan el 35% y 65%.
Una muestra piloto arroj las siguientes estimaciones preliminares:
Estrato 1
Estrato 2
Media
80
220
Desviacin tpica
21
30
a) Calcule el tamao de muestra para cada estrato, utilizando asignacin
proporcional, y se quiere un error no mayor al 3%, con 5% de riesgo
b) Suponga que con los tamaos de muestra calculados, se obtiene:
Estrato 1
Estrato 2
Media
85
208
Desviacin tpica
20
25
Obtenga un intervalo del 95% de confianza para el total poblacional.