You are on page 1of 51

.

ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Lujn es un Profesor Universitario Venezolano en el


rea de Probabilidad y Estadstica, con ms de 40 aos de experiencia en las
ms reconocidas universidades del rea metropolitana de Caracas.
Universidad Catlica Andrs Bello: Profesor Titular Jubilado 1970 a 2003
Universidad Central de Venezuela: Profesor por Concurso de Oposicin desde
1993 al presente
Universidad Simn Bolvar: Profesor desde 2005 al presente
Universidad Metropolitana: Profesor desde 1973 a 1987
Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004
Sus datos personales son:
Lugar y Fecha de Nacimiento: Caracas, 16-02-1947
Correo electrnico: angelf.arvelo@gmail.com
Telfono: 58 416 6357636
Estudios realizados:
Ingeniero Industrial. UCAB Caracas 1968
Mster en Estadstica Matemtica CIENES, Universidad de Chile 1972
Cursos de Especializacin en Estadstica No Paramtrica Universidad de
Michigan 1982
Doctorado en Gestin Tecnolgica: Universidad Politcnica de Madrid 2006 al
Presente
El Profesor Arvelo fue Director de la Escuela de Ingeniera Industrial de la
Universidad Catlica Andrs Bello
(1974-1979) , Coordinador de los
Laboratorios de esa misma Universidad especializados en ensayos de Calidad,
Auditor de Calidad, y autor del libro Capacidad de Procesos Industriales UCAB
1998.
En numerosas oportunidades, el Profesor Arvelo
ha dictado cursos
empresariales en el rea de Estadstica General y Control Estadstico de
Procesos.
Otras publicaciones del Prof. Arvelo, pueden ser obtenidos en la siguiente pgina
web: www.arvelo.com.ve

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

I INTRODUCCION

I.1 Poblacin y Muestra


La Estadstica tiene por objeto el estudio de los colectivos, y de las relaciones
que existen entre ellos, entendiendo por colectivo, o universo, a un conjunto de
elementos, personas o cosas, donde cada uno de ellos posee un carcter, que
se denomina la variable estadstica.
La variable estadstica puede ser cualitativa o cuantitativa. As por ejemplo, en
el caso de un estudio electoral, la variable estadstica se refiere al candidato
preferido por cada elector (variable cualitativa), mientras que en un estudio de
calidad, la variable estadstica se refiere a la longitud en milmetros de una cierta
pieza (variable cuantitativa).
El conjunto de valores de la variable estadstica en cada uno de los elementos
del universo se denomina la poblacin.
Un mismo universo puede tener varias poblaciones, ya que puede ocurrir que
sobre cada elemento se definan varias variables estadsticas.
As por ejemplo, sobre un universo de personas podemos definir las variables
estadsticas, sexo, edad, estatura y peso, lo que ocasiona que tengamos cuatro
poblaciones diferentes en el mismo universo.
El elemento sobre el cual se realiza la medicin se denomina la unidad de
muestreo, mientras que el nmero de unidades de muestreo existentes en la
poblacin se denomina tamao de la poblacin
La Estadstica no estudia casos individuales, como el ingreso de una persona, o
la preferencia de un elector, sino conjuntos numerosos de personas en lo
referente a su ingreso, o de electores en lo referente a la preferencia de cada
uno de ellos.
Una poblacin puede tener un nmero finito de unidades de muestreo, o puede
ser tan grande, que puede ser tratada como si fuera infinita. En Estadstica
Matemtica por lo general, la poblacin se considera infinita, pues el
experimento puede ser repetido una y otra vez, y por lo tanto es posible
coleccionar un nmero infinito de observaciones para la variable en estudio.
Se llama Parmetro Poblacional a un valor que depende que los caracteres de
cada uno de los elementos que forman la poblacin, como por ejemplo, el
porcentaje de elementos que posee un cierto atributo, o la suma de todos los
caracteres asociados a cada uno de los elementos, en el caso de que ste sea
un valor numrico, como por ejemplo el total de habitantes que residen en una
localidad, que es la suma de los habitantes que residen en cada una de las
viviendas ubicadas en esa localidad.
Para obtener el valor de un parmetro poblacional, es necesario conocer el
carcter de cada uno de los elementos de la poblacin, y como la observacin
de todos ellos resulta prcticamente imposible por el elevado costo que
representa, se procede a analizar slo una parte de ella, con el objeto de inferir
de ella el valor del parmetro poblacional.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Esta parte de la poblacin se denomina muestra; de manera que en un sentido


amplio, una muestra es un subconjunto cualquiera de la poblacin. El objetivo de
la Inferencia Estadstica tal como se dijo antes, es analizar esta muestra, y de
all obtener conclusiones para la poblacin.

Figura N 1: Relacin entre la muestra y la poblacin


La forma como se haga la seleccin de los elementos de la poblacin para
integrar la muestra se denomina el plan de muestreo, y determina la
metodologa estadstica a seguir para hacer la inferencia.
Segn sea el Plan de muestreo, las muestras se clasifican de la siguiente
forma:

Tipos de

No Probabilisticas

Aleatoria

muestras
Estratificada
Pr
obabilisticas

Sistematica

Conglomerados

Una muestra es no probabilstica cuando la seleccin de los elementos de la


poblacin que pasan a formar parte de la muestra se hace a criterio de la
persona que est tomando la muestra, sin que medie ningn tipo de
procedimiento aleatorio para su seleccin. Los procedimientos de Inferencia
Estadstica no son aplicables a este tipo de muestras.
Una muestra se dice probabilstica cuando la seleccin de los elementos que
intervienen en ella se hace a travs de algn procedimiento aleatorio, o sorteo,
que le concede a cada uno de los elementos de la poblacin, un cierto chance
de caer en ella.
Existen diversos tipos de muestras probabilsticas:
Muestra aleatoria simple: Es aquella en donde todas las muestras posibles son
igualmente probables, y en consecuencia cada elemento de la poblacin tiene
idntica probabilidad de caer en la muestra.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Muestra Estratificada: Es aquella en donde antes de tomar la muestra se divide


a la poblacin en grupos excluyentes llamados estratos, y posteriormente
dentro de cada estrato se toma una muestra aleatoria simple.
Muestra Sistemtica: En este tipo de muestras, la metodologa es como sigue:
Se divide la poblacin en bloques de k elementos cada uno, y se numeran
desde 1 hasta k. Se elige un nmero entero al azar entre 1 y k.
Dentro de cada uno de los bloques se elige el elemento que corresponda al
nmero aleatorio seleccionado.
La muestra queda formada por los elementos elegidos, uno en cada uno de los
bloques.
Ejemplo: Supongamos que en una poblacin de 3.000 elementos queremos
tomar una muestra sistemtica de 10 elementos.
Para definir los elementos que van a formar parte de la muestra dividimos a la
poblacin en 10 bloques de 300 elementos cada uno.
A continuacin se elige un nmero al azar entre 1 y 300, digamos 158.
La muestra quedar conformada por los elementos que ocupen el puesto N 158
en cada uno de los diez bloques.
Muestra por Conglomerados: Este tipo de muestreo consiste en dividir tambin
a la poblacin en grupos que se denominan conglomerados, y luego elegir
aleatoriamente algunos de ellos.
En los conglomerados que resulten
seleccionados se realiza un censo, es decir, son examinados la totalidad de los
elementos que lo conforman.
La eleccin del Plan de Muestreo a utilizar en cada situacin depende de
varios factores tales como:
La homogeneidad o heterogeneidad de la poblacin en estudio.
La factibilidad de poder identificar a todos los elementos que conforman a
un determinado grupo, estrato o conglomerado.
El costo del muestreo.
Antes de proceder a seleccionar el Plan de Muestreo a seguir, es necesario
ponderar cada uno de estos factores, as como tambin la precisin del
muestreo.

I.2 Variables Estadsticas y su clasificacin


Hemos visto que el universo est formada por elementos, y que cada uno de
estos elementos posee un carcter, que vara de un elemento a otro.
El conjunto de todos estos caracteres se denomina la poblacin.
Este carcter puede ser de muy variada ndole; puede ser la estatura de cada
uno de los habitantes de un pas, el canal de televisin que en un momento
determinado estn siendo sintonizados en cada hogar de una ciudad, etc.
Este carcter en estudio, y que puede ser diferente para cada uno de los
elementos del universo se denomina la variable estadstica.
Las variables estadsticas se clasifican de la siguiente forma:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Nominales
Cualitativas

Ordinales
Variables Estadsticas:
Discretas

Cuantitativas

Continuas

Se dice que una variable estadstica es cualitativa cuando representa una


cualidad o un atributo, como por ejemplo la ciudad en que reside un habitante de
un pas, o la religin que profesa una persona.
Las variables cualitativas se clasifican en:
Variables Nominales o Categricas. Este es el caso en que entre los distintos
valores de la variable no existe ninguna relacin de orden o de jerarqua.
Tal es el caso por ejemplo, en que la variable estadstica en estudio es el estado
civil de los empleados de una empresa. Aqu los posibles valores de esta
variable son: Soltero, Casado, Viudo y Divorciado.
En algunos casos, a ciertas variables nominales, por comodidad en el
tratamiento de los datos se les asignan valores numricos, sin que este artificio
le haga perder su condicin de Variable Nominal. Por ejemplo, en una encuesta
se podra presentar la siguiente situacin:
Pregunta:
Cual canal de televisin prefiere Ud.?
Respuestas: 1- El Canal 2.
2- El Canal 4.
3- El Canal 5.
4- El Canal 8.
5- El Canal 10.
En este caso ni los nmeros que identifican a la respuesta del encuestado
(1,2,3,4 o 5) , ni los nmeros que corresponden a cada uno de los canales de
televisin (2,4,5,8 o 10), cuantifican una magnitud en s, sino que representan
una cualidad como es la preferencia del televidente.
De forma pues que esta variable, a pesar de tomar valores numricos, es una
Variable Cualitativa, y adems Nominal, puesto que los nmeros mencionados
no sugieren una relacin de orden, debido a que no podemos decir que el
televidente de un determinado canal, es mejor o peor que el televidente de otro
canal, porque el nmero que identifica al canal es mayor o menor que el otro.
b) Variables Ordinales. Este es el caso en que entre las diferentes cualidades
existe una relacin de orden jerrquico entre ellas, y es posible decir que cierta
categora es mayor o menor, o mejor o peor, que otra.
Por ejemplo, al clasificar a un grupo de personas segn sus edades en infantes,
adolescentes, adultos, maduros y ancianos , es posible establecer un orden , o
tambin al clasificar a los miembros del ejrcito segn su rango, es posible
establecer un orden , y decir que ser General de Divisin es ms que ser
Coronel, etc.
Algunas veces, variables estadsticas que pueden ser medidas numricamente
por comodidad de trabajo, son tratadas como variables cualitativas ordinales.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Tal es el caso por ejemplo, de la clasificacin socio - econmica que se suele


hacer en grupos familiares , tomando nicamente como elemento de juicio su
nivel de ingresos, y clasificarla as en Clase Alta, Media Alta, Media, Media Baja
o Marginal . Aqu se est tomando en cuenta una variable numrica, como es el
ingreso familiar, para decidir acerca de una cualidad como es la condicin de
vida de la familia. En estos casos se presenta el problema de definir cules son
las fronteras numricas, para ubicar a un elemento en una u otra escala.
Las variables cuantitativas son aquellas que se refieren a magnitudes
numricas, tales como la estatura de un grupo de personas, o el nmero de
personas que residen en una vivienda.
Las variables cuantitativas se clasifican en discretas y continuas.
Una variable es discreta cuando el conjunto de valores que puede tomar es
finito o infinito numerable, es decir que puede ponerse en correspondencia con
el conjunto de los nmeros naturales.
Por ejemplo, si en una determinada investigacin estamos analizando el nmero
de vehculos que posee cada una de las residencias de una urbanizacin, el
resultado de nuestras observaciones sern nmeros naturales, o cero; sta es
pues una variable discreta. Otros ejemplos de investigaciones que dan lugar a
variables discretas son: Nmero de hijos que posee un matrimonio, nmero de
clientes que acuden diariamente a un comercio, etc...
Se dice que una variable es continua cuando puede tomar cualquier valor
dentro de un intervalo real.
As por ejemplo, si consideramos el peso de una persona, el resultado de
nuestra observacin ser un nmero real positivo, sin limitacin en el nmero de
cifras decimales.
Hay que advertir que una variable continua no puede ser jams medida en su
exacto valor, pues por ms pequea que sea la unidad de medida que
utilicemos, siempre podremos encontrar valores ms pequeos que esa unidad.
As por ejemplo cuando decimos que un bombillo fall a las 532 horas de uso,
esto no significa que la falla ocurri en el preciso instante en que cumpla las 532
horas. Lo que significa es que fall en algn instante entre las 532 y las 533
horas, lo que representa un intervalo de tiempo.
La variable discreta por el contrario, si puede ser medida en su valor exacto, y
as por ejemplo, cuando decimos acudieron 532 clientes a un banco durante un
da determinado, sta cifra representa un valor exacto, y es puntual.
Las variables continuas ms frecuentes suelen ser el tiempo, longitud, rea,
volumen, etc.
I.3 Escalas de Medicin
Una vez que ha sido definida la variable estadstica que va a ser analizada, nos
encontramos con el problema de cmo medirla.
En muchas oportunidades este asunto no presenta ninguna dificultad, pues la
variable considerada ya tiene una unidad de medida perfectamente definida.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Tal es el caso por ejemplo, de una longitud, en donde ya existen varias unidades
de medicin universalmente aceptadas, como pudieran ser el metro, la pulgada,
el milmetro, etc.
En otros casos sin embargo, la situacin no es tan clara, pues no existe tal
unidad de medida, y se hace necesario definir una escala de medicin.
Por ejemplo, si el universo es el conjunto de clientes de una empresa de
servicios, y lo que se quiere estudiar es el nivel de satisfaccin de cada uno de
ellos por el servicio prestado, inmediatamente nos preguntaremos: cmo medir
ese nivel de satisfaccin?
La seleccin de una escala de medicin adecuada es una decisin importante
en cualquier investigacin, pues de ella depender la metodologa estadstica a
seguir, y las conclusiones que se deriven de la investigacin.
En 1948, el cientfico S.S. Stevens propuso una clasificacin lgica para los
tipos de medicin, con la que no todos los estadsticos concuerdan, pero que es
la ms divulgada y conocida.
Stevens seal que si no existieran mediciones el mundo sera catico, y no
existira ciencia estadstica, y si las mediciones fuesen totalmente exactas,
habra una demanda mucho ms reducida para emplear la Estadstica.
Stevens reconoce cuatro tipos de escalas de medicin: nominal, ordinal, de
intervalos, y de razn.
Las escalas nominales se emplean para medir variables cualitativas nominales,
y se utilizan como medidas de identidad. Una escala de este tipo tendra que ser
necesariamente usada para representar los distintos valores de variables como
sexo, religin, etc.
En una escala nominal, los diferentes valores de la variable se suelen
numerar por orden alfabtico de las categoras, y los nmeros asignados no
corresponden a ninguna medicin, ni entre ellos existe relacin jerrquica
alguna.
La escala ordinal refleja orden o jerarqua entre los distintos niveles de la
variable, y se disponen de la ms alta a la ms baja, o viceversa.
El ejemplo clsico de este tipo de escala es el empleado para evaluar la
dureza de los minerales. Esta propiedad se define como el grado de resistencia
a la abrasin, y en esta escala el nmero 1 corresponde a un material muy
suave y fcil de desmenuzar como el talco, mientras que el nmero 10 en el
extremo opuesto de la escala, corresponde al diamante, que puede rayar a
todos los dems, y no puede ser rayado por ninguno.
Con relacin a este tipo de escalas, hay dos comentarios importantes que hacer:
Iguales diferencias entre los nmeros de la escala, no necesariamente reflejan
iguales diferencias de intensidad para la variable medida.
Consideremos por ejemplo, el siguiente caso: Supongamos que para medir el
grado de satisfaccin de los clientes por un determinado servicio, se propone la
siguiente escala nominal:
1. Totalmente insatisfecho.
2. Bastante insatisfecho.
3. Medianamente satisfecho.
4. Bastante satisfecho.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

5. Totalmente satisfecho.
En esta escala, a pesar de que la diferencia 5 - 3 = 3 -1, no podemos decir que
la diferencia entre el grado de satisfaccin entre los clientes del nivel 5 y los del
nivel 3, es la misma que entre los clientes del nivel 3 y el nivel 1.
En una escala nominal tampoco podemos hacer comparaciones de razn entre
los diferentes niveles o nmeros de la escala.
As por ejemplo, en el caso anterior sera absurdo decir que como 4 es el doble
de 2, entonces los clientes del nivel 4 estn doblemente satisfechos que los del
nivel 2.
La escala de intervalos es para variables cuantitativas, y por lo tanto
proporciona valores numricos .En este tipo de escala hay que seleccionar una
unidad de medida, y la medicin expresa el nmero de unidades que posee el
elemento medido.
En una escala por intervalos hay tres caractersticas fundamentales:
El cero es completamente arbitrario, y no significa necesariamente la
ausencia de la cantidad medida.
Diferencias iguales reflejan idnticas diferencias, entre los niveles de la
variable en estudio.
No se pueden hacer comparaciones de razn.
Un ejemplo de escala por intervalos es la utilizada para medir la hora del da.
En esta escala el cero que corresponde a la medianoche, es completamente
arbitrario, el tiempo transcurrido entre las 5:00 y las 8:00, es el mismo que entre
las 14:00 y las 17:00, y no se puede decir que 8:00 a.m. es el doble de 4:00 am.
Otro ejemplo de escala por intervalos es la utilizada para medir la temperatura,
bien sea en C o en F. En la escala centgrada el cero es arbitrario, y
corresponde a la temperatura de congelacin del agua, y la diferencia de
temperatura entre 10C y 14C es la misma que entre 25C y 29C.
En una escala por intervalos no se pueden hacer comparaciones de razn entre
los valores de la variable, y as por ejemplo si en un da la temperatura fue de
15C y en otro de 30C, es incorrecto decir que en el segundo da hizo el doble
de calor que en el primero.
La escala de razn o de cociente es tambin para variables cuantitativas, y se
diferencia de la de intervalos en que en ella el cero no es arbitrario, y
corresponde realmente a una total ausencia de la propiedad estudiada.
En una escala de razn, lo mismo que en una de intervalos, a iguales
diferencias entre los nmeros asignados corresponden iguales diferencias de
intensidad de la variable en estudio, pero ahora si es posible hacer
comparaciones de razn entre los elementos, y decir que en un elemento A el
valor de la variable es tres veces o cuatro veces el valor de otro elemento "B.
El peso y la estatura son ejemplos claros de una escala de razn, pues una
persona que pese 90 Kg., pesa el triple que un nio que pese 30 Kg.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

I.4 Etapas de una Investigacin por Muestreo


El muestreo es una herramienta fundamental en cualquier investigacin, bien
sea cientfica o social, y su aplicacin requiere de una cierta metodologa.
Por lo general los problemas ms frecuentes que hay que resolver a la hora de
aplicar tcnicas de muestreo en una investigacin, son en este orden los
siguientes:
Formulacin del problema: Esta es la fase conceptual de la investigacin , y
consiste en definir en primer lugar el objetivo de la investigacin que se va a
realizar , las hiptesis que se pretenden probar , la definicin de la poblacin a
considerar, y la seleccin de las variables a medir .
En muchas oportunidades, esta fase tambin exige la creacin de una escala de
medicin, porque la misma no existe para algunas de las variables que van a ser
analizadas.
Esta es quizs la fase ms importante en la investigacin, pues es la que
condiciona todas las posteriores, y la validez de las conclusiones.
Diseo del experimento: Una vez que ha sido definido el problema, el
investigador debe decidir si estudiar toda la poblacin o slo una muestra.
En caso de que decida hacer un muestreo, habr que definir el tipo de muestreo
a utilizar, si aleatorio simple, estratificado, por conglomerados, etc.
Tambin
ser necesario calcular el tamao de muestra requerido, el cual depender de la
precisin que se le quiera dar al muestreo; y tambin ser necesario disear un
cuestionario, o formato para ser llenado por la personas que van posteriormente
a recoger la informacin.
El diseo de la encuesta y la redaccin de las preguntas es un aspecto muy
importante en esta fase, pues de la sinceridad de las respuestas depender la
validez de la investigacin.
Este es un problema ms de carcter psicolgico que estadstico, pues la
Estadstica supone que la respuesta obtenida es sincera, y en la prctica no
necesariamente esto es cierto.
La apariencia fsica del encuestador, el momento de realizar la encuesta, y la
forma de hacer las preguntas son aspectos muy importantes a considerar aqu.
En el caso de investigaciones en un laboratorio, esta fase exige tambin la
seleccin de los instrumentos de medicin, su calibracin y la metrologa.
Otro aspecto que tambin debe ser analizado en esta fase es el relativo a los
programas de computacin que van a ser utilizados posteriormente para
procesar la informacin recogida en el muestreo.
Recoleccin de datos. Esta es la fase de campo propiamente dicha, en la que el
investigador hace el sorteo aleatorio de las unidades de la poblacin que van a
pasar a formar parte de la muestra, y posteriormente las entrevista, o las ensaya
en caso de que se trate de una investigacin hecha en un laboratorio.
En esta fase, el investigador debe poner especial cuidado en que la muestra
quede conformada por estrictamente las unidades que resultaron sorteadas, y
no por otras que le resulten ms cmodas al encuestador.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

10

Cualquier error en este sentido hara que la investigacin pierda fuerza, y


podra incluso invalidar sus conclusiones.
Tabulacin y Descripcin de los resultados. Esta es la fase descriptiva de la
investigacin, en donde los datos tomados en la fase anterior son organizados y
resumidos en tablas estadsticas, y tambin representados en grficas que de
una manera rpida permitan visualizar su comportamiento.
En esta fase es indispensable el manejo de las tcnicas de Estadstica
Descriptiva, y debe contarse con la ayuda del programa de computacin
seleccionado en la fase de diseo.
Inferencia Estadstica y Conclusiones: Esta es la fase final de la investigacin,
en donde los resultados obtenidos en la muestra son analizados con los
mtodos de la Inferencia Estadstica, y se obtienen conclusiones para la
poblacin.
Las conclusiones obtenidas en esta fase se refieren a las hiptesis que haban
sido formuladas en la fase inicial, o tambin a la estimacin del valor
de
ciertos parmetros poblacionales que eran desconocidos al comienzo de la
investigacin.
II. ESTIMACION
II.1 Concepto de estimador
Un parmetro poblacional es un valor que se calcula en base a todos y cada uno
de los elementos de la poblacin.
As por ejemplo, si en el universo de estudiantes inscritos en una Universidad,
consideramos la variable estadstica estatura de cada uno de ellos, la poblacin
ser el conjunto de valores numricos que representan sus respectivas estaturas.
Si llamamos N al nmero de estudiantes en esta Universidad (Tamao de la
poblacin), el conjunto de valores numricos de sus estaturas {1 , 2 , }
representa a la poblacin.
Sobre esta poblacin podemos definir al siguiente parmetro poblacional:
+

= 1 2+
= =1 = Media Poblacional

Resulta obvio, que en la gran mayora de las situaciones prcticas, este valor
resultar desconocido, porque para calcularlo necesitaramos conocer las
estaturas de todos los estudiantes de la referida Universidad.
El objetivo principal del muestreo es justamente, estimar el valor de estos
parmetros poblacionales, a partir del resultado arrojado por una muestra de esta
poblacin; y de all la necesidad de introducir el concepto de estimador.
Un estimador es un valor calculado sobre la base del resultado muestral obtenido,
y que se utilizar para estimar a un parmetro poblacional.
En el ejemplo anterior, al tomar una muestra de n estudiantes (tamao de la
muestra), y medir sus estaturas, encontraremos un conjunto de valores numricos
{1 , 2 , }, sobre los cuales podemos definir la siguiente funcin:

1 +2+ +

=1

= Media muestral

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

11

Este valor, como veremos ms adelante, va a ser utilizado para estimar a su


correspondiente poblacional, y diremos que es el estimador de , lo que se
designar mediante la siguiente notacin: =
Para una mejor comprensin de los problemas del muestreo, es importante
resaltar las diferencias bsicas entre el parmetro poblacional y su estimador:
El valor del parmetro poblacional es una constante desconocida, mientras que el
de su estimador es conocido para una muestra particular, pero variable entre las
diferentes muestras posibles
En efecto, regresando al ejemplo, la media poblacional es una constante cuyo
valor no conocemos, mientras que el valor de la media muestal lo conocemos
para la muestra particular tomada, pero pudo haber sido otro, si el azar hubiese
dispuesto que la muestra seleccionada hubiese sido otra.
De lo anterior se desprende que un estimador es una variable aleatoria, pues
puede variar de una muestra a otra, y que lo que obtenemos al tomar una
muestra, es un valor particular de dicha variable aleatoria.
Inmediatamente surgen las siguientes preguntas:
1. Cmo hacemos para obtener el mejor estimador para un parmetro
poblacional cualquiera?
2. Si el estimador es una variable aleatoria, cul es su distribucin de
probabilidad?
3. Cmo hacemos para inferir el valor del parmetro poblacional a partir de ese
valor particular del estimador?
La respuesta a estas preguntas no es sencilla, y no constituye el objetivo de este
humilde resumen, pues representa la esencia de lo que se denomina Inferencia
Estadstica; sin embargo, aqu haremos uso de algunos de los resultados que all
se obtienen, y se demuestran, por lo que se recomienda al lector interesado en
profundizar en estos aspectos consultar un texto de Estadstica Matemtica e
Inferencia Estadstica
El siguiente cuadro resume las diferencias entre Parmetro Poblacional y
Estimador:
Se calcula:
Comportamiento
Conocimiento
Parmetro
Sobre toda
Constante
Desconocido
Poblacional
la poblacin
Estimador
Sobre
Aleatorio
Conocido solo un
la muestra
valor particular
II.2 Propiedades de un buen estimador
Un problema muy frecuente en Inferencia Estadstica es el de comparar
estimadores, pues a pesar de que existen diversos mtodos y criterios para hacer
la estimacin, no siempre todos ellos conducen al mismo estimador, y por lo tanto,
se hace necesario decidir cul es el mejor.
Con el objeto de facilitar las definiciones, adoptemos la siguiente nomenclatura:
= Valor verdadero de un parmetro poblacional desconocido
= Estimador de
Al ser una variable aleatoria, tendr una cierta Distribucin de Probabilidad, y en
consecuencia un determinado valor esperado, y una cierta varianza

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

12

E ( ) = Valor Esperado de
Var ()= Varianza de
Las siguientes propiedades nos permiten reconocer a un buen estimador, y sern
explicadas de una manera intuitiva, sin el tratamiento riguroso propio de la
Estadstica Matemtica
1 Estimadores insesgados: Se dice que un estimador es insesgado, cuando su
valor esperado coincide con el parmetro poblacional que pretende estimar, es
decir cuando E ( ) = ; caso contrario, se dice que es sesgado.
Para entender mejor desde un punto de vista prctico lo que significa sesgar una
muestra consideremos el siguiente caso hipottico.
Imaginemos que para realizar una encuesta electoral seleccionamos la muestra
entre los asistentes a una concentracin a favor de un candidato. Resulta obvio,
que en esa muestra no esperamos encontrar un reflejo de lo que realmente opina
la poblacin. En este caso diremos que la muestra est sesgada, es decir
adulterada.
Un estimador sesgado es como un arma que no tiene la mira calibrada, que
pretende dar en un blanco pero est apuntando a otro; mientras que un estimador
insesgado es uno que realmente apunta hacia al blanco, en el caso de muestreo
el parmetro poblacional , y que espera dar en l.
Suponiendo que tenemos dos estimadores 1 y 2 que siguen cada uno, una
distribucin normal, el primero insesgado y el segundo no, la siguiente grfica nos
muestra como con el primer estimador estamos en condiciones de hacer una
mejor estimacin que con el segundo, debido a que se espera que el primero
coincida con el parmetro poblacional a estimar, mientras que con el segundo se
esperar caer en un punto alejado de l

Figura N 2: Comparacin entre un estimador insesgado y otro sesgado

Un estimador puede presentar un sesgo negativo, cuando se espera tome un


valor a la izquierda del parmetro poblacional a estimar, es decir lo subestime; o
puede presentar un sesgo positivo, cuando se espera caiga a su derecha y lo
sobreestime como en el ejemplo de la encuesta electoral antes mencionada.
2. Estimadores consistentes: Un estimador se dice consistente, cuando a medida
que el tamao de muestra es mayor, el estimador nos recompensa,
proporcionndonos una mejor estimacin; es decir, que a mayor tamao de

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

13

muestra existe una mayor probabilidad de que el estimador caiga muy cercano al
parmetro poblacional que pretende estimar.
Un estimador que carezca de esta propiedad queda prcticamente descalificado,
pues no devuelve en precisin el esfuerzo de tomar un mayor tamao de muestra.
Resulta fcil intuir que es un estimador consistente para , pues a medida que
ms grande sea el tamao de muestra, ms elementos de la poblacin se
incorporan a ella, y por lo tanto el valor de se acercar ms al de .
De hecho cuanto n = N (censo), podemos afirmar con certeza que =

3. Estimadores suficientes: Se dice que un estimador es suficiente cuando utiliza


toda la informacin contenida en la muestra, es decir, cuando no desperdicia
informacin y toma en cuenta a todas las observaciones mustrales.
As por ejemplo es un estimador suficiente puesto que para calcular su valor,
necesitamos conocer el valor de todas las observaciones que cayeron en la
muestra; si falta por determinar alguna de ellas, ya no podremos calcular .
La mediana de una muestra es un ejemplo tpico de un estimador que no es
suficiente, pues para calcularla slo tomamos en cuenta a los valores centrales,
descartando a los extremos.
4. Estimadores de mnima varianza: Resulta frecuente que al comparar dos
estimadores, ambos sean insesgados. En estos casos, el de menor varianza
resulta ser el mejor, pues los valores que toma estn ms concentrados alrededor
del parmetro que se desea estimar.
La siguiente figura nos seala que con el estimador de menor varianza, se tiene
una mayor probabilidad de realizar una mejor estimacin debido a que presenta
una menor dispersin.

Figura N 3: Comparacin entre dos estimadores insesgados

La Estadstica Matemtica proporciona una herramienta conocida como lo cota de


Cramer - Rao, que permite reconocer al estimador insesgado con la mnima
varianza; de manera que cuando lo encontremos, estaremos en presencia del
mejor estimador posible para el parmetro poblacional que deseamos estimar.
En lo sucesivo, vamos a suponer que los estimadores propuestos en los
diferentes casos que estudiaremos son los ptimos, y omitiremos el anlisis
de sus propiedades.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

14

II.3 Errores en el muestreo


Resulta natural que a la hora de hacer una estimacin por muestreo no podamos
pretender que sta coincida exactamente con el verdadero valor del parmetro
que queremos estimar, y que en consecuencia aparezcan errores.
Las causas que ocasionan estos errores pueden ser clasificados en dos
categoras: asignables y aleatorias
Las causas asignables son aquellas que se pueden identificar y corregir, y que
son responsabilidad del investigador, tales como errores en el diseo de la
encuesta, preguntas mal redactadas, entrenamiento inadecuado a los
encuestadores, imprecisiones en la escala de medicin, o fallas en la calibracin
de los instrumentos de medicin.
Lamentablemente, muchas veces este tipo de fallas son detectadas despus que
se ha tomado la muestra, lo que ocasiona un atraso en los estudios por muestreo
y una prdida de los recursos invertidos en la toma de la muestra. De all la
importancia de tomar muestras preliminares o pilotos, que permitan detectar de
manera temprana tales errores.
Las causas aleatorias son producto de la variabilidad propia del estimador. En
efecto, hemos visto que todo estimador es una variable aleatoria, y que por lo
tanto su valor vara de una muestra a otra.
El valor que toma el estimador en una muestra especfica representa un valor
particular de esa variable que no necesariamente tiene que ser igual al parmetro
que se quiere estimar.
Se define como error de muestreo a la diferencia absoluta entre el valor que tom
el estimador en la muestra y el verdadero valor del parmetro poblacional, es
decir: Error de muestreo = -
Por ejemplo, si estimamos que un parmetro vale 1251 y despus resulta que su
verdadero valor es 1280, hemos cometido un error de 1251-1280= 29 unidades
El valor absoluto se debe a que el error de estimacin puede ser negativo en caso
de una subestimacin, o positivo si se trata de una sobrestimacin.
Cuando se realiza un estudio por muestreo, el investigador debe establecer cul
es el mximo error que est dispuesto a tolerar en la muestra, y este se designa
designar por = Mximo error absoluto tolerado
La fijacin del valor de depender del orden de magnitud del parmetro que se
pretende estimar. As por ejemplo, si se quiere estimar un parmetro que
pensamos est en el orden de los millones, sera absurdo fijar en el orden de
las unidades, pues le estaramos exigiendo a la muestra un nivel de precisin tal,
que seguramente redundar en un tamao de muestra prcticamente igual a un
censo.
En caso de que el investigador no tenga idea alguna sobre el orden de magnitud
del parmetro que est estimando, lo ms prudente es fijar el error tolerado de
muestreo en forma relativa o porcentual, definido por la siguiente expresin:
Error porcentual de estimacin =

100%

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

15

En el ejemplo anterior, si un parmetro cuyo verdadero valor es 1280 fue


estimado con un error absoluto de 29 unidades, entonces el error relativo de
estimacin es de

29

1280

100% = 2,27%

Al analizar el informe de la muestra, el lector debe estar atento acerca del margen
de error de la muestra, e identificar si el error de muestreo est expresado de
manera absoluta o de manera relativa.
Una regla muy simple para hacer esta identificacin es la siguiente:
El error absoluto viene expresado en las mismas unidades que el
parmetro a estimar, mientras que el error relativo siempre
viene expresado en porcentaje
Esta regla presenta una nica excepcin:
Cuando el parmetro a estimar es un porcentaje, el error absoluto viene
expresado tambin como un porcentaje, y no se trata de una cifra relativa
Por ejemplo, si una encuesta electoral predice que un cierto candidato obtendr
un 32% de la votacin, y una vez celebrada las elecciones resulta que obtuvo el
34% de los votos, entonces el error de estimacin fue del 2% , y se trata una cifra
absoluta, no relativa.
Es prctica comn en los estudios por muestreo fijar el mximo error relativo
tolerado en 1%, 2,5% o 5% en el caso general, y en esos mismos valores
porcentuales para el error absoluto, cuando se trate de la estimacin de
porcentajes.
Lo anterior significa que cuando un estudio por muestreo concluye en una cierta
estimacin para un parmetro, el lector debe interpretar que el verdadero valor es
anunciado el porcentaje de error; de manera que si se lee en el informe,
= 1251 unidades, =2,5 % entonces se debe inferir que el verdadero valor de
est en el 1251 (2,5% de 1251) = 1251 31,275, es decir dentro del intervalo
[1219,725 ; 1282,275] , mientras que si el informe se refiere a la estimacin de un
porcentaje, como en el caso de una encuesta electoral, que dice
=32%, =2,5 %, entonces la inferencia es que = Verdadero Porcentaje
Poblacional, est en el intervalo 32% 2,5%, es decir dentro del intervalo [29,5%;
34,5%]
II.4 Riesgo y Confianza en una estimacin por muestreo
Tal como hemos visto en la seccin anterior, cuando se hace una estimacin por
muestreo, lo ideal es que el error de estimacin resulte como mximo igual al
tolerado. Esto sucede cuando -
Sin embargo, en el momento de tomar la muestra no se puede garantizar que
esto realmente va a ocurrir as, pues al ser el estimador una variable aleatoria,
existe una cierta probabilidad de que el error de estimacin sea mayor que el

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

16

tolerado, y que por lo tanto, la muestra no satisfaga nuestras expectativas. Esta


probabilidad se define como el riesgo del muestreo, y la designaremos por
Para ilustrar mejor esta idea, tomemos el siguiente caso:
Si se efectan 100 lanzamientos de una moneda legal, existe una probabilidad de
aproximadamente 95% de que el nmero de caras obtenidas caer en el intervalo
50 10, sea en el intervalo [40; 60]. Sin embargo, si tomamos una muestra de
este experimento, es decir, si lo realizamos una sola vez, tendremos una
probabilidad de aproximadamente 5% de que la prediccin no se cumpla, lo
representa el riesgo de hacer la prediccin.
De igual manera en el muestreo, cuando tomamos una muestra de una
poblacin, sta es una de las tantas muestras diferentes que pudieran ser
tomadas, tantas como combinaciones podamos hacer entre los elementos que
conforman el universo, y por lo tanto, es posible tener la mala suerte que resulte
conformada por elementos extremistas, y en consecuencia se cometa un error
mayor que el tolerado. En sntesis:
El riesgo del muestreo representa la probabilidad de que el error
absoluto en la estimacin sea mayor que el mximo tolerado
= P( - > )

El complemento del riesgo, es decir, la probabilidad de que el error absoluto en la


estimacin resulte menor o igual que el mximo tolerado se define como la
confianza que proporciona la muestra.
1 - = P ( - )

Suponiendo que el estimador es insesgado y que sigue una Distribucin Normal,


el siguiente grfico explica los conceptos de riesgo y confianza del muestreo:
= Riesgo del muestreo = P( - > )
1-= Confianza= P( - )

Si el estimador se sale de la zona de


buena estimacin, se incurre en un error
mayor que el tolerado
La zona de buena estimacin es:

Figura N 4: Riesgo y Confianza del muestreo

A partir del concepto de confianza, la Inferencia Estadstica desarrolla la teora de


estimacin por intervalos, y obtiene los llamados intervalos de confianza para un
parmetro poblacional.
Dado que en las diferentes metodologas de muestreo que analizaremos ms
adelante se utilizar este concepto, se recomienda al lector que consulte en textos

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

17

de Inferencia Estadstica, los procedimientos a seguir para obtener un intervalo de


confianza
Un Intervalo del (1-) de confianza para un parmetro poblacional
1 ;
2 con
1 <
2
desconocido , se define como un intervalo aleatorio
1
2 dependen exclusivamente del resultado de la muestra, y que
donde
antes de tomarla, tiene una probabilidad (1-) de contener al parmetro ,
es decir:
1
2 = 1-
P
Para facilitar la comprensin de este concepto, consideremos el siguiente
ejemplo:
Supongamos que una persona anuncia tener 10 billetes, uno de los cuales es
falso, y se selecciona al azar uno de ellos.
Antes de hacer la seleccin podra decirse que la probabilidad de seleccionar un
billete bueno es del 90%; pero despus de hecha la seleccin, ya no se podra
decir lo mismo, pues el hecho aleatorio que era la seleccin del billete ya se
realiz. Lo que cabra decir despus de hecha la seleccin es que al billete
seleccionado le tenemos una confianza del 90%.
Lo mismo ocurre con el muestreo, existen muchas muestras posibles, y cada una
de ellas arrojar intervalos de confianza distintos. Algunos de ellos contienen al
parmetro y otros no. Antes de tomar la muestra, la probabilidad de seleccionar a
una que contenga al parmetro es 1-, pero despus de tomada la muestra, lo
que le tenemos al intervalo seleccionado es una confianza de 1-
Para finalizar estas secciones introductorias, y comenzar a estudiar las diferentes
metodologas de muestreo, es importante aclarar que muchas veces se oye decir
la siguiente frase: la muestra debe ser representativa de la poblacin para no
incurrir en los errores del muestreo.
Esta frase establece un principio que en la prctica resulta difcil de garantizar,
pues se supone que no conocemos a los elementos de la poblacin, ya que si los
conociramos no estaramos muestreando, y por lo tanto, no sabemos si todos
ellos van a quedar representados en la muestra. De all que siempre tengamos el
riesgo de realizar una estimacin errnea.
Para ilustrar esta idea, supongamos que queremos estimar la estatura media de
los alumnos de un colegio, en donde hay nios y adolescentes, y lo que
disponemos es de una lista de los alumnos inscritos en el colegio.
Si la muestra la tomamos haciendo un sorteo entre todos los alumnos del colegio
(muestreo aleatorio simple como veremos en la prxima seccin) resulta obvio
que existe el riesgo de que solo caigan nios o solo adolescentes, lo que nos va a
conducir a una estimacin errnea de la media poblacional.
Pudiramos disminuir este riesgo, si ahora en lugar de tener una lista general,
obtenemos una en donde aparezcan solo los alumnos de primaria por un lado, y
los de secundaria por el otro, y ahora tomamos la muestra seleccionando al azar

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

18

alumnos de uno y otro grupo (muestreo aleatorio estratificado). Este nuevo


procedimiento tampoco est exento de riesgo, porque es posible que en cada una
de las dos muestras, caigan solo alumnos de los primeros aos de primaria y de
secundaria, o exclusivamente de los ltimos aos de cada nivel.
Se puede continuar afinando nuestra estimacin, y decir que ahora vamos a
conseguir las listas de cada uno de los salones de clase, y que tomaremos la
muestra seleccionando al azar un cierto nmero de alumnos en cada saln; pero
tambin nos encontramos que en dichas muestras existe el riesgo de que caigan
en ella solo los ms bajos, o solo los ms altos de cada saln.
Llegado este punto, no faltar alguien que sugiera que entonces lo mejor es que
se estratifique a los alumnos por niveles de estatura, bajos, medianos y altos y se
tome una muestra al azar en cada categora, y pronto caeremos en cuenta que
esto no es posible porque para hacer dicha clasificacin, necesitaramos conocer
la estatura de cada uno de los alumnos, y el muestreo ya no tendra sentido.

Conclusin; El riesgo es inherente al muestreo


Al igual que en una rifa, la nica manera de garantizar que ganaremos el
premio es comprando todos los boletos.
Desde el mismo momento en que decidimos realizar un estudio por muestreo
debemos estar conscientes de que estamos asumiendo un riesgo, y de all la
importancia de conocer el margen de error y el nivel de confianza que nos
ofrece la muestra

III. MUESTREO ALEATORIO SIMPLE


Existen numerosas tcnicas de muestreo, que se diferencian unas de otras, en la
manera de seleccionar la muestra; en el muestreo aleatorio simple, la muestra
debe ser tomada de manera que cada una de todas las posibles muestras,
tenga la misma probabilidad de ser seleccionada.
El principio de igualdad de probabilidad para todas las posibles muestras, es
quizs el ms violado a la hora de seleccionar la muestra; debido a que el
investigador generalmente clasifica a la poblacin en grupos, y luego toma la
muestra de manera que en ella caigan representantes de cada grupo, pensando
que de esa manera, la muestra es ms representativa.
Esta manera de tomar la muestra no es que sea incorrecta, por el contrario, por lo
general conduce a resultados ms precisos, que los que se obtendran, aplicando
muestreo aleatorio simple; lo que si no es correcto, es pretender aplicar las
frmulas y principios del muestreo aleatorio simple, a una muestra tomada de
forma estratificada; ya que las frmulas correspondientes al muestreo aleatorio
simple , son obtenidas bajo la premisa de que todas las muestras son igualmente
probables; principio que obviamente no se cumple , cuando la muestra se toma de
forma estratificada, ya que una muestra formada por elementos de un mismo

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

19

grupo, tendra una probabilidad nula de ser tomada, mientras que una muestra
formada por elementos de grupos diferentes tendra una probabilidad muy alta de
ser tomada. En caso de que la muestra se tome de forma estratificada, las
frmulas y principios a aplicar, son otros, diferentes a los que se vern en esta
seccin
Los pasos a seguir para obtener una muestra aleatoria simple son los siguientes:
Paso 1: En primer lugar es necesario definir el universo sobre el cual se va a
tomar la muestra
Paso 2: En segundo lugar es necesario conseguir una lista numerada del 1 al N
que contenga a todos los elementos del universo. La numeracin puede ser
hecha por cualquier criterio, alfabtico, por el nmero de la cedula de identidad,
etc.
Si no es posible obtener esta lista, entonces se debe establecer previo a la
muestra, una regla de conteo que permita identificar a cada elemento del
universo.
Ejemplo 3.1: En los estudios de calidad, es comn que se deba examinar para su
aceptacin, lotes de piezas las cuales vienen empacadas dentro de una caja.
Para tomar una muestra aleatoria, se deben enumerar las cajas, o en su defecto
establecer una regla de numeracin. Si estn colocadas sobre el suelo, decir por
ejemplo que la caja ms a la izquierda es la No 1, luego la No 2, y as
sucesivamente hasta la ltima. Posteriormente se debe tambin establecer otra
regla de numeracin dentro de la caja, que permita identificar cada pieza.
Supongamos que se debe tomar una muestra de botellas para medir su
contenido, y que estas se encuentran distribuidas en 100 cajas cada una de las
cuales contiene 36 botellas.
En este caso N = 100 x 36 = 3600 botellas
Para identificar cada una de las botellas del universo, debemos asignarle un
nmero a cada caja, y otro nmero a cada posicin dentro de la caja, y as
sabremos que la botella No 1 es la que ocupa la posicin No 1 dentro de la caja No
1, la botella No 40 es la que ocupa la posicin No 4 dentro de la caja No 2, la
botella No 348 la que ocupa la posicin No 24 dentro de la caja No 10, etc., y la
botella No 3600, la que ocupa la posicin No 36 de la caja No 100.
Paso 3: Hacer un sorteo sin reemplazo, seleccionando al azar y con igual
probabilidad, n nmeros cualesquiera dentro de los N que existen en el
universo.
Para efectuar este sorteo, existen varios procedimientos. El ms antiguo es
escribir N papeles con los nmeros del 1 al N, colocarlos dentro de un sombrero,
y seleccionar uno a uno, los n elementos que conformarn la muestra.
Otro procedimiento un poco ms moderno para hacer el sorteo, es mediante la
tabla de nmeros aleatorios, la cual se construye seleccionando con reemplazo
los dgitos del 0 al 9, y segn vayan apareciendo se colocan en filas y columnas.
Con la aparicin de las calculadoras electrnicas esta tabla cay en desuso, y hoy
en da, el procedimiento ms usado es el de la generacin de nmero aleatorios,

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

20

que consiste en un sorteo simulado, en donde se le pide a la calculadora que


genere nmeros enteros al azar entre 1 y N, y a travs de un algoritmo interno, la
calculadora lo selecciona segn una distribucin uniforme discreta.
Paso 4: Una vez seleccionados los nmeros que conforman la muestra, debemos
ir a los elementos de la poblacin identificados con esos nmeros, y medir o
preguntarles el valor de la variable estadstica asociada a cada uno de ellos.
Es importante destacar que el nmero de muestras posibles en un muestreo
N!
N
aleatorio simple es =
, y que al ser cada una igualmente probable, la
n!
(Nn)!
n
1
probabilidad de seleccionar una de ellas en particular es N
n

Por ejemplo, si el universo est formado por los 5 elementos {a, b, c, d, e}, y se va a
5!
5
= 10 muestras
tomar una muestra de 2 de ellos, entonces existen =
2! 3!!
2
posibles, que son {ab, ac, ad, ae, bc, bd, be, cd, ce, de}, y la probabilidad de
seleccionar cualquiera de ellas es 1/10
Segn sea el parmetro que se quiera estimar en la poblacin, debemos distinguir
entre "Muestreo aleatorio para Variables, "Muestreo aleatorio para Proporciones
y Porcentajes, Muestro aleatorio para Razones
III.1 Muestreo Aleatorio para Variables:
En este caso, la poblacin est formada por un conjunto de valores numricos
asociados a cada uno de los elementos del universo; tal como puede ser un grupo
de personas, en donde estamos observando el peso de cada uno de ellos, o un
conjunto de residencias que cada una tiene un nmero variable de habitantes, o
una produccin de cigarrillos, en donde cada uno tiene una longitud, o un
dimetro distinto.
La variable estadstica en este caso es cuantitativa, y la poblacin est formada
por el conjunto de valores numricos que ella toma sobre cada uno de los
elementos del universo.
La nomenclatura seguir es la siguiente:
N = Tamao de la Poblacin
Poblacin = {x1 , x2 , x3 , xN }
xi = Valor de la variable estadstica asociado al i-simo elemento de la poblacin
(i=1, 2,3...N); Cada x i es un nmero real
=

i=N

x
i=1

= Total Poblacional.

i =n

=
= Media Poblacional.
N
N

i =i

Muestreo Aleatorio
Angel Francisco Arvelo
i =N

(y

2 =i=1

Pag.

21

)2

= Varianza Poblacional.

n = Tamao de la muestra.
Muestra= {y1 , y2 , y3 , yn }

yj = Valor de la variable estadstica asociado al j-simo elemento de la muestra


(j=1, 2,3...n)
j =n

y=

y
j =1

= Media muestral = = Estimador de

T = = N y = Estimador de
j =n

s =
2

(y
j =1

y)2

n 1

= Varianza muestral = = Estimador de 2

n
f=
= Fraccin de muestreo.
N

La notacin convencional en muestreo consiste en designar a los parmetros


poblacionales con letras griegas, mientras que a sus correspondientes
estimadores mustrales con letras latinas.
Cabe destacar que se emplean diferentes letras, y para designar a los valores
mustrales , x para los poblacionales, puesto que estos no tienen por qu
coincidir; de hecho por ejemplo ,el dcimo elemento de la poblacin puede no
salir en la muestra, o si sale, puede ser que ocupe otro lugar.
Usualmente los valores poblacionales son desconocidos, puesto que para
conocerlos habra que conocer los valores numricos asociados a cada uno de
los elementos de la poblacin, lo que dejara al muestreo sin sentido.
Los parmetros poblacionales a estimar suelen ser la media poblacional y / o, el
total poblacional.
En lo que se refiere a los valores mustrales, estos son conocidos para la muestra
tomada, pero deben ser vistos como valores particulares de una variable
aleatoria; puesto que el valor que ellos toman, depende obviamente de los
elementos que formen la muestra, los cuales se seleccionan aleatoriamente.
Una vez tomada la muestra, es posible definir intervalos de confianza tanto para
la media poblacional, como para el total poblacional, los cuales vienen dados por
las siguientes expresiones:
z/2
Intervalo de confianza para : y

Intervalo de confianza para :

1 f

N N z/2

1 f

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

22

z/2 = Abscisa que en la Normal Tipificada deja a la derecha un rea /2

El valor de z /2, depende del nivel de confianza (1-) deseado, siendo los ms
frecuentes 90%, 95% o 99% de confianza, para los cuales el valor de z /2 puede
ser ledo en las tablas de La Distribucin Normal, encontrndose:

z/2

Confianza
90 %
95 %
99 %

1,645
1,960
2,576

Figura N 5: Abscisas de la Distribucin Normal para un nivel de confianza dado

Es costumbre que los intervalos de confianza sean simtricos y que por lo tanto el
riesgo se reparta por mitad entre las dos colas de la Distribucin Normal.
El trmino sin multiplica por la abscisa z /2 , se suele llamar el error estndar de
la estimacin, mientras que una vez multiplicarlo por la abscisa, representa el
error de muestreo para el nivel de confianza establecido.

As por ejemplo
1 es el error estndar en la estimacin de , mientras
que z/2

1 f representa el radio del intervalo de confianza, es decir el

margen de error tolerado, para un nivel del (1-) de confianza


Un comentario importante en las expresiones para el intervalo de confianza es el
que se refiere a la relacin entre el radio del intervalo y el nivel de confianza.
Fcilmente se puede observar que cuanto mayor sea la confianza, mayor ser el
radio del intervalo, y viceversa; lo cual es completamente lgico, pues si al hacer
un disparo sobre un blanco, queremos aumentar la probabilidad de acierto, se
debe aumentar el radio del blanco.

Ejemplo: Una de las reas en donde las tcnicas de muestreo han encontrado un
gran campo de aplicacin, es en las auditoras contables.
En efecto, as como el contador debe preocuparse para que las cuentas cuadren
al cntimo, el auditor debe certificar que el estado financiero refleja cifras crebles,
y en este sentido, el muestreo constituye una herramienta muy til, pues si la cifra
dada en el estado financiero cae dentro del intervalo de confianza obtenido por
muestreo, el auditor puede validar esa cifra, sin necesidad de examinar la
totalidad de documentos.
Consideremos el siguiente caso: Se quiere estimar el monto total de las ventas de
una empresa durante un periodo de tiempo dado. Existen 32.500 facturas de
venta emitidas durante ese lapso.
Una muestra aleatoria simple de 100 facturas los siguientes montos expresados
en unidades monetarias:
1.565,81
1.272,97
1.589,60

1.681,15
2.160,39
2.554,25

1.569,50
1.426,80
2.145,41

2.179,82
1.797,69
2.387,37

1.448,19
1.572,99
1.966,96

3.202,97
1.151,57
999,62

1.791,71
2.326,23
1.415,03

1.652,48
2.722,45
1.652,15

1.538,34
1.618,40
1.810,55

2.225,79
1.565,78
1.554,80

Muestreo Aleatorio
Angel Francisco Arvelo

1.712,11
2.120,34
1.164,33
1.894,14
2.130,09
948,98
1.077,25

2.413,25
1.781,19
1.819,62
1.772,66
2.095,72
1.587,10
876,39

Pag.

2.085,90
2.530,04
782,58
1.192,46
2.239,11
1.900,94
1.628,44

1.599,76
1.662,57
2.476,30
2.362,04
1.960,13
2.428,22
1.150,14

2.393,09
1.956,70
1.942,82
1.877,08
1.593,56
1.727,20
2.565,92

1.443,49
2.081,10
2.166,43
2.002,05
1.398,05
778,04
1.061,72

1.967,46
1.494,16
817,62
1.793,70
1.832,01
2.098,32
842,67

1.944,56
1.099,40
1.132,65
2.249,14
1.467,12
1.209,68
2.091,25

1.098,63
2.428,79
1.671,05
1.546,75
1.372,94
2.797,18
1.825,83

23

1.928,56
1.681,24
2.342,90
674,06
1.719,57
2.363,02
2.389,28

Para inferir en base a esta muestra el monto total de las ventas (Total poblacional)
hay que calcular la media y la desviacin estndar de la muestra, que dan por
resultado: y = 1.776,90; s = 505,35
En base a esta informacin, el intervalo del 95% de confianza para el monto
promedio de estas 32.500 facturas resulta ser:
1.776,90 1,96

505,35
100

100

32500

= 1.776,90 98,90

Mientras que para el total poblacional, el intervalo del 95% de confianza es:
32500 x 1.776,90 32500 x1, 96

505,35
100

100

32500

= 57.749.250,00 3.214.123,25

Esto significa que con 95% de confianza, se puede afirmar que las ventas totales
estn dentro del intervalo [54.535.126,75; 60.963.373,25], de manera que si
estado financiero reporta un monto comprendido dentro del intervalo, el auditor
considerar aceptable esta cifra, caso contrario har una investigacin ms
exhaustiva.
3.214.123,25 representa el error absoluto en la estimacin, mientras que
(3.214.123,25/ 57.749.250,00) 100% = 5,57% el error relativo
Ejemplo: De un lote de 10.000 pilas, se tom una muestra de 25, y se observ su
duracin en horas, encontrndose los siguientes resultados:
Duracin
Frecuencia
(horas)
10-40
2
40-70
4
70-100
8
100-130
5
130-160
6
Obtngase un intervalo del 95% de confianza, para la duracin media de las pilas
del lote.
Solucin:
En primer lugar, es necesario calcular la media y la desviacin
estndar de la muestra.
Estas resultan ser: y = 95,80 s= 37,63
Se tiene n = 25, y Z 0.025 = 1,96 para 95% de confianza
Reemplazando, se obtiene que el intervalo del 95 % de confianza para es:
37,63
25
95,80 1,96
= 95,80 14,73 = [81,07; 110,53]
1
10000
25

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

24

Determinacin del tamao de la muestra: En la estimacin de parmetros a


travs del muestreo, la pregunta clave siempre suele ser el tamao de la muestra
que es necesario tomar.
Responder esta pregunta no es fcil, y para ello, es necesario definir con
anterioridad dos conceptos:
Cuando se va a estimar un parmetro desconocido, como lo es , a travs de un
valor aleatorio muestral, como lo es y , no podemos esperar que ambos coincidan,
y por lo tanto aparece un error de estimacin definido por la diferencia absoluta
entre ellos.
Tenemos entonces que: Error absoluto de estimacin = | y - |
Evidentemente, este error de estimacin es una medida de la precisin del
muestreo, y cuanto menor sea el error que estamos dispuestos a aceptar, mayor
ser el tamao de la muestra; hasta el punto, que si no estamos dispuestos a
tolerar ningn error, no nos quedar ms remedio, que hacer un censo de la
poblacin.
El mximo error que estamos dispuestos a tolerar, lo designaremos por "", y
representa entonces, la precisin con que estamos trabajando en el muestreo.
= Error mximo tolerado = Max | y - |
Es frecuente, que en lugar de definir al error en trminos absolutos, tal como se
hizo anteriormente, se haga en trminos relativos, dividiendo al error absoluto
entre el verdadero valor del parmetro, y expresndolo en trminos porcentuales:
Error relativo en la estimacin de = % =

100%

Fijar el error mximo que estamos dispuestos a tolerar, no basta para poder
calcular el tamao de la muestra, porque siendo sta aleatoria, siempre
tendremos un cierto riesgo de que este formada por elementos extremos, que nos
lleven a una falsa inferencia; es por ello, que el otro trmino que hace falta fijar,
para poder definir el tamao de la muestra, es el riesgo del muestreo, que se
define como la probabilidad de tomar una muestra que nos haga cometer un error
de estimacin mayor que el mximo tolerado; es decir:

= Riesgo del muestreo = P( | y - | > )

Figura N 6: Confianza en la estimacin de una media poblacional

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

25

Es tambin evidente, que cuanto menor sea el riesgo que estemos dispuestos a
correr, mayor ser el tamao de muestra necesario, y que en el caso =0, se
necesitar un censo, es decir: n = N.
Usualmente el riesgo se fija en 1%, 5% o 10%.
Una vez definido el error mximo tolerado, y el riesgo del muestreo, el tamao de
la muestra puede ser calculado mediante la aplicacin de la siguiente frmula:
2
N z/2
2
n= 2 2
z/2 + (N 1) 2

En donde:
N = Tamao de la poblacin.
2= Varianza Poblacional.
= Mximo error absoluto tolerado.
= Riesgo del muestreo
z /2 = Abscisa que en la normal estndar deja a la derecha un rea "/2".
Con relacin a la frmula anterior, es importante hacer las siguientes
observaciones:
a) Una de las creencias ms arraigadas, es la de pensar que para un nivel de
riesgo y de error fijos, el tamao de muestra es siempre un porcentaje fijo de la
poblacin. La frmula anterior, nos muestra que esta creencia es falsa, puesto
que si graficamos la forma como varia el tamao de muestra al variar el tamao
de la poblacin, manteniendo fijos el error tolerado, y el riesgo, encontramos una
curva como la siguiente:

En esta curva podemos fcilmente ver, que el tamao de muestra no crece


linealmente con el tamao de poblacin; por el contrario, crece mucho ms
lentamente, hacindose asinttica a la recta horizontal:
=

z2/2 2
2

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

N z2/2 2

26

z2/2 2

Debido a que : lim 2 2


=
z/2 +(N1) 2
2
lo que nos indica que en una poblacin infinita, no necesitamos una muestra
infinita.
Es aqu donde radica la gran importancia del muestreo, puesto que cuanto mayor
es la poblacin, ms econmico es el muestreo en comparacin con el censo;
mientras que en poblaciones pequeas, es posible que la muestra represente una
proporcin muy apreciable de ella.
Una consecuencia prctica de este resultado es que cuando en una poblacin no
sabemos exactamente cul es su tamao, perfectamente podemos suponer que
es infinita, y esto no ocasionara un incremento significativo en el tamao de
muestra requerido
b) La segunda observacin que es necesario plantear, con relacin a la frmula
para obtener el tamao de muestra, es la que se refiere al desconocimiento
acerca del valor de la varianza poblacional 2 ; en efecto, todos los trminos que
intervienen en la frmula : N, z /2 y son conocidos o fijados, a excepcin de 2, el
cual ni se conoce , ni se podr conocer, puesto que para calcularla, sera
necesario conocer los valores numricos de la poblacin, lo cual obviamente,
dejara sin objetivos al muestreo.
Este detalle hace que no exista una solucin matemticamente exacta para
resolver el problema del tamao de muestra, y que la solucin sugerida a
continuacin, solo nos brinde una aproximacin.
En la seccin anterior vimos la conveniencia de realizar muestras preliminares o
pilotos, para detectar de manera temprana posibles errores en el diseo de la
encuesta. Este tipo de muestras tambin pueden ser utilizadas para obtener una
estimacin preliminar de 2 , que sustituida dentro de la frmula del tamao de
muestra, dar una solucin aproximada al problema.
La estimacin preliminar de 2 a partir de la muestra piloto, puede hacerse a
travs del su varianza muestral s2, o como sugieren algunos autores, estimando
tomando la cuarta parte del rango de la muestra piloto (el rango es la diferencia

entre el mayor y el menor valor de la muestra), es decir: =


4
Sin embargo, ahora aparecen dos nuevas preguntas, que no estaban planteadas
inicialmente, que son: de qu tamao debe ser esta muestra piloto? , y
Qu garanta tenemos de que la estimacin hecha de 2, a travs de s2, o a
travs del rango de la muestra piloto, es satisfactoria?
Lamentablemente, la solucin a toda esta problemtica nos conduce a un proceso
iterativo de ensayo y error, que comienza asumiendo un tamao de muestra
piloto, que no debera exceder del 1% del tamao de la poblacin, o del 0,5% en
el caso de poblaciones grandes; una vez tomada esta primera muestra piloto, se
estima el valor de 2, y se calcula "n.
Si este valor de nsi resulta inferior al de la muestra piloto nos indica que con esta
basta, y si resulta mayor, es necesario completar la muestra, hasta que al
recalcular el valor de "n, el tamao resulte igual o menor que el tomado.
La siguiente grfica resume la metodologa a seguir:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

27

Figura N 6: Etapas en la investigacin por muestreo

Para ms detalle sobre estas etapas, se recomienda ir a la seccin I.4


c) Una tercera observacin con relacin a la frmula del tamao de muestra, es la
que se refiere a la seleccin del "" (error mximo tolerado), el cual tiene que ser
fijado en trminos absolutos, para poder ser sustituido en la frmula.
Obviamente la fijacin de un "" inadecuado, redundar negativamente en el
tamao de muestra a tomar, puesto que si "" es muy grande entonces el
muestreo ser impreciso y la estimacin ser poco confiable, y si "" es muy
pequeo, entonces el tamao de muestra resultar gigantesco, aproximndose
casi a un censo, perdiendo as las ventajas del muestreo.
Mucho ms prudente, es fijar el error mximo tolerado en trminos relativos, es
decir como un porcentaje del parmetro a estimar; pero a la hora de sustituir
dentro de la frmula, ste debe ser absoluto, y entonces se plantea la pregunta de
cmo calcularlo, si ignoramos el verdadero valor del parmetro.
Es decir, si por ejemplo, decimos que la estimacin de la media poblacional, debe
ser con un error mximo del 5%, entonces estamos diciendo = 0,05 , pero "" lo
ignoramos, y entonces cmo lo sustituimos dentro de la frmula?
Esta situacin se resuelve, fijando el error mximo tolerado en trminos relativos,
y a la hora de tomar la muestra piloto, entonces se utiliza el valor estimado del
parmetro, que en el caso de la media poblacional sera, la media de la muestra
piloto, para calcular el error mximo tolerado, en trminos absolutos, el cual es
sustituido dentro de la frmula del tamao de muestra, a lo fines de determinar si
la muestra piloto fue insuficiente o no.
Por supuesto, que ahora se plantea un nuevo elemento en la iteracin, puesto
que cada vez se complete la muestra, se necesita recalcular el valor estimado del
parmetro, y por ende, del error mximo tolerado en trminos absolutos.
Ejemplo: En un lote de 20.000 bombillos, se quiere estimar su duracin media con
un error mximo del 1%, y un riesgo del 5%. Si una muestra piloto de 50
bombillos, arroj una duracin media de 5.200 horas, con una desviacin tpica de
350 horas.
a) Qu tamao de muestra se necesita?
b) Si la nueva muestra anterior arroja una duracin media de 5640 horas con una
desviacin tpica de 320 horas, es suficiente con esa muestra?
c) Obtenga un intervalo del 95% de confianza, para la duracin media del lote
Solucin:
a) Tomando la informacin de la muestra piloto, tenemos que = 350 = 5200
Adems = 1% de 5200 = 52 horas, z /2 = 1,96

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Sustituyendo encontramos: =

20000 1,962 3502

1,962 3502 + 19999 522

28

= 172,54

Es decir, que se necesita una muestra de 173 bombillos.


Como la muestra piloto era de solo 50 bombillos, es necesario examinar 123
adicionales (en teora deberan ser otros 173 bombillos)
b) Con la informacin de la nueva muestra se tiene: que = 320 = 5640
Adems = 1% de 5640 = 56,40 horas, z /2 = 1,96
Sustituyendo encontramos: =

20000 1,962 3202

1,962 3202 + 19999 56,402

= 122,91 < 173

Esto significa que la muestra con n= 173 es suficiente.


Si n hubiese resultado mayor que 173, en teora se debera continuar iterando,
pero en la prctica se suele detener el proceso aqu, a pesar de que la estimacin
va a resultar con un margen de error mayor que el previsto.
c) El intervalo de confianza para ser entonces
5640 1,96

320

173

173

20000

= 5640,00 47,48

En caso de que el parmetro a estimar, sea el total poblacional, la frmula anterior


del tamao de muestra, y los procedimientos iterativos descritos, siguen teniendo
vigencia, pero distinguiendo dos casos:
Caso 1. Si el error mximo tolerado para estimar al total poblacional esta fijado
de manera relativa, la frmula para el tamao de muestra se aplica sin
modificaciones, pues estimar al total poblacional con un determinado porcentaje
de error equivale a estimar la media poblacional con ese mismo porcentaje de
error.
Caso 2. Si el error mximo tolerado para estimar al total poblacional esta fijado
de manera absoluta, la frmula para el tamao de muestra se aplica pero
tomando al error absoluto para el total poblacional dividido entre el tamao de
poblacin. Esta modificacin se debe a que en la dicha frmula para el tamao de
muestra, representa el error tolerado en la estimacin de , no en la

estimacin de , y =

Ejemplo N2: En un almacn en donde existen 5000 objetos diferentes, se quiere


estimar el valor total de ellas, con un error no mayor del 5%, y un nivel de riesgo
del 10%.
Una muestra piloto de 20 piezas seleccionadas al azar arroj los siguientes
valores, segn la opinin de un perito auditor:
134
276
784
756
503
1076
432
178
675
987
654
860
906
398
187
1655
543
765
534
610
a) Calcule el tamao de la muestra que es necesario tomar.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

29

b) Si la muestra calculada anteriormente da una media de Bs. 685, con una


desviacin tpica de Bs. 346. Cree Ud. que la muestra tomada fue suficiente?
c) Encuentre un intervalo del 90% de confianza para el valor total de las piezas
almacenadas.
Solucin: a) En primer lugar, es necesario estimar , y para ello tenemos dos
opciones, a partir de la desviacin estndar de la muestra, o a partir de la cuarta
parte del rango.
Si lo hacemos a partir de la desviacin estndar de la muestra: = s= 359,81
Si lo hacemos a partir de la cuarta parte del rango: =

1655134
4

= 380,25

Cuanto mayor sea , mayor ser el tamao de muestra requerido, por lo tanto si
se quiere un clculo de n que evite futuras iteraciones, se deber tomar la
estimacin mayor, en este caso =380,25
Hay que calcular tambin la media de la muestra piloto = = 645,65
Adems N = 5000 = 5% de 645,55 =32,28, z /2 = 1,645 para 90 % de confianza
Ntese que a pesar de que se desea estimar un total poblacional, se procede de
la misma manera como si se tratara de una media poblacional. Esto es debido a
que estimar un total poblacional con un error relativo del 5% es equivalente a
estimar la media poblacional con ese mismo error relativo

5000 1,6452 380,252

1,6452 380,252 + 4999 32,282

= 349,23 > 20 la muestra piloto fue insuficiente

b) Si tomada ahora la muestra con n= 350 objetos, se encuentra =346


= 685, se tiene entonces = 5% de 685= 34,25, y sustituyendo:

5000 1,6452 3462

1,6452 3462 + 4999 34,252

= 261,76 < 350 la muestra es suficiente

c) El intervalo del 90% de confianza para el total poblacional resulta:


5000 x 685 5000 x 1,645

346

350

350

5000

= 3.425.00, 00 146.696,40

III.2 Muestreo Aleatorio para proporciones y porcentajes:


En numerosas oportunidades, el parmetro que se quiere estimar, es el
porcentaje de elementos que en una poblacin determinada, poseen una cierta
caracterstica o atributo.
Este atributo puede ser cualquier cualidad que divida al universo en dos
categoras, los que lo poseen, y los que no lo poseen; como por ejemplo, un
universo de piezas que pueden ser clasificadas como buenas o defectuosas, o un
universo de consumidores que prefieren o no prefieren una cierta marca.
En tales casos, es posible aplicar el muestreo aleatorio simple, tomando por
supuesto, la muestra de la misma manera como se describi al principio, con
igualdad de chance para todas las muestras posibles.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

30

Este caso es un caso particular del anterior por variables. En efecto, en el


muestreo por variables, la poblacin est constituida por un conjunto de valores
numricos {x1 , x2 , x3 , xN } en donde cada x i es un nmero real cualesquiera.
En el muestreo por atributos:
0 ; si el i-simo elemento de la poblacin no posee el atributo
xi =
1 ; si el i-simo elemento de la poblacin posee el atributo
La nomenclatura a seguir es la siguiente:
N = Tamao de la poblacin.
= Total de elementos que en la poblacin, poseen una cierta caracterstica.

= = Proporcin de elementos con la caracterstica, en la poblacin.


N

n = Tamao de la muestra.
t = Total de elementos que en la muestra, poseen una cierta caracterstica.

p = = Proporcin de elementos con la caracterstica, en la muestra.

= = Fraccin de muestreo
N

En vista de que los x i de la poblacin son ceros o unos, y los y i de la muestra


tambin, el total poblacional =

i=N

x
i=1

resulta ser el nmero de unos existentes en

la poblacin, pues evidentemente una suma de ceros y unos da por resultado el


total de unos, es decir el total de elementos con el atributo en la poblacin,
i =n

mientras que t = y i representa el nmero de elementos con el atributo


i=1

presentes en la muestra.
Con este simple argumento, resulta fcil caer en cuenta, que en el muestreo por

atributos, desempea el papel de , mientras que p el de


Los parmetros a estimar por muestreo, suelen ser "" y/o , siendo sus
correspondientes intervalos de confianza:
Intervalo del (1-) de confianza para ": z/2

p(1p)
n1

Intervalo del (1-) de confianza para: Nz/2

1 f

p(1p)
n1

1 f

Ejemplo: Si de un lote de 7.000 piezas, se toma una muestra aleatoria de 150


piezas, encontrndose 12 defectuosas. Halle un intervalo del 95% de confianza,
para el porcentaje de defectuosas, y para el total de defectuosas en el lote.

Muestreo Aleatorio
Angel Francisco Arvelo

Solucin: =

12

150

Pag.

31

= 0,08 N = 7000 z0,025 = 1,96 n= 150


(0,08) (0,92)

Intervalo para ": 0.08 1,96

149

7000

150

7000

= 0,0800 0,0431

Es decir, que con 95% de confianza, se puede afirmar que el porcentaje de


defectuosos en el lote est entre 3,69% y 12,31%
Intervalo

para

:7000

(0.08)

(1,96)

(0,08) (0,92)

149

150

7000

580 301,70
Es decir, que con 95% de confianza, se puede afirmar que el nmero
defectuosos en el lote est entre 278 y 882

=
de

Determinacin del tamao de la muestra en muestreo para proporciones y


porcentajes:
Los conceptos anteriormente definidos de error y riesgo, siguen siendo necesarios
en este tipo de muestreo, sin embargo, como este caso el parmetro a estimar es
", tenemos que:
Error de estimacin = | p - |
Error mximo tolerado = = Mxima diferencia tolerada de | p - |
Riesgo = = Probabilidad (| p - | > )

Es importante aclarar, que en este tipo de estimacin jams se trabaja con errores
relativos; siempre que se d un error, este debe interpretarse como absoluto.
As por ejemplo, cuando decimos que se quiere estimar el porcentaje de votos
que va a obtener un candidato en unas elecciones, con un error del 1%; este 1%
debe interpretarse como la diferencia absoluta, entre la estimacin hecha, y el
verdadero porcentaje de votos a favor del candidato.
Una vez definido el error mximo tolerado y el riesgo, el tamao de la muestra
puede ser calculado mediante la aplicacin de la siguiente frmula:
2
/2
(1 )
=
2
( 1) 2 + /2
(1 )
Para poblaciones infinitas, el tamao de muestra requerido resulta ser:
2
2
/2
(1 )
/2
(1 )
= lim
=
( 1) 2 + 2 (1 )
2
/2

Nuevamente aqu, se presenta la misma situacin descrita antes, ya que como el


valor de "", es desconocido, el mismo debe ser estimado a travs de una
muestra piloto, lo que conduce a un proceso iterativo, que consiste en ir
completando la muestra, hasta que al recalcular el valor de "n", se obtenga un
valor igual o menor al ya tomado.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

32

Es importante aclarar sin embargo, que en caso de la estimacin de proporciones


y porcentajes, existe un artificio para obviar la muestra piloto, ya que
matemticamente, puede demostrarse que para un tamao de poblacin dado
"N", el valor mximo del tamao de muestra corresponde al caso =0,50, lo que
da por tamao mximo:
2
/2
=
2
4 ( 1) 2 + /2

de forma, que si el investigador, sospecha que el valor de "" est cercano al


50%, puede tomar de una vez el mximo tamao de muestra, sin necesidad de
tomar muestra piloto.
En caso de que el investigador sospeche que el valor de "" est muy alejado del
50%, se justifica tomar las muestras piloto y el proceso iterativo, ya que tomar de
entrada la muestra mxima, puede resultar antieconmico, debido a que
posiblemente, est tomando una muestra triple o cudruple, de la que realmente
necesita.
El tamao de la muestra mxima para poblaciones infinitas es: =

2
/2

4 2

, y

representa el tamao ms desfavorable, para un error tolerado y un nivel riesgo


dado.
Otra opcin es el de establecer a criterio, o por opinin de expertos, un intervalo
donde se piense que debe estar , y sustituir dentro de la frmula aquel, que
dentro del intervalo se encuentre ms cercano a 0,5. As por ejemplo, si se
piensa que debe estar entre 20% y 35%, 0,20 0,35, entonces sustituimos
dentro de la frmula el valor de ms desfavorable, es decir =0,35; pero si se
sospecha que debe estar entre 40% y 60%, 0,40 0,60, entonces
sustituimos dentro de la frmula el valor de ms desfavorable, es decir =0,50
Resumiendo: Para calcular el tamao de muestra en el caso de proporciones y
porcentajes, se puede aplicar uno de los siguientes criterios:
1o) Criterio de la muestra mxima: Consiste en sustituir dentro de la frmula se
por 0,5, y obtener el mximo tamao de muestra requerido para el nivel de
riesgo y error permisible. Si se toma ese tamao de muestra se obtiene siempre
una solucin vlida para el problema.
2o) El criterio anterior puede resultar antieconmico cuando se sospeche que
anda muy alejado de 0,5, bien cercano a 0 o cercano a 1. En estos casos se
recomienda tomar una muestra piloto, que adems de evaluar el diseo de la
encuesta, permita obtener una estimacin preliminar de . Este procedimiento
presenta el riesgo de que puede requerir aproximaciones sucesivas, y a tener
que tomar otras muestras piloto.
3o) Otro criterio es el de establecer un intervalo donde se sospeche debe estar
, y sustituir dentro de la frmula aquel, que dentro del intervalo se encuentre
ms cercano a 0,5. Este procedimiento permite ahorrar recursos al tomar una
muestra menor que la mxima, pero puede requerir futuras iteraciones, en caso
de una sospecha errnea acerca del intervalo seleccionado.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

33

En caso de que el parmetro a estimar, sea el total de elementos con la


caracterstica en la poblacin , las frmulas y criterios para hallar el tamao de
muestra requerido son los mismos anteriores, pero teniendo en cuenta que el
error tolerado en la estimacin de , debe ser dividido entre "N", a fin de
reducirlo, a un error tolerado en la estimacin de ".

Ejemplo: Se quiere estimar el porcentaje de defectuosas en un lote de 50.000


piezas, con un error no mayor del 2%, y 5% de riesgo.
a) Qu tamao de muestra se necesita?, en cada uno de los siguientes casos:
a.1) El experto en calidad opina que segn su experiencia, el porcentaje de
defectuosos en estos lotes suele ser entre 3% y 6%
a.2) En una muestra piloto de 80 piezas se encontraron 10 defectuosas
a.3) Muestra mxima
b) Si en la muestra calculada en a.2, se encuentran 7% de defectuosas,
determine un intervalo del 95% de confianza, para el porcentaje de defectuosas
en el lote.
Solucin:
a.1) En el caso de la opinin del experto, se toma como valor de para ser
sustituido dentro de la frmula, aquel dentro del intervalo que proporcione un
mayor tamao de muestra, que es aquel valor ms prximo a 0,5., en este caso
6% = 0,06
Se tiene entonces N= 50000, z /2 = 1,96, = 0,02 y sustituyendo:
50000 (1,96)2 (0,06)(0,94)
= 536 piezas
+(1,96)2 (0,06)(0,94)

= (49999)(0,02)2

Este clculo de n presenta el inconveniente que si al tomar la muestra, la


proporcin de defectuosos contradice la opinin del experto, y resulta superior al
6%, entonces el error de estimacin va a resultar mayor que el tolerado 0,02, y
por lo tanto la muestra de 536 ser insuficiente
a.2) La estimacin de segn la muestra piloto es
sustituyendo: =

50000 (1,96)2

(0,125)(0,875)
= 1029 piezas
(0,125)(0,875)

(49999)(0,02)2 +(1,96)2

10

= 0,125, y

80

Este clculo de n presenta el inconveniente que si al tomar la muestra definitiva,


la proporcin de defectuosos contradice la estimacin de la muestra piloto, y
resulta superior al 12,5%, entonces el error de estimacin va a resultar mayor que
el tolerado 0,02, y por lo tanto la muestra piloto de 1029 ser insuficiente.
a.3) Para tomar la muestra mxima, basta con hacer
= 0,50 que representa el
caso ms desfavorable en cuanto a tamao de muestra necesario

2
/2

2
4 (1)2 +/2

50000 (1,96)2
= 2291 piezas
4 (49999)(0,02)2 +(1,96)2

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

34

Este clculo no puede resultar jams insuficiente, pero tiene el inconveniente en


caso de que el verdadero valor de est muy alejado del 50%, sobre estima el
tamao de muestra requerido, con el desperdicio de recurso que eso conlleva.
Como se ve, cada uno de estos tres criterios para calcular el tamao de muestra
presenta sus pros y sus contras, y la decisin de cul de ellos aplicar depender
del investigador.
b) Si la muestra de n=1029 arroja p=
= 0.07, entonces el intervalo de 95% de
confianza para es:
(0,07) (0,93)

0.07 1,96

10291

1029

50000

= 0,0700 0,0154 = 7,00% 1,54 %

En error de muestreo resulto ser de 1,54 % < el 2 % tolerado, debido a que en la


muestra definitiva de n= 1029, el porcentaje de defectuoso result ser menor que
en la muestra piloto. De no haber sido as, el error de muestreo hubiese resultado
mayor que el tolerado, y en consecuencia la muestra de n= 1029 hubiese sido
insuficiente, cuestin esta que no puede ocurrir si de una vez se toma la muestra
mxima.
III.3 Muestreo aleatorio simple para razones:
En algunos estudios, la poblacin est formada por un conjunto de pares
{(1 , 1 ) (2 , 2 ) ( , )}, y el parmetro poblacional que se desea estima es:
R=

Este es el caso de un estudio en donde lo que se quiere estimar es por ejemplo


el ingreso per cpita en una localidad en donde residen N familias, y la unidad
de muestreo, es decir, lo que tiene igual probabilidad de ser seleccionado en la
muestra, es la familia no la persona.
Cada familia tendr un par (X, Y), en donde:
X= Nmero de personas que componen la familia
Y = Ingreso familiar
El ingreso per cpita en esa localidad viene dado por la sumatoria de todos los
ingresos dividido entre el total de personas residentes en la localidad.
Al tomar la muestra, caern en ella n pares, y el estimador de R es:

= =

mientras que el intervalo del (1-) de confianza para R resulta ser;

r z/2

1f
x n

2
n
2 n 2
n
1 yi 2r 1 xi yi +r 1 xi

n1

En aquellos casos donde el valor de sea una porcin de " , entonces el


valor de R representa la proporcin o el porcentaje que representa Y con
relacin a X. En estos casos, tanto Y como X deben estar expresados en las
mismas unidades.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

35

Por ejemplo, si en el par (X, Y), Y representa el gasto que una familia dedica
mensualmente para alimentacin, y X representa el ingreso mensual de esa
familia; entonces R representa la proporcin de los ingresos familiares que son
destinados para alimentacin.
Ejemplo: (Tomado del texto "Tcnicas de Muestreo" de William G. Cochran, Pag.
58) La siguiente tabla, muestra el nmero de personas (Tamao), el ingreso
semanal ($) de la familia (Ingreso), y los gastos semanales ($) de la familia en
alimentacin (y).
Una muestra aleatoria de 33 familias tomada al azar en una gran ciudad arroj:
Tamao Ingreso Alimentacin
Tamao Ingreso Alimentacin
2
62
14.3
4
83
36.0
3
62
20.8
2
85
20.6
3
87
22.7
4
73
27.7
5
65
30.5
2
66
25.9
4
58
41.2
5
58
23.3
7
92
28.2
3
77
39.8
2
88
24.2
4
69
16.8
4
79
30.0
7
65
37.8
2
83
24.2
3
77
34.8
5
62
44.4
3
69
28.7
3
63
13.4
6
95
63.0
6
62
19.8
2
77
19.5
4
60
29.4
2
69
21.6
4
75
27.1
6
69
18.2
2
90
22.2
4
67
20.1
5
75
37.7
2
63
20.7
3
69
22.6
Totales: 123
2394
907.2
A partir de la muestra, se quiere estimar con 95%, los siguientes parmetros
poblacionales:
a) el promedio de gasto semanal en alimentacin por familia,
b) el gasto semanal en alimentacin por persona
c) el porcentaje de los ingresos familiares que son destinados a alimentacin.
Solucin: El caso a) es claramente una estimacin por variables, pues cada
familia tiene un solo valor numrico asociado, mientras que los casos b) y c) son
estimaciones de razn.
Las estimaciones puntuales obtenidas para estos tres parmetros, resultan:
907,2
907,20
907,20
a) =
= 27.49 $/familia, b) 1 =
= 7,38 $/persona, y c) 2 =
= 0,3789 o
33
123
2394
37.98% de los ingresos familiares son destinados a alimentacin.
Para obtener intervalos del 95 % de confianza, es preciso realizar los siguientes
clculos, donde x 1 = Tamao, x 2 = Ingreso, y= Alimentacin
33
33
33
2
2
2
2
33
=1 1 =533, =1 2 =177254, =1 = 28224, =1 1 =3595,5

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

36

2
33
=1 2 = 66678 En los tres casos, la fraccin de muestreo f se puede
despreciar, pues la poblacin se considera infinita.

Sustituyendo, se obtienen los siguientes intervalos de confianza:


33 2 33 2 2822433(27,49)2

=33( )2

a) 2 = =1
= =1
=
= 102,68 = 10,13
32
32
32
Intervalo del 95 % de confianza para el ingreso medio poblacional por familia Y :
27, 49 1, 96
b)
1 =

123
33

10,13

= 27, 49 3, 46

33

= 3,73

Intervalo del 95% de confianza para 1 =


7,38 1,96
2394

c)
2 =

33

3,7333

331

Intervalo del 95% de confianza para 2 =


1

1 1

28224 2(7,38)(3595,50)+(7,38)2 (533)

= 72,55

0,3789 1,96

72,5533

= 7,38 1.05

1 2

28224 2(0,3789)(66678)+(0,3789)2 (177254)

331

= 0,3789 0,0466

En conclusin, con 95% de confianza se puede afirmar que entre el 33,23% y el


42,55% de los ingresos familiares, se destinan para alimentacin
PREGUNTAS Y EJERCICIOS DE RECAPITULACION
1) Suponga que para seleccionar una muestra del universo de estudiantes en su
Facultad, se utiliza el siguiente procedimiento:
Se consigue la lista de la totalidad de asignaturas que se dictan, y de cada
asignatura se seleccionan al azar dos estudiantes.
Considera Ud. que la muestra resultante cumple con los requisitos para ser
considerada como aleatoria simple?, y en caso de que no lo sea, sugiera un
procedimiento para obtenerla.
2) Suponga que un universo est formado por las personas {, , , , } , cuyas
edades son {12,15,24,30,48} aos respectivamente, y que se va a tomar una
muestra aleatoria simple de 3 de ellos, a los fines de estimar la media poblacional.
a) Calcule el valor de y de 2, media y varianza poblacional respectivamente
b) Cuntas muestras diferentes es posible tomar?
c) Cul es la probabilidad de seleccionar cada una de estas muestras?
d) Calcule el valor de la media muestral para cada una de estas muestras
posibles
e) Halle el valor esperado de , y verifique que E ( ) = . Cmo se llama esta
propiedad?

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

37

e) Calcule ahora la varianza de la media muestral, y verifique que se satisface la


siguiente propiedad: Var ( ) =

3) En un estudio electoral, se quiere estimar el porcentaje de votos que va a


obtener un cierto candidato, en una determinada zona, en donde existen 30.000
viviendas. No se disponen datos acerca del nmero de familias extranjeras que
residen en la zona (los extranjeros no votan). A pesar de esto, se decidi tomar
una muestra aleatoria de 10 viviendas, encontrndose los siguientes resultados:
Familia N Habitantes Extranjeros Nios Votantes Votantes a favor
1
5
2
3
0
0
2
8
0
2
6
4
3
4
0
1
3
0
4
5
0
2
3
1
5
7
2
2
3
1
6
8
0
3
5
5
7
6
0
2
4
1
8
7
4
3
0
0
9
4
0
2
2
2
10
5
0
1
4
2
Obtenga intervalos del 95% de confianza para cada uno de los siguientes
parmetros poblacionales:
a) Porcentaje de votos a favor del candidato, calculado sobre la base de la
poblacin votante.
b) Nmero total de habitantes en la zona.
c) Porcentaje de extranjeros en la zona, calculado sobre la base de la poblacin
adulta.
d) Porcentaje de familias nacionales en la zona, asumiendo que las familias
nacionales son aquellas en donde no reside ningn extranjero.
4) En un estudio de mercado, se quiere estimar el nmero total de personas que
trabajan en una determinada zona de la ciudad, y que no poseen vivienda propia;
a fin de decidir acerca de la factibilidad de desarrollar una zona residencial
cercana.
El nmero total de trabajadores en la zona se estima en 32.000, y se quiere
realizar la estimacin con un error no mayor de 500 personas, y con 10% de
riesgo.
Una muestra piloto de 200 trabajadores arroj que 125 de ellos, no posean
vivienda propia.
a) Qu tamao de muestra debe tomarse, para cumplir los requisitos
establecidos?
b) Si en la muestra calculada anteriormente, se encuentra que el 70% de los
trabajadores no poseen vivienda propia. Construya un intervalo del 90% de
confianza para la demanda que tendra este desarrollo residencial.
Solucin: a) n= 2402 b) 22.400 473

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

38

5) En una determinada zona residencial donde existen 2.000 viviendas, se quiere


estimar el total de nios en edad escolar, a fin de establecer la capacidad mnima
que ha de tener la escuela.
Una muestra piloto efectuada entre 10 viviendas, dio los siguientes resultados:
Nios en edad escolar
0 1 2 3
4
Frecuencia
2 4 2 1
1
Si se quiere que la estimacin del total de nios en edad escolar realizada a
travs de un muestreo aleatorio simple, no difiera en ms de 100 del verdadero
valor, con un 95% de probabilidad.
Cuntas viviendas deben encuestarse como mnimo?
Solucin: n= 1106
6) En una fbrica, se quiere estimar el total de piezas que se encuentran en un
almacn. Estas piezas se encuentran dentro de cajas, que contienen un nmero
aleatorio de piezas. En total hay 100 cajas en el almacn.
Se toma una muestra aleatoria de 5 cajas, y se cuenta su contenido,
clasificndolas en piezas buenas y defectuosas. Los resultados fueron:
Caja N
Total de piezas
Piezas defectuosas

1
15
2

2
10
3

3
12
1

4
20
3

5
18
2

a) Construya un intervalo del 95% de confianza para el total de piezas


almacenadas.
b) Construya un intervalo del 95% de confianza para el porcentaje de piezas
defectuosas.
Solucin: a) 1500 352 b) (14.67 5.24) %
EJERCICIOS ESPECIALES
7) Un investigador desea estimar la resistencia media a la compresin de un
cierto material, y para tal fin, toma dos muestras de probetas de ese material, y
las ensaya, examinando su resistencia. Los resultados obtenidos para cada
muestra fueron:
n1 = 8
y1 = 5,4 Kgs/cm2.
s1= 0,6 Kgs/cm2.
n2 = 15
y2 = 4,8 Kgs/cm2.
s2= 0,4 Kgs/cm2.
Encuentre un intervalo del 95% de confianza, de la menor amplitud posible, y que
use la informacin contenida en las dos muestras, para la resistencia media de las
probetas preparadas con ese material.
Sugerencia: Deduzca frmulas para calcular la media y la varianza de la unin de
dos muestras, en funcin de las medias y las varianzas de cada una.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

39

8) Un fabricante de una nueva fibra sinttica, desea estimar la diferencia en


resistencia, entre su fibra con relacin a la fibra natural, con un error no mayor de
10 Kgs., y 0.05 de riesgo.
Mediante una muestra piloto, se sabe que la varianza en la resistencia de las
fibras, es de 1636 Kgs2, para la natural, y de 1892 Kgs2, para la sinttica.
a) Si se utiliza como estimador de la diferencia de resistencias, a la diferencia de
medias mustrales. Qu tamao de muestra se necesita tomar, suponiendo
tamaos iguales para cada tipo de cuerdas?
b) Si con el tamao de muestra calculado anteriormente, se obtuvo una
resistencia media de 272 Kgs., con una desviacin tpica de 38 Kgs, para la fibra
natural, y de 335 Kgs., con una desviacin tpica de 45 Kgs., para la fibra
sinttica. Construya un intervalo del 95% de confianza, para el incremento de
resistencia dado por la fibra sinttica.
Solucin: a) n= 136. b) (63.00 9.90) Kgs.

IV. MUESTREO ALEATORIO ESTRATIFICADO


Cuando la poblacin es muy heterognea (Presenta una varianza grande), las
estimaciones hechas con muestreo aleatorio simple suelen ser muy imprecisas,
pues concluyen en un intervalo de confianza muy amplio, o requieren un tamao
de muestra demasiado grande, lo que ocasiona que el estudio hecho por esta
metodologa resulte extremadamente costoso. En estos casos, conviene
estratificar a la poblacin.
La estratificacin consiste en una particin del universo en subconjuntos llamados
estratos, no necesariamente de igual tamao, de manera que cada elemento del
universo pertenezca a uno y solo a un estrato, y que adems, la unin de todos
ellos resulte igual al universo.
Criterios para la estratificacin

Hay L estratos, no necesariamente de


igual tamao

Cada elemento del universo pertenece


a uno y solo a un estrato, es decir,
la interseccin entre cualquier par
de estratos debe ser vaca:

La unin de todos los estratos es igual


al Universo

1 2 =
Figura N 7: Particin del Universo en Estratos

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

40

Tericamente, la estratificacin puede ser hecha por cualquier criterio que


satisfaga los criterios antes sealados; pero en la prctica, si se quiere obtener
una estimacin precisa utilizando esta metodologa, es necesario utilizar un
criterio que proporcione estratos que sean muy homogneos, es decir que la
varianza dentro de cada uno de ellos sea muy pequea.
Metodologa de muestreo: El principio bsico que se debe respetar al tomar una
muestra estratificada, es que cada muestra dentro de un mismo estrato debe ser
aleatoria simple, es decir, que dentro de cada estrato, las muestras deben
tomarse aplicando los principios de muestreo aleatorio simple, como si cada
estrato fuese una poblacin en s misma.
Lo anterior significa que todas las muestras posibles dentro de un mismo estrato
deben tener idntica probabilidad de ser seleccionadas, pero esto no implica que
esa probabilidad sea la misma, cuando se le compara con la de otro estrato.
Para tomar la muestra estratificada es necesario entonces contar con una lista
numerada de los elementos de cada estrato, y realizar el sorteo aleatorio o la
generacin de nmeros aleatorios ya descrita anteriormente, para configurar una
muestra en cada estrato, teniendo en cuenta que el tamao de muestra, y la
fraccin de muestreo para cada estrato podr ser diferente.
Al igual que el muestreo aleatorio simple, el estratificado puede ser utilizado en el
caso de variables, o en el caso de atributos.
IV.1 Muestreo estratificado para variables
En este caso, la nomenclatura a seguir es la siguiente:
L = Nmero de estratos
N i = Tamao del estrato i, i = 1, 2,, L
N = Tamao de poblacin = i=L
i=1 Ni
Ni

Wi =

= Factor de ponderacin o Peso del estrato i

Obviamente W 1 + W 2 + ..+ W L = 1
1 , 2 . , = Poblacin perteneciente al estrato i
=
= =1 = Total del estrato i
i =

2i

Ni

=
N

j=N

j=1 i xij
Ni

1 i (xij i )2
Ni

= Media del estrato i

= Varianza del estrato i

= =
= =
=1 = =1 =1 = Total Poblacional

= = 1 = 1 = =1 = Media Poblacional

Lo anterior significa que la Media Poblacional es la Media Ponderada entre las


medias de los diferentes estratos segn el peso de cada uno de ellos
n i = Tamao de muestra en el estrato i, i = 1, 2,, L
n = Tamao total de muestra = i=L
i=1 ni
1 , 2 . , = Valores que cayeron en la muestra del estrato i

Muestreo Aleatorio
Angel Francisco Arvelo

si2

j=n

j=1 i yij

ni

=n

Pag.

41

= Media muestral del estrato i

j=1 i (yij )2
ni 1

= Varianza muestral del estrato i

Aunque los parmetros a estimar en el muestreo estratificado pueden ser muy


variados, tales como diferencia entre medias de dos estratos, o diferencia entre
totales de dos estratos, aqu nos limitaremos al caso tradicional donde se quiere
estimar la Media Poblacional , y/o el Total Poblacional ", siendo sus
correspondientes estimadores:

= =
=

=1
= N

conocida como media muestral estratificada, corresponde a la media

ponderada entre las media mustrales de cada estrato.


Una vez tomada la muestra dentro de cada estrato, el intervalo de confianza para
cada uno de estos dos parmetros poblacionales resulta ser:

Para :
Para :

z/2 1

W2i S2i

L
N

N z/2 1

ni

(1

W2i S2i
ni

(1 i )
Ni

Ejemplo: Se quiere estimar la nmina de una organizacin que tiene en total 6500
empleados, pero dado que existen diferencias importantes entre sus sueldos,
segn sus responsabilidades, se decide estratificarlos en tres categoras: E 1
obreros, E 2 empleados administrativos y E 3 personal profesional, donde caen
1000, 5000 y 500 personas respectivamente.
Se tom una muestra de 50 obreros, 100 empleados administrativos y 20
profesionales, encontrndose una media mensual de $1200, $ 1800 y $ 4000, con
desviaciones tpicas de $180, $350 y $ 250 respectivamente.
En base a esta informacin, obtenga un intervalo del 95% de confianza para la
nmina mensual.
1000
5000
500
Solucin: Los pesos de cada estrato son: W 1 =
, W2 =
, W3 =

1000

6500

(1200) +

5000
6500

(1800) +

500

6500

6500

(4000) =1876,92

6500

6500

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

El intervalo del 95% para la nmina mensual " es:


6500(1876,92)(6500)(1,96)

10 2

65 (180)2
50

= 12.200.000,00 347.191,75

50

1000

50 2

65 (350)2
100

100

5000

5 2

65 (250)2
20

20

42

500

Criterios de estratificacin y coeficiente de variacin: No siempre el muestreo


estratificado proporciona resultados ms precisos que el aleatorio simple;
depende de la manera como se realice la estratificacin.
En efecto, si se analiza el error estndar en la estimacin de con muestreo
W2 S2i

estratificado, encontramos que este es L1 i


ni
muestreo aleatorio simple es

1 f

(1

) ; mientras que con

Al comparar estas dos expresiones, se puede fcilmente ver que en el muestreo


aleatorio simple, el error estndar depende de la varianza poblacional pues s2 es
el estimador de 2, mientras que en el estratificado depende de las varianzas de
cada uno de los estratos.
Debido a que 2 es una constante propia de la poblacin, lo anterior significa que
con el muestreo aleatorio simple, el investigador no tiene ningn poder para
reducir el error estndar salvo incrementando el tamao de la muestra, mientras
que con el estratificado, si se definen los estratos de manera que su variabilidad
interna resulte muy pequea, entonces a pesar de que exista una gran
variabilidad en la poblacin, la estimacin resultar muy precisa. De hecho, si se
lograra hacer una estratificacin tan perfecta en donde todos los elementos de un
mismo estrato fuesen iguales entre si y por tanto i 2 = 0 para todos los estratos,
entonces el error estndar seria 0.
Si por el contrario, la estratificacin se hace a travs de un criterio que arroje
estratos heterogneos, y por lo tanto i 2 resulte muy grande para cada estrato,
entonces lo que se habr logrado es un efecto contraproducente en la estimacin,
pues el error estndar resulta quizs tan grande como el correspondiente por
muestreo aleatorio simple, a pesar del trabajo adicional que representa la
estratificacin.
Si decide estratificar el investigador se encuentra ahora con el dilema de cmo
hacerlo, pues existen varias alternativas, puede por ejemplo estratificar por
regiones, estratificar por edades, estratificar por sexo, por niveles sociales, etc.
A la hora de decidir cul criterio utilizar, debe hacerse dos preguntas bsicas:
1. Se dispone o se puede obtener un listado que permita identificar a los
elementos de cada estrato?
2. Son esos estratos as definidos lo suficientemente homogneos como
para lograr una buena precisin en la estimacin?
Si la respuesta a la primera pregunta es negativa, entonces ese criterio de
estratificacin no es factible, debido a que no se podr tomar una muestra
aleatoria simple dentro de cada estrato.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

43

Si la respuesta es positiva, no necesariamente el criterio es adecuado, pues ahora


debe responder la segunda pregunta, y analizar si los estratos son lo
suficientemente homogneos, como para garantizar precisin.
La varianza dentro del estrato es una medida de su variabilidad, pero no basta
para medir su homogeneidad, pues se trata de una cifra dimensional cuyas
unidades son unidades cuadradas de la variable en estudio.
Una forma mucho ms efectiva para medir la homogeneidad de un estrato, es a
travs de su dispersin relativa o coeficiente de variacin, definido por:
i
C. Vi = Coeficiente de variacin del Estrato i = 100%
i

Este coeficiente tiene la ventaja de ser una cifra adimensional, libre de unidades,
que compara de manera porcentual, la magnitud de la desviacin estndar de un
estrato con su correspondiente media.
En trminos generales, podra decirse que un estrato con un coeficiente de
variacin de hasta 10% o 15%, podra considerarse bastante homogneo, y hasta
de 30% con una variabilidad aceptable.
Por supuesto, que nuevamente se presenta el ya conocido inconveniente de que
ni i , ni i son conocidos, pues al hacer la estratificacin se ignoran los
parmetros con que resultaran los diferentes estratos.
En este sentido, las muestras piloto representan una ayuda importante, pues ellas
nos pueden advertir acerca de la bondad del criterio de estratificacin utilizado.
Es perfectamente posible que despus de tomada la muestra piloto, adems de
corregir posibles errores en el diseo de la encuesta, se deba revisar el criterio de
estratificacin utilizado, pues estratos que inicialmente se crean homogneos, en
realidad no lo sean, o viceversa; y por lo tanto se deban subdividir estratos, o en
otros casos fundir estratos en uno solo, segn su heterogeneidad u
homogeneidad respectivamente.
En el ejemplo anterior, el coeficiente de variacin para cada estrato resulto ser:
180
350
Obreros:
100% = 15% ; Empleados:
100% = 19,44%
1200

Profesionales:

250

4000

1800

100% = 6,25 %

Dado que el estrato de empleados es el de mayor peso, y a la vez el de mayor


variabilidad, si la muestra tomada fuese una piloto, cabra preguntarse es posible
subdividir al estrato de empleados en dos nuevos estratos segn algn otro
criterio, como su antigedad?
Tamao de muestra requerido: Los conceptos de error de estimacin, de riesgo
y de confianza se mantienen en el muestreo aleatorio estratificado, y por lo tanto,

el error absoluto en la estimacin de la media poblacional es: |


- |
Mientras que 1- = Confianza = Probabilidad (|

- | )
Sin embargo, el clculo del tamao de muestra puede complicarse por que es
necesario calcular el correspondiente para cada estrato.
Es importante aclarar que cuando se fija un mximo error tolerado para el
parmetro poblacional, este mismo mximo error tolerado no aplica para cada

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

44

estrato individualmente; en otras palabras, exigir un error mximo tolerado de por


ejemplo 2% para media poblacional no implica estimar la media de cada estrato
con ese mismo 2% de error, pues perfectamente puede suceder que un estrato
tenga un peso muy bajo dentro de la poblacin, y un error grande en la estimacin
de su media no influya de manera significativa dentro de estimacin poblacional.
Por lo anteriormente explicado, el tamao de muestra para cada estrato no puede
ser calculado a travs de las frmulas de las secciones precedentes, como si
cada estrato fuese una poblacin aislada en s misma.
La manera como la muestra se reparte entre los diferentes estratos, se denomina
la asignacin, y existen varios criterios para realizarla:
Asignacin proporcional
Asignacin de Neyman
Asignacin ptima
Aquellos lectores que deseen profundizar ms sobre este asunto deben consultar
el excelente texto: "Tcnicas de Muestreo" de William G. Cochran.
En este humilde resumen, nos vamos a limitar exclusivamente al criterio de
asignacin proporcional, que a pesar de no ser el mejor en todos los casos,
resulta ser el ms intuitivo, y sobre todo el ms fcil de defender a la hora de
presentar un estudio por muestreo.
Se dice que la asignacin es proporcional, cuando a cada estrato le corresponde
la misma porcin de muestra que lo que ese estrato representa en la poblacin.
As por ejemplo, si un estrato representa el 20% de la poblacin, con asignacin
proporcional, a ese estrato le corresponde el 20% de la muestra.
En el ejemplo recin analizado sobre la nmina de la empresa, fcilmente se
puede ver que la asignacin no es proporcional.
Para una asignacin proporcional se verifica:

ni
n

Ni
N

= Wi ni = Wi n

De manera, que una vez calculado el tamao de muestra n, lo que le


corresponde a cada estrato se calcula segn su parte proporcional.
Para un error absoluto tolerado y un riesgo , el tamao total de
muestra necesario para estimar a la media poblacional , con asignacin
proporcional, puede ser calculado con la siguiente frmula:

n=

2
L1 Wi 2i
Nz/2

2
L1 Wi 2i + N 2
z/2

Al igual que en las secciones precedentes, el desconocimiento de las varianzas


de cada estrato i 2 , hace que se necesiten muestras piloto, con el objeto de
obtener una estimacin preliminar de cada una de ellas, y tambin una estimacin
de , en caso de que el error se fije de manera relativa.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

45

Por lo general, la muestra piloto se reparte de manera proporcional, y es posible


que se deban reformular los estratos, en caso de que algunos de ellos resulten
con un coeficiente de variacin alto.
Ejemplo: Se desea estimar el consumo total de agua en una determinada zona de
la ciudad, en donde existen 200 industrias y 10.000 residencias.
Una muestra piloto entre 5 industrias dio:
Consumo (Litros)
Frecuencia

0 - 1000
1

1000-2000
1

2000-3000
2

3000-4000
1

Una muestra piloto entre 20 residencias arroj:


Consumo (Litros)
Frecuencia

0 - 500
4

500-1000
6

1000-1500
7

1500-2000
3

a) Qu tamao total de muestra se requiere, si se quiere un error relativo de


estimacin del 5 % como mximo, con un riesgo tambin del 5%?
b) Si en esa muestra se obtiene un consumo medio de 2000 litros para las
industrias, con una desviacin tpica de 1400; y de 750 litros con una desviacin
tpica de 200 litros para las residencias. Obtenga un intervalo del 95% de
confianza para el consumo total de agua.
Solucin: En primer lugar, hay que calcular la media y la desviacin estndar de
cada estrato, segn lo obtenido en la muestra piloto.
y = 2100,00
y = 975,00
Residencias 2
Industrias: 1
s1 = 1140,18
s 2 = 499,34
Al analizar el resultado de la muestra piloto, se encuentra que el coeficiente de
variacin para cada estrato es relativamente alto 54,29% para las industrias, y
51,21% para las residencias, lo que sugiere una reformulacin de los estratos, y a
preguntarnos si es posible subdividirlos, y considerar si es posible por ejemplo
distinguir varios tipos de industrias, y varios tipos de residencias, como por
ejemplo, quintas y apartamentos.
Suponiendo que decide seguir adelante con estos dos estratos, para calcular el
tamao de muestra se necesita ahora fijar el error absoluto tolerado, para lo que
se debe hacer una estimacin preliminar de , a partir de la muestra piloto:
200
10000
(2100) +
(975) = 997,06 = 5% de 997,06 = 49,85
=
10200

10200

y por consiguiente: n =

200
10000
1140,182 +
499,342 )
10200
10200
200
10000
(1,96)2
1140,182 +
499,34 2 +10200(49,85)2
10200
10200

10200 (1,96)2 (

la cual deber ser repartida proporcionalmente entre los dos estratos

= 401

Muestreo Aleatorio
Angel Francisco Arvelo

1 =

200

10200

Pag.

401 8 industrias; mientras que: 2 =

10000
10200

46

401 393 residencias

b) Al suponer que en esa muestra se obtuvo:


y = 2000
y = 750
Industrias: 1
Residencias 2
s1 = 1400
s 2 = 200
200
10000
(2000) +
(750) = 774,51 litros
=
=
10200

10200

El intervalo del 95% de confianza para es:


774,51 1,96

200 2
(1400)2
10200

200

10000 2
(200)2
10200

393

774,71 27,15; lo que representa un error relativo de

27,15

774,71

393

10000

100% = 3,50%

La estimacin de = Consumo total de agua en la zona, es


10200 (774,71 27,15)= (7.902.042 276.930) litros en total, con 95% de
confianza
IV.2 Muestreo estratificado por atributos
Al igual que en el muestreo aleatorio simple, lo que se quiere estimar en un
muestreo por atributos es la proporcin y / o el total de elementos, que dentro de
una poblacin posee un cierto atributo, con la diferencia de ahora la poblacin va
a ser subdividida en estratos.
Ya hemos visto que en este caso, la poblacin solo contiene unos y ceros, segn
el elemento posea o no posea el atributo respectivamente.
La nomenclatura a seguir es la siguiente:
L = Nmero de estratos
N i = Tamao del estrato i, i = 1, 2,, L
N = Tamao de poblacin = i=L
i=1 Ni
Wi =

Ni

= Factor de ponderacin o Peso del estrato i

Obviamente W 1 + W 2 + ..+ W L = 1
1 , 2 . , = Poblacin perteneciente al estrato i = 0 o 1
=
= =1 = Total de elementos con el atributo en el estrato i
i =

j=N

j=1 i xij

Ni
Ni
=
=1 =

= Proporcin de elementos con el atributo en el estrato i

=
=
=1 =1 = Total Poblacional

= = 1 = 1 = =1 = Proporcin Poblacional

Lo anterior significa que la Proporcin Poblacional es la Media Ponderada entre


las proporciones de los diferentes estratos segn el peso de cada uno de ellos
n i = Tamao de muestra en el estrato i, i = 1, 2,, L
n = Tamao total de muestra = i=L
i=1 ni

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

47

1 , 2 . , = Valores que cayeron en la muestra del estrato i; = 0 o 1


pi=

fi =

j=n

j=1 i yij
ni

ni

= Proporcin muestral del estrato i

= Fraccin de muestreo en el estrato i

Los parmetros a estimar son y , cuyos estimadores son:


= pst = =1 ; =N pst = N =1 = =1
El intervalo de confianza para cada uno de ellos es:
Para : pst /2

2 (1 )

Para : N pst /2

(1 )

2 (1 )
1

(1 )

Ejemplo: En un estudio de mercado se quiere estimar la proporcin de


consumidores que prefiere una determinada marca de consumo masivo.
Se decidi estratificar por sexo, pues se piensa que existe una diferencia
significativa entre las proporciones de hombres y mujeres que prefieren dicha
marca.
Dado que el universo de consumidores es muy grande, la poblacin se puede
considerar infinita, y que est repartida por igual entre hombre y mujeres.
Una muestra aleatoria de 500 hombres y de 500 mujeres, arroj que 80 y 360
respectivamente, preferan la marca.
Obtenga un intervalo del 95% para la proporcin poblacional.
Solucin: Por tratarse de una poblacin infinita, las fracciones de muestreo fi se
pueden considerar nulas, y adems se tiene W 1 =W 2 = 0,50=
80
360
= 0,16; Para los mujeres: p 2 =
= 0,72
Para los hombres: p 1 =
500
500
En consecuencia = p st = (0,16) + (0,72) = 0,44 = 44%
El intervalo del 95% para la proporcin poblacional " es:
1 2


0,44 (1,96) 2

(0,16)(10,16)
5001

1 2

2 (072)(10,72)
5001

= 0.4400 0.0254 = 44.00% 2.54%

Criterios de estratificacin y coeficiente de variacin: Al igual que en el


muestreo estratificado por variables, en el caso de atributos, el investigador debe

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

48

ser muy cuidadoso al momento de definir los estratos, pues no siempre, la


estratificacin conduce a intervalos de confianza ms estrechos que los que se
obtendran por muestreo aleatorio simple.
La estratificacin debe ser hecha de manera que los estratos resultantes sean
homogneos; en el caso de variables, esta homogeneidad se mide a travs del
coeficiente de variacin, pero en el caso de atributos no es as.
En efecto, al observar el error estndar del estimador p st se observa que este
es

2 (1 )
1

(1 ) el cual se ve obviamente afectado por el valor del

producto p i (1-p i ) para cada estrato, y resulta ser que este producto alcanza su
valor mximo cuando p i =
De lo anterior se deduce que si la estratificacin es tal que el atributo en cuestin
divide a cada estrato en dos mitades iguales, mitad que lo tiene y mitad que no lo
tiene, entonces se habr hecho una psima estratificacin, pues el error estndar
alcanzar su valor mximo, y el intervalo de confianza resultar muy amplio.
Por el contrario, cuando pi este cercano a 0 cercano a 1, en cualquiera de estos
dos casos, el producto p i (1-p i ) resultara prximo a cero, y en consecuencia el
error estndar ser muy pequeo.
De all se deduce la siguiente regla para hacer la estratificacin:
Los estratos deben ser definidos de manera tal que el atributo en
cuestin sea muy raro o muy frecuente dentro de cada estrato.

Por supuesto que al hacer la estratificacin no se sabe de antemano si esta regla


se cumplir, y de all la importancia de las muestras piloto que permitan redefinir
aquellos estratos que no la cumplan.
Resulta difcil decir con exactitud cundo se puede considerar a un estrato
homogneo y cuando no; pero en trminos generales, un estrato que en la
muestra piloto tenga pi 0,10 o pi 0,90 podra decirse que es muy homogneo,
mientras que otro que resulte con 0,35 pi 0,65 es bastante heterogneo, y
debera plantearse una subdivisin en l.
Tamao de muestra requerido: Tan pronto como se tengan las estimaciones
preliminares de cada una de las proporciones de cada estrato i , mediante las
correspondientes proporciones mustrales obtenidas en la muestra piloto, y una
vez fijado el error mximo absoluto tolerado en la estimacin de , es decir

- | > ) , el tamao de muestra de


|
- | , y el riesgo = Probabilidad (|
la muestra definitiva, suponiendo asignacin proporcional puede ser calculado
mediante la expresin siguiente

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

49

En poblaciones finitas:
n=
En poblaciones infinitas:

2
L1 Wi (1 )
Nz/2

2
L1 Wi (1 ) + N 2
z/2

z2/2 L1 Wi (1 )
=
2
En caso de que el investigador considere que no es conveniente tomar una
muestra piloto para obtener una estimacin preliminar de cada uno de los i , le
quedan las siguientes dos opciones:
a) Tomar la muestra mxima dada por: =
z2/2

Nz2/2

z2/2 +4 N 2

para poblaciones

finitas, o , = 2 para poblaciones infinitas,


y luego repartirla
4
proporcionalmente dentro de los estratos.
Este procedimiento puede resultar extremadamente costoso, pues conduce a una
muestra mucho ms grande de la necesaria, ya que equivale a realizar el clculo
del tamao de muestra desde el punto de vista ms pesimista posible, que es
suponer que cada i = , lo que significa que la estratificacin ha sido muy mal
hecha.
b) Basarse en encuestas anteriores, en estudios similares o en opinin de
expertos para establecer un posible intervalo en donde se considere puede
encontrarse cada uno de los i , y tomar como valor de i para ser sustituido
dentro de la frmula del tamao de muestra, aquel valor que dentro del intervalo
se encuentre ms cercano a , o igual a si lo contiene.
Lo negativo de esta metodologa es que puede conducir a tamaos de muestra
insuficientes, debido a que el intervalo de prediccin antes sealado puede
resultar errneo.

Ejemplo: En un estudio que considera dos estratos, se quiere estimar la


proporcin "" de elementos que en la poblacin posee una cierta caracterstica.
El primer estrato representa el 75% de la poblacin, y el segundo estrato el 25%
restante. Se quiere que la estimacin de a travs de la proporcin muestral
estratificada (pst) no difiera de "", en ms de 1%, con 90% de probabilidad.
a) SI la asignacin de la muestra se va a realizar proporcionalmente. Calcule el
tamao de muestra necesario en cada estrato, sabiendo que una muestra

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

50

preliminar arroj que el 20% en el primer estrato, y el 45% en el segundo estrato,


posee la caracterstica. (Suponga que la poblacin es grande, y que por lo tanto,
se puede despreciar la fraccin de muestreo).
b) Si con el tamao de muestra calculado anteriormente, se encuentra que el 25%
en el primer estrato, y el 38% en el segundo, posee la caracterstica. Construya
un intervalo del 90% de confianza para la "Proporcin Poblacional".
Solucin: El hecho de encontrar en la muestra piloto del 2 estrato un 45% de
elementos con el atributo, sugiere que este estrato result heterogneo, y que
debera subdividirse a fin de lograr una mayor homogeneidad.
De no ser factible esta correccin, el clculo del tamao de muestra es:
=

z2/2 L1 Wi (1 )
2

(1,645)2 (0,75 (0,20)(10,20)+(0,25 (0,45)(10,45))


(0,01)2

= 4922

Al repartir proporcionalmente este tamao total de muestra, entre los dos estratos,
n 0,75(
=
=
4922 ) 3692
se obtiene: 1
=
=
4922 ) 1231
n2 0,25(
La estimacin puntual de es:
= pst = 0,75(0,25) + 0,25(0,38) = 0,2825
y el intervalo del 90% de confianza para :
(0,75)2 (0,25)(10,25)

0,2825 1,645

36921

(0,25)2 (038)(10,38)
12311

= 0,2825 0,0105 =

28,25 % 1.05 %

EJERCICIOS POPUESTOS
1) Una industria tiene dos mquinas, que trabajan en paralelo para producir un
mismo artculo.
Las caractersticas de estas mquinas son:
Mquina 1: Es una mquina moderna, cuya velocidad de produccin es el triple
de la otra, y que segn una muestra piloto, produce apenas un 1% de
defectuosas.
Mquina 2: Es una mquina antigua, cuya velocidad de produccin es la tercera
parte de la otra, y que segn una muestra piloto, produce un 8% de defectuosas.
Se quiere estimar el porcentaje de piezas defectuosas dentro de la produccin
total, con un error no mayor al 0.5%, y un 5% de riesgo.
Calcule con ese tamao de muestra, se obtiene un 0.8% de defectuosas en la
mquina 1, y un 8.6 % de defectuosas en la mquina 2, establezca un intervalo
del 95 % de confianza, para el porcentaje de defectuosos producidos por la
industria.
2) Se tiene un lote de 60.000 bombillos, de los cuales 40.000 son de una marca
A y 20.000 de otra marca B.
Se quiere estimar la duracin media de los bombillos del lote, con un error no
mayor al 2,5% y 5% de riesgo.
Una muestra piloto de ambas marcas, arroj los siguientes resultados:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

51

Duracin (hrs)

0 a 100
100 a 200
200 a 300
300 a 400
400 a 500
Marca A
2
8
25
31
14
Marca B
6
24
10
5
0
a) Con asignacin proporcional, calcule el tamao de muestra necesario para
cada marca
b) Suponga que con el tamao de muestra calculado en a.3, se obtienen los
siguientes resultados:
Media Muestral (hrs)
Desviacin estndar (hrs)
Marca A
320
90
Marca B
170
50
Obtenga un intervalo del 95% de confianza para la duracin media de los
bombillos del lote.
3) En una poblacin con 100.000 elementos, se quiere estimar el total
poblacional, a travs de un muestreo estratificado, que considera dos estratos
que representan el 35% y 65%.
Una muestra piloto arroj las siguientes estimaciones preliminares:
Estrato 1
Estrato 2
Media
80
220
Desviacin tpica
21
30
a) Calcule el tamao de muestra para cada estrato, utilizando asignacin
proporcional, y se quiere un error no mayor al 3%, con 5% de riesgo
b) Suponga que con los tamaos de muestra calculados, se obtiene:
Estrato 1
Estrato 2
Media
85
208
Desviacin tpica
20
25
Obtenga un intervalo del 95% de confianza para el total poblacional.

You might also like