You are on page 1of 181

CONCEPTOS BSICOS DE MUESTREO

Monografas
CONCEPTOS BSICOS DE MUESTREO
IGNACIO MNDEZ RAMREZ
GUILLERMINA ESLAVA GMEZ
PATRICIA ROMERO MARES

INSTITUTO DE INVESTIGACIONES
EN MATEMTICAS APLICADAS
Y EN SISTEMAS
UNIVERSIDAD NACIONAL AUTNOMA DE MXICO

CONCEPTOS BSICOS DE MUESTREO

CONCEPTOS BSICOS DE MUESTREO

RESUMEN
La idea de este escrito es presentar de manera intuitiva, sin demostraciones,
los aspectos que se deben tomar en cuenta al realizar encuestas (con base
en cuestionarios) o muestreos (efectuando mediciones directas). Se hace
poco nfasis en las consideraciones tcnicas que llevan a las expresiones
para varianzas de estimadores o pruebas de insesgamiento. Se citarn las
expresiones para varianzas sin demostracin, esas y otras demostraciones
se pueden encontrar en los textos como el de Raj (1968); Sukhatme et. al.
(1984); Kish (1965) y Cochran (1977). Se discute con ms detalle las
expresiones ligadas a la determinacin del tamao de muestra. En la primera
parte se da una visin general de lo que es un marco de muestreo, y los
diferentes tipos de diseos de muestra, as como del concepto de muestra
representativa.

CONCEPTOS BSICOS DE MUESTREO

Introduccin

Las tcnicas del muestreo se utilizan, frecuentemente, cuando se quiere conocer


cules son las caractersticas generales de una poblacin.
El muestreo se utiliza por ejemplo para conocer la prevalencia de la
drogadiccin en una ciudad o pas, para conocer cules son los ingresos medios de
las personas que trabajan, los niveles de escolaridad en los habitantes de una
ciudad o pas, y algunos otros aspectos demogrficos y sociales.
En las ciencias biolgicas es frecuente que se requiera conocer la cantidad
de ejemplares de alguna especie que se encuentra en una asociacin vegetal; el
contenido de una sustancia en las hojas de un rbol; la proporcin de semillas
enfermas en un lote de semilla; la cantidad de impurezas presentes en un furgn de
ferrocarril cargado de trigo.
En la industria es muy usado el control de calidad, el cual se basa en el
muestreo de los lotes de produccin para determinar si se cumple con las
especificaciones requeridas en el proceso.

Panorama del muestreo

Las encuestas por muestreo son un tipo de investigaciones que tienen como
propsito conocer algo respecto a una determinada poblacin humana, y estudian
slo una parte de sta. Tambin denominada Demoscopa, es decir, la disciplina o
grupo de ellas que pretende conocer algn aspecto de una poblacin o conjunto de
seres humanos.
Para esto se requiere un trabajo interdisciplinario entre:
Demgrafos, Economistas, Socilogos, Administradores, Psiclogos, Estadsticos,
etctera.
Las formas de obtener informacin en la Demoscopa son a travs de
censos, registros administrativos y encuestas por muestreo.
En toda actividad humana, y sobre todo en los estudios que usan muestras,
se requiere el enfoque cientfico, este consiste bsicamente en usar los
conocimientos previos que se tienen sobre el problema y disear una metodologa
de investigacin que minimice la ocurrencia y magnitud de los errores.
Se puede hacer una analoga entre ciencia y calidad total (el movimiento
mundial de mejorar la calidad de productos y servicios).
ANALOGA DE CIENCIA CON CALIDAD TOTAL

CIENCIA. Esfuerzo, comprometido, decidido y detallado, para evitar errores.


CALIDAD TOTAL. Esfuerzo, comprometido, decidido y detallado, para evitar que
el producto est fuera de norma.
PRODUCTO DE LA CIENCIA. Conocimiento del mundo.
PRODUCTO DE LA CALIDAD TOTAL. El bien o servicio tiene calidad.

En una encuesta por muestreo se debe hacer un trabajo conceptual que determine
entre otras cosas qu se quiere conocer?, por ejemplo, niveles de desempleo,
estado de salud de la poblacin, calidad y demanda de servicios de educacin. La
opinin sobre aspectos o programas polticos. La capacidad de compra de un
sector de la poblacin, etctera.

CONCEPTOS BSICOS DE MUESTREO

Cul es la poblacin?
Eso que se quiere conocer se refiere a una poblacin o conjunto de seres humanos
con cierta ubicacin en tiempo y espacio. Por ejemplo, habitantes del Distrito
Federal, empresas de la construccin, escuelas pblicas, etctera. La poblacin se
define al especificar qu elementos son y qu caractersticas deben tener stos. Por
ejemplo, personas mayores de 18 aos que residen (por ms de 6 meses) en el
Distrito Federal; escuelas primarias que dependen del sector pblico y ubicadas en
el estado de Sonora; empresas de la industria alimenticia registradas ante la
Secretara de Comercio, que estn al corriente en el pago de impuestos y se ubican
en el estado de Mxico.
Los elementos pueden ser entidades como: familias, personas, fbricas,
comercios, escuelas, etctera. Para su estudio se consideran varios aspectos:
tiempo de residencia, edad, actividad, tamao de empresas, etctera.
Para el estudio se debe determinar, primero, el proceso de captacin de
informacin, esto es la forma de aplicacin y el tipo de instrumentos de medicin a
utilizar. Entre los instrumentos se encuentran: la observacin directa, los
cuestionarios, las entrevistas directas o telefnicas, entre otros. Conocer y aplicar
correctamente los instrumentos de investigacin permitir evitar errores en el
proceso de captacin de informacin.

2.1

Marco de muestreo

La poblacin debe contar con un medio fsico que identifique directa o


indirectamente a todos los elementos de la poblacin. Ese medio fsico se llama
marco de muestreo. Puede ser un directorio, un archivo, un mapa, etctera.
Es el medio fsico que identifica a todos los elementos de la poblacin, se
pueden tener varias situaciones segn el tipo de marco y poblacin. Estas se
especifican en las figuras siguientes.

poblacin

marco
Figura 1. Marco y poblacin coinciden.

CONCEPTOS BSICOS DE MUESTREO

marco

poblacin
Figura 2. El marco incluye otros elementos adicionales.

poblacin

marco

Figura 3. El marco no cubre a todos los elementos.

CONCEPTOS BSICOS DE MUESTREO

poblacin

marcos
Figura 4. Marcos complementarios.

poblacin

marcos
Figura 5. Marcos Traslapados.

CONCEPTOS BSICOS DE MUESTREO

2.2

Formas de tomar muestras

Las formas de tomar muestras de una poblacin son:


1. A juicio, cuando se usa la experiencia subjetiva del muestrista.
2. Por Cuotas, cuando se pide que la muestra cumpla con las proporciones
conocidas de ciertas variables en la poblacin. Lo comn es sexo y edad.
3. Probabilstico, se toman los elementos con probabilidades conocidas y
mayores de cero para todos y cada uno de los elementos de la poblacin. Si
son probabilidades de seleccin iguales se llama muestra autoponderada y
si es de tamao grande, la muestra resultar con elevada probabilidad
representativa. Si no se toma con probabilidades iguales, se hacen ajustes
en la forma de estimar promedios o proporciones para recobrar la
representatividad.
4. Combinacin de probabilstico con cuotas.
5. Probabilstico con ajustes, que podramos llamar cuotas a posteriori, un
caso elemental es el de estimadores de Razn.
Un ejemplo sencillo de esos ajustes es el de considerar una poblacin constituida
por tres subconjuntos (estratos). Con N1 = 10, N 2 = 50 y N 3 = 100 elementos
cada uno. Si se seleccionan muestras de tamao 10 de cada subconjunto, se
registra el 100% de los del primero, 20% del segundo y 10% del tercero.

Poblacin

1010
NN
1 1= =

Promedio

Y1

N 2 = 50

N 3 = 100

Y2
Y3

N = N1 + N 2 + N 3
Muestra
Se toman

n = n1 + n2 + n3

n1 = 10

n2 = 10

n3 = 10

es la muestra total.

El promedio poblacional de una medicin es:

CONCEPTOS BSICOS DE MUESTREO

Y =

N1 + N 2 + N 3

N1 + N 2

N1

160

Y Y + Y + Y
i

160

i =1

i = N1 +1

i = N 2 +1

160

N1Y1 + N 2Y2 + N 3Y3


N

Y es un promedio ponderado de los promedios de los tres estratos, que son


Y1 , Y2 , Y3 .
Con la muestra se estiman los promedios de cada estrato y se ponderan de
igual modo que para el promedio de la poblacin.
n1

N 1Y1 + N 2Y2 + N 3Y3

=
Y =
N

N1

Y
i =1

n1
N

n3

n2

N2
+

Y
i =1

n2
N

N3
+

50 10
100 10
10 10
Y
Y
i

Yi
i
10
10
= 10
+
+
=
160
160
160

Y
i =1

n3
N

W Y

i i

i =1

Para estimar el total, cada elemento de la muestra se multiplica por los factores de
expansin, wi, los elementos del primer estrato se multiplican 1, los del segundo 5,
los del tercero 10. Si se quiere el promedio, adems se divide entre N=160.
Un teorema fundamental en estadstica es el Teorema Central del Lmite. De
manera laxa, dice que los promedios de muchas muestras probabilsticas de una
poblacin tienden, al aumentar el tamao de muestra n, a tener distribucin normal,
a pesar de que la variable que se mide no tenga distribucin normal en la poblacin.

CONCEPTOS BSICOS DE MUESTREO

Muchas muestras
aleatorias de
tamao n

n
Poblacin

Distribucin de los
muchos valores de
los promedios muestrales

error
estandar

Muchos
valores
de
y
diferentes

Para que se alcance una distribucin parecida a la normal en el conjunto de posibles


promedios muestrales se requiere que n sea grande. Sin embargo, la rapidez de
acercamiento a la normal (velocidad de convergencia) tambin depende de la forma
de la distribucin de la variable en la poblacin. En la siguiente grfica se consignan
tamaos mnimos de muestra para una buena cercana a la normal, segn la
forma de la distribucin poblacional. Esto se ha establecido empricamente en
estudios de simulacin.

10

CONCEPTOS BSICOS DE MUESTREO

Tamao de n aproximado para la normalidad segn la


distribucin parental (poblacional)
uniforme

normal
asimtrica
fuerte

n 1
yi

n 20

asimtrica
moderada

yi

yi
caso
dicotmico
p

n5
yi

n 30

np > 5
n(1 p) > 5

1-p
0 1

yi

En general, en el trabajo de muestreo, en la poblacin se tendrn parmetros ,


que al tomar muchas posibles muestras con un diseo de muestra especfico y una
forma de estimador dada, produce muchos valores de . El teorema central del
lmite opera con muestras grandes, y se tiene:

11

CONCEPTOS BSICOS DE MUESTREO


EE =

1-

( ) es la media aritmtica de todos los posibles valores de y


V ( ) = E [ ] es la varianza de todos los posibles valores de .

Donde

De aqu:

P + = 1

(2.1)

Lo que equivale a:

P[ + ] = 1

(2.2)

Intervalo de confianza
Las expresiones anteriores se pueden representar sucintamente como:

P < = 1

(2.3)

En palabras, la probabilidad de una discrepancia de cuando ms entre y es

1-. A se le conoce como precisin del muestreo o error de estimacin; y a


1- como confianza.
Si es 0.05 se puede demostrar que

= 1.96 V ( )

En esta expresin, V () es funcin del tamao de muestra

n, y otros parmetros.

De la expresin se despeja el tamao de muestra que produce una precisin de


con una confianza de 95%.
Se habla de las propiedades distribucionales de . Es decir, al realizar el
muestreo y obtener , (este valor es uno de los muchos que podran haber ocurrido)

12

CONCEPTOS BSICOS DE MUESTREO


se considera la realizacin de una variable aleatoria que queda determinada por el
diseo de la muestra y la forma de construir el estimador. El diseo de la muestra
es la forma en que se toman los elementos de esta y su tamao; y la forma de
construir el estimador es la funcin de los datos de la muestra que lo determinan. A
ambos, diseo y forma de estimador, le podemos llamar estrategia de muestreo.

Diseo de
la muestra

Poblacin

Y 1 Y 2 ... Y

y1
y2
.
.
yn

Estimador como
funcin de los
datos

(y , y
1

2 ,...,

yn )

Para cada estrategia de muestreo, que comprende el diseo y el estimador, se


determinan las propiedades de la distribucin de las posibles. Usualmente

()

importa que sea insesgado E = , o bien sesgado pero consistente n = .


Esto se da en todas las estrategias que se usan en la prctica. Adems, se tiene el
teorema central del lmite, de modo que si n es grande, la distribucin de los
lim

tiende o se acerca a una distribucin normal con media

()

y varianza dada por

V () . A V se le conoce como error estndar del estimador. Entonces el


intervalo

de

()

confianza

al

95%

()

para

est

dado

por

P 1.96 V + 1.96 V = 0.95 o P + = 0.95 .

El intervalo de confianza se usa en la etapa de planeacin de la encuesta y tambin


al presentar resultados finales. En la etapa de planeacin, se usa al fijar el valor de

que es el error de muestreo mximo con confianza del 95% que se quiere tener.
Este valor lo determina el usuario del proceso, en funcin de la gravedad del
alejamiento posible entre el valor nico que se tendr y el verdadero valor
desconocido

Entonces de la expresin

= 1.96 V ( )

se despeja el tamao

13

CONCEPTOS BSICOS DE MUESTREO


de muestra que est implcito en V () . Usualmente V () es funcin del tamao
de muestra y de otros parmetros desconocidos. Entonces hay que suponer con
base en experiencias previas que se conocen esos parmetros. En caso de no
tener esas experiencias se lleva a cabo un muestreo, llamado muestra piloto, con
el objeto de estimar dichos parmetros. Con esos valores en la expresin

= 1.96 V ( ) , se obtiene n.

En la etapa de presentar resultados de la investigacin por muestreo, se debe


estimar V ( ), es decir obtener V , el estimador de la varianza del estimador,
con este valor se obtiene un intervalo de confianza aproximado del 95% para el
parmetro y es la manera correcta de presentar los resultados del proceso.

()

()

()

P 1.96 V + 1.96 V =&0.95

El proceso de planeacin de tamao de muestra se puede hacer tambin


basndose en el llamado efecto de diseo, que es:

VD ()
DEFF =
V ()
iid

donde V D ( ) es la varianza del estimador segn la estrategia (diseo, estimador)


elegida y Viid () es la varianza que se hubiera obtenido si la muestra del mismo
tamao n, se toma con probabilidades iguales y con reemplazo. Los DEFF de una
encuesta terminada se pueden aplicar en la planeacin de otra encuesta semejante.
Se obtiene el tamao de muestra de = 1.96 Viid () sea ste
definitivo es

2.3

n0.

El tamao

n = n0 DEFF .

Diseos de muestra

Como un panorama introductorio y preliminar de los diseos de muestra bsicos y


ms comunes, se presentan los siguientes esquemas con sus comentarios.

14

CONCEPTOS BSICOS DE MUESTREO

Muestreo Aleatorio Simple (mas)

Poblacin
N
Muestra
n
Seleccin aleatoria de los elementos muestrales con probabilidades
De seleccin en cualquier extraccin iguales y sin reemplazo.
Muestreo sistemtico (uno de cada k), si el orden es aleatorio, equivale
al mas, si hay un orden con cambios suaves, no peridicos en el intervalo
de muestreo k=n / N, entonces es ms eficiente (ms representativo)
que el mas.

15

CONCEPTOS BSICOS DE MUESTREO

Muestreo con Probabilidad Proporcional al Tamao (PPT)

Poblacin
N

Muestra
n

Seleccin con probabilidad Pi = Xi / X de n de los elementos muestrales con


reemplazo.
Si se tiene que hay buena proporcionalidad entre Xi y Yi , es decir Yi RX i
entonces los elementos con valores mayores de Yi , tienen ms probabilidades de
estar en muestra.
La estimacion de total de Y se realiza con el promedio de los n valores de Zi.
Donde cada Zi = Yi / Pi

16

CONCEPTOS BSICOS DE MUESTREO

Muestreo
E t tifi d

Poblacin
N =N1 + N2 + N3

N1

N3

Muestra
n =n1 + n2 + n3
N2
n1

n3

n2
Seleccin aleatoria, sistemtica o con probablidades proporcionales de
i
los elementos muestrales en cada estrato, por separado, es decir
la seleccin esindependiente de un estrato a otro.
proporcionales al tamao de los estratos, o
i
l
a las desviaciones estandar o inversamente a los costos en cada estrato
.
id

Con tamaos de muestra n h

17

CONCEPTOS BSICOS DE MUESTREO

Muestreo

M1
M3

M2
M4

M6

Poblacin:
N Unidades Primarias de Muestreo, UPM
conMi unidades ltimas de muestreo ( )USM
cada
M5

M7

Seleccin aleatoria o sistemtica de n UPM


con probabilidades de seleccin iguales o
proporcionales al tamao.
Seleccin de mi unidades ltimas slo en las
UPM que se tienen en la primera etapa.

Muestra de
n UPMy
mi unidades ltimas
cada una

m5

m4
m1

18

CONCEPTOS BSICOS DE MUESTREO


UPM

Muestreo trietpico
M1

M3

M2
M4

M6

M5

Poblacin:
(
N Unidades Primarias de Muestreo, UPM
)
Secundarias de Muestreo (USM )
con M Unidades
i
)
en cadaUPMi, y conBij unidades ltimas( UUM
en cada USM ij .

M7
UPM

Muestra
n UPM y
mi USM en
cadaUPM y conbij unidades
lti i
en cadaUSM

Seleccin aleatoria o sistemtica o con


probabilidades de seleccin
i
proporcionales
l
al tamao,n UPM.
d
Seleccin m iUSMslo en las n que se tienen
d primera etapa; seleccin b ij unidades
en
d
.
ltimas
en cadaUSM ij en muestra

b21
b12

m1

b22

m2
m3
b32

USM

19

UUM en
la
USM32

CONCEPTOS BSICOS DE MUESTREO

Muestreos Complejos. Polietpicos estratificados


M1
M3

M2
M4

M6

M5

Poblacin:N Unidades Primarias de Muestreo,(UPM)


con Mi Unidades Secundarias de Muestreo(USM)
en cada UPM, y con Bij unidades ltimas(UUM)
en cada USMij. Las UPM en estratos y o las USM
estratificadas dentro de cada UPMi

M7

Seleccin aleatoria o sistemtica con


probabilidades de seleccion iguales o
proporcionales al tamao, de nh UPMen cada
estrato.
Seleccin de mi USMslo en las nh que se tienen
en primera etapa. Seleccin de bij unidades
ltimas en cada USMij en muestra. (Puede ser de
cada estrato de USMdentro de slo algunas
UPM).

Muestra: n UPMy mi USMen cada


UPMy con bij UUMen cada USMij

b21
b12

m1

b22

m2
m3
b32

20

CONCEPTOS BSICOS DE MUESTREO

3. Representatividad de las muestras


REPRESENTATIVIDAD

X1
X1

Poblacin
Muestra
Extrapolacin
(Inferencia)

X2

X2

X3

Distribuciones
Marginales y
Conjunta de
variables
IMPORTANTES

Distribuciones
Marginales y
Conjunta de
Variables
IMPORTANTES

X3

X4
X4

3.1 Extrapolacin
Un razonamiento innato en los seres humanos, es el aplicar a experiencias nuevas
las conclusiones obtenidas en el pasado en otras experiencias semejantes.
Por ejemplo, al ingerir 5 frutos rojos y pequeos y tener dolor de estmago,
se generaliza a ese tipo de frutos o a un nuevo fruto.

Me com 5 frutos
pequeos rojos y
me doli el
estmago!

Extrapolacin

Este nuevo fruto


har que me duela
el estmago

Es semejante
a los otros?

CONCEPTOS BSICOS DE MUESTREO


Sin embargo, hay dudas: todos los frutos rojos son indigestos?, influye el tamao
del fruto?, el tono de rojo?, la poca del ao?, el tipo de rbol o arbusto?,
etctera. Qu es ser semejante?.
La Ciencia tambin hace extrapolaciones; ejemplo de ello son las
investigaciones que se llevan a cabo con ciertos elementos (enfermos de amibiasis,
fumadores empedernidos, plantas de maz, cajas de Petri con un medio para crecer
bacterias, etctera), cuyas conclusiones se aplican a otros elementos semejantes a
los estudiados.

Elementos
estudiados

Extrapolacin

Elementos
semejantes
a los
estudiados

3.2 Poblaciones y muestras


Se puede considerar que lo estudiado, o experiencia previa, es una muestra de todo
un conjunto de otros elementos o nuevas experiencias semejantes a los estudiados.
Este conjunto no estudiado es la poblacin.

Poblacin

Muestra
Extrapolacin

Extrapolacin Vlida?.
Nos preguntamos la extrapolacin no se equivoca?, Cmo hacer que no se
equivoque?. La respuesta es s se puede equivocar, pero frecuentemente no se
equivoca.
Si se pueden encontrar leyes deterministas que expresen relaciones
(necesarias y suficientes) entre propiedades de las instancias estudiadas
(muestras), se pueden aplicar los resultados o conclusiones a todas las instancias
(poblacin) no estudiadas an, que cumplan con las propiedades requeridas. Aqu
estn muchas leyes de la naturaleza, principalmente inorgnicas, como la fsica
clsica, termodinmica (macroscpica), etctera. As la experiencia (traducida en
leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros;
con ciertas molculas se aplica a otras; etctera.

CONCEPTOS BSICOS DE MUESTREO


3.3 Aleatoriedad e indeterminismo
Hay procesos o fenmenos en los que no se pueden encontrar relaciones entre sus
propiedades, que sean necesarias y suficientes. Hay mucha variabilidad, hay
indeterminismo. Se pueden encontrar ciertas leyes pero son de naturaleza
probabilstica y no determinstica. Estas leyes nos permiten hacer extrapolaciones,
pero nunca son seguras, siempre hay la posibilidad de equivocarse. La estadstica
lo que busca es que la probabilidad de equivocarse sea pequea.
Como ejemplo considere el esquema siguiente donde se tienen datos de
desarrollo de enfermedad cardiovascular en 50,000 personas. Aqu hay dos tipos de
extrapolacin, una es a toda la poblacin de la cual los 50,000 se consideran una
muestra; y la otra a una persona en el futuro que es considerada un elemento
tomado al azar de la poblacin. En la primera inferencia o extrapolacin se puede
predecir con poco error cuntas personas en ese milln desarrollarn la
enfermedad; en cambio en el caso de una persona no se puede predecir con poco
error, nicamente se le asignan las probabilidades de desarrollar la enfermedad de
la poblacin a que pertenece. En estos razonamientos es crucial la validez del
supuesto que las condiciones de la muestra sean semejantes a las de la poblacin o
individuo.

Se estudian 5,000 personas


de 40 aos que fuman (20
cigarros al da o ms) y
con colesterol elevado. Se
encuentra que 15% de ellas extrapolacin
desarrolla enfermedad
cardiovascular antes de
cumplir 50 aos.

Se tiene una poblacin


de un milln de personas
que fuman semejantes a
los estudiados.
Se espera alrededor de
150,000 con enfermedad
cardiovascular antes de
los 50 aos.

muestra
extrapolacin

poblacin

elemento

Una persona de 40 aos que fuma, con


colesterol elevado, semejante a los
estudiados, tiene una probabilidad de
0.15 de enfermedad cardiovascular antes
de cumplir 50 aos.

3.4 Probabilidad
En Estadstica se usa el concepto de probabilidad derivado del estudio de grandes
nmeros de elementos. Cualquier texto de Probabilidad menciona los teoremas
bsicos, por ejemplo, se puede consultar Chung (1974).

CONCEPTOS BSICOS DE MUESTREO


1a. Ley de los grandes nmeros
Sean X1,X2,...,Xn variables
distribuidas (vaiid), tales que

aleatorias

E(Xi)=p

2 (Xi)=p(1-p)

Sn=X1+X2+...+Xn

n 1

independientes

idnticamente

1
Xi =
0

Se dice que Sn puede tomar valores 0,1,...,n y tiene distribucin binomial con
media y varianza dados por:

2 ( S n ) = np(1 p)

E(Sn)=np

Entonces, sea c una constante arbitraria positiva, tal que

Sn

p < c = 1.
n

P
lim
n
grande

Sn
n

Esto

se

interpreta
que
cuando n se hace

c > 0 considerando

Sn
se acerca cada vez ms a p.
n
es la frecuencia relativa de valores 1 o tambin llamada la proporcin

muestral.
Se dice que

Sn
=p
n

es consistente, en el sentido que al tener n grande

se acerca cada vez ms a p.


2. Ley de grandes nmeros
Es una generalizacin de la primera ley de grandes nmeros a variables
arbitrarias.
As, sea Xi i 1 una secuencia de vaiid con media poblacional E(Xi) =
varianza poblacional V(Xi)= 2.

Sn
es la media muestral, entonces:
n
c>0
lim P X < c = 1

Una secuencia es Sn=X1+X2+...+Xn, X =

De nuevo se dice que la media muestral es consistente en el sentido de que


al incrementarse el tamao de muestra, la media muestral se acerca cada vez
ms a la media poblacional.

CONCEPTOS BSICOS DE MUESTREO


3.5 Teorema central del lmite
Un teorema sumamente importante en Estadstica es el Teorema Central de Lmite.
Para los mismos supuestos que la 2. Ley de Grandes Nmeros, se tiene que, sean
dos nmeros cualquiera a y b, entonces:

a, b

a<b

=
P
a
b
<

lim

1
2

dx

Se dice que X tiende a tener distribucin normal ( , 2 / n ), o que la X converge


en distribucin a la normal con media , y varianza 2 / n.
A

=
se le llama error estndar de X .
n
n

Los teoremas se interpretan sealando que si la muestra se toma de una poblacin


infinita (o finita con reemplazo), los valores Xi son vaiid; entonces al aumentar la
muestra ( n ) las proporciones (de cualquier resultado) o los promedios de la
muestra tienden a las proporciones o promedios de la poblacin. Adems las
proporciones o promedios tienden a tener distribucin normal.

CONCEPTOS BSICOS DE MUESTREO


En la grfica se tiene de manera acumulada, es decir, recalculando los porcentajes
a favor de PAN, PRI y PRD en secciones electorales, en las abscisas est el
tamao de muestra. Con muestras pequeas los porcentajes oscilan mucho, pero
con muestras grandes, de 60 ms o menos, en adelante ya no hay oscilaciones
fuertes y las proporciones son ms estables, acercndose al valor en la poblacin
de todas las secciones. Esta es la ley de los grandes nmeros. Aunque en este caso
las muestras con nmeros pequeos no son aleatorias porque las secciones que se
registran primero son pequeas, sin problemas de conteo y con buenas vas de
comunicacin.
En las figuras que siguen, tomadas de Babbie, E. (1992), se ejemplifica el
teorema central del lmite. Se tiene una poblacin con 10 elementos (puede ser una
poblacin de 10,000, con 1,000 elementos con cada valor) con valores 0,1,2,...9. Se
toman todas las posibles muestras (caso de 10 elementos) de tamaos 2,3,4,5 y 6 y
se grafican las frecuencias de los promedios de las muestras. Se puede observar la
tendencia que al aumentar el tamao de muestra la distribucin de frecuencias de
los promedios se acerca a la normal. Adems los valores de los promedios con
mayor frecuencia estn cercanos al valor de la media poblacional = 4.5. Por
ejemplo valores entre 4 5 del promedio ( 4 X 5 ) ocurren en 13 de 45 (P=0.28)
con n=2; en 40 de 120 (P=0.3) con n=3; en 80 de 210 (P=0.38) con n=4; en 114 de
265 (P=.43) con n=5; y finalmente en 122 de 210 (P=0.58) con n=6.

CONCEPTOS BSICOS DE MUESTREO

Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth.

CONCEPTOS BSICOS DE MUESTREO

Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth.

CONCEPTOS BSICOS DE MUESTREO


Extrapolacin muestra a poblacin
Una solucin para el problema de inferir de muestra a poblacin, se da a partir de la
extrapolacin en presencia de aleatoriedad, es tomar una muestra grande donde
cada elemento de la poblacin tiene la misma probabilidad de estar en la muestra
(diseo autoponderado). En este caso opera la teora de probabilidad y tendremos
la consistencia y normalidad de estimadores de promedios y proporciones. Esto
aunque la poblacin sea finita y la muestra se tome sin reemplazo, si n << N.

3.6 Representatividad
En el caso de muestras autoponderadas y con n grande los promedios muestrales
se parecen mucho a los poblacionales. Se puede afirmar que esto ocurre por que en
la muestra la distribucin de los valores de la(s) variable(s) de estudio tambin se
parece a la de la poblacin. Se dice entonces que la muestra es representativa de la
poblacin.
Pero la representatividad es para la(s) variable(s) de inters en el estudio,
aun que no se tenga para otras variables. Por ejemplo, un grupo de 45 alumnos de
la Especialidad de Estadstica Aplicada del IIMAS-UNAM, es posible que pueda ser
considerado como una muestra de sujetos entre 23 y 45 aos, de clase media, en
Mxico y clnicamente sanos para el estudio del contenido de hemoglobina en
sangre. Sin embargo, si el estudio pretende evaluar los conocimientos de
Estadstica de la poblacin de la UNAM, ciertamente el grupo no es una muestra
representativa, por que fueron seleccionados por su inters y conocimientos de
estadstica, cosa que no ocurre en otros programas educativos de la Institucin.

P o b la c i n

S e le c c i n a le a to ria
a u to p o n d e ra d a ,
m u e s tra g ra n d e

M u e s tra
re p re s e n ta tiv a

X
P ro p o rc i n p o b la c io n a l

e x tra p o la c i n

X
P ro p o rc i n m u e s tra l

Lo que importa es que las variables de inters en la muestra presenten una


distribucin semejante a las de la poblacin. Si la muestra es grande y
autoponderada se tendrn elevadas probabilidades de que esto suceda. En este
caso la extrapolacin tendr errores pequeos.

CONCEPTOS BSICOS DE MUESTREO


Dificultades para muestras grandes autoponderadas y eficiencia
Hay varias razones por las cuales en ocasiones no se toman muestras
autoponderadas, sin ser exhaustivos, tenemos:
1.
2.
3.
4.

Se muestrea un proceso, o poblacin infinita.


Costos altos de muestras autoponderadas.
Varianzas grandes para un costo dado.
Falta de disponibilidad de marcos de muestreo.

Procesos o poblaciones infinitas


En muchas investigaciones no se tiene una poblacin finita con ubicacin en tiempo
y espacio. Entonces es imposible tomar la muestra autoponderada (igual
probabilidad de seleccin en muestra para todos y cada uno de los elementos de la
poblacin). En estos casos se usan muestras disponibles o un muestreo de un
conjunto que a su vez es una muestra disponible (submuestreo). Por ejemplo:

Conocer la efectividad de un tratamiento contra lcera pptica. La poblacin es


todos los casos de lcera que hay en el mundo (o en Mxico) y los que puede
haber.

Conocer el porciento de zapatos Domit defectuosos. La poblacin son todos


los zapatos que la fbrica puede producir.

M u e s tra
P a c ie n te s
d e lc e ra
en el
h o s p ita l A

P o b la c i n
D e fin ic i n d e
la p o b la c i n
P a c ie n te s d e
lc e ra s e m e ja n te s
a lo s d e l h o s p ita l A
e x tra p o la c i n

En este caso en realidad la poblacin infinita e imaginada se define a partir de la


muestra. Para esto es crucial el tema de estudio. Es necesario preguntarse qu
aspectos de los elementos estudiados (pacientes de lcera) son importantes por
que modifican el efecto del tratamiento y se estudia la distribucin de esos aspectos
en la muestra y se define la poblacin con una distribucin semejante en esos
aspectos. Si la edad, el sexo y el nivel socioeconmico (SE) influyen en la evolucin
de la lcera, la poblacin ser de pacientes con edad, sexo y SE semejantes a los
de la muestra.

10

CONCEPTOS BSICOS DE MUESTREO


Ntese que se requieren conocimientos y experiencia para seleccionar qu
aspectos son importantes y en los que se basa la semejanza entre muestra y
poblacin. En ocasiones la muestra disponible contiene muchos elementos y no es
posible ni conveniente estudiarlos a todos, si de ellos se toma una muestra
autoponderada y grande, no pierde la representatividad supuesta en la muestra
disponible, y con la submuestra se podrn efectuar las extrapolaciones.

P o b la c i n

M u e s tra
D e f in ic i n d e la
Z a p a t o s D o m it
p r o d u c id o s e n
L e n , G to . E n
ju lio 1 9 9 9

P o b la c i n

S u b m u e s tra
g ra n d e
a u to p o n d e ra d a

T o d o s lo s z a p a to s
D o m it e n L e n y o t r a s
f b r ic a s

e x tr a p o la c i n

Lo que hemos llamado de modo laxo representatividad, es decir, la capacidad de


poder extrapolar y concluir basndose en una muestra, sobre una poblacin se le ha
llamado validez externa. Con este nombre el concepto es ampliamente conocido
sobre todo por epidemilogos e investigadores en ciencias sociales. Campbell y
Stanley(1991) se plantean la pregunta A qu poblaciones, situaciones, variables
de tratamiento y variables de medicin puede generalizarse este efecto?.
La representatividad tambin se aplica en la eleccin de los elementos de
estudio, el agregado de ellos es la poblacin. Cada uno de sus elementos son
llamados unidad experimental o de observacin. Algunos ejemplos:
a) Un estudio donde en macetas de cierto tamao, se cultivan plantas de trigo,
dentro de un invernadero, no sirve para concluir la mejor frmula de
fertilizacin para el trigo cultivado en el campo. Las macetas no representan,
no reproducen, las condiciones de campo. La muestra del invernadero no es
representativa de la poblacin de produccin en campo, por que algunas
variables que afectan crecimiento y cantidad de granos en el invernadero no
tienen la misma distribucin en el campo. No hay validez externa.
b) En experimentos industriales, con diseos elaborados (por ejemplo, diseo
central compuesto o Box-Benkhen), en una planta piloto, se reproducen las
condiciones de operacin de la fbrica y se buscan condiciones ptimas de
operacin. Sin embargo, lo que se quiere es que al cliente o usuario le llegue
el producto con la calidad deseada. El estudio en la planta piloto no
representa todo el proceso, le falta considerar los problemas de
escalamiento, almacenaje y transportacin. Esto lo seal Taguchi.
c) En estudios de Ecologa, pastizales, lagos, bosques, etctera, se plantea la
necesidad de representatividad en forma ms aguda. As por ejemplo, no se
puede concluir sobre la dinmica del manejo de un bosque, si se estudian
reas de 2 o 3 km2. Esto por que en esas reas, la dinmica de la fauna y su
relacin con el bosque queda distorsionada, algunos animales requieren

11

CONCEPTOS BSICOS DE MUESTREO


reas mayores para su territorio. Carpenter(1998) seala Ecological
criteria for choosing experimental scales include the need to encompass or
mimic the context of the processes under study, es decir la necesidad de
validez externa o representatividad.
Muestras no autoponderadas de poblaciones finitas
Cuando por costos, marcos de muestreo, no-respuesta o para minimizar
varianzas, se usan muestras no autoponderadas de poblaciones finitas, se sabe que
los promedios o proporciones muestrales no estn cerca (no convergen) a los
poblacionales. Esto ocurre porque la muestra no es representativa de la poblacin.
Sin embargo, para obtener estimadores de promedios (o algunas otras
caractersticas) poblacionales, se hacen ajustes en el clculo. Esto equivale a
restaurar la representatividad de la muestra en forma analtica. Todos los textos de
muestreo tocan el tema y se generan los llamados factores de expansin que son
el inverso de las probabilidades de seleccin de las unidades muestrales.

12

CONCEPTOS BSICOS DE MUESTREO


Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth.
Babbie (1992), presenta la idea de restaurar la representatividad muy claramente,
aunque no le da ese nombre. Tiene una poblacin de 100 personas, dividida en 4
estratos: 44 hombres blancos, 44 mujeres blancas, 6 hombres negros y 6 mujeres
negras. Por muestreo aleatorio simple (igual probabilidad, sin reemplazo) obtiene 6
personas de cada estrato de negros y 11 de cada estrato de blancos; y textualmente
dice hacer 4 copias de cada uno (obviamente del dato o medicin) de los
elementos muestreados de los blancos. Esto equivale a decir que cada dato de los
estratos de los blancos se expande 4 veces. Por esto ese valor 44/11=4 se llama
factor de expansin. Con esas 4 copias tiene una poblacin con 44 hombres
blancos (11 valores cada uno 4 veces), 44 mujeres blancas (11 valores cada uno 4
veces), 6 hombres negros (6 valores distintos) y 6 mujeres negras (6 valores
distintos). Se consigue que la distribucin de sexo y raza en la poblacin sea la
misma que la de la muestra reconstruida.
Ntese que en general, para restaurar la representatividad se reproduce en la
muestra la distribucin conocida de algunas variables en la poblacin, esto se
efecta para cada diseo de muestra de acuerdo a los llamados factores de
expansin que son especficos para cada diseo, usualmente se denotan por wi.
Para este diseo hay un teorema bsico de Horvitz-Thompson para usar
factores de expansin, que se utiliza con cualquier diseo de muestreo conociendo
las llamadas probabilidades de inclusin de primer orden, que son la probabilidad de
que el elemento i-simo de la poblacin est en la muestra. Tambin las
probabilidades de inclusin de segundo orden, que son la probabilidad de que
ambos, el elemento i-simo y el j-simo estn en la muestra.
Los estimadores de razn y regresin, que se vern despus, usan
informacin adicional que permite conocer el grado de representatividad de la
muestra en relacin con la poblacin, va una variable auxiliar; la que con algunos
supuestos adicionales, se puede utilizar para restaurar la representatividad o
hacerla mayor.
La idea de ajustar la distribucin de la muestra a la de la poblacin conduce
a varias alternativas, ya sea en el diseo o en el anlisis de la informacin. En el
diseo con las llamadas cuotas y en el anlisis con los ajustes basndose en
valores conocidos en la poblacin. Los estimadores de razn y regresin son un
ejemplo de esto ltimo.

3.7 Muestreo por cuotas


En muchas situaciones de investigacin por muestreo, se conoce en la poblacin la
distribucin de varias variables categricas; en muestreo de poblaciones humanas,
es comn que sea sexo, edad, escolaridad o niveles socioeconmicos. Se toma la
muestra de manera que la distribucin de esas variables, en forma conjunta, sea
idntica en la muestra a la de la poblacin. Es decir, la muestra debe cumplir con
cuotas o nmero de elementos para cada sexo, edad o nivel socioeconmico. Esto
puede ser muy bueno, sin embargo hay dos grandes problemas. Primero, que las
variables consideradas para formar las cuotas sean verdaderamente las que ms se
relacionan con las variables en estudio (opinin, ingresos, salud, etctera.); y
segundo, que al tomar la muestra se tenga una o ms variables que no se
incluyeron en las cuotas y que s influyen en las variables de inters. Si la muestra
se localiza en lugares poco frecuentados por un sector de la poblacin, ste no

13

CONCEPTOS BSICOS DE MUESTREO


aparece o aparece subrepresentado en la muestra, si en ese sector hay valores
diferentes de las variables de inters, hace que la muestra no sea representativa.
Vase Stephan y Mc Carthy (1974).
Combinar muestreo probabilstico con cuotas
En algunas aplicaciones se puede tener un muestreo probabilstico polietpico
estratificado, por ejemplo: Estratos de municipios (como UPM), localidades como
USM, AGEB como UTM, manzanas como UCM, viviendas como UUM. Se toman
por aleatorio simple, por ejemplo 10 viviendas en cada manzana y de ellas se
seleccionan por ejemplo, 5 personas que cumplan con cuotas de edad y sexo en
conjunto para la AGEB. Esto hace a la muestra an ms representativa, ya que las
diferencias regionales y de reas se toman en cuenta en el muestreo probabilstico,
sin embargo se busca mayor representatividad de variables, que como sexo y edad,
pueden no estar bien representadas en 1 2 UUM (viviendas). As no ocurre la
segunda razn problemtica del muestreo de cuota directo. Este esquema ha dado
buenos resultados en la prctica.
Postajustes
Otra forma de mejorar la representatividad de la muestra es ajustar los factores de
expansin por la distribucin conocida de variables en la poblacin. Esto se ver
despus.
Comentario final sobre el concepto de representatividad
A manera de conclusin rpida, se puede afirmar que el concepto de
representatividad, entendida como la distribucin de las variables de inters y/o
relacionadas en la muestra, debe parecerse a la de la poblacin, esto es crucial en
todos los razonamientos estadsticos.
En este apartado nicamente se tocaron algunas consecuencias en la
investigacin, sea observacional o experimental, del concepto de representatividad
de las muestras a las poblaciones. Este es el concepto bsico de la validez externa
o sea la capacidad para aplicar las conclusiones de un estudio a otros, o a un
conjunto amplio de otros elementos distintos a los estudiados. Se reconoce que es
difcil asegurar la representatividad cuando no se tiene una muestra probabilstica y
de tamao grande, es decir, si la muestra es as, opera la ley de grandes nmeros
(con sus correcciones tipo Horvitz-Thompson) y se esperan con elevada
probabilidad muestras representativas. En los casos de muestras de tamao
pequeo o que sean no probabilsticas, la representatividad se supone con base en
razonamientos tericos del proceso estudiado.

14

CONCEPTOS BSICOS DE MUESTREO

4. Conceptos generales y notacin


Mediante el proceso de muestreo, lo que se desea hacer es una inferencia, esto es una
estimacin de un parmetro de una poblacin finita. As la poblacin es un conjunto de N
unidades, P={u1, u2, , uN} y a cada unidad se le asocia una variable Y(ui)=Yi que sea
de inters (se le pueden asociar otras variables, por ejemplo: X(ui)=Xi, Z(ui)=Zi,,
etctera). Si los vemos como vectores Y , Y , Y , , Y , X , X , X , , X
.

(1

Entonces, un parmetro es, por ejemplo, = Y =

) (

Y / N
i =1

la media de la poblacin (en

muestreo se usa Y para la media de la poblacin finita y


La varianza de la poblacin es:

para la media de la muestra).

= (Yi Y ) 2 / N ,
2
y

i =1

aunque se usa por facilidad:


N

S y2 =

N
y2 =
N 1

(Yi Y ) 2
i =1

N 1

.
N

En ocasiones es de inters el total de la poblacin:

Y = Yi = NY

i =1

La muestra es un subconjunto de n unidades de la poblacin, ste se obtiene con


probabilidades conocidas para todos y cada uno de los elementos de la poblacin. El
tamao de la muestra es n. En la muestra de n unidades se determinan los n valores de
la variable Y y se denotan por y1 ,y2, , yn (yi minscula es el valor observado, Yj es un
valor no observado en la poblacin, i=1n, j=1N).
Con los valores y1,y2,,yn de la muestra se construyen estimadores de los
parmetros ( Y ,Y,S2,2y). Para evaluar los estimadores se considera que el proceso de
obtencin de la muestra se puede repetir muchas veces y en cada una tener un valor para
el estimador. Como las muestras varan en su constitucin los valores de los estimadores
tambin variarn. Siempre que se realice un muestreo se debe especificar la forma de
tomar la muestra y la manera de calcular los estimadores f ( y ,...., y ) = . Al tener
1

muchos valores de los estimadores se puede estudiar su regularidad estadstica con


distribuciones de frecuencias. Estamos hablando de una nueva poblacin que son las
diferentes estimaciones del parmetro de inters. Estas distribuciones de frecuencia se
estudian tericamente. Si la media de los posibles valores de los estimadores es el
parmetro en estudio, se dice que el estimador es insesgado con esta forma de

seleccionar la muestra ( E () = ). El criterio fundamental para determinar cul


estimador es mejor entre varios posibles es que para un tamao de muestra fijo, el mejor
estimador tenga menor variabilidad alrededor de su media (o sea el parmetro, si el
estimador es insesgado). La medida de variabilidad es la varianza del estimador.

CONCEPTOS BSICOS DE MUESTREO

V () = E[ E ()]2
Si el estimador no es insesgado es conveniente tomar como medida de variabilidad el
error cuadrtico medio (ECM).

ECM () = E ( ) 2
ECM () = V () + [ E () ]2

donde

E () = B() = sesgo

Una vez seleccionado un buen estimador, el tamao de muestra n se determina con


base en el grado de precisin deseada. Esta precisin es el grado de variabilidad que
presenta el estimador alrededor del parmetro al tomar muchas muestras de tamao n.
As, si el parmetro es
por un nmero

y el estimador

( = Y )

y , esta precisin se expresa

tal que tenemos tres expresiones equivalentes:

(
(

)
)

P | | < = 1
P | Y Y | < = 1

P[ | y Y |<
A

es

]=1

(4.1)

se le conoce como error absoluto.

Entonces,

]= 1

P + = 1 = . 95

P y Y y +

= . 95

Donde 1- ser cercano a 1 y se denomina confiabilidad. Para poder usar la expresin


(4.1) se requiere conocer la distribucin terica de los posibles valores de y , el estimador
en general. Frecuentemente se recurre al Teorema central del lmite que especifica que,

y ~ N (Y ,

y2
n

) . Sin embargo, en algunos casos el teorema central del lmite no es

vlido, entonces la determinacin del tamao de muestra n se basa nicamente en el


criterio de lograr que la varianza del estimador sea pequea, menor o igual que un valor
dado, asegurando as, el grado de variabilidad que presenta el estimador alrededor de su
media (el parmetro si el estimador es insesgado). Una presentacin alternativa del error
de estimacin es:

CONCEPTOS BSICOS DE MUESTREO

P
< = 1

donde * =

estamos pensando en un error mximo

permisible que est en funcin de la cantidad que vamos a estimar. A * se le conoce


Aunque no conocemos , al emplear * =

como error relativo. Tambin el error de muestreo se usa con porcentajes,

100.

Si no se supone la normalidad, lo ms usual es considerar el coeficiente de variacin del


estimador con un valor fijo y determinar el tamao de muestra para que se alcance ese
coeficiente de variacin.
Lo ms frecuente es que las caractersticas de la distribucin del estimador
dependan de algunos parmetros desconocidos de la poblacin de inters. Como las
caractersticas de la distribucin del estimador son las que se usan para determinar el
tamao de muestra n, resulta que hay que conocer ciertos parmetros de la distribucin
original (la poblacin) para determinar n, el que a su vez servir para estimar parmetros
de la poblacin. Esta situacin conflictiva puede resolverse de dos maneras:
(1) Terica: utilizando los conocimientos existentes para tratar de especificar con base en
experiencias previas, la distribucin terica de la variable en la poblacin o con algn otro
mtodo a priori, el valor de los parmetros de la poblacin necesarios en la determinacin
del tamao de muestra. Los valores que se necesitan usualmente son la varianza o el
coeficiente de variacin.
(2) Prctica: Se obtiene una muestra preliminar o muestra piloto para estimar aunque sea
de un modo muy aproximado los parmetros relevantes. La muestra piloto sirve, adems,
para probar la factibilidad de los mtodos de seleccin, probar el cuestionario, determinar
costos y otros aspectos prcticos.
Para especificar la varianza de una poblacin se puede usar el conocimiento
aproximado que se tenga sobre la forma de la distribucin y la amplitud de variacin de
los valores. Deming (1950, pg. 62) propone una tabla de formas de distribucin y sus
varianzas correspondientes en funcin de la amplitud h. Donde h = amplitud (mxima Yi
mnima Yi). La tabla es:

CONCEPTOS BSICOS DE MUESTREO


TABLA 1.

Varianza de distribucin en funcin de forma y amplitud.

FORMA

NOMBRE

VARIANZA= y

Uniforme

h2
12

Triangular simtrica

h2
24

Triangular asimtrica

h2
18

h2
8

Elipse

h2
16

Normal

h2
36

Con un conocimiento ms o menos profundo del fenmeno estudiado (el que determina
Y(ui)=Yi y el tipo de unidades ui) se puede determinar h y la forma de la distribucin de
los valores de Y y con ellos obtener y2 que se usar posteriormente para fijar n. Kish
(1965, p. 262) presenta una ampliacin de esta tabla.
Nota: Recordemos que

CONCEPTOS BSICOS DE MUESTREO

( )

V ( X ) = E [X E ( X )] = E X 2 E 2 ( X )
2

E(X ) =

xf (x )dx

( ) = x f (x )dx

E X

donde f (x) es la funcin de densidad.

CONCEPTOS BSICOS DE MUESTREO

5. Muestreo aleatorio simple sin reemplazo (mas)


Este esquema de muestreo es el ms usado cuando se tiene un marco de muestreo que
especifique la manera de identificar cada unidad en la poblacin. Adems no se tiene
conocimiento a priori sobre los posibles valores de Yi ni otras mediciones asociadas a Yi.
En este caso cada unidad se extrae con igual probabilidad, por etapas, y sin reemplazo,
hasta tener las n unidades de la muestra. En la primera extraccin, la probabilidad de que
se seleccione una de las n unidades es n . En la segunda extraccin la probabilidad de
N

n 1
y as sucesivamente: en
N 1
N
n k +1
. Para estimar Y = Yi / N
la seleccin k, la probabilidad de una unidad l es
N k +1
i =1

que se seleccione una de las restantes n-1 unidades es:

se obtiene el promedio de la muestra:


n

y = Y = yi / n

(5.1)

i =1

Este es un estimador insesgado ( E ( y ) = Y , el promedio de los posibles valores


tomar muchas muestras es

V ( y) = E(y Y )
S y2 =

Ntese que si N es infinito,

n
N

n Sy

= 1
N n

1 N
(Yi Y ) 2 .
N 1 i =1

V ( y) =

poblaciones infinitas.

al

) adems su varianza es
2

donde

S y2
n

, es el resultado que se obtiene para

n es la fraccin de muestreo o proporcin de la poblacin que se muestrea, y


N
es el factor de correccin por finitud (fcf).
Se puede demostrar que con este proceso de seleccin, la probabilidad de que

cualquier unidad ui est en la muestra es i =


en la muestra es ij =

n(n 1)
.
N ( N 1)
N

Para estimar el total

Yi = NY

=Y

n
y la de que ambas una ui y una uj estn
N

tenemos:

CONCEPTOS BSICOS DE MUESTREO

Y = NY = Ny
adems si

(5.2)

~ N[ ,V( )] , entonces:
P[ 1.96 V( ) + 1.96 V( ) ] = 0.95

Si no conocemos V () tenemos que estimarla:

P[ 1.96 V( ) + 1.96 V( ) ] =&0.95


En el caso particular del mas tenemos:

= Y , = y

P y 1 .96

1 4

()

S y2
n

y V = V ( y ) = 1
N n

2
2
S
S
n y
n y

Y y + 1 .96 1 -
= 0 .95
1-
N n
N n

4 2 4 4 3

P y Y < = 0.95

= error absoluto.
= 1.96 V ( y )

Despejando n de

n=

se tiene:

1
2

+
(1.96 )2 S y2 N

(1.96 )2 S y2

=&

Recordemos que:

(Yi Y )2

E ( yi E ( yi ) )2 = E ( yi Y )2 = 2y = i

S y2 =

2
N
2
2 (Yi Y )
y, Sy =
N 1
(N 1)
2

CONCEPTOS BSICOS DE MUESTREO

5.1 Tamao de la muestra (mas)


El valor de

S y2 y2

se estima con una prueba piloto o bien se adivina usando tablas

(ver Tabla 1), y el conocimiento previo sobre la poblacin.


Si se considera que y no se ajusta a la distribucin normal, se usa el criterio de
fijar la magnitud de la varianza o del coeficiente de variacin de

y . Se determina n para

que produzca un coeficiente de variacin dado (CV0) usando estimaciones gruesas de


Y y de S 2 .
y

As

CV0

1
[
V ( y )] 2
=

E( y)

n S y
1
N n
=
Y

Despejando n, se obtiene:

n=

Sy2
(CV0 ) Y +
2

Sy2

(5.3)

Si n es "grande se espera que el teorema Central del Lmite d una buena aproximacin
de la distribucin de y . As:

y ~ N [Y ,V ( y )]

P y z V ( y ) Y y + z V ( y ) = 1

2
2
si 1 = .95

n S2
n S2
Y y + 1.96 (1 ) = 0.95,
P y 1.96 (1 )
N n
N n

CONCEPTOS BSICOS DE MUESTREO

entonces

y Y

[V ( y )]

se distribuye aproximadamente como una normal estandarizada


2

(media cero y varianza uno),

2
n Sy

donde V ( y ) = 1
.
N n

Si se desea un tamao de muestra tal que el error de estimacin sea inferior a

P [| y Y |< ] = 1 , = z

con una probabilidad de 1-, esto es:


dividiendo entre

V ( y )

[V ( y )] 1 2

y Y

= 1

P
<
1
1
[V ( y )] 2 [V ( y )] 2

De las tablas de la normal estndar, Z~N(0,1), se obtiene un valor z/2 tal

que P Z < z / 2 = 1 (z/2 es el valor de Z obtenido en las tablas que deja un rea
de /2 a la derecha de l). Como

y Y

[V ( y )]

~ N (0,1) , hacemos que


2

y Y

[V ( y )]

sea un
2

valor de Z arbitrario y que:

z / 2 =

[V ( y )] 2
1

S y2
n
1
n N

de aqu se despeja n:

n=

2
1
+
2
2
z / 2 S y N

=&

z2 / 2 S y2

(5.4)

Si = 0.05 entonces:

(1.96) 2 S y2
n =&
2

CONCEPTOS BSICOS DE MUESTREO

Se puede usar

n=

n' =

z2 / 2 S y2

como una primera aproximacin y luego corregir usando

n' .
n'
1+
N

Si no se puede suponer normalidad de la distribucin del estimador, se recurre a la


desigualdad de Tchebycheff.
Desigualdad de Tchebycheff
2
Sea U una variable aleatoria con cualquier distribucin y E (U ) = U , V (U ) = U

P[U U U ]

P[U U U ] 1

P[U U U U + U ] 1

P y V ( y) Y y + V ( y) 1

=2
=3
= 4 .4

2
1

2
1

= .75
2
1
1 2 = .889

1
1 2 = .95

= 4 .4 V ( y )

(5.4a)

n=

1
+
( 4 .4 ) 2 S 2 N
En las expresiones anteriores, si tanto como S se expresan en por ciento de la media,
2

' = 100 , CV = 100 la expresin (5.4) se transforma a:


y
y

n=

( ')2

1
+
Z 2 / 2 (CV ) 2 N

=&

z2 / 2 (CV ) 2

( ')2

Si no se supone normalidad para la distribucin de y y con confianza del 95%, por la


desigualdad de Tchebycheff, entonces (5.4a) se transforma a:

CONCEPTOS BSICOS DE MUESTREO

( 4.4)(CV ) 2
n=
=&
( ) 2
1
( ) 2
+
( 4.4) 2 (CV ) 2 N
1

5.2 Estimacin de proporciones


Y(ui) es una medida o indicador de la presencia o ausencia de una caracterstica en la
unidad ui con valor 1 si la caracterstica est presente y 0 si no es as. En este caso
Y = P = proporcin de unidades en la poblacin que tienen la caracterstica
N

Yi .
Y = i
= P

p= y
S y2

que es la proporcin de unidades en la muestra con la caracterstica. El valor de


en trminos de P resulta:
N

SY2 =

(Yi Y )

N 1

= NP (1 P )

con estimador

N
1
=
P (1 P ),
N 1 N 1
n

S y2 = s y2 =

(y

y)

n 1

2 = P(1 P )

nP
(1 P ).
=
n 1

Con este nuevo valor la expresin (5.3) resulta:

N
(1 P )
1 P
1
N

n=
=&
1 P P(CV0 )2
2
(CV0 ) P +

N 1

(5.5)

Para usar esta expresin, se estima a priori o con una prueba piloto el valor de P y se fija
el CVo que se desea.
Si utilizamos la desigualdad de Tchebycheff tenemos:

CONCEPTOS BSICOS DE MUESTREO

n=

N
( 4 .4 ) 2
P (1 P )

1
N
=&
2

2
1
+
N
N
( 4 .4 ) 2
P (1 P )
N 1
( 4 .4 ) 2
5
n =& 42 = 2

Ntese que si P est cercano a cero, el valor de n aumenta. Esto indica que para estimar
la proporcin de unidades con una caracterstica rara se requieren muchas unidades en la
muestra. Esto es lo contrario de lo que sucede si se usa la aproximacin a la normal, en

SY2 =

cuyo caso se usa la expresin (5.4) con

n=

NP
(1 P )
N 1

1
+
z2 S y2 N

=&

z2 S y2
2

Si se quiere conocer P, las Yi son 0 1.

N
P(1 P) =&P(1 P)
N 1
z2 / 2 P (1 P )
n=
.
2

S y2 =

Si

= .05 z = 1.96 =&2 , adems como la varianza de P es mxima cuando P


2

= 0.5, se usa P(1-P)=(.5)(.5)=0.25 como margen de seguridad

2 2 (.25) 1
= 2.
n =&
2

Entonces se debe dar que nP>5 y n(1-P)>5 para que se tenga buena cercana a la

normalidad. Al variar se tienen los siguientes tamaos de muestra:

.001
.01
.02
.025
.03
.035
.04

n
1,000,000
10,000
2,500
1,600
1,111
816
625

CONCEPTOS BSICOS DE MUESTREO

adems si

P ~ N ( P,V ( P ))

entonces se debe reportar el resultado de la estimacin de

P con un intervalo de confianza aproximado dado por:

P p 1.96 V ( p) P p + 1.96 V ( p) .95,

n Np (1 p )

.
V ( p ) = 1
N (N 1)n

CONCEPTOS BSICOS DE MUESTREO

6. Muestreo estratificado
El muestreo estratificado consiste en dividir la poblacin en L subconjuntos o
estratos, y de cada uno de ellos seleccionar una muestra probabilstica; de manera
independiente de un estrato a otro.
Existen tres razones importantes para utilizar este tipo de muestreo:
estadsticas, marcos y de costos.
La razn estadstica ocurre cuando la poblacin est constituida por
unidades heterogneas y podemos tener una idea previa de los grupos de unidades
ms homogneas entre s, entonces es conveniente formar estratos. Los estratos
son subconjuntos de la poblacin que agrupan unidades homogneas, aunque sean
heterogneas entre estratos. Cada estrato se muestrea por separado y se obtienen
los estimadores de parmetros (totales, medias, proporciones) para cada estrato. Se
supone que se conoce el nmero de unidades en cada estrato (Nh). Aunque esto se
ver despus, es importante sealar que si se usan estimadores de razn o de
regresin o si el muestreo se hace con probabilidad proporcional al tamao, los
estratos se forman con subconjuntos de unidades donde sea constante la
proporcionalidad de Y a X, aunque esa proporcionalidad cambie de estrato a
estrato.
Como ejemplos de la razn estadstica para usar estratos, considrense:
(a) En un muestreo donde interesa conocer alguna caracterstica de los
hogares en la Ciudad de Mxico (por ejemplo: gastos en alimentos, ropa, ingresos,
tipo de casa habitacin, aos de escolaridad del padre, nmero de hijos, etctera).
Se sabe que esas caractersticas dependen fuertemente del nivel socioeconmico
de las familias, por lo tanto conviene hacer estratos considerando reas de la ciudad
con niveles socioeconmicos semejantes. As, las colonias se pueden clasificar a
priori con relacin al nivel socioeconmico como: muy alto, alto, medio, medio bajo y
bajo, formando de esta manera cinco estratos. La encuesta se planea para cada
estrato por separado. El efecto de formacin de estratos es reducir la variabilidad de
los estimadores. La variabilidad de Y se puede reducir mucho si los estratos son
muy homogneos dentro de cada uno de ellos y heterogneos entre los mismos.
(b) En un muestreo para estimar la cosecha total de caf en Mxico, se
conoca que el estado fisiolgico, edad y estado de sanidad de los rboles influye
mucho en su produccin. Entonces, se tomaron como estratos, categoras de
rboles bien definidas y homogneas en lo que respecta a edad, estados
fisiolgicos y de sanidad. Adems, los predios se agruparon en estratos de acuerdo
a la regin ecolgica donde estaban ubicados. Esto es porque la productividad del
caf vara segn las condiciones ecolgicas como altura sobre el nivel del mar,
vientos, temperaturas extremas, etctera.
(c) En una encuesta para estimar el consumo de energa elctrica es
conveniente agrupar las fbricas en estratos, as quedaran agrupadas en: fbricas
grandes, fbricas pequeas, empresas de produccin familiar y un estrato final
constituido por casa-habitacin. Esto, porque sabemos que el consumo de
electricidad va a ser muy variable entre estratos, y esperamos que sea menor dentro
de estos.
Otra razn poderosa para formar estratos es la disponibilidad de marcos. Si para
una parte de la poblacin se tiene un buen marco, ste se usa para el muestreo de
esa parte y la o las otras partes de la poblacin se muestrean usando otros marcos
ms imprecisos y, posiblemente distintos esquemas (diseos) de muestra. Por

45

CONCEPTOS BSICOS DE MUESTREO


ejemplo, en encuesta de hogares se cuenta con un buen marco para la zona urbana
de construccin antigua; pero las zonas rurales y las urbanas de construccin
reciente no tienen un marco adecuado. Entonces se utilizan planos catastrales para
las zonas urbanas antiguas (un estrato), se usan fotografas areas para zonas
rurales (otro estrato) y las reas de posible nueva urbanizacin (otro estrato) se
delimitan como otro marco; se muestrean reas y se investigan las nuevas
urbanizaciones (muestreo en etapas o conglomerados).
Otra razn ms para construir estratos puede ser el costo de localizar y
levantar la informacin de las unidades, por ejemplo: si en una encuesta de predios
agrcolas hay una regin cuyo acceso es difcil (por avin o a caballo nicamente),
esa regin puede constituir un estrato, que ser muestreado con un tamao de
muestra pequeo.
Lo ms frecuente es que los tres criterios para formacin de estratos
coincidan, de modo que los estratos formen unidades homogneas con un mismo
tipo de marco y con costos de localizacin y captacin de informacin semejantes.
Se pueden utilizar diferentes formas de muestreo en los diferentes estratos,
sin embargo, se considerar en este escrito como una introduccin al tema, aquel
en el cual cada estrato se muestrea usando mas. Ms adelante se consideran las
muestras complejas, donde se amplia el uso de estratos. Considrese la siguiente
notacin:
Nh= nmero de unidades en estrato h-simo;
estratos.

h = 1,2,", L,

L= nmero de

Valores poblacionales

Yhi

valor de la medicin en el elemento i-simo del


estrato h-simo.

N = Nh

total de unidades en la poblacin.

h =1
Nh

Yh =

Yhi
i =1

media poblacional del estrato h-simo.

Nh
Nh

Yh = N hYh = Yhi

total poblacional del estrato h-simo.

i =1

46

CONCEPTOS BSICOS DE MUESTREO

Nh

Sh2

(Yhi Yh )
i =1

varianzas poblacionales del estrato h-simo.

Nh 1
L Nh

Y = Yh = Yhi
h =1

total de toda la poblacin.

h =1 i =1

Y = Nh Yh
h=1

Y =

Y
Nh

Wh =

media de los valores Yhi en toda la poblacin.

Nh

proporcin del tamao del estrato h-simo.

Wh = 1.

h =1

Valores muestrales
En esta parte se considera cualquier estrategia de muestreo probabilstico en cada
estrado, incluso pueden ser diferentes de un estrato a otro. Supngase que de
manera independiente se toman muestras de cada estrato. Sea nh el tamao de
muestra en el estrato h-simo. La muestra total es
L

n = nh
h =1

Supngase

que

L Nh

h =1

h =1 i =1

se

quiere

estimar

el

total

de

la

poblacin,

esto

es

Y = Yh = Yhi . Para esto con la muestra de cada estrato se estima el total,


sea Y el estimador insesgado o con sesgo despreciable para el caso de
h

47

CONCEPTOS BSICOS DE MUESTREO


estimadores de razn o de regresin, su varianza V (Y ) , adems, sea V (Y ) un
h
h
estimador de esa varianza.
El estimador del total es

Y = Yh la suma de los estimadores de los


h =1

totales de los estratos (es un estimador insesgado). Esto es vlido con cualquier
diseo de muestra y estimadores por estrato, los que pueden ser distintos en los
diferentes estratos.
La varianza del estimador del total es

V (Y ) = V (Yh ) , que es la suma de


h =1

las varianzas de los estimadores de los totales de estratos. Esto es por tener
muestras independientes en los estratos.
Adems el estimador de la varianza del estimador del total es: V (Y ) =

V (Yh ) .

h =1

Suponiendo distribucin normal de Y se tiene:

P Y Y < 1.96 V (Y ) = .95

P Y 1.96 V (Y ) Y Y + 1.96 V (Y ) = .95


Si no se puede suponer normalidad sese el valor 4.4 en lugar de 1.96 (T.
Tchebycheff). Estas expresiones para Y son vlidas para cualquier forma de
muestrear estratos.
La primera aproximacin al suo de estratos es considerar que se usa mas
nh

en cada estrato entonces: Y = N y = N


h
h h
h

yhi
i =1

nh

= N hYh donde yhi son los valores

observados en la unidad i-sima de la muestra (tamao nh) del estrato h-simo.


El estimador del total poblacional es:
L

Y = Yh = N h yh
h =1

(6.1)

h =1

nh

y
Y = N h hi
h =1 i =1 nh
L nh N
= h yhi
h =1 i =1 nh
48

CONCEPTOS BSICOS DE MUESTREO

Nh
corresponde al factor de expansin, de las unidades obtenidas en cada
nh

donde
estrato.

Su varianza terica es:

V (Y ) =

V (Yh ) =

h =1

h =1

N h2V ( yh2 )

Esta varianza se estima al sustituir

S h2

h =1

N h2 1

nh S h2

N h nh

(6.2)

por su estimador en cada estrato. Para esto

se usan los estimadores de varianza usuales,


2

nh

( y hi y h )2

i =1

nh 1

Ntese que

S h2

, que es el estimador insesgado de S 2 .


h

es la misma expresin que

S h2 , pero la primera es con

valores de la muestra y la segunda con los valores de todo el estrato h-simo.


Recurriendo al Teorema central del lmite, para cada estrato

yh ~ N [Yh , V ( yh )] , se tendr que Y ~ N [Y , V (Y )] . Esto es mucho ms factible


aunque cada yh no tenga distribucin normal, si se tienen muchos estratos. Se
puede decir que los errores de estimacin tienden a cancelarse de un estrato a otro.
Si se estima V (Y ) , se puede construir un intervalo de confianza aproximado
para el total de la poblacin:

P Y 1.96 V (Y) < Y < Y +1.96 V (Y) = 0.95

(6.3)

Al dividir cada trmino de (6.3) entre N=Nh , tenemos el intervalo de confianza para

Y ,

la media de la poblacin.
Si se considera que la muestra es grande en cad estrao, la muestra toal
ser mayor an. Esto justifica el uso del valor 1.96 en lugar del valor de las tabl s de
t. Ntese que:
L
nh S h2
2

V (Y ) = N h 1
N
h =1
h nh

(6.4)

Si lo que se quiere estimar es Y , se tendr que,

49

CONCEPTOS BSICOS DE MUESTREO


L

Y = =
N
Donde W =
h

Nh
N

N h yh
h =1

Nh

h =1

y h = Wh y h

(6.5)

h =1

proporcin del tamao de estrato h-simo. Ntese que (6.5) es un

promedio ponderado de los promedios muestrales y su varianza es:

()

L
n h S h2

V Y = Wh 1
N
h =1
h nh

(6.6)

la que se estima con:


L
nh S h2

V (Y ) = Wh 1
N
h =1
h nh

De manera semejante, el intervalo de confianza aproximado para


siguiente
:

(6.6a)

es el

P Y 1 . 96 V (Y ) Y Y + 1 . 96 V (Y ) = 0 . 95

An con muestras chicas en cada estrato (nh = 2,3,4) si se tienen mas de 10


estratos se puede tener normalidad para Y , esto en virtud de la compensacin de
errores.
Proporciones
Si lo que se requiere estimar es P, la proporcin de elementos de la poblacin que
tienen una caracterstica determinada, se usan las equivalencias dadas por

Yh = Ph , y h = p h .
L

P = Wh p h ,
h =1

n p (1 p h )
V (Y ) = V ( P ) = Wh2 1 h h
.
nh
h =1
Nh

Estas equivalencias surgen al considerar que

50

CONCEPTOS BSICOS DE MUESTREO

1
Yhi=

Si la unidad i-sima del estrato h tiene la caracterstica

0 De otro modo

Slo si las Ph son muy diferentes de estrato a estrato, vale la pena estratificar. Si
.2 Ph .8 h , no conviene usar los estratos.

6.1

Distribucin (afijacin) de la muestra a los estratos

Antes de considerar el problema de la determinacin del tamao de muestra, se


discute la forma de distribuir el tamao de muestra total, n, a los diferentes estratos.

6.1.1. Distribucin proporcional


Un criterio es lo que se le llama distribucin (afijacin) proporcional, donde la
muestra se divide de manera proporcional a los tamaos de los estratos Nh. Se
busca que se cumpla la relacin:

nh N h
=
= Wh .
n
N
De esta relacin se tiene:

nh = n

Nh
N

= nW h .

(6.7)

Esta distribucin de la muestra total se usa cuando no se tiene informacin sobre la


magnitud de las S 2 , o que esas S 2 sean semejantes; se usa adems cuando los
h

costos de muestrear las unidades en los diferentes estratos son semejantes.


Tambin se emplea cuando el muestreo o encuesta va a determinar varias
caractersticas (varias mediciones) en cada unidad de la poblacin, incluso cuando
se quiere que sea autoponderado, es decir, todos los elementos de la muestra
tienen un mismo factor de expansin N h = N . Con esta distribucin proporcional se
nh

tiene:
L

nh

h =1

h =1

h =1

i =1

Y = Yh = N h y h = N h
donde k =

L
y hi
N
= h
nh h=1 nh

nh

nh

yhi = k yhi
i =1

h =1 i =1

Nh
Nh
N
=
= .
N
n
nh
n h
N

51

CONCEPTOS BSICOS DE MUESTREO

6.1.2 Distribucin ptima


Cuando se tienen costos muy diferentes para el muestreo de unidades en los
diferentes estratos, se usa la distribucin (afijacin) ptima. Si el costo para obtener
informacin de una unidad en el estrato h-simo es Ch, el costo total ser:
L

C = C0 + C h nh

(6.8)

h =1

C0 es costo administrativo, de instalacin, etctera, general. La minimizacin


(variando las nh, sin cambiar otras condiciones), de la varianza del estimador (6.2)
con costo fijo (6.8) o viceversa, produce la distribucin ptima que es:

N h Sh L N h Sh
nh = n

Ch h =1 Ch
nh

(6.9)

N h Sh
Ch

Esto es para muestreo mas en todos los estratos.


Para cualquier diseo de muestreo en los estratos, la varianza del estimador del
total se podr expresar como:

h) =
V(Y

Ah
+ (cte. que no involucra n h )
nh

Entonces la distribucin ptima es:


1

Ah L Ah
nh = n

,
C h h =1 C h

nh

Ah
Ch

6.2 Tamao de muestra total


Si lo que se quiere es encontrar aquel valor de n que produce la mnima varianza
para un costo total fijo C0, se deber usar la expresin (6.9) y sustituir en (6.8)
entonces tenemos:

52

CONCEPTOS BSICOS DE MUESTREO


1

N S L N S
C C 0 = C h nh = n h h h h C h
Ch h =1 C h
h =1
h =1
L

C C0 =

n N
h =1

S C
h h
h
N S
h h
C
h

(C C0 ) N h S h
L

n=

Ch

h =1

N h Sh

h =1

(6.10)

Ch

Esto es usando la distribucin ptima.


Los valores de Sh se debern obtener con base en muestras piloto de cada
estrato, o bien por conocimiento previo de la forma de la distribucin en cada estrato
y el rango de variacin.
Si lo que se quiere es encontrar el valor de n que produce el costo mnimo
para un error de estimacin determinado, entre el estimador del total y el
verdadero total, entonces se tiene = 1.96 V (Y ) . Si se sustituye la varianza de la
expresin (6.2) con distribucin ptima, se obtiene:

L N S
N
S
C
h h h hC h
h =1
h =1
h

n=
2
L

(6.11)

(1.96)

+ N h S h2
h =1

Las expresiones (6.10) y (6.11) se refieren a la estimacin del total. Para estimar un
promedio, Y , la expresin
(6.10) sigue siendo vlida pero la (6.11) debe
modificarse:

P Y 1.96 V (Y ) Y Y + 1.96 V (Y ) = .95




= 1.96 V Y

()

Sustituyendo la varianza por la expresin (6.6) y con nh ptimo se tiene:

53

CONCEPTOS BSICOS DE MUESTREO

L N h Sh
Nh
S h C h

2
h =1 N
h =1 C h
n=
2
1 L
+ 2 N h S h2
2
N h =1
(1.96)
L

(6.11)

Donde ahora

es el error mximo permisible, con confianza del 95%, entre el


en
estimador del promedio Y , y el promedio poblacional Y . Ntes que las
expresiones (6.11) y (6.11) son muy diferentes.
Las expresiones (6.10), (6.11) y (6.11) se usan cuando se quiere optimizar
algo que involucra el costo. Si el costo no es determinante y si se usa la distribucin
ptima para Ch constante, (6.10) no deber usarse. Es importante enfatizar que en
(6.10), (6.11) y (6.11) se usa la distribucin ptima.

6.3 Distribucin proporcional


Si se va a usar la distribucin proporcional se puede recurrir a la expresin de la
varianza que es:
L

n
V ( Y ) = N h2 1 h
h =1
Nh

Si se sustituye

nh =

Nh
N

L
S h2
N2

= h S h2 N h S h2
n h h =1 n h

(6.12)

se tiene:

N
V (Y ) =
n

N h S h2 N h S h2

(6.12)

h =1

Con este valor en lugar de las S2, se pueden usar las expresiones (5.3) y (5.4) para
obtener n. Si se quiere tener un coeficiente de variacin fijo (CVo), sin tomar en

cuenta el tipo de distribucin del estimador Y , se tendr CV = V (Y )


0

(CV0 )2 Y 2 = V (Y ) = Nn N h S h2 N h S h2 .
L

h =1

h =1

De donde

54

CONCEPTOS BSICOS DE MUESTREO


L

n=

N N h S h2
h =1

(6.13)

Y 2 (CV0 )2 + N h S h2
L

h =1

Y ~ [Y ,V (Y )]

Si se considera que

Y Y

= 1

P
[V (Y )] 1 2 [V (Y )] 1 2

P [| Y Y |< ] = 1 ,

P | Z |< z / 2 = 1 ,

Esto es

2
z 2 / 2

y se desea tener:

de aqu se tiene que

()

z / 2 =

L
N L
= V Y = N h S h2 N h S h2
n h =1
h =1

[V (Y )]

De donde se obtiene que n debe de ser:


L

n=

N N h S h2
h =1

z 2 / 2

+ N h S h2

(6.14)

h =1

Es relativamente sencillo modificar las expresiones (6.13) y (6.14) para considerar


la estimacin de Y . El cambio fundamental est en que se debe sustituir Y por Y

que es Y , entonces
N

1
1 L
1 L

V (Y ) = 2 V (Y ) =
N h S h 2 N h S h2 .

nN h =1
N
N h =1
Resumiendo: Si se considera que el costo es importante, esto es, hay costos
diferenciales en los estratos, conviene usar la distribucin ptima (6.9) y determinar
el tamao de muestra con expresiones (6.10), (6.11) o (6.11). Si no hay costos
diferenciales muy marcados y se decide usar la distribucin proporcional (6.7) para
determinar el tamao de muestra total, se usar (6.13), si se quiere fijar el
coeficiente de variacin, sin consideraciones sobre la distribucin de los

55

CONCEPTOS BSICOS DE MUESTREO


estimadores. Si se quiere fijar la precisin ( ) y la confiabilidad (1-) considerando
distribucin normal para el estimador, se usar la expresin (6.14).
Debe tenerse cuidado al sealar que todas las expresiones anteriores determinan el
tamao de muestra para estimadores globales de toda la poblacin. Las inferencias
no son para cada estrato con esas muestras. Si lo que se desea es estimar media o
totales en cada estrato, las expresiones anteriores no se deben usar, lo que se debe
emplear son frmulas (5.3) y (5.4) para cada estrato por separado y as determinar
las nh a usarse en cada uno de ellos. Por supuesto que en este ltimo caso la
muestra total n es mucho ms grande. Esto es de esperarse, puesto que ahora se
estn haciendo inferencias por separado para L poblaciones.

56

CONCEPTOS BSICOS DE MUESTREO

7. Muestreo por conglomerados o muestreo polietpico


Cuando la poblacin contiene muchas unidades ms o menos dispersas, puede
haber dos razones fundamentales que impidan la toma de muestras directamente
de la poblacin:
1) No se dispone de un marco para las unidades de la poblacin, por que
sea muy caro o imposible construirlo.
2) El costo del muestreo se incrementa mucho por la dispersin de las
unidades, siendo ms deseable obtener la muestra de un modo menos disperso.
Cuando sucede alguna de las dos situaciones sealadas, o lo que es ms
comn, ocurran simultneamente, se recomienda el uso del muestreo por
conglomerados, aunque se sabe que en general, produce varianzas mayores que
un muestreo directo de una etapa.
Por ejemplo, si se desea investigar el nmero de personas desocupadas
(definir adecuadamente qu se entiende por desocupado) en la Ciudad de Mxico.
La poblacin es el total de personas en edad productiva, esto es que pueden
trabajar. En este caso no hay una lista de esas personas, adems sera muy
costoso que la muestra quedara dispersa en toda la ciudad. Para remediar esta
situacin se pueden formar nuevas unidades de muestreo, las llamadas unidades
primarias o unidades de primera etapa (upm). En este caso, las unidades de primera
etapa, seran las manzanas, de las cuales s se tiene un marco, los mapas de la
ciudad. Adems, si se seleccionan al azar (mas) un cierto nmero de manzanas,
considerando en ese momento una poblacin de manzanas y de cada manzana
en la muestra se seleccionan al azar (mas) un cierto nmero de personas en edad
productiva. Para esto se debe construir previamente una lista (marco) de las
personas productivas en las manzanas seleccionadas en la primera etapa. Ntese
que no se tiene un marco de personas para todas las manzanas, nicamente las
que aparecen en muestra en la primera etapa.
Algunos ejemplos de unidades primarias y unidades secundarias de
muestreo son:
Variable de inters
Trabajo, ingreso,
drogadiccin.
Produccin de trigo, maz,
carne, leche, etctera.
Contenido de calcio,
nitrgeno, etctera.
Gasto, ingreso, peridicos o
revistas ledas.
Calificaciones, ingresos de
los alumnos, etctera., en la
Facultad de Ciencias.
Caractersticas de la
produccin de acero y
fertilizantes.

Unidades primarias
upm
Manzanas

Unidades secundarias
usm
Individuos dentro de la
Manzana

Municipios

Predios

rboles

Hojas o frutos

Manzanas

Familias

Grupos
(por materia)

Alumnos

Plantas

Lotes de produccin

56

CONCEPTOS BSICOS DE MUESTREO

El muestreo de conglomerados tambin se puede combinar con muestreo


estratificado; as, por ejemplo, para los casos sealados antes, las manzanas se
pueden agrupar en colonias o sectores segn niveles socioeconmicos. Los
municipios se pueden agrupar por estados o por regiones ecolgicas semejantes.
Los rboles se pueden agrupar segn edad y forma semejante. Los grupos se
pueden agrupar por carreras o aos de estudio. Las plantas de produccin de
fertilizantes, acero, etctera., se pueden agrupar por tamao, tipo de materias
primas, etctera.
El principio bsico para construir estimadores y sus varianzas en muestreo
bietpico, es considerar el muestreo de unidades secundarias dentro de cada
unidad primaria y obtener estimadores de totales de Y y sus varianzas en las upm.
Posteriormente, usando los estimadores para cada unidad primaria muestreada, es
necesario considerar un muestreo de unidades primarias, con el fin estimar totales
en toda la poblacin.
La notacin usual es la siguiente:
Valores poblacionales (No dependen de un diseo de muestra o estimadores)
N=
Mi=

nmero de unidades primarias de muestreo (upm). Se cuenta con un


marco de muestreo para las N upm.
nmero de unidades secundarias (usm) en la unidad primaria i-sima.
N

M = M i = Nmero total de (usm). Normalmente no se conoce


i =1

Yij =

valor de la medicin en la unidad secundaria j-sima dentro de la


unidad primaria i-sima.

Mi

Yi =

Yi =

total de los valores Yij de la unidad primaria i-sima,

Yi = Yij .
j =1

promedio de la unidad primaria i-sima

1
1
Yi =
Yi =
Mi
Mi

Mi

Yij
j =1

Yi = M iYi = total de la unidad primaria i-sima.

Y=

Total de los valores de Y en la poblacin,

N Mi

i =1

i =1 j =1

Y = Yi = NY = Yij .
Y

= promedio de los totales de unidades primarias,

57

CONCEPTOS BSICOS DE MUESTREO

1 N
Y = Yi
N i =1

este promedio de totales es completamente diferente al


promedio por elemento

Ye =

Y
N

Mi

Y
=
M

promedio por elemento,

i =1

Mi

2
S wi
=

(Yij Yi ) 2
j

Mi 1

varianza entre unidades secundarias dentro de


la unidad primaria i-sima.

Sb2

1 N
=
(Yi Y ) 2 =

N 1 i =1

varianza entre totales de unidades


primarias.

Como un primer acercamiento para construir estimadores, se considera mas para


upm y tambin mas para usm. Pero puede haber otras formas de tomar la muestra
en ambas etapas.
n =
mi =

unidades primarias en muestra.


nmero de unidades secundarias muestreadas de las M i que
contiene la unidad primaria i-sima en muestra

1
Yi = yi =
mi
Yi = M iYi =
S wi2 =

mi

yij , promedio de la muestra de unidades secundarias


j =1

de la unidad primaria i-sima.


total estimado de la unidad primaria i-sima.

1 mi
(yij yi ) 2

mi 1 j =1

varianza estimada entre unidades secundarias


dentro de la upm i.

1 n

Y = Yi
n i =1

(7.1)

promedio estimado de totales estimados de upm.

58

CONCEPTOS BSICOS DE MUESTREO

Total estimado para la poblacin:

Y = N Y
n

N
Y =
n

N
i M i yi = n

1
Mi

mi
i =1

mi

j =1

yij =

N Mi
n m

i

yij

= N

(7.2)

Factores de
expansin f

i
Mi
= k el diseo es autoponderado, es decir,
Si mi es proporcional a M i entonces
mi
N
fij = k
los factores de expansin son iguales, f ij = f , j = 1,..., M i , i = 1,..., N .
n
La varianza estimada entre totales estimados de unidades primarias; es:

1 n
1 n
1n
2
2
Y Y
=
S =
M i Yi M i y i
i
b n 1i

n 1 i N 
n
i
=1

La varianza terica del estimador del total es:

1)
(

1
1 2
NN
1 1
V ( Y ) = N 2 S 2 + M 2

S
n N b n i i m
M wi .

i i



90%95% del

valor de V ( Y )

(7.3)

es cero si m =M
i
i

En la gran mayora de las encuestas, en general de los muestreos, los valores de Yij
2

son semejantes dentro de las upm. Esto hace que las S wi tiendan a ser pequeas.
Tambin los valores de las Yij son ms diferentes entre upm; adems, los totales Yi
difieren mucho si el nmero Mi de usm, dentro de las upm son diferentes; y
2
finalmente en S b se tiene varianza entre totales, no entre valores individuales. Todo
esto hace que la primera parte de (7.3) constituya frecuentemente un 90 a 95% o
incluso mas del valor total de la varianza del estimador del total.
En algunos textos de muestreo se trata el tema de muestreo de
conglomerados. Este es el que surge si en cada upm se estudian todas (se censa)
las usm. En este caso mi=Mi y entonces el segundo trmino de (7.3) se hace cero.
Esto en realidad corresponde a un muestreo de una etapa, donde las upm son las

59

CONCEPTOS BSICOS DE MUESTREO

unidades de muestreo nicas y a cada una de ellas se le asocia (se determina) Yi, el
total de los Yij en su interior.
La varianza del total, (7.3) se estima mediante

1 2 N n 2 1
1 2
2 1

S wi .

V (Y ) = N S b + M i
n
N
n
m
M

i
i
i

(7.4)

As una estimacin por intervalo, al 95% aproximado para el total Y ser:

P[Y 1.96 V (Y ) < Y < Y + 1.96 V (Y ) ] = 0.95

(7.5)

Si se considera que el primer trmino de (7.3) representa la mayor parte (95% o


ms) de su valor, es decir, se desprecia la variacin entre usm dentro de upm, se
tiene:

1
n

= 1.96 V (Y ) = 1.96 N 2 (
n=

1
+
2 2
(1.96) Sb N

=

1 2
)S
N b

de aqu despejamos n

(1.96) 2 Sb2

Un caso prctico es cuando las muestras de unidades secundarias en cada unidad


primaria son del mismo tamao mi = m. Si adems se hace el supuesto, poco
realista de que Mi = M*, las unidades primarias tienen el mismo nmero de unidades
secundarias, se tiene:
*
N M n m

Y =
y ,
n m i j ij

V (Y ) = N

Sb2

S w2 =

( )

1
n
2
*
1 + N M
n N

1
N

S wi2
i

S w2
m
1 *
mn M

(7.6)

Si en este caso se considera que el costo de localizar y elaborar el marco de las


unidades secundarias que contiene una unidad primaria es C1 y el de obtener
informacin sobre una unidad secundaria es C2, el costo total ser

C = nC1 + nmC2

60

CONCEPTOS BSICOS DE MUESTREO

De aqu, los valores de n y m ptimos, esto es, los que minimizan V( Y ) en (7.6)
manteniendo el costo fijo C0, son:

m = M * SW

(S

C1 / C2
2
b

M * S w2

(7.7)
2

Ntese que el nmero de unidades secundarias a muestrearse en cada unidad


primaria ser mayor si S 2 es mayor, o si el costo por unidad primaria es mayor, o el
W

costo por unidad secundaria es menor, o bien si S 2 es menor. Con el valor de m se


b
obtiene el de n:

n=

C0
C1 + C 2 m

(7.8)

Ntese que para estimar el promedio de toda la poblacin o promedio por el


elemento

Ye =

, es necesario el conocimiento de los valores Mi para todas

Mi
i =1

las unidades; esto no siempre es factible, por lo que se debe usar el llamado
estimador de razn.
Tal caso se discute a continuacin.

61

CONCEPTOS BSICOS DE MUESTREO

8. Estimadores de razn (bajo mas)


Se considera que a cada unidad U i de la poblacin se le asocian dos variables
numricas Yi y X i y adems cuando se tiene conocimiento a priori de que la
razn entre una y otra variable es bastante estable en toda la poblacin, se puede
usar este conocimiento para construir mejores estimadores. Recordemos que en
una estrategia de muestreo siempre se debe especificar la forma de tomar la
muestra, as como la manera de generar el estimador (en este caso de razn) para
poder saber cul es la distribucin del estimador.
En la poblacin P={u1uN} se determinan dos mediciones para cada unidad
Y(ui)=Yi y X(ui)=Xi, adems los valores de Xi se conocen o bien se conoce el
total sin advertir los valores individuales. En el primer caso los valores de Xi forman
parte del marco.
Hay dos usos para los estimadores de razn:
Caso I
Se quiere conocer
nos interesa
desconocido

Yo Y

Yi X i y que se conoce X , X , no
conocer Y. Se supone que existe el valor

bajo el supuesto

pero lo estimamos para

Yi

Y Y
R = i =1 = =
N
X X
Xi
i =1

Y = RX

, Y = RX

Y, con base en una muestra mas, donde se determinan valores


{(x1,y1), ( x2,y2), ,( xn,yn) } es:
Un estimador de

Y =

y
i =1
n

xi

X = R X

(8.1)

i =1

62

CONCEPTOS BSICOS DE MUESTREO

Y
Y = = R X
N

donde

yi

y
R = = i =n1
x

xi

i =1

En la siguiente figura podemos observar grficamente la representacin del error de


estimacin, es decir, la falta de representatividad.

Yi
Yi  X i

Yi = RX i
i = Yi Yi = Yi R X i

Y
y

error

Xi

X
X
, esta tasa se aplica al estimador y . Es decir, si
x
x
es digamos 1.2, se tiene una sobreestimacin de 20%; sta se aplica a y . As, en
La tasa de error conocida es

general

X
l
Y = y = R X , y tambin Yl = RX
x

Caso II
Hay ocasiones en donde las
dado que

Xi no se conocen y sin embargo se quiere estimar R,

R es de inters por si mismo,

=
entonces se usa R

En estos dos casos, conocer las


desconocido de Y o

Xi

y
.
x

y usarlas para estimar el valor

, o no conocer las Xi pero querer estimar R, se basan en los


l.
mismos desarrollos tericos, sobre las propiedades distribucionales de R

63

CONCEPTOS BSICOS DE MUESTREO


El estimador de

R,

con base en una muestra obtenida por mas es:

R =

i =1
n

i =1

repetir

y
x

y resulta ser sesgado. El promedio de los posibles valores de

muchas

veces

el

muestreo

no

R,

es

es

al

decir

E ( R ) R, B( R ) = E ( R ) R 0 , sin embargo s est bastante cerca de R.


Resulta ser un estimador consistente, lo que quiere decir es que si n se hace grande

lim R = R . E( R ) es el valor del promedio

se acerca a ms y ms R, es decir,

sealado, entonces se puede demostrar Raj (1968) la siguiente desigualdad:

E ( R ) R CV ( x ) [V ( R )]
O bien (sesgo de

2.

R estandarizado),
E ( R ) R

[V ( R )]
El lado izquierdo es el sesgo de

CV ( x )

dividido entre su desviacin estndar. El lado

derecho es el coeficiente de variacin de

x,

usualmente es tomar la muestra de modo que


frecuente es hacer que
muestra se obtiene de:

de donde:

CV( x ) sea de 0.1

CV( x )

sea pequeo. Un valor

o menor. En este caso el tamao de

n SX
1

N n

CV ( x ) = 0 . 1 =
X

n=

de manera que lo que se hace

1 1

n N
=
X

1
2

SX

(8.2)

(0.1) X
1
+
N
S X2

Para ver el efecto del sesgo en la probabilidad de cobertura de los intervalos de


confianza, obsrvese que si

I = 1.96 V ( ) , + 1.96 V ( )

64

CONCEPTOS BSICOS DE MUESTREO


entonces

B ()

P[ I ]

V ()
0.00
0.01
0.10

.9500
.9500
.9489

0.50
1.00

.9210
.8300

X se busca mantener fijo, a un nivel bajo, el


En la estimacin de Y, mediante Y = R
error cuadrtico medio; esto es, el promedio de los errores de estimacin que se
cometen al efectuar muchas veces el muestreo y obtener muchos estimadores Y .
La expresin aproximada para el error cuadrtico medio de Y es:

1 n

2
2

ECM (Y ) = X ECM ( R ) N V (Yi RX i ) = N 2V ( )


n i =1

N2
n 2
2 2
=

( S y + R Sx 2R Sx S y )
n
N

(8.3)

n 1
= N 2 1 ( S y2 + R 2 S x2 2 RS x y ) ,
n n
donde

1 1
n N (Yi RX i )

ECM ( R) = 2 1
N 1
X n N i =1

S y2 =

1
(Yi Y ) 2 ,

i =1 N 1

R=

1 N
( X i X )2 ,

N 1 i =1

S x2 =

Y Y
=
X X

1 N
S xy =
(Yi Y )( X i X )
N 1 i =1

65

CONCEPTOS BSICOS DE MUESTREO

=
es el coeficiente de correlacin entre Xi y Yi que es:

N
(X X)(Yi Y )
i =1 i
=
N
N
2
2
(X X) (Yi Y )
i =1 i
i =1

covarianza de X y Y
 
N
(X X)(Yi Y )
i =1 i
N
N

(X X) 2 (Y Y ) 2
i
i

i =1
i =1

N
N



x2
y2

i = Yi RX i

i = yi R xi

V ( i ) = V (Yi RX i ) = V (Y ) + R 2V ( X ) 2 RCov(Yi , X i )
= S y2 + R 2 S x2 2 RS x S y
En la prctica se debe estimar

i = Yi R X i

y a los

para obtener V ( ) = 1

Si se quiere mantener el

elementos de la muestra asociarles

n V(i )

N n

ECM( Y ) igual a una constante E0 =

2
( 1.96 ) 2

el tamao de

muestra es:

n=

1
E0

1
+
2 2
2 2
N (S y + R S x 2 RS x S y ) N


S2

1
+
2 2 2
N
(1.96) S N

=

(1.96) 2 S2

(8.4)

es el error mximo de estimacin para conocer Y con Y = R X


Para usar (8.4) se requiere estimar con una prueba piloto o bien con
2
2
consideraciones a priori, los valores de S , S , R, y =
x
y

) se obtiene mediante:
El estimador de ECM( R
2
1
n S

ECM ( R ) = 2 1
X N n

(8.5)

donde

66

CONCEPTOS BSICOS DE MUESTREO

2
1 n

, i = yi Rx
S2 =
y

RX

i
i
i
n 1 i =1

As un intervalo de confianza aproximado para el total de la poblacin, Y, es:

P[ Y Y < ] = 0.95
P [Y 1.96 EC M (Y ) Y Y + 1.96 EC M (Y ) ] = 0.95


Este es un intervalo de confianza aproximado. En la prctica la aproximacin es


bastante buena, si para el tamao de muestra se us una n que cumpliera con (8.2)
adems de cumplir con (8.4). Esto es, se usan expresiones (8.2) y (8.4) y se
selecciona el tamao de muestra mayor.
Para usar el estimador de razn es fundamental considerar que Yi es proporcional a
Xi; esto es, que la relacin entre esas dos variables sea del tipo sealado en la
figura siguiente:

Yi
Aproximadamente

Yi = RX i

Xi
El caso ms frecuente es cuando Xi es la misma variable que Yi, pero medida en
una ocasin anterior. Algunos ejemplos de variables Xi y Yi que se usan para
construir estimadores de razn, son:
Unidad de
muestreo
Predios agrcolas
Ciudades o
pueblos.

Variable Xi
Tamao del predio
en hectreas.
Poblacin en el
censo anterior.

Variable Yi

Objetivo a estimar

Produccin de caf,
Y produccin total
maz, etctera.
Poblacin actual
Y poblacin total

67

CONCEPTOS BSICOS DE MUESTREO

Familias
Distritos de ventas
Casas habitacin
Animales para
consumo de su
carne
rea de 1km2 de
bosque

Y
X

Gasto en alimento

R=

Ventas actuales

Y total de ventas
actuales

Nmero de
habitaciones

R=

Peso inicial de un
periodo de engorda

Peso final

Y peso del hato

Conteo de rboles
en una fotografa

Conteo real de
Y total de rboles
rboles en el campo

Ingreso mensual
Ventas de un
producto 3 meses
antes
Nmero de
habitantes en la
casa

Y
X

Si se tiene mala proporcionalidad en toda la poblacin se puede y debe estratificar,

Yih
 X ih , Yih = Rh X ih , utilizando estimadores de razn
en cada estrato; las R pueden cambiar mucho de un estrato a otro.
h
para logra que

El estimador de razn resulta mas preciso que el estimador usual en mas, si se


cumple que:

>

CV ( x )
2CV ( y )

Sin embargo, puede tomarse una =


muy grande y que no funcionen bien los
estimadores de razn; en caso de que la relacin entre Xi y Yi sea:

Yi

a
Xi
En la figura existe alta correlacin entre las variables pero no una buena
proporcionalidad entre ellas. Si a es grande el estimador de razn no es

68

CONCEPTOS BSICOS DE MUESTREO


adecuado, no hay proporcionalidad entre

X i y Yi . Es la proporcionalidad entre

X i y Yi la que se requiere para el buen uso de los estimadores de razn.


Estimadores de diferencia.- Si se supone que se conoce el valor de a ,
se cambia el eje de las ordenadas y se recobra la proporcionalidad.

As el estimador por diferencia, donde


se supone que a es conocida, es:

Yi- a

(Y a) = X y a
x

ya
Y = X
+a
x

Xi

Regresando al caso de muestreo por conglomerados y/o de etapas en donde no se


conocen los valores de las Mi, ni los tamaos (en nmero de unidades secundarias)
de todas las unidades primarias en la poblacin, entonces en este caso no se
conoce el nmero total de unidades secundarias. Para estimar el promedio de los
Y , es necesario estimar el numerador y el denominador.
valores de Yij,

Ye =

Mi
i =1

Esto toma la forma de un estimador de razn.

N n
Mi y i

n
=
1
i
=
Ye =
N n
Mi
n i =1

mi

y ij

j =1

mi

Mi
i =1

(8.6)

Mi
i =1

Para motivos de clculo es mejor utilizar la siguiente expresin equivalente:


mi

N Mi
y ij

i =1 j =1 n mi

=
Ye = n m
i
N Mi

i =1 j =1 n mi
n

mi

W
i =1 j =1
n

y ij

ij

mi

W
i =1 j =1

ij

donde Wij son los factores de expansin.

69

CONCEPTOS BSICOS DE MUESTREO


Un estimador del ECM de este estimador es:
n
m
n 1 2
1

1 i
ECM = V (Ye ) = 1
Sy +
M

i
N nM 2
nM 2 N i =1
Mi

Donde
n

M =

S wi2

Mi
i =1

S y2 =

M i2 yi Ye
i =1

S wi2

mi

(8.7)

n 1

se defini en (7.1).

De manera que un intervalo de confianza al 95% aproximadamente para

Ye

es

1
1
2
2

P Ye 1.96 V (Ye ) Ye Ye + 1.96 V (Ye ) = 0.95

[ ]

[ ]

al fijar e ignorar la segunda parte de (8.7) se puede obtener n (nmero) de unidades


primarias.

70

CONCEPTOS BSICOS DE MUESTREO

9. Estimadores de regresin (seleccin de la muestra por


mas)
Cuando se tiene informacin sobre la variable Xi en todas las unidades de la
poblacin y no hay proporcionalidad entre Xi y Yi, esto es Yi no se puede expresar
con buena aproximacin como Y = RX , no se deben usar estimadores de razn,
i

sin embargo, si la relacin entre Yi y Xi es del tipo de la primera figura de abajo,


esto es que se pueda representar aproximadamente como Y = a + bX , entonces
i

esta informacin se puede incorporar en la construccin de estimadores de


regresin.
La idea fundamental de los estimadores de regresin es que si se conoce X
y el valor de b, se puede conocer Y . Se sabe que si la relacin de Xi y Yi es
representable adecuadamente por Y =
 a + bX , entonces se tendr que
i

Y = a + bX .

Tambin de modo aproximado y = a + bx . Es decir los puntos

( X , Y ) y ( x, y ) estn sobre la recta. Si la figura de la asociacin entre Xi y Yi es:


Yi

b = tan
y Y
xX
b( x X ) = y Y
Y = y b( x X )

b( x X )
Y

a
X

estimar

Xi

error*

* Error de estimacin de

Para

b=

Y,

con

que es conocido.

consideremos

que

se

compone

de

dos

partes

Y = y b( x X ) . El valor de Y sera exacto si se cumpliera exactamente que


y = a + bx ; sin embargo, esto no se cumple exactamente porque tanto x como

estn sujetas a fluctuaciones aleatorias originadas por el proceso de muestreo,


de igual manera se debe estimar el coeficiente de regresin, de modo que en
realidad se tiene un estimador

Y = y b( x X )

(9.1)

71

CONCEPTOS BSICOS DE MUESTREO


Para estimar el total se tiene:

Y = NY = N { y b( x X )}

(9.2)

Es difcil encontrar expresiones exactas para la varianza o los errores cuadrticos


medios (son sesgados) de estos estimadores, pero son consistentes. Sin embargo,

si n es grande, adems de ignorar el factor de correccin por finitud 1

n
, se
N

tiene

V (Y ) =

S y2 (1 2 )
n

Donde

X y Y. Adems
N
1
(Y i Y ) 2

N 1 i =1

S y2 =

Si se estiman estos dos parmetros por

1 n
2

Sy =
( yi y ) 2

n 1 i =1

( xi x )( yi y)
n 1
i =1
n 1
=
n
( xi x )2 n ( yi y)2

n 1 i=1 n 1
i =1
n

se obtiene un estimador de V( Y

) y con l se podrn construir intervalos de

confianza para Y o para Y.


Si se especifica una

para el error de estimacin en

Y , esto es

p | Y Y |< = 1 , se obtendr que el tamao de muestra adecuado es

n=

z2 / 2 S y2 1 2

72

CONCEPTOS BSICOS DE MUESTREO


Ntese que si
2 = 0.49 casi 0.5, lo que implica que el tamao de
muestra se reduce a la mitad si se usa la estimacin por regresin, comparado con
no usarla. Recuerde que aproximadamente en el mas que estima Y con y , se
tiene n =

Z2 / 2 S y2

Si se desea mantener un coeficiente de variacin fijo igual a CV0, se tiene


CV0

[V (Y )]
=

1
2

, de aqu se despeja n y se obtendr:


n=

Sy2 1 2

Y (CV0 )
2

73

CONCEPTOS BSICOS DE MUESTREO

10. Muestreo sistemtico (con arranque aleatorio)


Cuando la poblacin se identifica en el marco de un modo aleatorio, esto es, cuando
los valores Yi de los elementos de la poblacin no presentan ninguna regularidad en
el marco, es ms fcil obtener la muestra usando muestreo sistemtico. En este
caso la muestra se considera igual a la extrada por mas. El muestreo sistemtico
consiste en dividir la poblacin de N unidades en n subgrupos ordenados y tomar un
elemento de cada subgrupo.
Conjunto
Conjunto de unidades poblacionales i; i=1,...,N, ordenadas en n renglones de
tamao

k. Se obtiene k

como el cociente

N
. k = N kn = N
n
n

...

...

...

...

1+k

2+k

...

i+k

...

2k

1+2k

2+2k

...

i+2k

...

3k

1+(j-1)k

2+(j-1)k

...
...

...
...

1+(n-1)k

2+(n-1)k

...
...

i+(j-1)k

jk

...
...

#
i+(n-1)k

El muestreo sistemtico procede al tomar al azar un nmero entre 1 y


entonces los elementos de la muestra son:

#
nk

k,

sea

ui, ui+k, ui+2k,...,ui+(n-1)k


Para fines de estimacin se tiene que la probabilidad de seleccionar en la muestra
cualquier elemento o unidad U i es :

i = P (U i ) =

1 n
=
K N

El arranque es aleatorio ya que se toma un nmero entre 1 y

P (U i ) =

1
K

con probabilidad

i = 1.... N

En caso de que N no sea divisible exactamente entre n, se procede igual y


habr muestras de tamao n y otras de tamao n+1. El siguiente es un ejemplo:

73

CONCEPTOS BSICOS DE MUESTREO

N = 14, n = 3
N = nk + cte.
N = 3k + 2
k =4
Se toma un nmero entre 1 y k
U 1 conglomerado muestra
U2

(U 1 , U 5 , U 9 , U 13 )

U3

(U 2 , U 6 , U 10 , U 14 )

U4

(U 3 , U 7 , U 11 )

U5

(U 4 , U 8 , U 12 )

U6
U7
U8
U9
U 10
U 11
U 12
U 13
U 14
Un ejemplo de muestreo sistemtico: se va a investigar el ingreso en las familias de
los estudiantes de una facultad. Se tiene la lista en orden alfabtico por apellido. Si
se considera que el nombre no tiene ninguna relacin con el ingreso en pesos de la
familia, se puede usar el muestreo sistemtico y se considerar como una muestra
aleatoria irrestricta (mas).
Cuando la poblacin est en un orden aleatorio en lo que respecta a los
valores Yi, se usa el muestreo sistemtico para facilitar la extraccin de la muestra.
El muestreo, en este caso, es equivalente al muestreo aleatorio irrestricto y se
usarn por lo tanto las mismas expresiones para estimar la media Y o el total de la
poblacin Y como se hizo con mas , expresiones (5.1) y (5.2) (seccin 5).
Cuando la poblacin est ordenada con relacin a los valores de Yi, con
tendencia a cambiar paulatinamente dichos valores, el muestreo sistemtico
produce varianzas de los estimadores menores que con el mtodo mas ver grfica.
Esto se debe a que la muestra queda ms dispersa sobre la poblacin. Se asegura
que la muestra sea ms representativa. Un ejemplo de esta situacin es el que
ocurre cuando se va a muestrear ramas de un rbol para evaluar su produccin de
frutos (caso del caf). Si existe una tendencia de la produccin a tener valores
mayores en las ramas ms bajas, el muestreo sistemtico asegura que en la
muestra aparezcan ramas de todas las alturas del rbol.

74

CONCEPTOS BSICOS DE MUESTREO

La muestra consiste de:


Una rama de esta oz na
Valores
mayores
de Yi

Una rama de esta oz na


Una rama de esta oz na

Zona de nivel
econmico medio
Zona de bajo nivel
econmico

Zona de nivel
econmico medio-alto

Zona de nivel
econmico alto

Otro ejemplo donde sucede esto es en algunos muestreos de viviendas, donde es


posible numerar las manzanas o cuadras iniciando en colonias (urbanizaciones) de
bajo nivel econmico, pasando gradualmente a niveles econmicos altos.
Las flechas indican el orden de numeracin.

75

CONCEPTOS BSICOS DE MUESTREO


Si la caracterstica medida produce valores Yi, que dependen del nivel econmico,
se tiene una poblacin ordenada y el muestreo sistemtico produce varianzas
menores que mas.
No hay expresiones vlidas para estimadores y varianzas de estimadores
cuando se usa el muestreo sistemtico en poblaciones que no tienen orden
aleatorio. Al usar el muestreo sistemtico en poblaciones ordenadas, se pueden
utilizar las expresiones para el mas como una aproximacin, y se sabe que en
realidad las varianzas sern menores (resulta un mtodo conservador).
Si la poblacin tiene un orden que se refleja en cambios peridicos de los
valores de Yi, el muestreo sistemtico puede producir varianzas mayores. En este
caso el problema es que la muestra puede coincidir con valores todos bajos (altos)
de Yi, siendo de esta manera poco representativa y con fluctuaciones fuertes de
muestra a muestra.

Yi

Orden en la
poblacin de las
unidades

Xi
Muestra de valores altos.

Esto puede suceder cuando la poblacin consiste en los volmenes de ventas de


una tienda en un periodo de tiempo. Otro ejemplo es en el muestreo de plantas
cultivadas (maz, trigo, etctera) en donde ciertas reas del terreno se riegan en un
da determinado y otras reas otro da.
En resumen el muestreo sistemtico es una herramienta delicada que puede ser
mejor, igual o peor que mas.

Poblacin
(relacin de los valores de Y con el orden en el
marco)
Aleatoria
Con orden creciente o decreciente.
Con orden peridico

El muestreo sistemtico es:


Igual que mas
Mejor que mas
Peor que mas

76

CONCEPTOS BSICOS DE MUESTREO


La tabla 1 muestra diez posibles muestras sistemticas y el total de cada una de
ellas, con un orden creciente en los valores de Y.
Tabla 1.

yk

tsr

1
1

2
2

3
3

4
4

5
5

6
6

7
7

8
8

9
9

10
10

11
21
31
41
51
61
71
81
91

460

12
22
32
42
52
62
72
82
92

470

13
23
33
43
53
63
73
83
93

480

14
24
34
44
54
64
74
84
94

490

15
25
35
45
55
65
75
85
95

500

16
26
36
46
56
66
76
86
96

510

17
27
37
47
57
67
77
87
97

520

18
28
38
48
58
68
78
88
98

530

19
29
39
49
59
69
79
89
99

540

20
30
40
50
60
70
80
90
100

550

()

()

( )

y Vmas Y = 7.57 10 5 .

En este caso, Vsi Y =

La tabla 2 muestra un orden ptimo de las unidades.


Tabla 2.

yk

tsr

1
1

2
2

3
3

4
4

5
5

6
6

7
7

8
8

9
9

10
10

20
21
40
41
60
61
80
81
100

505

19
22
39
42
59
62
79
82
99

505

18
23
38
43
58
63
78
83
98

505

17
24
37
44
57
64
77
84
97

505

16
25
36
45
56
65
76
85
96

505

15
26
35
46
55
66
75
86
95

505

14
27
34
47
54
67
74
87
94

505

13
28
33
48
53
68
73
88
93

505

12
29
32
49
52
69
72
89
92

505

11
30
31
50
51
70
71
90
91

505

()

Se observa Vsi Y =

77

CONCEPTOS BSICOS DE MUESTREO


La tabla 3 muestra un orden adicional.
Tabla 3.

yk

tsr

1
1

2
11

3
21

4
31

5
41

6
51

7
61

8
71

9
81

10
91

2
3
4
5
6
7
8
9
10

55

12
13
14
15
16
17
18
19
20

155

22
23
24
25
26
27
28
29
30

255

32
33
34
35
36
37
38
39
40

355

42
43
44
45
46
47
48
49
50

455

52
53
54
55
56
57
58
59
60

555

62
63
64
65
66
67
68
69
70

655

72
73
74
75
76
77
78
79
80

755

82
83
84
85
86
87
88
89
90

855

92
93
94
95
96
97
98
99
100

955

()

( )

Se observa Vsi Y = 8.25 10 6 .

La tabla 4 presenta a las unidades ordenadas en forma aleatoria.

yk

tsr

1
48

2
14

3
71

Tabla 4.
r
4
5
13
40

38
10
17
56
73
3
74
75
49

443

23
51
26
79
7
28
37
41
42

348

11
98
8
31
80
33
44
16
15

407

58
65
78
86
27
90
94
82
19

612

()

( )

70
93
34
43
60
55
12
35
46

488

()

6
59

7
18

8
45

9
6

10
53

22
68
87
66
89
1
72
95
36

595

24
25
96
2
76
21
100
67
47

476

88
32
39
62
81
69
30
50
91

587

77
99
20
57
85
61
63
64
52

584

84
9
54
5
83
92
97
29
4

510

( )

Se obtiene Vsi Y = 7.17 10 5 similar a Vmas Y = 7.57 10 5 .

78

CONCEPTOS BSICOS DE MUESTREO


La tabla 5 muestra otro orden ptimo de las unidades.
Tabla 5.

r
1

yk

tsr

2
6

5
10

6
12

7
14

8
16

9
18

10
20

22
42
62
82
99
79
59
39
19

505

24
44
64
84
97
77
57
37
17

505

26
46
66
86
95
75
55
35
15

505

28
48
68
88
93
73
53
33
13

505

30
50
70
90
91
71
51
31
11

505

32
52
72
92
89
69
49
29
9

505

34
54
74
94
87
67
47
27
7

505

36
56
76
96
85
65
45
25
5

505

38
58
78
98
83
63
43
23
3

505

40
60
80
100
81
61
41
21
1

505

()

Se obtiene Vsi Y =

()

, Vmas Y = 7.57(10 5 ) .

79

CONCEPTOS BSICOS DE MUESTREO

11. Muestreo con probabilidades


proporcionales al tamao con reemplazo
Cuando en el marco se tiene informacin sobre una
medida de las unidades (Xi) que tiene relacin de
tipo proporcional con la medida que nos interesa Yi,
que es desconocida, esta informacin se puede
usar para construir estimadores de razn. Otra
forma de usar ventajosamente esta informacin es
asignando
probabilidades
desiguales
y
proporcionales a Xi para la unidad ui. Para asignar
probabilidades desiguales en el muestreo sin
reemplazo, se requiere conocer, en la construccin
de estimadores y sus varianzas, las probabilidades
de que se incluya cada unidad en la muestra. Este
es un problema terico muy difcil y no se ha
llegado a una solucin satisfactoria (casos
especiales tiles se encuentran en Raj (1968)).
La manera ms fcil de usar probabilidades
desiguales, proporcionales al tamao (el valor de
Xi) es usando muestreo con reemplazo. Se sabe
que es ms eficiente, es decir produce varianzas
menores hacerlo sin reemplazo; sin embargo las
expresiones para las varianzas requieren
probabilidades, de seleccin de pares de variables
muy laboriosas de calcular. Por esto es
ampliamente usado el p.p.t con reemplazo, que es
mucho mas simple. Se denominar muestreo p.p.t.
con reemplazo o p.p.t. La forma para extraer la
muestra en este esquema de muestreo es la
siguiente:

81

CONCEPTOS BSICOS DE MUESTREO

1. Se obtienen los valores de Xi, acumulados en


un orden arbitrario.
2. Se obtiene un nmero aleatorio entre 1 y X (X
es el total conocido para los valores de Xi).
3. Se ve a qu unidad corresponde el nmero
extrado en el punto 2, y esa unidad se
selecciona en la muestra.
4. Se repite el proceso a partir del punto 2,
independientemente del resultado de las
extracciones previas, hasta completar la
muestra de tamao n.

82

CONCEPTOS BSICOS DE MUESTREO

Los pasos 1 a 3 constituyen la extraccin de una


unidad de la poblacin.
Unidad de la

Tamao

Tamao acumulado

Intervalo

u1

X1

X1

(1 , X1)

u2

X2

X1 + X 2

(X1+1 , X1+X2)

u3

X3

X1 + X 2 + X 3

poblacin

(X1+ X2+1 ,
X1+X2+X3)

(X1+ X2+

ui

Xi

X1 + X 2 + " + X i

+ Xi-1+1 ,
X1+X2++Xi)

u N 1

X N 1

X 1 + X 2 + " + X N 1

uN

XN

X1 + X 2 + " + X N

Total

Si el nmero aleatorio est entre X + X y X + X + X


se selecciona la unidad u3.
Ntese que algunas unidades pueden
aparecer varias veces en la muestra. La
probabilidad de la unidad en una extraccin es
1

Pi =

Xi
X

Ejemplo:
Universidad

Tamao

Tamao Acumulado

Intervalo

Pi

83

CONCEPTOS BSICOS DE MUESTREO


UAM

50,000

50,000

(1,50)

50/700

UdeG

150,000

200,000

(51,200)

150/700

UNAM

400,000

600,000

(201,600)

400/700

UABC

50,000

650,000

(601,650)

50/700

UACH

50,000

700,000

(651,700)

50/700

P(UNAM)=400/700

P(UAM)=50/700

Con este procedimiento, un estimador del total de


la poblacin, Y, es:
X
Y =
n

yi

i =1

zi

i =1

=z

(11.1)

Para encontrar las propiedades distribucionales,


considere que a cada elemento de la poblacin se
le asocia un valor
Zi =

Yi
Y
=X i
Pi
Xi

, al tomar la muestra los valores


y

obtenidos sern zi = Pi ; el conjunto z1 , z2 ,..., zn se


i
constituye con variables aleatorias independientes
e idnticamente distribuidas (v.a.i.i.d.).
La probabilidad P1 de elegir en la primera
extraccin la unidad i-sima, es decir que el valor
de z1 sea Zi es
P ( z1 = Z i ) =

Xi
; i = 1...N
X

la probabilidad Pj de elegir en la j-sima extraccin


a la unidad i-sima, es decir que el zj de la muestra
sea el Zi de la poblacin es
84

CONCEPTOS BSICOS DE MUESTREO

P( z j = Z i ) =

Xi
; i = 1...N
X

As sucesivamente hasta la probabilidad Pn de


elegir en la n-sima extraccin la unidad i-sima,
es decir que zn sea igual a Zi es
P( z n = Z i ) =

Xi
; i = 1...N
X

En general se usan minsculas para denotar los


valores en la muestra para Xi y Yi, es decir (y1...yn) y
(x1...xn) son los valores de Yi y de Xi en las unidades
de la muestra (algunas repetidas).
Las expresiones para la esperanza y la varianza de
zj son las siguientes:
N

i =1

i =1

E ( z j ) = Zi P ( z j = Z i ) = Zi

N
N
Xi
Y Xi
= i
= Yi = Y
X
i =1 X i X
i =1
X

Cada z estima al total y .


N
N
2
X
2

V ( z j ) = = E z j E ( z j ) = ( Zi Y ) P ( z j = Zi ) = (Zi Y )2 i
X
i =1
i =1
2
z

2
N
N
Xi
Yi Y
Yi
=
Y
=
Xi X
X
X
i =1 X i
i
=
1

i X

La varianza terica del estimador del total

()

X
V z = V (Y ) =
n

es:

Y
Y
1
X i i = z2

n
i =1
Xi X
N

z = yl

(11.2)

85

CONCEPTOS BSICOS DE MUESTREO

Ntese que si se tiene una proporcionalidad


Y
perfecta entre los valores de Yi y Xi, entonces i = k
Xi

para toda i.
Y = kX ,

Yi = kX i ,

de donde

k=

Yi
i =1

= k Xi

, esto es, se tiene

i =1

Y
= R.
X

De modo que en este caso

Yi
Y

=0
X

i X

para toda

i, entonces V (Y ) = 0 . A con proporcionalidad perfecta


la varianza de Y es cero; lo que implica que Y sea
igual a Y.
Cuando la proporcionalidad no es perfecta
pero s bastante aproximada, el valor de Y estar
muy cerca de Y. Esto es, la varianza V (Y ) ser un
valor cercano a cero.
La manera de estimar V (Y ) es usando:
n
yi 1 n yi
X2
2
V ( z ) = Z = V (Y ) =

n
n(n 1) i =1 xi n i =1 xi

(11.3)

tambin
n

(z
1

z )2

1
V ( z ) = V (Y ) = z2 = i =1
n
n
n 1
Considerando que Y tiene distribucin normal y

adems, si se quiere tener P[| Y Y |< ] = 1 , el


tamao de muestra, para un error de muestreo =
1 ,
usando muestreo p.p.t. con
reemplazo es:

86

CONCEPTOS BSICOS DE MUESTREO


2
N
Yi
Y

Z / 2 X X i
X
i =1 i X
Z 2 / 2 z2
n=
=
2
2
2

(11.4)

Para usar esta expresin es necesario conocer en


2
una encuesta previa o piloto el valor X N X Yi Y ,
i =1

Xi

lo ms conveniente es utilizar su estimador que es


la expresin:
X 2 n yi 1 n yi
2

z =

n 1 i =1 xi n i =1 xi

(11.5)

De manera alternativa
n

( zi z ) 2

z2 = i =1

n 1

Si se quiere tener un coeficiente de variacin para

[V (Y )]
Y , CV (Y ) =
Y

, de un valor fijo CV0, sin suponer la

distribucin normal para los posibles valores de Y ,


se usa como tamao de muestra:
Y
Y
X X i i
i =1
Xi X
n=
(CV0 ) 2 Y 2
N

(11.6)

El numerador de (11.6) se estima con (11.5).


El muestreo p.p.t. es muy til para la seleccin
de UPM en muestreos polietpicos.

87

CONCEPTOS BSICOS DE MUESTREO

12. Muestreo con probabilidades de seleccin


arbitrarias y sin reemplazo
Este es el procedimiento ms general y los diseos
de muestra discutidos son casos particulares de
este esquema. Para este diseo se tienen las
expresiones siguientes, que corresponden a los
estimadores de Horvitz-Thompson (ver Raj
(1968), Overton, W., S. Stehman (1995)).
i = P(Ui est en muestra)
ij = P(Ui y Uj estn en muestra)
Entonces el estimador consistente del total de los
valores de Y en la poblacin es:
y
T

=
=
Y
y

n
i

= wi ,

i=1,...,n,

se les llama Factores de

Expansin.
La varianza terica, es decir, en la poblacin
de todos los posibles valores de T es:

N N
N Y i2
ij
i j
YiY j
(
V T y =
1 i ) +

i =1 i
i
j
i j

Un estimador consistente de esta varianza es:

86

CONCEPTOS BSICOS DE MUESTREO


V TY

n
n ( )
n 1 i 2
i j Yi Y j
= 2 Yi + 2 ij
i =1
ij
i j
i j j
i

Los valores de y ij para algunos diseos de


muestra son:
a) En mas
i =

n
N

ij =

b) Con estratos y mas


n
n (n 1)
ih = h
ijh = h h
Nh
N h (N h 1)
estrato

ihjh

=
ih

jh

n(n 1)
N ( N 1)

i y j en el mismo

i y j en diferentes estratos

c) Sistemtico
Con intervalo de seleccin k
k=

N
n

ij =

1
k

si Ui y Uj son tales que j=i+k

ij = 0 =de otro modo


d) ppt con reemplazo
X
i = n i
X

X
Y = Ty =
n

Yi

X
i

87

CONCEPTOS BSICOS DE MUESTREO

Cualquier funcin continua lineal de parmetros se


estima de modo consistente con la misma funcin
de los estimadores H-T de esos parmetros. Se
conserva la representatividad.
12.1 H-Tn2.3
Evaluacin de las probabilidades de seleccin con
PPT sin reemplazo. Esto es muy usado en el caso
de muestreos bietpicos con estratos de modo que
de cada estrato se toman pocas UPM, digamos dos
o 3.
Esquema A de Raj. Pag 132-133.
i es la probabilidad de que la Unidad i-sima este
en la muestra
i j es la probabilidad de que las unidades i y j
estn ambas en la muestra
El esquema usa estimadores de Horvitz- Thomson.
Sea Ti el total estimado de la UPM i-sima y
i 2 = V (Ti ) , con i 2 = V (Ti ) , estas expresiones se
obtienen con el esquema de muestreo de cada
UPMi
Entonces, si las
n UPM
se toman con
probabilidades de seleccin dadas por i y i j ,
el estimador del total de la poblacin es
n

Ti

i =1

Y =

y su varianza terica es:

88

CONCEPTOS BSICOS DE MUESTREO


2

N
Yi Y j
2i

V (Y ) = ( i j ij )
+

=
1
i j j
i
i
j
i

El estimador de esta varianza es:


2

i j ij

V (Y ) =

ij
i j j
n

2
n
Ti T j

+ i

i =1 i
j
i

Caso de ppt sin reemplazo


Supngase primero el caso de dos Unidades de
Muestreo n=2,
Sea Xi el tamao de la unidad i-sima, entonces
P1i =

Xi

Xi
= P(U i en 1a )
X

es la probabilidad de que la

unidad i-sima
extraccin. Y
P2i = P(Ui / Uk ) =

se seleccione en la primera

Xi
N

X
uk

Xk

Xi
X Xk

es la probabilidad de

que en la primera extraccin este la unidad ksima, diferente de i, y que aparezca la i-sima en
la segunda extraccin, entonces
i = P ( U i e n p rim e ra e x tra c c i n )

+ P ( U i e n s e g u n d a e x tra c c i n )
i = P (U i e n 1a ) + P (U i e n 2 a )

89

CONCEPTOS BSICOS DE MUESTREO

i = P1i +

Xk

k =1,i

P2i

X
u =1

donde
P (U i en 2 ) =

k =1, i

Xk

P2 i =

X
u =1

k =1, i

Xk Xi

X X Xk

ij = P (Ui en 1 )P(U j en 2a / Ui en 1a )
a

+P (U j en 1a )P (Ui en 2a / U j en 1a )
ij =

Xj
Xi X j
Xi
+
X X Xi
X X Xj

Caso con n=3

i = P (U i en 1a ) + P (U i en 2a ) + P (U i en 3a ) , como
ya se conocen los dos primeros trminos, resta
obtener el tercero.
P (U i en 3 ) =
a

w.u i

P (U

w ,u i

yUu en 1a y 2a )P (U i / Uw ,Uu )

Xj
Xi X j
Xi
+
X X Xi
X X Xj

Xi
X Xw Xu

Para obtener la probabilidad de inclusin de 2


orden, se tiene:
ij = P (Ui yU j

+ P (Ui

en 1a y 2a ) + P (Ui y U j en 1a y 3a )

y U j en 2a y 3a ) ,

90

CONCEPTOS BSICOS DE MUESTREO

El primer trmino de i j es el calculado en el caso


de n=2,
Para el segundo termino de i j , se tiene
P (Ui y U j en 1a y 3a ) = P (Ui en 1a y U j en 3a )
+ P (Ui en 3a y U j en 1a )
Xu
Xi
(

X u i , j X X i
Xj
Xu
P (Ui en 3a y U j en 1a ) =
(

X u i , j X X j

P (Ui en 1a y U j en 3a ) =

)(
)(

Xj
X X i Xu
Xi
X X j Xu

Para el tercer termino de i j se tiene


P(Ui y U j en 2a y 3a ) = P (Ui en 2a y U j en 3a )
+ P (Ui en 3a
Xi
X X

u
N
X X j
P (Ui en 3a y U j en 2a ) = u
u i , j X X Xu
P (Ui en 2 y U j en 3 ) =
a

Xu

u i , j X
N

)
)

y U j en 2a )

Xj

X X u X i

Xi


X Xu X j

Para la obtencin final de i j se substituyen sus


tres trminos, anteriores.
12.2 Ajuste de Factores de Expansin
Otra forma de buscar mayor cercana entre
frecuencias relativas de valores de variables
importantes en muestra y en poblacin, es decir,
mayor representatividad, es ajustar los factores de
expansin, los w = 1 , para que, adems de las
i

probabilidades de inclusin del diseo, tomen en


91

CONCEPTOS BSICOS DE MUESTREO

cuenta las proporciones poblacionales de variables


categricas de gran importancia terica en las
variables de estudio. A esto se llama
postestratificacin, aunque no es el trmino que se
usa en muestreo doble (se discute despus). Para
esto se toman las proporciones que en la poblacin
hay, segn fuentes externas, para el cruce de las
variables categricas. Sean Ph, h=1,...,Q
las
proporciones en la poblacin para cada estrato o
cruce, con Q el nmero de estratos o cruces
referido.
Con los factores de expansin
adecuados, segn el diseo, se estiman,
basndose en la muestra, el nmero de los
elementos en cada postestrato h.
El total estimado, por Horvitz-Thompson (H-T),
de elementos en la poblacin es N = W . Sea Yhi=1

i =1

si el elemento i de la muestra est en el estrato h, y


0 en caso contrario. El total de elementos en la
poblacin estimado por H-T en la categora h es
N h = W Y , entonces el nmero esperado de

i ih

elementos en h, en la muestra es
equivale a
W
M h = WiYih W = i Yhi ,
i
i W
n

Wi

= n,

donde

Wi
W

Mh =

Nh

esto

es el peso relativo y

los pesos o factores de expansin relativos

reproducen la distribucin de las variables de


diseo en la poblacin, pero en un conjunto del
tamao de la muestra. Con esto se encuentran las
92

CONCEPTOS BSICOS DE MUESTREO

proporciones muestrales corregidas por factores de


expansin en cada postestrato como PM = M , esta
h

es la distribucin muestral corregida de esas


categoras. Note que M h = n .

La distribucin muestral se ajusta por las


proporciones conocidas en la poblacin, sean Ph;
produciendo un factor de ajuste FA = P , es
h

semejante a

PM h

de los estimadores de razn.

As, un valor de FAh de 1.2 indica que en la


poblacin hay 20% ms elementos en el estrato h,
que los estimados con la muestra. Uno de 0.95
significa que en el estrato h hay un 5% ms
estimado en la muestra que en la poblacin.
Finalmente, cada factor de expansin se
ajusta, generando un peso ajustado:
WAi = FAhiWi

Para ejemplificar este ajuste o calibracin, se toma


del libro Lee, et. al.(1989) las siguientes tablas:
TABLE 3.1
Derivation of Poststratification Adjustment Factor:
General Social Survey, 1984
Demographic
Subgroups

Population
Distribution
(1)
Ph conocido

Weighted
No. of Adults
in Sample(2)

M h Total
estimado

Sample
Distribution
(3)
Mh
= PM h
Mh
h

Adjustment
Factor
(1)/ (3)

FA =

Ph
PM h

93

CONCEPTOS BSICOS DE MUESTREO


White, male
24 yrs
25 - 34
35 - 44
45 - 54
55 - 64
65 & over
White, female
18 - 24
25 - 34
35 - 44
45 - 54
55 - 64
65 & over
Nonwhite,
male
18 - 24
25 - 34
35 - 44
45 - 54
55 - 64
65 & over
Nonwhite,
female
18 - 24
25 - 34
35 - 44
45 - 54
55 - 64
65 & over
Total

.0719660
.1028236
.0708987
.0557924
.0544026
.0574872

211
193
277
135
144
138

.0739832
.0676718
.0795933
.0473352
.0504909
.0483871

.9727346
1.5194460
.8907624
1.1786660
1.0774730
1.1880687

.0705058
.1007594
.0777364
.0582026
.0610057
.0823047

198
324
267
196
186
216

.0694250
.1136045
.0936185
.0682737
.0652174
.0757363

1.1555680
.8869317
.8303528
.8469074
.9354210
1.0867272

.0138044
.0172057
.0109779
.0077643
.0064683
.0062688

34
30
30
37
12
18

.0119215
.0105189
.0105189
.0129734
.0042076
.0063113

1.1579480
1.6356880
1.0436290
.5984774
1.5372900
.9932661

.0145081
.0196276
.0130655
.0094590
.0079636
.0090016

42
86
38
33
30
27

.0145081
.0301543
.0133240
.0115708
.0105189
.0094670

.9851716
.6509067
.9806026
.8174890
.7570769
.9508398

1.0000000

2852

1.0000000

*Based on noninstitutional population; Source: U.S.


Bureau of the Census, "Estimates of the population
of the United States, by age, sex, and race, 1980 to
1985," Current Population Reports, Series P25 (No.
985), April, 1986; derived from the estimated total
population of 1984 (Table 1) adjusted by applying
the ratio of noninstitutional to total population (Table
At).
TABLE 3.2
Comparison of Weighted and Unweighted Estimates in Two Surveys

94

CONCEPTOS BSICOS DE MUESTREO

Survey
Variables
I.General Social Survey
(percent approving hitting)
Overall
By sex
Male
Female
By education
Some college
High School
Others
II. Epidemiologic Catchment
Area Survey
(prevalence
of
mental
disorders)
Any disorders
Anxiety disorders

Weighted
Estimate

Unweighted
Estimate

60.0

59.4

63.5
56.8

63.2
56.8

68.7
63.3
46.8

68.6
63.2
45.2

14.8
6.5

18.5
8.8

Dif 1.8

Dif 3.7

Ntese, de nuevo, se busca ms representatividad


en la muestra. Esto es parecido a la idea de
estimadores de razn, pero aplicada a todos los
postestratos.
12.3 Ajustes en muestras de poblaciones
infinitas o procesos
Algo similar a los ajustes con base en conocimiento
de toda la poblacin, se puede hacer cuando se
tienen las muestras a conveniencia y se define la
poblacin basndose en caractersticas semejantes
a las de la muestra. Si se quiere extrapolar o
aplicar los resultados a una poblacin (proceso)
que difiere en uno o ms factores que pueden
95

CONCEPTOS BSICOS DE MUESTREO

modificar esos resultados, y si adems se tienen


conocimientos tericos sobre la forma de
modificacin, se procede a extrapolar con los
ajustes.
Como un ejemplo, considere lo sealado como
Correction for spatial scales: an underappreciated
problem. Esta es una breve seccin en el artculo
de Schindler (1998), donde considera el estudio de
la dinmica de peces en lagos muestreados de
cierto tamao; y seala que al aumentar el tamao
del lago, los procesos adventivos de mezclado son
ms importantes en el mezclado de nutrientes y
otras substancias. Tambin que los peces de lagos
pequeos
tienden
a
tener
mayores
concentraciones de mercurio.

96

CONCEPTOS BSICOS DE MUESTREO

13. Muestreo doble


Como se expuso, en muestras autoponderadas, en particular muestreo aleatorio
simple (mas), al incrementarse el tamao de muestra sta se hace cada vez ms
representativa. Esto se refleja en que la distribucin de variables importantes en la
muestra se parece cada vez ms a la distribucin de esas variables en la poblacin.
Claro, esto produce que las proporciones y promedios de la muestra se parecen
cada vez ms ( n ) a las de la poblacin.
En ocasiones no hay informacin auxiliar en el marco sobre variables
relacionadas con las de inters, o exgenas. En aquellos casos en los que es muy
barato medir las variables auxiliares (un vistazo a la unidad, o vivienda, o una
pregunta, etctera), se puede tomar una muestra grande y medir las variables
auxiliares; la distribucin de ellas en esa muestra estar muy cercana a las de la
poblacin. Esta informacin se usa entonces para el diseo de una segunda
muestra mucho ms pequea que la primera, en la que se mide la variable de
inters Y, que es ms caro su medicin; y con ella se estiman aspectos de la
poblacin. Respecto al proceso hay dos casos. Que la segunda muestra de tamao
n sea un subconjunto (muestra) de la primera muestra de tamao n
Caso I. Que la primera muestra constituya el marco de muestreo para la segunda.
sta es una submuestra (subconjunto) de la primera.

2a. muestra

1a. muestra

Poblacin
a) Muestreo doble para estratificacin.

mas en estratos

n mas
Barato Postestratos

yh

Es caro medir
Yih
Poblacin

nh
n

n = nh
93

CONCEPTOS BSICOS DE MUESTREO

Primera muestra de tamao n por muestreo aleatorio simple y slo se clasifican


sus elementos en L categoras (conceptualizadas previamente). Se toman muy
pocos nh elementos de cada estrato, incluso, nh = 2 h , donde n =

es el

tamao de la segunda muestra. Con la muestra en 2. ocasin, de cada estrato


se obtienen las medias y h . Con ellas se tiene:

= W y h
h

2

S
V Y = (1 f h )
Wh2 + gWh (1 Wh ) + g Wh y h Y
nh
h

n
n
Las proporciones o pesos, w h = h , son variables aleatorias (si
es muy
N
n

pequeo

g=

2
h

hay

reemplazo,

tendr

distribucin

multinomial).

Donde

N 1 1
.
N 1 n N

b) Muestreo doble para estimadores de razn.


Se supone que medir Xi es barato y medir Yi es caro. Con la primera muestra,
tomada por muestreo aleatorio simple (mas) y n grande, se mide Xi, la variable

auxiliar, con el supuesto Yi X i , se estima X con x la media de las Xi en la


primera muestra. Dentro de la primera muestra se toma por mas una muestra
de tamao n, (con n<<n) y en ella se mide Yi, se obtienen los promedios
n

y=
i

n
yi
x
y x= i .
n
i n

x
, donde x es el error por
x
x

El estimador de Razn de Y poblacional es y

falta de representatividad de la segunda muestra con relacin a la primera. Para


la primera por ser n grande se supone la representatividad, es decir, se espera
que x est cercano al promedio poblacional de las Xi, X que es desconocido.

=
x
=
x

Yr x R , donde

R= x

El estimador del total de Y es:

94

CONCEPTOS BSICOS DE MUESTREO

Y X R
X = N x .
=

donde el total de X se estima con la muestra inicial grande,

Barato

Caro

medir Xi

medir Yi

n mas

n mas
y=

1
yi
n i

R= x

X = N x

Y X R
=

c) Muestreo doble con muestreo ppt de la segunda muestra.

Xi y ms caro Yi. Se supone que hay buena


proporcionalidad Yi X i , o bien Yi=RXi+. Se toma una primera muestra por
mas con n grande, se mide Xi. De esta primera muestra se toma la segunda
muestra de n elementos con reemplazo y con probabilidades proporcionales a
De nuevo es ms barato medir

X i

= pi . Entonces el estimador del total de Y en la primera muestra es

X
i

Y =

1 n Yi
. Con este total se estima la media de las Yi de la primera muestra
n i pi

como

Yn =

Y ,
n

esta estima a

poblacin se tiene

Y . Si queremos estimar el total de Y en la

= NY .
n

Con x =

95

CONCEPTOS BSICOS DE MUESTREO


2
2
N 2 ( x ) n y i2 1 n y i
l
l
2
V Y =
2

n
n
1
(
)

i xi n i xi
n
( )

( )

2
2
n
N ( N n ) n y i2 ( x ) 1 n y i
y i2

x
+


2
nn ( n 1) i xi
n n 1 i x i
i xi

Barato
medir Xi
n mas

n ppt

X i
n

= Pi

Y n =

No se conocen las
Yi, su total se estima
con

1 n Yi

n i Pi

N
= Y = N Y
n n

Caso II. La segunda muestra es independiente de la primera.


Se toma por mas una muestra de tamao n y se mide X i . Tambin por mas

una muestra independiente de tamao mucho menor


Con la primera muestra estimamos X con x , y
muestra estimamos

con

y.

R= x

n y se miden los Xi

X con N x . Con la segunda


Se suponen pocos errores de muestreo en R

comparado con x . Entonces el estimador de la media Y es

y los Yi.

Y = xR ; y del total Y es

Y X R .
=

Ms detalles de muestreo doble se encuentran en el captulo 7 del libro: Raj

(1972).

96

CONCEPTOS BSICOS DE MUESTREO

Barato
n mas

medir Xi

n mas
estimar
Y,

Estimar X , X

y
=
x

En base a n

X X

Y = X R

97

CONCEPTOS BSICOS DE MUESTREO

14. Respuesta aleatorizada


En ocasiones el cuestionario incluye una o mas preguntas que se refieren a
aspectos personales que pueden ser considerados ntimos y hacen que el
entrevistado se sienta en peligro o se sienta apenado si la responde correctamente.
En este caso es conveniente usar la tcnica de respuesta aleatorizada. Esta
tcnica consiste en tener dos preguntas, la pregunta sensitiva (la que causa pena o
peligro) y la pregunta inocua. Se usa algn procedimiento aleatorio (moneda, dado,
nmeros aleatorios) para que el entrevistado seleccione la pregunta que va a
contestar, sin que lo sepa el enumerador o encuestador. Interesa conocer la
proporcin de personas en la poblacin con cierto tipo de respuesta a una pregunta
sensitiva. Este esquema se presenta con un ejemplo de fcil generalizacin.
Supngase que se desea conocer la proporcin de estudiantes de la UNAM
que fuman mariguana. La pregunta sensitiva es: fuma usted mariguana por lo
menos una vez a la semana? La pregunta inocua es: su nmero de cuenta en la
UNAM es par? Si se usa una probabilidad de 0.7 de seleccionar la pregunta
sensitiva, se cuenta con diez canicas o barajas, de las cuales 7 son rojas y 3
blancas y se pide al entrevistado tomar una canica o baraja y sin decir que color fue,
regresarla al conjunto. Se le pide que responda correctamente a la pregunta que
apareci aleatoriamente, sin que el entrevistador sepa a que pregunta est
respondiendo. Slo comunica si o no). Se registra el nmero de respuestas que
son si, sea ste n1, en una muestra de tamao n.
Entonces se tiene:

P (" si ") = P "si"en

pregunta sensitiva + P ["si" en pregunta

inocua]

pregunta
pregunta
pregunta
pregunta
+
P (" si" ) = P
P
"
si"
P
P
"
si"

inocua

sensitiva
inocua

sensitiva
En la expresin anterior se conoce en el lado derecho todo excepto

pregunta
P "Si"
que es la proporcin de s en la poblacin, para la pregunta
sensitiva

sensitiva. Del lado izquierdo se estima esa probabilidad con


factible

despejar

la

incgnita.

Si

se

usa

n1 , de manera que es
n

pregunta
P "Si"
= 0.7 ,
sensitiva

pregunta
P "Si"
= 0.3 , como ejemplo, se tiene:
inocua

n1
n

= (0.7) P + (0.3)(0.5)

98

CONCEPTOS BSICOS DE MUESTREO


Se llama P a la proporcin de s a la pregunta sensitiva, en el ejemplo es la
proporcin de personas que fuman mariguana. El valor 0.5 se sabe que es la
probabilidad o proporcin de personas con nmero de cuenta par

1 n1

(
0
.
3
)(
0
.
5
)
P =

0.7 n

(14.1)

Este es el estimador buscado.


Para el tamao de muestra, considrese que se requiere una buena estimacin de
P(s) en toda la poblacin; esta es una proporcin. Se podrn usar expresiones
(5.3) y (5.4) para estimar esta ltima proporcin adecuadamente.

99

CONCEPTOS BSICOS DE MUESTREO

15. Estimacin del nmero total de miembros en poblaciones


de animales
En estudios ecolgicos y de preservacin de especies es necesario conocer el
tamao de las poblaciones de animales. Un mtodo para estimar esas poblaciones
es el llamado captura-recaptura, N representa el tamao de la poblacin, el nmero
de peces, venados, focas, osos, etctera; y es el parmetro por estimador. Se toma
una muestra de tamao t de la poblacin (los que se dejan capturar) y se marcan.
En una fecha posterior, considerando que los animales se mezclaron lo suficiente,
se tendr una proporcin p = t de animales marcados. Se toma una segunda
N
muestra de tamao n, supngase que son s los animales marcados, que se vuelvan
a capturar entonces p = s . Igualando la proporcin estimada con la terica en

funcin de N se tiene:

nt
s
t
=
N =
s
n
N
El tamao de muestra n debe ser grande para que s no sea cero; esto es para que
aparezcan animales marcados en la segunda muestra. El estimador N es sesgado,
pero el sesgo es pequeo si t y s son grandes.
La varianza estimada de N es:

t 2 n( n s )
V ( N ) =
s2
Para determinar el tamao de ambas muestras, t y n, se requiere un conocimiento
aproximado de N y del valor de V(N) que estamos dispuestos a tolerar. El libro de
Mendenhall, et. al. (1971) presenta la siguiente tabla:

100

CONCEPTOS BSICOS DE MUESTREO

V ( N )
Valores de
N
Valores de
.001
.001

t
N
.01

.1

.25

.50

99900 99000 9000 3000 1000

1.0
0

0
Valores de

n
N

.01

99900 9900

900

300

100

.1

9990

990

90

30

10

.25

3996

396

36

12

.50

1998

198

18

1.0

999

99

Por ejemplo si consideramos N=1000 y deseamos V (N ) =12000, el valor de

V ( N )
= 12 , con esto se tiene
N

t
= 0.25
N

t = 0.25N = 250 animales, en la primer muestra.

n
= 0.25
N

n = 0.25N = 250 animales, en la segunda muestra.

101

Apndice de Frmulas
Apndice de Frmulas

4. Conceptos Generales
(4.1)

P[| y Y |< ] = 1

pag. 33

5. Muestreo aleatorio simple sin reemplazo (mas)

5.1 Introduccin
n

(5.1)

y = Y = yi / n

pag. 37

Y = NY = Ny

pag. 38

i =1

(5.2)

5.2 Tamao de la muestra (mas)

n=

(5.3)

S y2

(CV0 ) Y +

n=
(5.4)

S y2

1
+
z2 / 2 S y2 N

=

pag. 39

z2 / 2 S y2

2
pag. 40

Suponiendo distribucin normal de y

n=
(5.4a)

2
2

(4.4) S

1
N

pag. 41

Sin suponer normalidad

102

Apndice de Frmulas
5.3 Estimacin de proporciones

N
(1 P )
1 P
1
N

n=
=
2
(CV0 )2 P + 1 P P(CV0 )
N 1

(5.5)

pag. 42

6. Muestreo estratificado

(6.2)

(6.3)

(6.4)

h =1

h =1

Y = Yh = Nh Yl h

pag. 48

L
L
L

n S2
V (Y ) = V (Yh ) = Nh2V ( y h ) = Nh2 1 h h
h =1
h =1
h =1
Nh nh

pag. 48

(6.1)

P Y 1.96 V (Y ) < Y < Y + 1.96 V (Y ) = 0.95

V (Y ) =

h =1

N h2 1

nh Sh2

N h nh

pag. 49

pag. 49

(6.5)

N h yh
L N
L
h
Y
=
1
h
Y = =
=
yh = Wh yh
N
N
N
h =1
h =1

(6.6)

L
nh S h2

V Y = Wh 1
N
h =1
h nh

(6.6a)

()

V (Y ) = Wh2 1 h
h =1
Nh

Sh2

nh

pag. 49

pag. 49

pag. 49

103

Apndice de Frmulas
6.1 Distribucin (afijacin) de la muestra a los estratos
6.1.1 Distribucin proporcional

nh = n

(6.7)

Nh
N

= nWh

pag. 51

6.1.2 Distribucin ptima

C = C 0 + C h nh

(6.8)

pag. 51

h =1

(6.9)

N h Sh L N h Sh
nh = n

Ch h =1 Ch

1
pag. 51

6.2 Tamao de muestra total

(C C0 ) N h S h
L

n=

(6.10)

h =1

N h Sh

h =1

N h Sh

(6.11)

h =1

(1.96)

h =1

pag. 52

Ch

L N S
Ch h h
h =1 Ch

n=

Ch

N h S h2

pag. 53

Para estimar el total

L Nh Sh
Nh
S h C h

2
C
=
1
h =1 N
h

h
n=
2

1 L
+ 2 N h S h2
2
(1.96)
N h =1
L

(6.11)

pag. 53

Para estimar la media

104

Apndice de Frmulas
6.3 Distribucin proporcional

(6.12)

(6.12)

n
V (Y ) = N h2 1 h
N
h =1
h

N
V (Y ) =
n

L
Sh2
N2

= h Sh2 N h Sh2
n h h =1 n h

pag. 54

N h S h2 N h S h2

pag. 54

h =1

(6.13)

n=

N N h S h2
h =1

Y 2 (CV0 )2 + N h S h2
L

pag. 54

h =1

(6.14)

n=

N N h S h2
h =1

z 2 / 2

+ N h S h2

pag. 55

h =1

Para estimar el total


7. Muestreo por conglomerados o muestreo polietpico

Estimadores de la muestra

(7.1)

S wi2 =

1 mi
(yij yi ) 2

mi 1 j =1

pag. 58

105

Apndice de Frmulas

(7.2)

n m
Nn
N n 1 mi
NMi

Y = My
M
y
=
=

i i
i
ij
ni
n i=1 mi j=1
nm
i j
Ni

yij =N

pag. 63

Factor de
expansin

(7.3)

V (Y ) =

1 

1 1
N 2 Sb2
N
n


90%95% del
valor de V (Y )

N N 2 1
1 2

Mi
Swi

n i
mi M i

es cero si m =M
i

pag. 63

(7.4)

1 2 N n 2 1
1 2
2 1

S wi

V (Y ) = N S b + M i
n i
n N
mi M i

pag. 64

(7.5)

P[Y 1.96 V (Y ) < Y < Y + 1.96 V (Y ) ] = 0.95

pag. 64

(7.6)

(7.7)

(7.8)

( )

1
n
V (Y ) = N 2 S b2 1 + N 2 M *
n N

m = M * SW
n=

C1 / C2

S b2

M * S w2

C0
C1 + C 2 m

S w2
m
1 *
mn M

Pag. 65

pag. 65

pag. 65

106

Apndice de Frmulas
8. Estimadores de razn (bajo mas)
n

Y =

(8.1)

y
i =1
n

x
i =1

n=
(8.2)

X = R X

pag. 62

1
(0.1) 2 X 2 1
+
N
S X2

pag. 64

Para acotar sesgo


n

(8.3)

1
ECM (Y ) = X 2 ECM ( R ) = X 2V [ (Yi RX i )] = X 2V ( )
n i =1
N2
=
n
n=

(8.4)

n 2

2 2
1 S y + R S x 2 R S x S y
N

1
E0

1
2
2
2 2
N (Sy + R Sx 2R Sx S y ) N


1
+
2 2
2
(1.96) S N N

)
=

pag. 65

(1.96) 2 S2

pag. 66

S2

Para acotar

(8.5)

2
1
n S

EC M ( R ) = 2 1
X N n
2

l =
con S

(8.6)

1
Yi Rl X i
n 1 i
n

N n
M i yi

n
=
Ye = i =1n
N
M
n i =1 i

pag. 66

mi

i =1

j =1

Yij

Mi m

Mi

pag. 69

i =1

Promedio por elemento en bietpico

107

Apndice de Frmulas
(8.7)

m
1
n 1 2

EC M = V (Ye ) = 1
Sy +
M i2 1 i

N nM 2
Mi
nM 2 N i =1

S wi2

mi

pag. 69

9. Estimadores de regresin (seleccin de la muestra por mas)

Y = y b( x X )
(9.1)

( z12 )

n=
(9.2)

pag. 70

Sy2 2

Y = NY = N { y b( x X )}

pag. 71

11. Muestreo con probabilidades proporcionales al tamao con reemplazo

X
Y =
n

(11.1)

yi

x
i =1

zi

i =1

(11.3)

(11.4)

pag. 81

Y
1
X
Y
V (Y ) = X i i = z2
n i =1 X i X
n
N

(11.2)

=z

Z2

2
n y
1 n yi
X
i

= V (Y ) =
V (z) =

n
n(n 1) i =1 xi n i =1 xi
2
N

Y
Y
Z 2 / 2 X X i i
i =1 X i X
Z 2 / 2 z2
n=
=
2
2

(11.5)

Y
Y
X Xi i
X
X
i =1

i
n=
(CV0 ) 2 Y 2
N

(11.6)

2
pag. 83

pag. 83

yi 1 n yi
X
2
z =

n 1 i =1 xi n i =1 xi
2

pag. 82

pag. 83

pag. 84

108

Apndice de Frmulas
14. Respuesta aleatorizada
(14.1)

1 n1
P =
(0.3)(0.5)
0.7 n

pag. 96

109

Bibliografa
Bibliografa
1. Babbie, E. (1992). The Practice of Social Research. Ed. Wadsworth.
2. Campbell, D. y Stanley, J. (1991). Diseos Experimentales y Cuasi Experimentales
en la Investigacin Social. Amorrotu Editores. Buenos Aires.
3. Carpenter, et. al. (1998). Evaluating Alternative Explanations in Ecosystem
Experiments. Ecosystems 1(4) pp. 335-344.
4. Chung, K.L. (1974). Elementary Probability Theory with Stochastic Processes.
Springer-Verlag.
5. Cochran, W. G. (1977). Sampling Techniques. John Wiley & Sons, 3 ed.
6. Deming W. E. (1950). Some Theory of Sampling. Dover Publications Inc.
7. Hansen, M. H. Hurwitz, W.N. y Madow, W.G. (1953). Sample Survey Methods and
Theory. Vol. I y II, John Wiley & Sons.
8. Kish L. (1965). Survey Sampling. John Wiley & Sons.
9. Lee, E.S., Forthofer, R.N. and Lorimer, R. (1989). Analyzing Complex Survey Data.
SAGE Publications Inc.
10. Mendenhall, Ott y Scheaffer. (1971). Elementary Survey Sampling. Duxbury Press.
11. Overton, W., Stehman, S. (1995). The Horvitz-Thompson Theorem as a Unifying
Perspective for Probability Sampling: with Examples from Natural Resource
Sampling. The American Statistician. Vol. 49, No. 3, pp. 261-268.
12. Raj, Des (1968). Sampling Theory. McGraw Hill Co.
13. Raj, Des (1972). The Design of Sample Surveys. McGraw Hill Book Co.
14. Srndal, C.E., Swensson, B., Wretman, J. (1992). Model Assisted Survey Sampling.
Springer-Verlag.
15. Schindler, D.W. (1998). Replication Versus Realism: The Need for EcosystemScale Experiments. Ecosystems 1(4) pp. 323-333.
16. Stephan, F.F. and Mc. Carthy, P.J. (1974). Sampling Opinions and Analysis of
Survey Procedure. Greenwoos Press Publishers, Westport , Connecticut 1st. ed.
17. Sukhatme, P.V. y Sukhatme, B. V. Asok, C. (1984). Sampling Theory of Surveys
with Applications. Iowa State University Press.

CONCEPTOS DE MUESTREO

16. Efectos de Diseo en el Anlisis y Planeacin de Encuestas


Los mtodos estadsticos usuales para probar hiptesis sobre uno o ms parmetros o
para explorar o corroborar relaciones esperadas entre variables, tales como pruebas de
t, F y 2, dentro de modelos lineales o logsticos, o tablas de contingencia, requiere
entre otros el supuesto bsico de que las observaciones son independientes. Adems en
los diseos no autoponderados el peso de cada observacin es diferente al de otras, es
decir la muestra bruta no es representativa. Sin embargo, en todos los esquemas de
muestreo de poblaciones finitas, las observaciones resultan estar correlacionadas, lo que
en la mayora de los casos implica la dependencia entre ellas, aun que estas
correlaciones son ms fuertes en el caso de muestreos multietpicos. Kish(1965,1995) y
seguidores, propusieron evaluar la varianza de un estimador con el diseo de muestra
usado y compararla (va una razn o cociente) con la varianza que se hubiera obtenido
con una muestra del mismo tamao a la usada n, si se usa un muestreo aleatorio simple
con reemplazo, que es el que produce observaciones independientes. Ntese que se
comparan dos estrategias de muestreo, la usada con la de tener un muestreo aleatorio
simple con reemplazo y con estimadores simples, es decir, medias muestrales simples
como estimadores de medias poblacionales. La independencia de las observaciones, e
igualdad de distribuciones (vaiid variables aleatorias independientes e igualmente
distribuidas) es el supuesto tcito de muchos usos de la estadstica donde se tienen
muestras que no se toman aleatoriamente de una poblacin finita, sino que son
muestras disponibles y se hace el supuesto de que esa muestra es representativa o que
fue generada con un proceso aleatorio a partir de una poblacin infinita en tamao pero
de determinadas caractersticas. En estos casos, por ese supuesto las observaciones son
independientes, y las inferencias dependen fuertemente del supuesto.
El Efecto de Diseo, abreviado DEFF, es:

Vverdadera (diseo )
DEFF =
Viid (iid )
Adems, se supone que:

Donde V es el operador Varianza.

diseo N { , Vverdadera (diseo )

Donde representa se distribuye


aproximadamente como. Los estimadores del parmetro son diferentes, salvo el caso de
diseos autoponderados.

diseo

es el estimador que toma en cuenta el diseo de la

muestra en particular los factores de expansin. iid es el estimador que ignora el diseo
y considera la muestra como tomada con iguales probabilidades y con reemplazo, es
decir produce variables aleatorias idnticas e independientemente distribuidas (iid).
Usualmente las varianzas se desconocen, as que hay que usar sus estimadores, sin
embargo en este escrito no se har distincin entre el uso del DEFF terico y el

104

CONCEPTOS DE MUESTREO
estimado, se entender que al hacer uso del DEFF se tienen estimadores consistentes de
las dos varianzas o bien se suponen conocidas. Cuando sea necesario se especificar la
forma de cada una de esas varianzas.
Si se desea efectuar una prueba de hiptesis sobre el parmetro

iid, se tiene que la


estadstica

to =

iid
vo

tiene una distribucin normal con media cero y

desviacin estndar uno, to N ( 0,1) . Adems que

vo

es un estimador consistente de

la varianza en el caso iid. Entonces un intervalo de confianza para


iid.

Co = { : to < 1.96 } = 1.96 v0 , + 1.96 v0

P 1.96 v0 < < + 1.96 v0

}, o de otro modo

} = 0.95

Con un diseo muestral complejo, y con muestras de tamao relativamente grande, para
que opere el Teorema Central del Lmite, se puede suponer que
por factores de expansin, es insesgado o por lo

diseo , el que ajusta


menos

consistente

( lim n diseo = ) . Entonces se tiene de forma aproximada que, si se obtiene la


estadstica t con ese estimador,

to =

diseo
vo

con esto se corrige la falta de representatividad pero no la de independencia, entonces la


(16.1)
distribucin de la estadstica es to N (0, DEFF )
Esto se obtiene de considerar que bajo el diseo verdadero, entonces

diseo N { ,Vverdadera (diseo )}

por lo que

diseo
Vverdadera

diseo

N (0,1) .

Si la expresin de to anterior se multiplica y divide por la Varianza verdadera se tiene:

to =

V
(
)
diseo Vverdadera (diseo )
diseo
( verdadera diseo )
=
vo
Vverdadera (diseo )
Vverdadera (dsieo )
vo

105

CONCEPTOS DE MUESTREO
Una variable multiplicada por una constante, produce una nueva variable con media
dada por la media inicial que se multiplica por esa constante y la Varianza por el
cuadrado de la constante, en este caso la constante es la raz cuadrada del DEFF, de aqu
se obtiene la expresin (16.1), de la definicin del DEFF se tiene que

Vverdadera (diseo ) = vo DEFF

Si se usa el intervalo de confianza usual, el sealado antes, se tiene una Varianza errnea
por que solo est vo, es decir la Varianza segn iid. Por esto tanto el intervalo de
confianza como las pruebas de hiptesis basadas en l son errneos.
DEFF

0.9
1.0
1.5
2.0
2.5
3.0

Cobertura real Cobertura real


si el intervalo se si el intervalo
intenta al 95% se intenta al
99%
96
99.3
95
99
89
96
83
93
78
90
74
86

Nivel de
significancia
real si la prueba
se hace al 5%
4
5
11
17
22
26

Nivel de
significancia
real si la prueba
se hace al 1%
0.7
1
4
7
10
14

Como se puede observar, por ejemplo, si el DEFF es de 2, la prueba tiene un error tipo I
o nivel de significancia real de 17%, en lugar del 5%. Es decir va a rechazar la hiptesis
demasiadas veces. En general si el DEFF es mayor que uno, los intervalos sin corregir
tienen una cobertura real menor a la intentada y mayores probabilidades de error tipo I,
que el nivel de significancia intentado, es decir el intervalo es demasiado estrecho por
que el error estndar del estimador usado es menor que el que tiene de acuerdo a la
estrategia de muestreo usada. Si se usa un paquete de cmputo, que supone iid y que
obtiene el intervalo de confianza al 95%, y se usa un diseo y estimador complejo, hay
que corregir el intervalo, multiplicando el error estndar de la media por la raz cuadrada
del DEFF. As el intervalo corregido ser:

{ 1.96

vo DEFF , + 1.96 vo DEFF

}.

En el caso autoponderado el estimador del

parmetro con diseo coincide con el de diseo, en caso de que no sea autoponderado el
diseo, el estimador deber ser el corregido. Sin embargo an con muestras
autoponderadas la varianza se debe obtener segn el diseo usado y no utilizar v o .

En una prueba de hiptesis sobre el valor de


DEFF. Es decir el valor de t obtenido en la prueba se multiplica por la
raz del DEFF.
La to que produzca el paquete se modifica a t o

corregida

to

DEFF

106

CONCEPTOS DE MUESTREO

16.1 Tamao de muestra efectivo


Una manera muy conveniente de tomar en cuenta el DEFF es el llamado tamao de
muestra efectivo ne, que es el tamao de muestra de una estrategia de muestreo aleatorio
simple que produzca la misma varianza que la verdadera para . As

ne =

n
. Si se tiene un DEFF de 2, el diseo usado produce una varianza que es el
DEFF

doble de la que se tiene en un iid, entonces ne es la mitad de la muestra usada.


El conocimiento del DEFF de encuestas previas semejantes a la que se planea, se puede
usar para corregir el tamao de muestra, es decir se obtiene el tamao de muestra como
si fuese un muestreo aleatorio simple con reemplazo y se multiplica por el DEFF.
De la expresin sobre el error de muestreo, con relacin a la varianza del estimador, se
tiene que en general = 1.96 * (V ()) , donde esa

V depende del tamao de muestra y claro de otros parmetros que hay que conocer
o estimar con una muestra piloto. Si se tiene informacin de un DEFF en una encuesta
semejante a la planeada, se tiene entonces que, niid es el tamao de muestra si se usa un
muestreo que produce vaiid. Es decir uno con iguales probabilidades de seleccin y con
reemplazo. Para el caso de estimar una media poblacional, se tiene
(1.96) 2 2
n=
DEFF = niid DEFF .
2

Si se quiere estimar una proporcin, se obtiene un buen valor de P, la proporcin por


(1.96) 2 P(1 P)
estimar y entonces n =
DEFF = niid DEFF =
2

TNR, la tasa de no-respuesta esperada, para


incrementar la muestra en ese porcentaje, As la expresin para n, el tamao de muestra,
si se llama TNR a la proporcin de no-respuesta, es
(1.96) 2 2
n=
DEFF (1.TNR ) = niid DEFF (1.TNR ) , por ejemplo si se espera una tasa de
2

no-respuesta del 20%, se tendr n=niid DEFF (1.20).

16.2 Algunos DEFF


Se presentan a continuacin algunos de los valores de DEFF para los diseos ms
usados.
1.- Muestreo aleatorio simple sin reemplazo (el usual mas)

n S2
1 1
Vverdadera (Y ) = (1 )
= ( )S 2 y
N n
n N

Vmas ( iid )

S2
=
, entonces:
n

107

CONCEPTOS DE MUESTREO
n S2

n
N n

DEFF =
= 1 que es el factor de correccin por finitud. Esto expresa
2
S
N
n
que el muestreo mas con reemplazo es menos eficiente, produce varianzas mayores
que el mas sin reemplazo. Esto es debido a la redundancia de los posibles valores si
aparecen en muestra elementos repetidos. Es importante sealar que si el cociente n/N
es pequeo, digamos =0.01 =.001, entonces la diferencia es negligible, por que aun
que se tome con reemplazo, la probabilidad de un reemplazo es muy baja. Tambin se
puede llevar a cabo el diseo sin reemplazo y emplear las expresiones de varianzas que
lo suponen con poco error.
2.- Muestreo Bietpico
Si se tiene un muestreo en dos etapas, donde las unidades de primera etapa, UPM,
contienen a las unidades de segunda etapa, USM. Si se toman por mas n de las UPM
y dentro de cada una de las muestreadas se toman, tambin por mas m USM, entonces
de modo aproximado, se tiene:
DEFF = 1 + (m 1) , donde

Y en las USM tienden a ser parecidos


dentro de cada UPM (Viviendas dentro de manzanas, alumnos dentro de grupos, grupos
dentro de escuelas, etc.), entonces > 0 y DEFF >1. Si de cada UPM se toman mi
USM, entonces se substituye m por la media de las mi , en la expresin del DEFF,
DEFF = 1 + (m 1) .

Sea 2 la varianza de una observacin, b la varianza entre promedios de USM en cada


2

UPM; w la varianza entre USM dentro de UPM y 2 = b + w . El coeficiente de


correlacin es entonces:
2

w2
M 1 . Otra manera de expresar ese coeficiente es, considerando que hay N
2

UPM y estas contienen Mi elementos y que M es el promedio de esos tamaos de


2
1 1 N (1 + ( M 1) )
unidades Vverdadera (Y ) =
M ( N 1)
n N

(Y
N

ij

Y )(Yik Y )

( M 1) MN 2
de la expresin DEFF = 1 + (m 1) se puede observar que el DEFF aumenta si
aumenta

USM dentro=
de las UPM.
De hecho si solo se toma una (m=1) USM dentro de cada UPM, el DEFF es uno,
equivale a muestreo aleatorio, tambin mientras ms USM estn en la muestra el
DEFF aumenta para =
DEFF para=
diferentes valores del

108

CONCEPTOS DE MUESTREO
coeficiente de correlacin al variar m. En la segunda grfica est el tamao de

muestra efectivo para varios valores de


= por cada UPM, hace que el tamao de muestra efectivo est
USM
alrededor de 3.

DEFF =1+(1-m)rho
40

1
VALO RES DE
RHO

o .9
9

0 .8
30
0 .7

0 .6
0 .5

20

0 .4

0 .3
10
0 .2

0 .1

0
0

10

20

30

40

109

CONCEPTOS DE MUESTREO

ne segn m;

ne=n/DEFF
0.1

Tamao de muestra efectivo

Ne=m/deff
5
0.2
4

0.3

0.4
2

0.5
0.6
0.7
0.8
0.9
1

10

20

30

40

3.- Muestreo trietpico


Suponga que se toman n UPM por mas, que en ellas se toma por mas m USM y
dentro de las USM, tambin por mas se toman b UTM, entonces el DEFF est en
funcin de dos coeficientes de correlacin, r1 entre totales de USM dentro de las UPM
y, r2 entre UTM dentro de las USM.
DEFF = 1 + (m 1)br1 + (b 1)r2

Se observa algo ya mencionado, la varianza de los estimadores disminuye si


aumentamos el nmero de UPM en muestra y se disminuye el nmero de secundarias
y de terciarias; ya que en el segundo termino adems de (m-1) se multiplica por b.
4.- Muestreo Estratificado
Se considera por facilidad el caso de distribucin de la muestra a los estratos en forma
N
proporcional, nh = n h = nWh con h=1,...L.
N

110

CONCEPTOS DE MUESTREO

1 Nh
(Yhi Yh )2
=
Nh 1 i
L

Total 2 =

Nh

(Y
h

hi

Y )

i
L

2
L

= Wh (Yh Y ) + Wh h
2

Varianza total = Varianza entre estratos + Varianza dentro de estratos


DEFF=(Varianza dentro de estratos) / Varianza total < 1.
De aqu que siempre convenga tener estratos, y mientras ms variacin es identificada
entre estratos, ms eficiente es el diseo y menor es el DEFF.
5.- Comparacin de medias en dominios independientes (regiones, estados, etc).
Si se quiere efectuar una prueba de t para someter a contrastacin la Hiptesis
Ho: Y1 = Y2 , por ser independientes, la varianza de la diferencia es la suma de las

VDiseo (Y1 ) + VDiseo (Y2 )


DEFF
(
Y
Y
)
< DEFFmax i =1, 2 (Y )

=
varianzas.
1
2
2
2

n1
n2
El DEFF de la diferencia siempre es menor que el DEFF de cualquiera de las dos
medias. Entonces para efectuar una prueba conservadora se puede usar un proceso que
supone muestras iid, pero el error estndar de la diferencia se multiplica por la raz
cuadrada del DEFF mayor de las medias estimadas.
6.- Comparacin de medias en dominios no independientes.
De clases que ocurren dentro de las mismas UPM, por ejemplo comparar ingresos de
hombres y mujeres o de emigrantes y nativos, de escolaridad alta con baja, etc. Sean a
y b dos categoras en las que se quiere comparar las medias de una variable numrica.
Entonces se tiene que DEFF = (Y ) = 1 + (m 1) donde m es el promedio del
a

nmero de elementos en la UPM que caen en la categora a en muestra, ma = a m , la


proporcin de elementos en a, por el promedio de muestra en las UPM. Y adems
a es el coeficiente de correlacin intra clase para la variables Y, dentro de la categora
a. Algo similar para la categora b. Kish demostr que de modo aproximado se tiene
que DEFF (Y ) = 1 + [ DEFF (Y ) 1 ] y semejante para b.
a

Entonces de nuevo, si se tiene una rutina que obtiene las medias y errores estndar de
la diferencia suponiendo caso iid, esos errores estndar se corrigen multiplicando por
la raz cuadrada del mximo de los dos DEFF, el de la media en el dominio a o el b. Si
se hace una prueba de F, la F calculada se corrige dividindola entre el DEFF
mximo.

111

CONCEPTOS DE MUESTREO

17. Encuestas Complejas


Se acostumbra llamar muestra o encuesta compleja cuando se tiene la combinacin de
estratos, estimadores de razn o regresin, y varias etapas de muestreo. Con tener dos de
estas caractersticas se le llama encuesta compleja. En este escrito se presentan de
manera sucinta las expresiones necesarias para obtener estimadores de totales o de
promedios en este tipo de estudios. La fuente principal de referencia es el libro de Des
Raj (1968) Teora del Muestreo del Fondo de Cultura Econmica, Mxico. Se
presentan los resultados principales para poder elegir un diseo de muestra, y para
obtener estimadores y las varianzas o errores cuadrticos medios estimados. No se
presentan las varianzas y errores cuadrticos verdaderos.

17.1 Estimadores de Razn con Muestreo Estratificado


Considrese el uso de estimadores de razn cundo se hizo un muestreo aleatorio simple
(mas) en cada uno de L estratos. La informacin est dada por muestras
independientes, obtenidas por muestreo aleatorio simple (mas) en cada estrato, de
tamao nh y en cada elemento se miden los valores Yhi y Xhi, donde i= 1,...,nh y
h=1,...L. Se conocen los tamaos de los estratos Nh y adems los totales de la variable X
por estrato Xh, por supuesto que con ellos el tamao total N de la poblacin y el total de
la variable X en la poblacin. Se plantea la estimacin por razn, del total en la
poblacin, Y. Se pueden forma dos tipos de estimadores que son, el Separado y el
Combinado.
nh

Separado :

Ys = X h R h = X

hi

i
h nh

hi

N h nh
h n i Yhi
h Yh
Yc = XR = X L
=X L h L
Nh

X
h h
h n i X hi
h
L

Combinado :

112

CONCEPTOS DE MUESTREO
En el separado, el sesgo de los estimadores de la razn en cada estrato, se puede
acumular, si hay muchos estratos.
Si las razones en los estratos Rh , difieren mucho de un estrato a otro y los tamaos de
muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es
preferible.
Si los tamaos de las muestras en los estratos son pequeos, o los estratos tienen Rh
semejantes o ambas cosas, el estimador combinado es preferible.
Los errores cuadrticos medios son los que siguen:

L
1
1 2 2 2

S y + Rh S x 2 R h h S y S x
ECM (Ys ) = ( N h2 )
h =1
nh N h

L
1
1 2 2 2

S y + Rc S x 2 R c S y S x
ECM ( Rc ) = ( N h2 )
h =1
nh N h
2

Donde S yh y S xh son las varianzas de Y, y de X dentro del estrato h, el valor

h es el

coeficiente de correlacin entre Y y X dentro de estrato h; y es la correlacin entre Y y


X en toda la poblacin.
Lo que est en el ltimo parntesis cuadrado es ms fcil de calcular, s se considera que
equivale al computo de la varianza estimada de una nueva variable, al interior de cada
estrato, que es para el caso del combinado:

Gshi = Yhi R h X hi
y para el separado

Gchi = Yhi R c X hi .
As para el separado:

Vh (Yhi R h X hi ) = S y2 + R h2 S x2 2 h S y S x
h

1 nh
1

(
Y
R
X
)
hi h hi n
nh 1 i =1
h
1 nh
=
(Gshi G s h )
n h 1 i =1

nh

1=1

(Yhi R h X hi )

113

CONCEPTOS DE MUESTREO

En este caso el ltimo trmino dentro del parntesis cuadrado, la media de las Gshi, es
cero.
Y para el combinado :

Vh (Yhi R c X hi ) = S y2 + R c2 S x2 2 S y S x
h

1 nh
1

(
Y
R
X
)

hi
c
hi

nh 1 i =1
nh
1 nh
=
(Gchi G ch )
n h 1 i =1

nh

1=1

(Yhi R c X hi )

En este caso la media de las Gchi no es cero.

17.2 Diseos de muestra multietpicos


Se presentan tres esquemas de muestreo que son muy tiles para tener la mxima
generalidad para el caso de mltiples etapas de muestreo. Son los llamados Esquemas A,
B y C tomados del libro de Des Raj (1968).
En todos los casos lo que determina el esquema de muestreo es la forma de seleccin de
las Unidades Primarias de Muestreo (UPM), en el caso C si hay o no submuestreo
independiente. De nuevo se presentan los estimadores y las varianzas estimadas de ellos.

ESQUEMA A.
El texto de Raj, considera el caso de seleccin de las UPM con probabilidades de
seleccin arbitrarias y sin reemplazo. Para obtener estimadores de totales y sus
varianzas, usa el teorema de Horvitz-Thompson, en base a las probabilidades de
inclusin de primer y de segundo orden, i y ij , que son las probabilidades de que la
UPM i-sima; y de que la i-sima y la j-sima estn en la muestra respectivamente.
Este esquema requiere conocer los valores de i y ij para todas las parejas de UPM en
muestra. Esto es difcil de obtener en la gran mayora de los casos. El esquema de
probabilidades arbitrarias comprende, como un caso particular al Muestreo Aleatorio
Simple (mas), en el que i = n/N y ij= (n(n-1))/(N(N-1)). El esquema A,
considera la seleccin de las UPM con probabilidades arbitrarias (un caso particular de
este es el de mas), y dentro de cada UPM en muestra se lleva a cabo un muestreo de
las unidades secundarias, terciarias, etc., que tenga cada UPM. El submuestreo puede ser
114

CONCEPTOS DE MUESTREO
de cualquier nmero de etapas, con o sin estratos de USM y subsiguientes, y con
cualquiera forma de seleccionar las muestras y de formar estimadores (simples, de razn
o por algn otro mtodo). Se pueden tener esquemas de muestreo diferentes para
diferentes UPM. Lo que se requiere es generar un estimador conocido del total de los
valores de Yijklm.., sea este Ti, adems conocer su varianza terica V(Ti) y un estimador
de esta varianza.
El estimador del total, con este esquema A, con mas de UPM y submuestreo de
cualquier forma, es el siguiente:

N n

Y = Ti
n i
(17.1)

La varianza estimada, de este estimador es:


n
1
1
N

2
2
V (Y ) = N Sb + (V (Ti ) )
n N
i n

(17.2)

Donde:
2
1 n
S =
(Ti T )
n 1 i =1
2
b

1 n
T = Ti
n i =1

Bietpico con mas en las dos etapas

Para el submuestreo con mas de USM, se tiene:


mi

M
Ti = M i yi = i
mi

ij

y su varianza estimada

1 2
2 1
V (Ti ) = M i
Swi
mi M i
Con estos dos elementos en las expresiones generales, (17.1) y (17.2), se tiene:

N n Mi m

Y = Yij
n i mi j
i

115

CONCEPTOS DE MUESTREO
n
N 1
1
1
1 2

2
2
S wi
V (Y ) = N Sb +
Mi
n N
i n mi

donde

1 mi Yij

Szi =
Ti

mi 1 j =1 Pi

1 m
2
2

(Yij Yi )
S w =
mi 1 j =1
i

1
Yi =
mi

mi

ij

i =1

Bietpico con mas y ppt.

Si se trata de nuevo de dos etapas, las n UPM se toman con mas y si en cada UPM en
muestra se toman las mi USM por ppt con reemplazo, con probabilidades de seleccin
Pij, se tiene:

N
Y =
n

con el valor de Ti dado por:

1 mi Yij 1 mi
Ti = = Z ij =Z i
mi j Pij mi j
Por lo tanto

Y=
n

1
i m
i
n

Yij N
j P = n
ij
mi

Z
i

= NZ

116

CONCEPTOS DE MUESTREO
Como las Pij son las probabilidades de seleccin de la USMij en la UPMi, se consideran
las n variables aleatorias independientes e idnticamente distribuidas, Zi=Yij/Pij, su
media es el estimador del total Yi. Entonces un estimador de la varianza del estimador
es:

n
N
1 1
2 2

V (Y ) = N Sb + V (Ti )
i n
n N

Donde

1 2
V (Ti ) = Szi
mi
1 mi Yij

Ti
Szi =
mi 1 j =1 Pi

Se presentaron solo dos casos de muestreo bietpico, pero el esquema es aplicable a


cualquier situacin donde se tengan varias etapas de muestreo y las UPM se seleccionen
por mas.

ESQUEMA B.
El esquema llamado B, por Raj, es muy usado en las encuestas complejas, por que es
muy fcil obtener los estimadores de las varianzas de los estimadores de totales.
Se realizan n extracciones o selecciones de UPM con reemplazo, existe la posibilidad de
que algunas UPMi sean extradas o estn en la muestra mas de una vez. La muestra
tendr un numero menor o igual a n de UPM. Para cada extraccin y de manera
independiente se realiza el submuestreo de cualquier forma y de cualquier nmero de
etapas, cada submuestreo de una UPMi, produce estimadores del total de Y, en las UPMi
en muestra, los Ti. En este caso, como hay reemplazo, algunas UPM estn en muestra
mas de una vez, sin embargo hay n diferentes valores de Ti, ya que debe haber n
diferentes procesos de submuestreo independientes, uno por cada extraccin, sea o no
una unidad con mas de una extraccin. Los estimadores en este caso son:
n
n
T
1
1
i
Y = = Z i = Z
n i Pi n i

(17.3)

117

CONCEPTOS DE MUESTREO

1 1 Ti

V (Y ) =
Y
n n 1 i Pi

(17.3)

Como se puede observar ambos estimadores son muy simples de obtener aun que el
muestreo sea muy complejo, basta con que las UPM se seleccionen mediante ppt con
reemplazo, y un submuestreo independiente por cada extraccin.
Es de notarse que se puede estimar la varianza del estimador, sin tener que estimar las
varianzas de los estimadores de los totales en cada UPM. Es decir, no se requiere tener
el estimador de V(Ti). Esto por supuesto es muy conveniente para los clculos de
varianzas.
Como una aproximacin muy conveniente, es frecuente que en realidad se tenga una
seleccin ppt sin reemplazo, como cuando se obtienen tamaos Xi acumulados y sobre
ellos se hace una seleccin sistemtica con arranque aleatorio. En este caso, si el nmero
de UPM en la poblacin N es muy grande comparado con el tamao de muestra n, n/N
de 0.01 o menos; y si no hay tamaos muy grandes de las UPM, es decir si las Pi son
todas pequeas, sin que algunas sean varias veces mayores que otras, entonces la
probabilidad de un reemplazo es muy pequea. As, a pesar de ser un muestreo ppt sin
reemplazo, se puede usar el esquema B, como una muy buena aproximacin.
Ejemplo 1 de Esquema B

Se tienen tres etapas de muestreo, ppt con reemplazo de UPM, con estratos de USM y
mas para seleccin de USM, dentro de cada estrato y adems con UTM,
seleccionadas por mas en cada USM en muestra.
Como un ejemplo del esquema B de Raj, y sin prdida de generalidad, suponga que se
quiere estimar el nmero de ciudadanos con capacidad de compra de un producto, es
decir, si un ciudadano tiene la capacidad de compra se le asigna un 1 en la variable Yihjkt,
y si no la tiene un cero. Los ndices son i para la AGEBi (UPMi), h para el estrato de
manzanas (USMihj), j para la manzana j del estrato h de la AGEBi, y finamente k para la
vivienda. La Unidad ltima es la Vivienda y el valor de la variable en ella es Yihjk que es
la suma de los ciudadanos con capacidad de compra en esa vivienda. Es decir es la suma
de los Yihjkc sobre c, los ciudadanos en la vivienda. De modo que el total de la variable
indicadora Yihjkc sobre toda la poblacin, es el nmero de ciudadanos por estimar, el
parmetro Y. Se considera, sin prdida de generalidad, un caso donde hay N=300
AGEBS, que son las UPM, con muestreo ppt con reemplazo se seleccionan n=20
manzanas (UPMi). La medida de tamao Xi es el nmero de habitantes de la AGEBi en
el censo anterior, de modo que Pi es Xi / X, donde X es la suma de las Xi en las 300
AGEBS. En cada AGEB, en muestra, se forman 3 estratos de manzanas. Se considera que
hay Mih=1, Mih=2 y Mih=3 manzanas (las USM) en cada estrato; se toma por mas solo

118

CONCEPTOS DE MUESTREO
una manzana de cada estrato mih= 1, mi = 1+1+1=3. En cada manzana (USMij) se toman
qihj =5 de las Qihj viviendas que tenga la manzana, mediante un muestreo sistemtico con
inicio aleatorio. Se considera como mas para fines de estimacin de totales. Es muy
importante resaltar que no se requieren conocer ni estimar la varianza entre viviendas
dentro de manzanas, ni la de manzanas dentro de estrato y dentro de AGEB. Para
construir los estimadores es muy conveniente iniciar con las ltimas unidades de
muestreo e ir construyendo estimadores de totales sucesivamente a las unidades de
muestreo superiores. En este caso un estimador del total de ciudadanos con capacidad
de compra en la manzana ihj en muestra es:

Yihj =

Qihj
qihj

qihj

ihjk

Qihj

ihjk

Con este estimador, pasamos a la estimacin del total de ciudadanos con la capacidad,
en cada estrato.

M
Yhi = hi
mhi

M hi

Y
=
j hij 1 Yhi
mih

Ahora con estos estimadores, obtenemos el valor de Ti, el estimador de Yi, el total de
ciudadanos con la capacidad en la AGEBi
L

Ti = Yi = Yih = Yih
Finalmente el estimador del total en la poblacin es:
n
20
T
Yi
1
1
i
Y = =

n i Pi 20 i Pi

Si se unen todos los estimadores, en el caso general se tiene:

X
Y =
n

1 L Mih mih Qihj qihj


i Xi h mih j qihj k Yihjk
n

X 1 M ih Qihj

Y =
Yihjk
i
h
j
k n X i mih qihj
n

mih qihj

119

CONCEPTOS DE MUESTREO
Los sucesivos factores de expansin se consideran juntos, para formar el factor de
expansin para cada valor de Yihjk.
Se tiene que los factores de expansin son:
De vivienda a manzana Qihj / qihj
De manzana a estrato de manzanas Mih / mih
De AGEB a la poblacin X / (nXi)
Ejemplo 2, de esquema B

Solo tres estratos, con diferentes muestreos y submuestreos en cada estrato. Suponga que
se tiene: Estrato 1 con Nh = 300 UPMs, se toman con ppt, con probabilidad Pih con
reemplazo n1 =50, en cada extraccin de una UPM, se hace una seleccin por mas de
mi =3 USM, en cada una se mide Y1ij. En el estrato 2 hay 1000 UPMs y tambin con ppt
con reemplazo, con probabilidades P2i, se toman n2 = 100 UPMs, y en cada una de ellas
se seleccionan m2i = 5 USM por ppt con reemplazo, con probabilidades P2ij, en cada una
de ellas se mide su valor Y2ij. En el estrato 3, hay una sola UPM con 84 USM, las que se
estratifican en dos estratos (de USM), uno con 14 y el otro con 74 USM. Se toma por
mas una muestra de 2 USM en cada estrato, y en cada una se mide su valor Y3jj. Se
desea estimar el total de la poblacin Y y su varianza. Se plantea que Y = Y1+ Y2 +Y3,
entonces hay que obtener los estimadores de cada total y su estimador de varianza en
cada estrato. Se aplica el esquema B en estratos 1 y 2.
Para el estrato 1, se tiene el total estimado de una UPM en muestra:

M
Y1i = T1i = 1i
3
1 50 T1i

Y1 =

50 i P1i

Y
j

1ij

1 1 50 T1i

V (Y1 ) = Y1
50 49 i P1i

Para el estrato 2 se tiene:


5 Y
1
Y2 i = T2 i = 2 ij
5 j P2 i

120

CONCEPTOS DE MUESTREO

1 100 T2 i

Y2 =

100 i P2 i
1 1 100 T2 i

V (Y2 ) =
Y2
100 99 i P2 i

En el estrato 3, no hay submuestreo, se tienen dos estratos de USM, en el primero

14

Y31 = Y31 j
2 j
2

y en el segundo

70
Y32 = Y32 j
2 j
2

De manera que

Y3 = Y31 + Y32
La varianza de este estimador es la suma de las varianzas en los estratos
2

2
2

Y
Y32 j

31 j
2
1
1
1
1
1
1

+ 702 Y32 j j
V (Y3 ) = 14 2 ( ) Y31 j j
2 14 2 J
2
2
70
2
2

Finalmente los estimadores para toda la poblacin son:

Y = Y1 + Y2 + Y3
3

V (Y ) = V (Yh )
h

Esquema C
Se efecta la seleccin de UPM por ppt con reemplazo, pero si una UPM aparece en
muestra k veces, solo se submuestrea una vez y su estimador del total Ti , se multiplica
por k. As el estimador del total Yest se obtiene por:

121

CONCEPTOS DE MUESTREO

1 kiTi

Y=
n i Pi
a

donde a es el nmero de UPM distintas en muestra, y a n. Su varianza es mayor


siempre que en el esquema B, por lo que no se presenta. Para estimar la varianza del
estimador se requieren los estimadores de las varianzas de los Ti.

122

CONCEPTOS DE MUESTREO

18. Razones, Promedios y Promedios en Dominios en el Muestreo


Multietpico
En la seccin anterior se obtuvieron los estimadores de totales y de sus varianzas en los
esquemas A y B (que son los mas usados). Es necesario plantear estimadores de razones
en muestreos polietpicos. Estos estimadores se usan en cuatro situaciones:
1) Se quiere estimar una razn de dos variables en la poblacin, R=Y/X;
2) Se desea estimar el promedio de Y en las unidades ltimas de muestreo;
3) Estimar un promedio de Y en un subconjunto de las unidades ltimas que tiene cierta
propiedad (en un dominio); y
4) Usar el estimador de una razn, para mejorar la estimacin de un total o un promedio
de Y. El desarrollo que se presenta es general para los tres primeros casos, es decir
estimar R; lo que se debe contemplar es qu variables se definen como la Y y la X
medidas en cada unidad ltima de muestreo. Se tiene :
Caso 1. Estimar R. Tanto la Y como la X son dos variables numricas medidas en cada
unidad.
Caso 2. Estimar un promedio. La Y es una variable numrica medida en cada unidad
ltima, y la X se hace idnticamente igual a uno, para toda unidad ltima. De este modo
la estimacin del total de X en la poblacin, es la estimacin del total de unidades
ltimas que hay en ella. As, R es el cociente del total de las Y, entre el nmero de
unidades, es decir un promedio.
Caso 3. Estimar un promedio en un dominio. Promedio de la variable numrica Y, pero
solo en las unidades que tienen A. En este caso se requiere definir una variable
indicadora Xijk.. que tome el valor 1 si la unidad ijk... tiene una propiedad cualquiera A
(pertenece a un dominio), y cero si no la tiene. De este modo el estimador del total de
esa variable en la poblacin es el nmero de unidades que tienen la propiedad A (que
pertenecen al dominio). Adems, se define una nueva variable Y*, que sea el producto de
la Y de inters y la indicadora de la propiedad, as Y*ijk.. = Yijk..( Xijk..). Sea Y* el total de
los valores de Y*ijk.. en la poblacin, y X el total de los valores de Xijk.. Es claro que el
cociente R= Y*/X es la suma de los valores de la Yijk.. original, pero la suma se efecta
nicamente en las unidades que tienen A; por otro lado X es el nmero de unidades que
tienen A, de modo que R es el promedio de las Yijk.. originales en el subconjunto de
elementos (dominio) de la poblacin que tienen A. En los desarrollos presentados, se
emplea una Yijk.. y una Xijk.., segn la definicin de ellas se estar en el caso 1, el 2 o el
3.

18.1 Esquema A.
Unidades Primarias de Muestreo (UPM) seleccionadas por mas, y cualquier esquema
de submuestreo de las USM.
Se considera que del proceso de submuestreo de las UPM en muestra, en primera etapa,
se obtienen tanto los estimadores de los totales de Y y de X, en las UPM, sean Tyi y Txi
respectivamente. Adems se requiere la forma de estimar la varianza de un estimador de
un total en la unidad primaria, es decir la forma de V(Ti) estimado, para cualquier cosa
123

CONCEPTOS DE MUESTREO
que sea estimada con Ti. El caso comn es considerar una nueva variable Yijk..- RXijk..
entonces se plantea la estimacin de la varianza del estimador del total de esa nueva
variable en la UPMi. La forma general del estimador es

N
Y

R= = n
X N
n

T
i
n

yi

Tx
i

N ( Ty

)
)

N ( Tx

(18.1)

El estimador del error cuadrtico medio del estimador anterior es :

1
1 1 n
2 1

ECM ( R ) = 2 {N
Ty R Tx

X
n N n 1 i

N
SubM =
n

[V (T
n
i

yi

R Tx

) + SubM
2

(18.2)

)]

El trmino SubM representa la contribucin al ECM de las unidades secundarias,


terciarias, etc., dentro de cada UPM. Es muy comn que el primer trmino, la variacin
entre totales de las UPM, sea mucho mayor que la parte debida al submuestreo (SubM).
Esto hace que en ocasiones solo se contempla, en la planeacin de tamaos de muestra,
el nmero de UPM en muestra, n. Este se determina al ignorar la parte SubM, y despejar
n de la expresin:

= 1.96( ECM ( R )

1
2

1
1 1 n
2 1
Ty R Tx
1.96{ 2 {M i

X
n N n 1 i
i

1
2

124

CONCEPTOS DE MUESTREO
Por supuesto que se requiere de informacin previa que d una idea de la magnitud de la
varianza de la variable Tyi-RTxi entre UPM. Se puede tener esa idea si se descompone la
varianza de la nueva variable en sus componentes Y y X.

{S

2
y

+ R 2 S x2 2 R S y S x

donde las S2 son las varianzas de Y y de X respectivamente y es el coeficiente de


correlacin entre las Y y las X en las UPM.
En el trmino SubM, la suma involucra las varianzas estimadas de los estimadores del
total de la nueva variable Tyi-RTxi, en cada UPM. De manera que esos estimadores se
deben obtener con las expresiones que resulten del tipo de submuestreo que se tenga en
cada una de las UPM en muestra, sern las expresiones empleadas para estimar el total
de una variable, Yijk.. - RXijk.... con R estimada, en cada UPMi, en muestra.
Ejemplo 1. Bietpico Esquema A. mas en ambas etapas, estimacin de razones.

Por ejemplo si solo hay unidades secundarias y stas se toman por mas, entonces:

(T

yi

R Tx = M i yi R xi
i

)
(Y
mi

M
Ty R Tx = i
mi
i

(Y
mi
j

ij

R X ij = M i

ij

R X ij

mi

y su varianza estimada ser:

V T y R Tx
i

1
1 m
1 m

Yij RX ij
= Mi
Yij R X ij

mi j

mi M i j

1
1 2 2 2
{S y + R S x 2 R S y S x
V T y R Tx = Mi 2
mi M i

De modo que en este caso el trmino SubM de expresin (18.2) es:

N
SubM =
n

1 m
1
2 1

i M i m M j Yij R X ij m

i
i
i
n

j Yij R X ij

mi

125

CONCEPTOS DE MUESTREO
En caso de que existieran unidades terciarias u otras adicionales, aun suponiendo que las
USM se tomaron por mas, entonces los valores de Yij y Xij se deben sustituir por sus
correspondientes estimadores de totales en las USM, a partir del submuestreo.
Ejemplo 2. Estimadores de promedios en un dominio con estratos en una etapa, con
mas en cada estrato.

Suponga que se tiene un muestreo de viviendas, en la poblacin de inters. Se tienen en


una rea urbana, cuatro estratos segn niveles socioeconmicos. Las viviendas fueron
identificadas en un estudio anterior, de modo que se tiene un marco de muestreo de
viviendas en cada estrato. Se trata de un muestreo de una etapa, con estratos y se desea
estimar una razn. En este caso se tiene que las Nh son respectivamente 451,673, 234 y
1200. En cada estrato se toman por mas nh =20 viviendas (mismo tamao en los 4
estratos). En cada vivienda i en muestra, se midi Yhi el ingreso del jefe de familia.
Adems se registr si el jefe de familia era inmigrante de los ltimos tres aos en esa
rea urbana o no lo era. Se quiere estimar el promedio de ingreso de los inmigrantes, y
adems un estimador de la varianza del estimador. El promedio por estimarse es el total
de la suma de los ingresos de los inmigrantes entre el nmero de ellos. Como no se
conocen esos dos totales, hay que estimarlos y formar el cociente. Es decir se trata de un
estimador de razn. En este caso se definen dos nuevas variables.

Yhi
YIhi =
0

JefeMigrante
JefeNoMigrante

JefeMigrante
1
Xhi =
0 JefeNoMigrante
De tal manera que el promedio que se quiere conocer es la suma de todos los valores de
YIhi en la poblacin, que es el total de ingresos de los emigrantes, entre el total de Xhi,
que es el nmero de emigrantes en la poblacin. El estimador es entonces
L

451 20
673 20
234 20
1200 20
YI 1i + 20 i YI 2i + 20 i YI 3i + 20 i YI 4i
YI
20 i
h

= L
=
R = IngMigr =
451 20
673 20
234 20
1200 20
X

X
h
X
1
i
+
X
2
i
+
X
3
i
+
h

X 4i
20 i
20 i
20 i
20 i

YIh

El error cuadrtico medio es, tomando la expresin del estimador de Yc y su ECM, pero
ahora dividiendo entre el estimador de X:

1
ECM ( R ) = 2
X

1 2 2 2
2 1

h h n N S yh + R S xh 2 R S yh S xh
h
h
L

126

CONCEPTOS DE MUESTREO
nh

1
ECM ( R ) = 2
X

V (YI

1
R X h ) =
X

N V {
2
h

(YIhi R Xhi)
i

nh

18.2 Esquema B.
Las UPM se seleccionan mediante un ppt con reemplazo. Cada UPM se submuestrea de
manera independiente, el nmero de veces que quede en muestra. Por supuesto que la
medida de tamao debe tener una buena proporcionalidad con los valores de Yi, y si es
posible tambin de los de Xi. Por ejemplo puede ser usada para las probabilidades de
seleccin el nmero de USM o de UUM, en cada UPMi, con una informacin previa.

1 n Ty
n
Zy
Y
Pi
i

=
R= = n

T
Zx
X 1
x

n i Pi
i

El estimador del error cuadrtico medio del estimador de R anterior es:


2

2
Ty
Tx

S
1
1
1
1

ECM ( R ) = 2
=

Pi
X n n 1 i Pi
X n
n

Donde, se aplica la expresin de la varianza de un nuevo promedio estimado, si se


considera la variable:

Zi =

Ty R Tx
i

Pi

= Z y R Z x
i

Entonces, S2z es la varianza de esta nueva variable entre las UPM en muestra. Ntese
que la media de la nueva variable Zi, es cero, ya que el estimador de R es el cociente de
la media de Zxi entre la media de Zxi.
Es importante notar de nuevo que para estimar el error cuadrtico medio de R, no se
requieren los estimadores de las varianzas de Tyi ni de Txi. Esto hace que para el
estimador del ECM, no importe cuantas etapas se tenga o la forma general del
submuestreo de las UPM.

127

CONCEPTOS DE MUESTREO

Estimador de R en muestreo con estratos, varias etapas y con seleccin


de UPM con esquema B.
En este apartado se considera el caso muy general de un muestreo multietpico, con
diseos de muestra que pueden ser variables en cada UPM en muestra. Pero suponemos
que hay estratos de las UPM y en cada estrato se selecciona la muestra con esquema B.
El estimador de R, es:

h Yh h nh

Y
R = = L
= T

1
X
h X h
h nh
L

Thyi
i P
hi
=
nh
Thxi
i P
hi
nh

hy

hx

h
L
h

(18.3)

En cada estrato el estimador del total de la Y (o de la X), es la suma de los promedios de


variables Zhyi,

1 n Thyi
Z hy =
nh i Phi
h

El error cuadrtico medio estimado del estimador de R anterior es el siguiente:


n T

1
1
1 L
hyi RThxi

ECM ( R ) = 2

Phi
nh
X h nh ( nh 1) i
h

Thyi R Thxi
i

Phi

nh

(18.4)

Ntese, de nuevo que se trata de la varianza de una nueva variable, entre las UPMi en
muestra. Esa nueva variable Z*hi es

Thyi R Thxi
= Z hyi R Z hxi = Z hi*
Phi
de modo que se simplifica conceptualmente a:

128

CONCEPTOS DE MUESTREO

1 L 1 *

ECM ( R ) = 2 Vh ( Z hi )
X h nh
Estimador de R en muestreo con estratos, varias etapas y con seleccin
de UPM con esquema A.
Se presenta el caso del esquema A, seleccin por mas de las UPM y con un
submuestreo arbitrario de las USM, y etapas subsecuentes en cada UPM. Adems con las
UPM en estratos. Se presenta el caso en el que se ignora la variabilidad debida al
submuestreo, de manera que es una situacin muy semejante al caso de una etapa,
estimar R con muestreo aleatorio simple con estratos en las etapas. Las expresiones son
muy semejantes a las planteadas en el caso de estimar un total basado en una razn.
La informacin esta dada por muestras independientes, de UPMs obtenidas por
Muestreo Aleatorio Simple (mas) en cada estrato, de tamao nh y en cada UPM se
estiman los totales Yhi y Xhi, en cada UPM, sean stos

X hi

Yhi

Donde i= 1,...,nh y h=1,...L. Se conocen los tamaos de los estratos Nh. Y con ellos
sus ponderadores Wh = Nh/N. Se pueden forma dos tipos de estimadores que son, el
Separado y el Combinado.
Separado :
nh

L
N
Y
h
h
= Wh
= Wh
R s = Wh R h = Wh n

h
h
X hi h N h X h h
L

hi

Yh
X h

Combinado:

Nh n
h n i Y hi Y
h Yh
h
= L
=
R c = L
L

Nh
X

X
X hi
h h

nh i
h
L

En el separado, el sesgo de los estimadores de la razn en cada estrato, se puede


acumular, si hay muchos estratos.
129

CONCEPTOS DE MUESTREO
Si las razones en los estratos Rh, difieren mucho de un estrato a otro y los tamaos de
muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es
preferible.
Si los tamaos de las muestras en los estratos son pequeos, o los estratos tienen Rh
semejantes o ambas cosas, el estimador combinado es preferible.
Los errores cuadrticos medios son los que siguen:

2
1
W
1 2
S y + R h2 S x2 2 R h h S y S x
ECM ( R s ) = h2 ( N h2 )
h
h =1 X
nh N h
L

1
ECM ( R c ) = 2
X

(N
h =1

2
h

1
1 2 2 2
S y + Rc S x 2 R c S y S x
)
nh N h
h

Lo que esta en el ltimo parntesis cuadrado es ms fcil de calcular, s se considera que


equivale al computo de la varianza al interior de cada estrato de una nueva variable, que
es para el caso del combinado

Yhi R h X hi
y para el separado

Yhi R c X hi
As para el separado:

Vh (Yhi R h X hi ) = S y2 + R h2 S x2 2 h S y S x
h

1 nh
1

(
Y
R
X
)
hi h hi n
nh 1 i =1
h
Y para el combinado:

nh

1=1

(Yhi R h X hi )

Vh (Yhi R c X hi ) = S y2 + R c2 S x2 2 S y S x
h

1 nh
1

(
Y
R
X
)
hi c hi n
nh 1 i =1
h

nh

1=1

(Yhi R c X hi )

130

CONCEPTOS DE MUESTREO

19. Anlisis de tablas de contingencia en encuestas complejas


Los principales desarrollos se obtienen del libro de Lehtonen y Pakhinen (1995). En una
encuesta, si las pruebas de bondad de ajuste, de independencia o de homogeneidad, se
efectan con las proporciones observadas directamente en la muestra, como si fuese iid,
se tienen dos problemas, que invalidan las pruebas. Uno es la falta de representatividad
cuando la muestra no es autoponderada y el otro la falta de independencia que
principalmente se debe a las correlaciones de los datos al interior de los conglomerados,
UPM, USM, etc. Se han diseado varias maneras para obtener pruebas vlidas o por lo
menos aproximadamente vlidas.

19.1 Pruebas de Bondad de Ajuste


Suponga que se tiene una variable categrica con u mayor o igual a 2 categoras y que se
quiere probar la hiptesis que establece Ho:pj=poj , donde j=1,2,.... u. Y adems el valor
N
p j = j es la proporcin poblacional de elementos que caen en la categora j. Nj es el
N
total de elementos en la categora j en la poblacin y N el total de ellos. La hiptesis de
nulidad se puede escribir en forma vectorial como Ho : p =po donde los vectores son de
dimensiones u-1, as p=(p1. p2, p3,...pu-1) y po=(po1.po2, po3,...,pou-1).
El vector desconocido de proporciones se estima con los estimadores de totales que se
tiene para cada diseo, as sea Yij=1 si el elemento i-simo de la muestra esta en la
categora j ,y 0 si no; entonces
n

Yij

i =1

N j =

n
N j
1

N
=

y
de modo que p j =
i =1

j = 1,2,...u .

Otra manera de estimar a esas proporciones, involucra las llamadas frecuencias


observadas corregidas por diseo

n j .

Para esto se obtienen los pesos o factores de expansin ajustados a que su suma sea n, el
tamao de muestra.
n
n
1
N = = Wi entonces si se ajustan los pesos a pesos que respeten las
i =1

i =1

proporciones de expansin pero que sumen a n el tamao de la muestra, se tiene:


n
n
n
*
Wi = Wi y entonces n j = X ijWi y n = Wi * . Las proporciones estimadas
N
i =1
i =1
*

n j
... j = 1,2,...u . En la mayora de los muestreos polietpicos el
n
tamao de muestra no es fijo, entonces para obtener las varianzas o ECM de las
son entonces p j =

131

CONCEPTOS DE MUESTREO
proporciones estimadas, se usan las expresiones de varianza de estimadores de razn.
Para obtener las covarianzas entre dos estimadores se usan las expresiones de varianza
pero se substituyen los cuadrados de desviaciones por producto de desviaciones.
Esquema A. Sin estratos y con Unidades Primarias de Muestreo (UPM) seleccionadas
por mas, y cualquier esquema de submuestreo de las UPM.

N UPM n
Tyij N ( T y
N j
nUPM i
=
= UPM
p j =
n
N UPM
N UPM ( T x
N
Txi

nUPM i

)
)
.

(19.1)

Donde se tiene que NUPM y nUPM son el nmero de UPM en la poblacin y en la muestra
respectivamente; Tyij es el total estimado de unidades en la categora j en la UPMi, Txi
el total estimado de unidades en la UPMi.
El estimador del error cuadrtico medio del estimador anterior, por la aproximacin en
series de Taylor es :

1
1
1
2

ECM ( p j ) = 2 N UPM
N
nUPM N UPM

(Tyij p j Txi )2 + SubM

nUPM 1 i

(19.2)

El trmino SubM representa la contribucin al ECM de las unidades secundarias,


terciarias, etc., dentro de cada UPM. Es muy comn que el primer trmino, la variacin
entre totales de las UPM sea mucho mayor que la parte debida al submuestreo (SubM),
por lo que se puede ignorar en la mayora de los casos. La covarianza entre dos
proporciones estimadas, tambin con la aproximacin en series de Taylor es:
n
1
1
1 1
2

(Tyij p jTxi)(Tyij * p j*Txi) + SubM }

Cov( p j p j* ) = 2 NUPM

N
nUPM NUPM nUPM 1 i

En este ltimo trmino se obtiene la covarianza entre los totales de las variables
Tyij p j Txi para j y j*.

Estimador de pj, pj*, varianzas (ECM) y covarianzas, en muestreo con


estratos, varias etapas y con seleccin de UPM con esquema B.
En este apartado se considera el caso muy general de un muestreo multietpico, con
diseos de muestra que pueden ser variables en cada UPM en muestra. Pero suponemos
que hay estratos de las UPM y en cada estrato se selecciona la muestra con esquema B
de Raj, es decir las UPM se toman con ppt con reemplazo y en cada seleccin (aun en
unidades repetidas) se hace un muestreo de USM, UTM, etc. con cualquier diseo, se
requieren nicamente estimadores de totales en las UPM.
El estimador de pj, es:

132

CONCEPTOS DE MUESTREO
L

1 nh Thyij
h nh i Phi
N j
h
= L
= T
=
p j =
nh
Thxi
1
N
h N h h nh i Phi

N j h

Z hyj
h
L

(19.3)

Z hx
h

En cada estrato, se toman nh UPM de muestreo con ppt, y el estimador del total de
elementos en el estrato h y en categora j-sima, es la suma de los promedios de
variables Zhyij , donde las variables son Thyij que es el total de elementos estimado en
la UPM i-sima y que pertenecen a la categora j, dividido entre Phi que es la
probabilidad de seleccin de la UPM i-sima en el estrato h. En el denominador es la
suma de promedios de las variables Zhxi que es el cociente de Thxi que es el total
estimado de elementos en la UPM i-sima, dividido entre Phi.

1
Z hy =
nh

Thyij
i Phi
nh

El error cuadrtico medio estimado del estimador de pj anterior es el siguiente:


n
Thyij p j Thxi 1
1 L
1

ECM ( p j ) = 2

Phi
nh
N h n h ( nh 1) i
h

Thyij p j Thxi
i

Phi

nh

(19.4)

Ntese, de nuevo que se trata de la varianza de una nueva variable, entre las UPMi en
muestra. Esa nueva variable Z*hij es

Thyij p j Thxi
= Zhyij p j Zhxi = Z hij*
Phi
de modo que se simplifica conceptualmente a:

1 L 1

ECM ( p j ) = 2 V h ( Z hij* )
N h n h

Para la covarianza (analoga con ECM) de estimadores pj y pj , se substituyen cuadrados


de desviaciones por productos de ellas.

Cov( p j , p j* ) =
nh Thyij p Thxi

j
1
1 nh Thyij p j Thxi Thyij * p j*Thxi 1 nh Thyij * p j * Thxi
1 L
= 2

Phi
nh i
Phi
Phi
nh i
Phi
N h nh( nh 1) i

133

CONCEPTOS DE MUESTREO

Estimadores de pj, pj*, varianzas (ECM) y covarianzas, en muestreo con


estratos, varias etapas y con seleccin de UPM con esquema A.
Se presenta el caso del esquema A, seleccin por mas de las UPM y con un
submuestreo arbitrario de las USM, y etapas subsecuentes en cada UPM. Adems con las
UPM en estratos. Se presenta el caso en el que se ignora la variabilidad debida al
submuestreo, de manera que es una situacin muy semejante al caso de una etapa,
estimar pj con muestreo aleatorio simple con estratos en las etapas. Las expresiones son
muy semejantes a las planteadas en el caso de estimar un total basado en una razn.
La informacin est dada por muestras independientes, de UPMs obtenidas por
Muestreo Aleatorio Simple (mas) en cada estrato, de tamao nh y en cada UPM se
estiman los totales Yhij, total de elementos en la UPM i-sima y en la categora j; y Xhi,
total de elementos en la UPM i-sima, sean estos

Yhij

X hi

Donde i= 1,...,nh. y h=1,...L. Se conocen los tamaos de los estratos Nh. Y con ellos
sus ponderadores Wh = NUPMh/NUPM, donde NUPMh es el nmero de UPM en estrato h y
NUPM el nmero total de UPM en la poblacin. Se pueden forma dos tipos de estimadores
que son, el Separado y el Combinado.
Separado :
nh

p js = Wh p j h = Wh

Y
i

hij

nh

X
i

Combinado :

p j c =

h
L

hi

UPM h

L
N UPM hYhj
= Wh
= Wh

h
h
N
X
L

hj

N h

N UPM h
nh
N UPM h
nh

Yhj
X h

nh

Y
i

hij

X hi

N j
=
N

En el separado, el sesgo de los estimadores de la razn en cada estrato, se puede


acumular, si hay muchos estratos.
Si las proporciones en los estratos phj, difieren mucho de un estrato a otro y los tamaos
de muestras nh, en cada estrato son razonablemente grandes, el estimador por separado
es preferible.
Si los tamaos de las muestras en los estratos son pequeos, o los estratos tienen phj
semejantes o ambas cosas, el estimador combinado es preferible.

134

CONCEPTOS DE MUESTREO
Los errores cuadrticos medios son los que siguen:

1
W 2h
2 1
Sy jh 2 + p j 2 Sx 2 h 2 p j h Syhj Sxh
ECM ( p j s ) = 2 ( NUPM h )
h
h

h =1 N h
nh NUPM h
L

1 L
1
2 1
Syhj 2 + p j 2 Sx2 h 2 p j Syhj Sxh
ECM ( p j c ) = 2 ( NUPM h )
c
c

N h =1
nh NUPM h

Lo que est en el ltimo parntesis cuadrado es ms fcil de calcular, s se considera que


equivale al computo de la varianza al interior de cada estrato de una nueva variable, que
es para el caso del combinado:

Yhij p j h X hi
y para el separado.

Yhij p j c X hi
As para el separado:

2
2
2
Vh (Yhij p j h X hi ) = Sy hj + p j h Sxh 2 h Sy hj Sxh

1 nh
1
=

(Yhij p j h X hi )
nh 1 i=1
nh

nh

1=1

(Yhij p j h X hi )

Y para el combinado:

2
2
2
Vh (Yhij p j c X hi ) = Sy hj + p j c Sxh 2 Sy hj Sxh

1 nh
1
=

(Yhij p j c X hi )
nh 1 i=1
nh

nh

1=1

(Yhij p j c X hi )

Para las covarianzas, se sustituyen cuadrados de desviaciones por productos de


desviaciones, As una covarianza entre dos estimadores pj y pj* ser entonces, la
obtenida al sustituir en el ltimo parntesis en el ECM, el trmino al cuadrado por un
producto (solo se indica para el combinado).

Cov (Yhij p jc X hi )(Yhij* p j*c X hi ) =


=

1 nh
{
nh 1 i =1

1
(Yhij p j c X hi )
nh

nh

1=1

(Yhij p j c X hi )

1
(Yhij* p j* c X hi )
nh

nh

1=1

(Yhij* p j* c X hi )

135

CONCEPTOS DE MUESTREO

Estadstica de Wald
Con las varianzas y covarianzas estimadas, segn esquema B o A de Raj, se construye
la matriz Vdiseo (u-1 X u-1), de varianzas del vector p = ( p 1 , p 2 ,... p c 1 )" Entonces la
estadstica de Wald, para la hiptesis es

wald 2 = ( p po )" V 1 diseo ( p po )

(Wald)
Si la hiptesis p=po es cierta, la estadstica tiene asintticamente una distribucin 2
con c-1 grados de libertad. Pueden existir problemas de inestabilidad en la estimacin de
la matriz, pero si el nmero de UPM en muestra es grande y el nmero de celdas c, es
pequeo, el estimador es estable. Si el valor de f = nUPM L es pequeo la estimacin de
las varianzas y covarianzas es inestable. Donde nUPM es el nmero de UPM en la
muestra y L el nmero de estratos. Para corregir esta inestabilidad lo que se hace es usar
una distribucin F, con u-1 y f-u-2 grados de libertad, como sigue:
f u 2
wald 2
F1, wald =
f (u 1)
Una segunda correccin con distribucin F con u-1 y f grados de libertad es

F2, wald =

wald 2

u 1
Note que si f es pequeo, el valor de P para la F con 1 y f grados de libertad es mayor
que el de la 2 con un grado de libertad, pero si f crece la diferencia se hace menor.

Estadsticas de Pearson y Ajustes de Rao-Scott


Una expresin que usa la estadstica de Pearson, es la que solo corrige el problema de
falta de representatividad al usar las frecuencias observadas pero corregidas por factores
de expansin.
2
u n
n ( p p )2
j np o j
j
oj
2
"
1
p =
(Pearson)
= n
= n( p p o ) Po ( p p o )
p oj
np oj
j =1
j =1

donde Po/n es la matriz c-1, c-1 de varianzas y covarianzas de las proporciones


muestrales suponiendo muestreo iid y adems que la Ho es cierta.
Po =diag(po)-popo,

Adems el operador diag(po) genera una matriz diagonal con elementos poj.
Sin embargo la distribucin de esta estadstica de prueba no es asintticamente 2, con
u-1 gl. La distribucin es en realidad una suma ponderada de 2 con 1 gl. Es decir se
c 1

tiene una distribucin como p j Z j


2

donde las Zj son variables independientes

j =1

con distribucin normal con media cero y varianza 1. (Zj2 son 2 con un gl). Los valores
de las j son los eigenvalores de la matriz de efectos de diseo generalizada que es:
1
D = Po V , donde para simplificar se tiene V = Vdiseo .

136

CONCEPTOS DE MUESTREO
Esos eigenvalores se llaman efectos de diseo o DEFF generalizados, y debe notarse
que no son los DEFF para cada proporcin estimada pj, que sern dj, donde

dj =

Vdiseo ( p j )
p iidj (1 p iidj ) , con p iidj el estimador directo sin ajustar, de la proporcin en la
n

celda j-sima.
Entonces, si bien la estadstica de Pearson corrige por falta de representatividad, ya que
usa las proporciones estimadas va razones con factores de expansin, no corrige por la
falta de independencia dentro de UPM, y por esto no tiene distribucin asinttica 2
con c-1 gl. Entonces se han diseado varias correcciones para esto.
1 Correccin, ajuste por DEFF promedio.

Se obtienen los DEFF estimados para cada proporcin en cada celda, y se obtiene su

1
promedio d. = d j , y entonces la estadstica de prueba es :
u

u j =1

p (d.) =
2

p2

(2 Ajuste promedio)

d.

Este ajuste hace que cuando hay efectos de conglomeracin, es decir coeficientes de
correlacin intraconglomerados positivos, los DEFF son mayores que uno y se
disminuye el valor de la estadstica de prueba. Esto no requiere el clculo de estimadores
de las covarianzas entre estimadores de proporciones, solo de las varianzas. Esta
correccin se obtiene tambin si se calcula un tamao de muestra efectivo promedio

ne =

n
d. ,

y se usa en lugar de n en la expresin de la estadstica de Pearson.

2 Correccin, Rao-Scott de primer orden.

Si la hiptesis de nulidad es cierta, entonces la esperanza de la estadstica de Pearson es

2p
2
E ( p ) = j de manera que entonces E (
) = E ( u 1 ) = u 1

j =1
2

u 1

u 1

Donde

j =1

u 1

, es decir es la media de los eigenvalores de la matriz de DRF

generalizada. Entonces si se divide la estadstica de Pearson entre este promedio, al


menos su esperanza si es la de una 2 con u-1 gl.

p ( ) = p

(21er Ajuste)

137

CONCEPTOS DE MUESTREO
Donde es el promedio estimado de los efectos de diseo generalizados. No se requiere
estimar todos los eigenvalores, ya que este promedio se puede obtener a partir de los
efectos de diseo de las celdas, por medio de la expresin:
u p

(u 1) = j (1 p j )d j
j =1 poj

El ajuste a la estadstica funciona tericamente cuando los eigenvalores son todos


iguales, pero se ha demostrado en la practica que funciona bastante bien si hay poca
variacin entre los eigenvalores. Otra ventaja de este ajuste es que se puede aplicar si se
tienen los datos publicado de las proporciones en las celdas y sus DEFF, sin tener
acceso a toda la base de datos de la encuesta, lo que se llama Anlisis secundario. Este
ajuste de Rao-Scott funciona mejor que el ajuste por la media.
De nuevo si hay estabilidad en la estimacin de varianzas y covarianzas, por pocos
grados de libertad, con f = nUPM-L pequeo, se ajustan la estadstica 2 a llevarlas a F
La correccin de F es
2
p ( )

F p ( ) =
(u 1)

) sta tiene distribucin asinttica aproximada como una F

central si Ho es cierta con u-1 y f grados de libertad.

3era Correccin. Ajuste de segundo orden de Rao-Scott.

Si los eigenvalores tiene mucha variacin entre ellos, se requiere un mejor ajuste, y este
consiste en usar el coeficiente de variacin de los eigenvalores. Por supuesto esto si
requiere el conocimiento pleno de ellos, lo que implica el de la matriz de DEFF
generalizada. Ahora se corrige la media y la varianza de la estadstica de Pearson, el
ajuste es

p ( , a 2 ) =
2

p 2 ( )

(1 + a )
2

(2 2oAjuste)

donde el estimador del coeficiente de variacin de los eigenvalores es


u 1

a =
2


j =1

((u 1) ) 1 .
2

Un estimador de la suma de cuadrados de los eigenvalores es


u 1

2
j = tr ( D 2 ) = n 2 Vdiseo ( p j p k ) / poj pok
j =1

j =1 k =1

La estadstica 2 ajuste, tiene una distribucin asinttica 2 con grados de libertad


que se encuentran con el mtodo de Satterthwaite y son

138

CONCEPTOS DE MUESTREO

gl 2o =

u 1
.
1 + a 2

Estadstica 2 de Neyman
La estadstica de Wald supone que la Ho: p=po es cierta y con ese valor obtiene la
matriz de varianzas y covarianzas. La estadstica de Neyman estima la matriz de
varianzas covarianzas con los estimadores simples de las pj en la muestra, como si
fuesen iid.
2
u n
n ( p p )2
j np o j
j
oj
"
2
N =
(2 de Neyman)
= n
= n( p p o ) P 1 ( p p o )
p j
np j
j =1
j =1

Donde ahora la matriz P/n es las varianzas y covarianzas de las proporciones estimadas
sobre la base de esas mismas proporciones,

P = diag ( p ) p p " . Si el diseo es con probabilidades iguales y con reemplazo la


estadstica de Neyman tiene distribucin 2 con u-1 gl. Pero con otros diseos de
muestra requiere correcciones. Las correcciones a la estadstica de Neyman, son las
mismas que las que se hicieron en la estadstica de Wald.
1.- Correccin por DEFF promedio, dividiendo entre el promedio de los DEFF para las
proporciones.
2.- Correccin de 1er orden de Rao-Scott. Se divide entre el promedio de los efectos de
diseo generalizados, los eigenvalores de la matriz de DEFF generalizada.
3.- Ajuste a distribucin F de la 1era correccin, dividindola entre u-1.
4.- Ajuste de 2 orden de Rao-Scott, dividiendo el 1er ajuste entre 1 ms el coeficiente
de variacin de los efectos de diseo generalizados.
Anlisis de residuos.
Si la hiptesis se rechaza, es de inters encontrar indicios de las celdas que provocan
este rechazo, para esto se hace el anlisis de los residuos. En el caso de muestras con iid,
los residuos estandarizados son

ej =

(p

poj )

err est iid p j

, donde el error estndar del estimador de una proporcin es el

correspondiente elemento en la diagonal de la matriz de varianzas covarianzas segn iid,


P
esto es de .
n
Si el diseo no produce datos iid, se requiere estimar el error estndar de las
proporciones con el diseo usado, es decir como la raz cuadrada de la varianza
verdadera de cada proporcin estimada, as el residuo estandarizado es

ej =

(p

poj )

err est diseo p j

estos residuos, si Ho es cierta, se consideran como variables

aleatorias aproximadamente con distribucin normal con media cero y varianza uno, los
residuos con valores mayores de 2 son sospechosos de causar el rechazo de la Ho.
139

CONCEPTOS DE MUESTREO

Pruebas de Homogeneidad de vectores de proporciones


Los principales desarrollos se obtienen del libro Sarndal,Swensson and Wretman (1991).
Si se tienen regiones sin traslape en la poblacin, la homogeneidad se refiere a la
igualdad de proporciones en la categoras de una variable categrica con c categoras, en
las diferentes regiones. Sea pjk la proporcin de casos en la categora j en la regin k,
con j=1,2,...c y k=1,2, ..r, donde Njk es el nmero de elementos en la categora j en
regin k, Nk es el nmero de elementos en la regin k, entonces pjk =Njk/Nk es la
proporcin de elementos en la regin k que estn en categora j de la variable categrica.
c

Es claro que

p
j =1

jk

= 1 k . La hiptesis de homogeneidad considera que Ho:

p jk = p j "k k k " . Es decir que la proporcin de elementos en la categora j es la


misma para todas las r regiones, y esto para todas las categoras. Si la hiptesis es cierta
se tiene que la proporcin comn para la categora j es p+j =N+j/N+, donde
r

N + j = N jk y N+ es el tamao de toda la poblacin es decir la suma de los tamaos de


k =1

las regiones.
Si se supone que de cada regin se toma una muestra independiente, con cualquier
diseo, pueden ser diferentes, con cada muestra se estiman las proporciones, como se
vi en la seccin anterior, mediante estimadores que toman en cuenta los factores de
nk
1
expansin, N k =
, sea la variable indicadora Yj = 1 si el elemento est en la
i =1

ik

nk

Yj

i =1

ik

categora j de la variable categrica y cero de otro modo, entonces N jk =


donde

ik es la probabilidad de inclusin de la unidad i en la muestra de regin k.

Entonces el estimador tipo Horvitz-Thompson de las proporciones es p jk =

N jk
. Para
N k

fines de expresiones de 2, es preferible usar el estimador en trminos del tamao de


muestra, es decir otra manera de estimar a esas proporciones, involucra las llamadas
frecuencias observadas corregidas por diseo

n jk .

Para esto se obtienen los pesos o factores de expansin ajustados a que su suma sea nk,
el tamao de muestra de la regin k.
n
n
1
N k =
= Wik , entonces si se ajustan los pesos a pesos que respeten las
i =1

ik

i =1

proporciones de expansin pero que sumen a nk el tamao de la muestra en regin k, se

140

CONCEPTOS DE MUESTREO
n
n
nk
*
*
Wik y entonces n jk = Yijk Wik y nk = Wik . Las proporciones

Nk
i =1
i =1
n jk
estimadas son entonces p jk =
... j = 1,2,...u . De otro modo
nk
n jk = n k p jk . Dentro de cada regin se estiman las varianzas y covarianzas de acuerdo al
*

tiene : Wik =

diseo de las proporciones, se ignora la ltima dado que

jk

=1 .

Se tiene as una matriz c-1 por c-1

Vk = Vdiseo ( Pk ) = v kjj* , donde el trmino v kjj *

representa la covarianza segn diseo entre p jk . y.. p j*k ...... j , j* = 1,2,...u 1 Se supone
que se cuenta con un estimador consistente de esas covarianzas Vk = Vdiseo ( Pk ) = vkjj* .
Se tiene varias opciones para efectuar la prueba, son estadsticas semejantes a las del
caso de bondad de ajuste.

1.- Estadstica de Wald


Considere el vector de dimensiones (r-1)(c-1)
Q = [(P1 Pr )",...., (Pk Pr )" ,.., (Pr 1 Pr )" ]"
La matriz de varianzas y covarianzas de ese vector es la matriz de dimensiones
(r-1)(c-1) x (r-1)(c-1), que es : V (Q ) = r 1 k =1Vk + Vk J , y donde
es la suma directa de matrices, es decir considera las matrices Vk en las diagonal y ceros
=

fuera de ella. Y J es una matriz de puros unos, y


Q tiene
una distribucin asinttica normal con media cero y matriz de varianzas estimada por
V (Q ) . Para esto se requieren tamaos de muestra grandes.
La estadstica de Wald es :

w 2 = Q " [V (Q )] Q
1

Esta estadstica tiene distribucin asinttica 2 , con (r-1)(c-1) gl.


Sin embargo es tedioso obtener la matriz de covarianzas y su inverso, por esto se han
diseado varias aproximaciones.

2.- Estadsticas de Pearson modificadas


La estadstica de Pearson, que corrige por falta de representatividad pero no por falta de
independencia es :
r

p =
2

k =1 j =1

(n

p kj nk p + j )
n k p + j

141

CONCEPTOS DE MUESTREO
Donde se tiene el promedio ponderado de proporciones en celda j, para las r regiones
1 r
p + j = nk p kj . Si todas las muestras son autoponderadas, esta estadstica es la usual
n k =1
(la que obtendra cualquier paquete estadstico), es decir la que se obtendra si se
construye la tabla de contingencia sin hacer ajustes y obtiene la prueba de 2. Sin
embargo, en caso autoponderado o no, la distribucin de la estadstica es asintticamente
como una suma ponderada de 2 con 1 gl.

p2

( c 1) ( r 1)

j =1

j 2 Z j 2 . De nuevo las j son los eigenvalores de la matriz de efectos de

) , donde el trmino que multiplica a


diseo generalizados, que es n( F R )V (Q
V(Q) es la matriz de varianzas y covarianzas de los estimadores si se toman como una
muestra iid. F = diag ( f ) ff "
1

donde f = ( f1 ,..., f k ,..., f r 1 )"

con

n
fk = k
n

y n = nk .
k =1

Adems R = diag ( P) PP" , donde P es el vector de proporciones comunes bajo Ho.


Correccin por promedio de DEFF.
Un correccin simple, pero aproximada, es dividir la estadstica de Pearson entre el
promedio de los DEFF para las proporciones estimadas, lo que equivale a ajustar las
frecuencias a que ajusten a los tamaos de muestra efectiva en cada regin,

md =
2

p2
d

, donde d kj =

estimadas y d =

v kjj
p j (1 p j )

n
j

, son los efectos de diseo de las proporciones

d
k =1 j =1

rc

hj

Correccin por la media de efectos de diseo generalizados. 1era de Rao-Scott.


Si las j no varan mucho, una buena aproximacin es dividir la estadstica de Pearson
entre el promedio de ellas.

m =
2

p2

. Para obtener el promedio de los eigenvalores, afortunadamente, no se

requiere el conocimiento de cada uno de ellos.


r

= wkj d kj , donde los pesos suman uno y son wkj =


k =1 j =1

(1 f k )(1 p k )
(r 1)(c 1) , y las dkj

son los efectos de diseo de las proporciones estimadas, definidos arriba.


Se reemplazan las varianzas y proporciones en las expresiones anteriores por sus
estimadores consistentes.

142

CONCEPTOS DE MUESTREO
Se pueden hacer los ajustes para F, si hay pocos grados de libertad en la estimacin de
varianzas; y tambin las correcciones de 2 orden de Rao-Scott, de manera semejante a la
prueba de bondad de ajuste.

Pruebas de Independencia
De nuevo, principalmente tomado del libro de Lethonen y Pahkinen(Op.cit).
En este caso se considera que se tiene una sola muestra y que se clasifican los elementos
en ella, de acuerdo a dos variables categricas. Sean pjk, las proporciones poblacionales
en celda jk; con j=1, ...c y k=1...r, las categoras de ambas variables. Es decir
r
c
N jk
y adems p jk = 1 . La hiptesis de independencia supone que las
p jk =
N
k =1 j =1
proporciones en las celdas son iguales al producto de proporciones marginales, as, si
c

j =1

k =1

p + k = p jk y p j + = p jk

entonces Ho es: p jk = p+ k p j + .
Para la derivacin de las estadsticas de prueba, conviene expresar la hiptesis en
trminos de diferencias Ho: F jk = p jk p + k p j + = 0 ,
y adems solo considerar k= 1,..r-1 y j=1,..c-1, por el hecho de que las proporciones
suman uno. Se forma entonces un vector columna de dimensiones (c-1)(r-1), que es
F = ( F11 ,..., F1,c 1 ,..., Fr 1,1 ,..., Fr 1,c 1 )" .
Se obtienen estimadores de las proporciones que corrigen por falta de representatividad,
N jk
es decir de tipo Horvitz-Thompson, p jk =
, tambin se expresan en funcin de las
N
llamadas frecuencias observadas corregidas por diseo
modo que p jk =

n jk ,

mencionadas antes de

n jk
, stos son estimadores de razn, por que en muestreos
n

polietpicos, n no es fijo de antemano. Adems se obtiene una maotriz (r-1)(c-1) de


varianzas y covarianzas para los p jk , j=1...c y k=1, ..r, sea Vdiseo , se obtienen los
valores de F jk = p jk p + k p j + sta es la diferencia entre proporciones observadas y las
esperadas, todas ellas estimadas. Con stas se obtiene el vector
F = ( F11 ,..., F1,c 1 ,..., Fr 1,1 ,..., Fr 1,c 1 )" .
Una matriz de estimadores consistentes de las varianzas de F estimado es:

VF = H "Vdiseo H , donde H es la matriz de derivadas parciales deF con respecto a


p jk , evaluadas en p jk .
Para la estadstica de Pearson, se usa una matriz de varianzas y covarianzas para las F jk ,
que supone cierta la hiptesis en los estimadores, es decir la proporcin estimada
esperada en celda jk es p jk esperado = p + k p j + . La matriz de covarianzas para el vector p o

143

CONCEPTOS DE MUESTREO
de proporciones estimadas esperadas es: Po = diag ( p o ) p o p "o . De manera que la
matriz de covarianzas del vector de las diferencias observado-esperado estimadas y bajo
Ho, es :

PoF = H " Po H .
Para la estadstica de Neyman se obtienen las covarianzas del vector de proporciones
estimadas, sin suponer cierta la Ho. P = diag ( p ) p p " , donde el vector de
dimensiones (r-1)(c-1), contiene p jk =

n jk
. Entonces la matriz de covarianzas para el
n

vector de diferencias observadas-esperadas estimadas es:

PF = H " P H

Estadstica de Wald.
Esta estadstica usa la matriz de covarianzas de las F, as se tiene:
Wald 2 = F " (VF ) 1 F
Esta tiene distribucin asintticamente 2 con (c-1)(r-1) gl. En caso de que se tengan
pocas UPM dentro de estratos, con f = nUPM L pequeo, conviene hacer la correccin
de la distribucin F, que es
f (r 1)(c 1) 1
Wald 2 tiene distribucin aproximada F con (r-1)(c-1) y
F1,Wald =
f (r 1)(c 1)
(f-(r-1)(c-1)-1) gl. Ntese que si f es pequeo, hay una reduccin a la estadstica 2 de
Wald.
Otra correccin tipo F es F2,Wald =

Wald 2
(r 1)(c 1)

la que se distribuye asintticamente

como F con (r-1)(c-1) y f gl.

Estadstica de Pearson.
Si se usan los estimadores de las proporciones corregidos por factores de expansin y se
obtiene con ellos la 2 usual, la de Pearson, se tiene:
r

p = n
2

k =1 j =1

p kj p j + p + k )
, que tiene una distribucin como suma de 2 con
p j + p + k
2

ponderadores dados por los efectos de diseo generalizados.

Estadstica de Neyman.
Si se usan los estimadores de las proporciones corregidos por factores de expansin,
pero en el denominador se usan los observados corregidos en lugar de los esperados, se
tiene:

144

CONCEPTOS DE MUESTREO
r

N = n
2

k =1 j =1

p kj p j + p + k )
, que tambin tiene una distribucin asinttica como
p jk
2

suma ponderada de 2.

Ajustes a las Estadsticas de Pearson y Neyman.


Para corregir el problema de la falta de independencia en las observaciones por efecto de
conglomeracin, se hacen ajuste a esas estadsticas.
Ajuste por media de DEFF.
Se divide la estadstica de prueba entre el promedio de los DEFF para cada una de las
proporciones, as por ejemplo

p (d ) =
2

d =

p2

, se distribuye asintticamente como 2 con (c-1)(r-1) gl. Donde

d
j =1 k =1

rc

jk

y d jk =

Vdiseo ( p jk )
y donde njk es el nmero observado de datos
n jk n jk
( ) 1

n
n
n

en la celda jk, sin ninguna correccin.


Primer ajuste de Rao-Scott.
Este ajuste iguala el valor esperado de la estadstica de prueba con los gl de la 2
asinttica, y funciona cuando los efectos de diseo generalizados no son muy diferentes
entre si.

p2
p ( ) =

, se distribuye asintticamente como 2 con (c-1)(r-1)gl. Donde

=
=

= (c 1)(r 1) p jk (1 p jk ) p jk + p + k d jk (1 p j + )d j + (1 p + k )d + k
c

j =1 k =1

j =1

k =1

los DEFF marginales son, por ejemplo:


Vdiseo ( p j + )
d j + =
n j+ n j+

(
)1
n
n
n

145

CONCEPTOS DE MUESTREO
Usualmente es mejor la primera correccin de Rao-Scott que el ajuste por promedio de
DEFF.
Ambas correcciones se pueden hacer tambin a la estadstica de Neyman.
Si hay problemas de inestabilidad debido a pocos grados de libertad en la estimacin de
covarianzas, la correccin a F es:
p 2 ( )
2
F p ( ) =
, la que tiene asintticamente una distribucin F central , si Ho
(r 1)(c 1)
es cierta , con (r-1)(c-1) y f gl. Tambin se hace la misma correccin para la estadstica
de Neyman.
Segunda Correccin de Rao-Scott.
Para acercar no solo el primer momento de la estadstica de prueba a la 2 con (c-1)(r1) gl., sino tambin el segundo momento, se hace la correccin por coeficiente de
variacin de los efectos de diseo generalizados. Esto implica el conocimiento pleno de
la matriz de efectos de diseo generalizados.

p ( , a 2 ) =
2

p 2 ( )

(1 + a )
2

donde

tr ( D )
y la matriz de efectos de diseo generalizada
(c 1)(r 1)

estimada es.
1
D = PoF VF

y el coeficiente de variacin es

a =
2

( c 1)( r 1)

( c 1)( r 1)

1 , donde los l son los eigenvalores de la matriz de

efectos de diseo generalizados. Y la suma de cuadrados de ellos es:


( r 1)( c 1)

l 2 = tr ( D 2 ) .

La estadstica corregida por el segundo ajuste tiene distribucin asinttica 2 con grados
de libertad ajustados por Satterthwaite dados por

gl 2o ajuste =

(c 1)(r 1)

(1 + a )
2

Tambin se pueden hacer los ajustes a la estadista de Neyman.


Anlisis de residuos.
Si la hiptesis de independencia se rechaza, conviene analizar los residuos para explorar
las celdas que provocan el rechazo.
El residuo estandarizado para una celda esta dado por
F jk
e jk =
err.est ( F jk )

146

CONCEPTOS DE MUESTREO
Donde en el denominador est el error estndar de un residuo estimado. Estos se
obtienen de las races cuadradas de los elementos de la diagonal de la matriz de
covarianzas de los estimados de los residuos, dada antes.

Inferencia sobre anlisis con variables continuas.


Para el caso de modelos lineales y logsticos, as como otras tcnicas multivariadas, es
importante sealar el tipo de inferencia que se pretende hacer. Por que se pueden
distinguir dos tipos bsicos, el de poblaciones finitas y el de superpoblacin.

Modelos en poblaciones finitas.


Se definen parmetros poblacionales que pueden ser coeficientes de correlacin,
coeficientes de correlacin parciales o coeficientes de regresin parciales, como
funciones de totales desconocidos en la poblacin. Por ejemplo un coeficiente de
correlacin entre dos variables X y Y se puede definir para toda la poblacin como:
N
N

(
)(
Y

i Xi)
N
i =1

Yi X i i =1

N
Yi X i N (Y X ) i =1

i =1
=
r= N
2
N

X 2i N ( X 2 )
X

i
N
i =1

i =1

2

X
i

N
i =1

La regresin entre una Y y variables X1,X2, ...,Xp, se puede considerar a nivel poblacional
como la solucin a las ecuaciones normales poblacionales que son

B = ( X X ) 1 ( X Y )
Donde la matriz ( X X ) es la matriz que tiene las sumas poblacionales de productos
entre las Xj, quiz con una Xo identifica a 1 siempre ( para la ordenada al origen o
intercepto),
N

i =1
N

XX =

X
i =1
N

X
i =1
N

1i

2i

X 3i
i =1

X
i =1

X
i =1
N

1i

1i
2

1i

X 2i

X 1i X 3i
i =1

X
N

i =1

X
i =1
N

1i

i =1

X
i =1

3i

2i
N

i =1

3i

X 2i

1i

X 3i

2i

X 3i

2i

X 2i

i =1
N

i =1
N

X
i =1

2
3i

147

CONCEPTOS DE MUESTREO

y el vector X Y =

1i

2i

3i

i =1
N

i =1
N

i =1

Yi
Yi

Yi

Entonces el problema de estimacin, es estimar cada uno de los totales involucrados en


las expresiones para r o para B y as obtener estimadores consistentes. Al tomar una
muestra probabilstica, se estiman los totales, involucrados con los factores de expansin
adecuados segn el diseo de muestra, los inversos de las probabilidades de seleccin.
As,
N
n
n
n
N
Yi X ji
Y
1
, estas expresiones
N =
, .., Yi = i y en general Yi X ji =
i =1

i =1

i =1

i =1

i =1

se sustituyen en las ecuaciones normales y se encuentra la solucin para estimar B. Esto


equivale a una regresin ponderada, donde los ponderadores son los factores de
expansin, as

B = ( X WX ) 1 ( X WY ) ,

donde ahora las sumas son sobre los


1
datos de la muestra y la matriz W es diagonal con elementos dados por Wi = . Esto

corrige por la falta de representatividad y los efectos de conglomeracin tiene un


impacto muy leve sobre este estimador por lo que se pueden ignorar en la estimacin
puntual, sin embargo no lo son para estimar las varianzas. Para estimar las varianzas y
corregir las pruebas de hiptesis sobre los coeficientes de regresin, se pueden usar dos
procedimientos bsicos,
1.- Tcnicas de remuestreo y
2.- Estimadores de varianzas va series de Taylor.
Comentaremos aqu este ltimo mtodo.

Estimadores de Varianzas en general, encuestas complejas.


De Skinner, Holt and Smith Analysis of Complex Samples. Wiley, 1989 y tambin
Pierre St-Martin Statistical Analysis of Complex Survey Data. Curso impartido
durante el Foro Nacional de Estadstica Aguascalientes, Mxico, Septiembre de 1993.
Considrese sin prdida de generalidad que se tiene una encuesta estratificada con tres
etapas de muestreo, y sea Uhdck, un valor asociado a la k-sima unidad en la c-sima
USM, en la d-sima UPM y en el estrato h-simo. Una estadstica lineal es la que se
define como la suma de esos valores sobre la muestra, as un parmetro estimado en
forma lineal es:
L

lh mhd nhdc

= U hdck ,
h =1 d

d =1 k =1

148

CONCEPTOS DE MUESTREO
Por ejemplo, si se conoce N, el tamao de la poblacin, el estimador de la media de los
Y
valores de Yhdck, es el anterior con U hdck = hdck donde hdck es la probabilidad de
N hdck
inclusin del elemento hdck-simo.
Bajo los supuestos:
S1.- La muestras de los diferentes estratos son independientes.
S2.- Las l h ( antes nUPM) UPM se toman dentro de cada estrato con reemplazo. Nota
importante, si es sin reemplazo, pero el tamao de muestra es mucho menor que el
nmero de UPM en la poblacin, entonces el supuesto se cumple con buena
aproximacin.
S3.- l h 2
Se puede reescribir el estimador lineal anterior, en trminos de las UPM, como
lh

= U
h =1 d

hd

donde U hd = U hdck
c

, como para un conjunto de n

n
n
vaiid. Sean gi se tiene : V g g = V ( g i ) = nV (g i ) , entonces el estimador de la
i
i

varianza

del

estimador

lineal

l l lh

V ( ) =
(U hd U h ) ,
h =1 (l l 1) d =1
L

es:

donde

lh

Uh =

U
d

lh

hd

La enorme ventaja de este estimador es que no importa cmo se hace el submuestreo de


UPMs, la varianza del estimador es la misma, esto es igual al caso del esquema B de
Raj. Si el supuesto S2 ocurre con muestras por mas de UPMs y sin reemplazo, se
puede hacer una correccin a la expresin de la varianza:
2

lh
l l
V ( ) = 1 h l (U hd U h ) donde Lh es el total de UPM en estrato h. Si
Lh (ll 1) d =1
h =1
L

la fraccin de muestreo en cada estrato es pequea, el trmino en parntesis cuadrados es


casi uno y queda la expresin anterior.
Varianzas para parmetros no lineales.
Si el parmetro no lineal se puede expresar como una funcin de parmetros lineales, se
extiende el mtodo de linearizacin de Taylor como sigue:

= g ( ) el estimador, donde ahora es un vector de


Sea = g ( ) el parmetro y
parmetros
lineales
de
dimensin
p.
Es
decir

= (U 1hd , U 2 hd , U 3hd ,..., U phd ) .


= (1 ,2 ,3 ,..., p ) = U hd

149

CONCEPTOS DE MUESTREO
Y3hdck

Y donde por ejemplo U 3hd = U 3hdck =


c

hdck

, y g(.) es una funcin no lineal.

, por un estadstica lineal. Esto se consigue


La idea de la linearizacin es aproximar a
al usar la aproximacin en series de Taylor:
p
p
p

= g ( ) = g ( ) + g j ( )( j ) = g j ( ) j + g ( ) g j ( ) j

j =1
j =1
j =1

g ( )
Donde g j ( ) =
.
j
En la ltima expresin solo el primer trmino contiene estimadores, el trmino entre
parntesis cuadrado es una constante; de manera que la varianza del estimador depende
de la primera parte nada mas.
p
p
p

=
U
y
g ( ) =
g ( )
U =
U g ( ) =
W~ ,
j

jhd

j =1

j =1

jhd

j =1

jhd

jhd

donde W~ jhd = U jhd g j ( ) . Esto es, la varianza de una suma de variables


j =1

supuestamente independientes, las W~ jhd , entonces se sustituyen los parmetros lineales


por sus estimadores segn diseo, con factores de expansin y se tiene que
W jhd

l l lh
(Whd Wh ) .
h =1 (ll 1) d =1
L

)=
= U jhd g j ( ) y entonces: VL (
p

j =1

= Y = g (1 ,2 ) = g (Y , X ) = g () , donde se tiene
Por ejemplo considere una razn
X

U 1hd = hdck
= (Y , X ) = (U 1hd ,U 2 hd ) .
Y
donde:
y
que
h

U 2 hd =
c

X hdck

hdck

. Desde luego con = R =

hdck

Y 1
=
= g ( 1 , 2 ) = g (Y , X ) = g ( ) ,
X 2

Las derivadas parciales son respectivamente:


p

1
g1 ( ) =
y g 2 ( ) = 2 1 por lo que W jhd = U jhd g j ( ) = Whd = (U 1hd R U 2 hd ) y

j =1

esto en la expresin de varianzas produce:

l l lh
{ (Ty hd R Txhd ) 1

(l 1) d =1
lh
VL (R ) = h=1 l
2
Tx
L

U 2 hd = Tx hd =
c

lh

(Ty
d =1

hd

R Txhd )

}2
, donde

X hdck

hdck

150

CONCEPTOS DE MUESTREO
Yhdck

U 1hd = Ty hd =
c

X hdck

es decir Tx =
h

y entonces Tx es el estimador del total de X en la poblacin,

hdck

hdck

Regresin lineal simple.


Si se tiene como parmetro un coeficiente de regresin lineal entre una Y y una X,
variables que si se midieran en todas la unidades de la poblacin, el parmetro se define
L

como: B =

(Y

hcdk

Y )( X hcdk X )

( X
h

hcdk

X)

, en trminos de parmetros lineales se


2

puede establecer que B =

1
.
2

Donde 1 = (Yhcdk Y )( X hcdk X )


h

2 = ( X hcdk X )2 . Estos se estiman en dos pasos, primero se estiman las


h

respectivas medias poblacionales Y y X y con ellas se definen dos variables asociadas


Y Y X hdck X
y
a cada unidad de muestreo, estas son: U 1hdck = hdck

(X
=

U 2 hdck

hdck

L
h

hcdk

hhdck

1 =

)(

entonces

(Y

hdck

hcdk

se

)(

Y X hcdk X

estiman

los

parmetros

L
1
y 2 =
h

hdck

(X

hcdk

lineales
X

, con

esta definicin ahora se tiene que B se estima con un estimador de razn y su ECM, es
1
Yhdck Y X hdck X
y tambin
el correspondiente. Sean U 1hd =
c

U 2 hd =
c

hdck

(X

hdck

hdck

)(

X , entonces se tiene que Whd =

(U

1hd

B U 2 hd )
y con esta
2

l l lh

(
)
V
B
=
expresin, L

(Whd Wh ) .
h =1 (l l 1) d =1
L

Diferencia de dos Razones.


Considere ahora que el parmetro de inters es una diferencia de razones. Pueden ser
considerando 4 totales de variables Y1, Y2, Y3 y Y4, o que algunas o todas las variables
sean a su vez variables compuestas, por ejemplo una diferencia de dos coeficientes de

regresin. Entonces se tiene =

1 3

= R1 R2 . Se definen las cuatro variables


2 4

151

CONCEPTOS DE MUESTREO
convenientes, U1hdck, U2hdck, U3hdck, y U4hdck, asociadas a cada elemento de muestreo
y que incluya los factores de expansin, es decir el inverso de las probabilidades de
seleccin de cada elemento. Con ellos se obtiene los estimadores ponderados de los 4
parmetros

1 = U 1hd ,

lineales:

2 = U 2 hd ,
h

3 = U 3hd


= 1 3 = R1 R 2 .
4 = U 4 hd , con ellos se obtiene el estimador
2 4
h
d
Se definen ahora dos variables nuevas W1hd =

(U

1hd

(U R 2U 4hd )
R1U 2 hd )
y W2 hd = 3hd
2
4

Con ellas se tiene que Whd = W1hd W2 hd y la varianza de la diferencia estimada es:
2
1 3 L ll lh
(Whd Wh ) .
VL =

(
)

1
l

h =1 l
d =1
4
2

El proceso de linearizacin para el caso de regresin lineal produce como se haba


sealado, que el vector de coeficientes de regresin se estima con:
1
B = T t

donde si X es el vector de variables independientes

Xhdck=(X1hdck, X2hdck ,..., Xqhdck), entonces T =


t =

X hdckYhdck

muestra

X hdck X hdck

nuestra

hdck

y la matriz de varianzas y covarianzas del vector de los

hdck

coeficientes de regresin estimados es


1
1
V (B ) = T T
n

U ihdck U jhdck

hdck hdck

y donde la matriz es la matriz qxq con elementos dados por

hdck , hd ck
donde = hdck ,hd ck
y con
hdck ,hd ck

B , i, j = 1,...q .
U ihdck = X ihdck Yhdck X hdck
Los elementos de la matriz , son los estimadores Horvitz-Thompson de las varianzas y
covarianzas de U ihdck con U jhdck . Si se conoce el diseo y sus factores de expansin se
pueden usar expresiones de esquemas A y B de Raj, o en el caso de que se tenga n<<N,
la aproximacin

ll lh
(Wihd Wih )(W jhd W jh ) , donde

(
)
1
l

h =1 l
d =1

Cov(U ihdck ,U jhdck ) =


L

lh

Wihd =
c

U ihdck

hdck

, W jhd =
c

U jhdck

hdck

y con Wih =

ihd

lh

lh

y W jh =

W
d

lh

jhd

152

CONCEPTOS DE MUESTREO
Uso de Esquemas A y B de Raj.
El supuesto de que las UPM se obtienen en cada estrato por muestreo con iguales
probabilidades de seleccin y con reemplazo, es poco realista. Entonces las expresiones
de errores cuadrticos para los parmetros complejos como funciones de parmetros
lineales son una aproximacin que funciona bien en la medida que se use mas en cada
estrato y que nh<<Nh . En caso de que se tenga un mas con estratos con pocas UPM,
la aproximacin no es buena, en este caso se deben usar las expresiones del Esquema A
de Raj, que aparecen como (19.1) y (19.2). En el caso en que las UPM dentro de cada
estrato se tomen con ppt con reemplazo se debe usar el esquema B de Raj, con
expresiones (19.3) y (19.4). Si se tiene un esquema ppt de seleccin de UPM sin
reemplazo, se puede usar como una buena aproximacin el esquema B de Raj siempre y
cuando se tenga nh<<Nh. Finalmente si se tiene un esquema de seleccin con
probabilidades desiguales y sin reemplazo hay que usar estimadores de varianzas de
Horvitz-Thompson lo que requiere el conocimiento de las probabilidades de inclusin de
segundo orden hdck ,hd ck

=
Modelos Lineales.
Otro enfoque, adicional a los de linearizacin y de remuestreo, para la varianza de
estimadores en los modelos lineales consiste en multiplicar los estimadores de los
errores estndar de los coeficientes de regresin por la raz cuadrada del DEFF de la
media de la variable dependiente. Esto es un mtodo conservador ya que los errores
estndar que resultan son sobreestimaciones de los reales.

153

Estimadores de Razones y sus Errores


Cuadrticos Medios. Planteamiento
general
El planteamiento general consiste en considerar a una

nueva variable Ghijk..que es Yhijk ... RX hijk ... asociada


a la Unidad de muestreo hijk... Entonces, para obtener
un estimador del ECM del estimador de R, se plantea
la estimacin de la varianza del estimador del total de
esa nueva variable Ghijk..en la poblacin. La forma
general del estimador es

R=
X

El estimador del error cuadrtico medio del estimador


anterior es :

V (G )

ECM ( R ) =
X 2
Donde

G Es el total estimado para Ghijk.. la nueva

variable Yhijk ...

R X hijk ...

en toda la poblacin.

La

varianza de G , se encuentra segn sea el diseo,


aplicando las expresiones para la varianza de un total.

Caso de mas unietpico.

N
Y =
n

Y
i =1

N
X =
n

Y
R =
X

X
i =1

(Yi RX i )
n
N

G = (Yi R X i ) = N i =1

n i =1
n

(Yi RXi )

(G ) 1
V
1 2 1 1 1 n
i=1

ECM(R) = 2 = 2 V(N
)= 2 N ( )
(Yi RXi 0)2

n
n N n 1 i=1
X
X
X

Caso de Estratos unietpico con mas


L

h =1

h =1

Y = Yh = N h yh

h =1

h =1

G = G h = N h {

Y
R =
X

h =1

h =1

X = X h = N h xh
nh

(Y
i =1

hi

R X hi )
nh

nh

1
ECM ( R ) = 2
X
1
ECM ( R ) = 2
X

(Yhi R X hi

V ( N

i =1

N {(
h

2
h

nh

nh

)=

1
X 2

N V {
h

2
h

(Y

hi

R X hi )

nh

nh

(Yhi R X hi
1
1 1 nh
Yhi R X hi i =1
(
)

nh N h nh 1 i =1
nh

Caso de esquema B unietpico


Las UPM se seleccionan mediante un ppt con
reemplazo. Cada UPM se submuestrea de manera
independiente, el nmero de veces que quede en
muestra. Por supuesto que la medida de tamao debe
tener una buena proporcionalidad con los valores de
Yi, y si es posible tambin de los de Xi. Por supuesto
que es muy conveniente que la medida de tamao sea
casi proporcional con Xi y con Yi, los totales en las
UPMi. Por ejemplo puede ser usada para las
probabilidades de seleccin el nmero de USM o de
UUM, en cada UPMi, con una informacin previa.

1 n Ty

Zy
Y n i Pi

R= = n
=

Zx
X 1 Tx

n i Pi
i

n T
1
G
G = i = Z G
n i Pi

donde TGi es el estimador del

total de Gijk.. la nueva variable Yijk ...


UPMi.

R X ijk ...

en la

El estimador del error cuadrtico medio del estimador


de R anterior es:

1
1
ECM ( R ) = 2 [V (G )] = 2 [V ( Z G )]
X
X
2
n
T

1 1 1 Gi
0
ECM ( R ) = 2

X n n 1 i Pi

S z2G
Txi
Tyi

1
1
1
1

ECM ( R ) = 2
R = 2
X n n 1 i Pi
Pi
X n
n

Donde, se aplica la expresin de la varianza de un


nuevo promedio estimado, si se considera la variable:

ZGi =

T yi R Txi
Pi

= Z yi R Z xi

Ntese que la media de la nueva variable ZGi, es cero,


ya que el estimador de R es el cociente de la media de
Zyi entre la media de Zxi.

Estimador de R en muestreo con estratos, varias


etapas y con seleccin de UPM con esquema B.
En este apartado se considera el caso muy general de
un muestreo multietpico, con diseos de muestra que
pueden ser variables en cada UPM en muestra. Pero
suponemos que hay estratos de las UPM y en cada
estrato se selecciona la muestra con esquema B.
El estimador de R, es:

1
Yh

Y
h nh
h

R= = L
= T
1
X

h X h
h nh
L

Thyi
i P
hi
=
nh
Thxi
i P
hi
nh

hy

hx

h
L
h

En cada estrato el estimador del total de la Y (o de la


X), es la suma de los promedios de variables Zhyi,

1 nh Thyi 1 nh
Z hy =
= Z hyi
nh i Phi nh i
L

h =1

h =1

h =1

G = G h = Z G hy =

1
nh

nh

Thyi R X hxi

Phi

El error cuadrtico medio estimado del estimador de R


anterior es el siguiente:
2

Thyi RThxi 1 nh Thyi RThxi


1
1

(R) = 2

ECM

n
n
P
nh i
Phi
(
1
)

X
h h h
i
hi
Ntese, de nuevo que se trata de la varianza de Zs
construidas con los totales estimados de la nueva
variable Ghijk..., en las UPMi en muestra. Se genera la
variable ZGhi que es:
L

nh

Thyi R Thxi TGhi


=
= Z Ghi
Phi
Phi
de modo que el ECM se simplifica conceptualmente a:
L
1
1

ECM ( R ) = 2 Vh ( Z Ghi )
X h nh

Estimador de R en muestreo con estratos, varias


etapas y con seleccin de UPM con esquema A.
Se presenta el caso del esquema A, seleccin por
mas de las UPM y con un submuestreo arbitrario de
las USM, y etapas subsecuentes en cada UPM.
Adems con las UPM en estratos. Se presenta el caso
en el que se ignora la variabilidad debida al
submuestreo, de manera que es una situacin muy
semejante al caso de una etapa, estimar R con
muestreo aleatorio simple con estratos en las etapas.
Las expresiones son muy semejantes a las planteadas
en el caso de estimar un total basado en una razn.
La
informacin
esta
dada
por
muestras
independientes, de UPMs obtenidas por Muestreo
Aleatorio Simple (mas) en cada estrato, de tamao nh
y en cada UPM se estiman los totales Yhi y Xhi, Ghi
en cada UPM, sean stos

Yhi

, X hi y Ghi
Donde i= 1,...,nh y h=1,...L. Se conocen los tamaos de
los estratos Nh. Y con ellos sus ponderadores Wh =
Nh/N. Se considera solo el estimador combinado,
para que tengan sentido las medias.

R =

h
L

X h

h
L

N h nh
Y hi

nh i
Y
=
nh

X
Nh
X hi

nh i

nh
G hi
L
L
G = G h = N h i
nh
h
h

donde

G hi

es

el

estimador , segn submuestreo , del total de Ghijk.., la


nueva variable

Yhijk ... R X hijk ... en

las UPMhi en

muestra
El error cuadrtico medio del estimador de R es:

(G )
V
ECM ( R ) =
X 2
Si se ignora la contribucin al ECM de las USM dentro
de las UPM, y las UTM dentro de las USM, etc. Se
tiene que :
n

hi
L
L

V (G ) = V { G h } = N 2 hV i
nh
h
h

10

nh
G hi
L
V (G ) = N 2 hV i
nh
h

L
1 2
2 1
=

N
(
) S Ghi
h

n
N
h
h
h

donde
2
SG hi

nh

1
1

(Yhi Rc X hi ) (Yhi Rc X hi )
nh 1 i =1
nh 1=1

nh

11

Caso

general multietpico y donde los estratos se

muestrean de maneras diferentes.


L

Y = Yh
h =1

R=
X

X = X h
h =1

G = G h
h =1

(G )
V
ECM ( R ) =
X 2

Hay que considerar grupos de estratos con muestreo


semejante, as considere el caso de esquemas A y B
como
una
posibilidad,
entonces:
nh
G hi
LA
LB
LA
V (G ) = V { G h + G h } = N 2 hV i
nh
h
h
h

LB
+ V { 1

nh
h

nh

Thyi R X hxi

Phi

You might also like