Professional Documents
Culture Documents
Monografas
CONCEPTOS BSICOS DE MUESTREO
IGNACIO MNDEZ RAMREZ
GUILLERMINA ESLAVA GMEZ
PATRICIA ROMERO MARES
INSTITUTO DE INVESTIGACIONES
EN MATEMTICAS APLICADAS
Y EN SISTEMAS
UNIVERSIDAD NACIONAL AUTNOMA DE MXICO
RESUMEN
La idea de este escrito es presentar de manera intuitiva, sin demostraciones,
los aspectos que se deben tomar en cuenta al realizar encuestas (con base
en cuestionarios) o muestreos (efectuando mediciones directas). Se hace
poco nfasis en las consideraciones tcnicas que llevan a las expresiones
para varianzas de estimadores o pruebas de insesgamiento. Se citarn las
expresiones para varianzas sin demostracin, esas y otras demostraciones
se pueden encontrar en los textos como el de Raj (1968); Sukhatme et. al.
(1984); Kish (1965) y Cochran (1977). Se discute con ms detalle las
expresiones ligadas a la determinacin del tamao de muestra. En la primera
parte se da una visin general de lo que es un marco de muestreo, y los
diferentes tipos de diseos de muestra, as como del concepto de muestra
representativa.
Introduccin
Las encuestas por muestreo son un tipo de investigaciones que tienen como
propsito conocer algo respecto a una determinada poblacin humana, y estudian
slo una parte de sta. Tambin denominada Demoscopa, es decir, la disciplina o
grupo de ellas que pretende conocer algn aspecto de una poblacin o conjunto de
seres humanos.
Para esto se requiere un trabajo interdisciplinario entre:
Demgrafos, Economistas, Socilogos, Administradores, Psiclogos, Estadsticos,
etctera.
Las formas de obtener informacin en la Demoscopa son a travs de
censos, registros administrativos y encuestas por muestreo.
En toda actividad humana, y sobre todo en los estudios que usan muestras,
se requiere el enfoque cientfico, este consiste bsicamente en usar los
conocimientos previos que se tienen sobre el problema y disear una metodologa
de investigacin que minimice la ocurrencia y magnitud de los errores.
Se puede hacer una analoga entre ciencia y calidad total (el movimiento
mundial de mejorar la calidad de productos y servicios).
ANALOGA DE CIENCIA CON CALIDAD TOTAL
En una encuesta por muestreo se debe hacer un trabajo conceptual que determine
entre otras cosas qu se quiere conocer?, por ejemplo, niveles de desempleo,
estado de salud de la poblacin, calidad y demanda de servicios de educacin. La
opinin sobre aspectos o programas polticos. La capacidad de compra de un
sector de la poblacin, etctera.
Cul es la poblacin?
Eso que se quiere conocer se refiere a una poblacin o conjunto de seres humanos
con cierta ubicacin en tiempo y espacio. Por ejemplo, habitantes del Distrito
Federal, empresas de la construccin, escuelas pblicas, etctera. La poblacin se
define al especificar qu elementos son y qu caractersticas deben tener stos. Por
ejemplo, personas mayores de 18 aos que residen (por ms de 6 meses) en el
Distrito Federal; escuelas primarias que dependen del sector pblico y ubicadas en
el estado de Sonora; empresas de la industria alimenticia registradas ante la
Secretara de Comercio, que estn al corriente en el pago de impuestos y se ubican
en el estado de Mxico.
Los elementos pueden ser entidades como: familias, personas, fbricas,
comercios, escuelas, etctera. Para su estudio se consideran varios aspectos:
tiempo de residencia, edad, actividad, tamao de empresas, etctera.
Para el estudio se debe determinar, primero, el proceso de captacin de
informacin, esto es la forma de aplicacin y el tipo de instrumentos de medicin a
utilizar. Entre los instrumentos se encuentran: la observacin directa, los
cuestionarios, las entrevistas directas o telefnicas, entre otros. Conocer y aplicar
correctamente los instrumentos de investigacin permitir evitar errores en el
proceso de captacin de informacin.
2.1
Marco de muestreo
poblacin
marco
Figura 1. Marco y poblacin coinciden.
marco
poblacin
Figura 2. El marco incluye otros elementos adicionales.
poblacin
marco
poblacin
marcos
Figura 4. Marcos complementarios.
poblacin
marcos
Figura 5. Marcos Traslapados.
2.2
Poblacin
1010
NN
1 1= =
Promedio
Y1
N 2 = 50
N 3 = 100
Y2
Y3
N = N1 + N 2 + N 3
Muestra
Se toman
n = n1 + n2 + n3
n1 = 10
n2 = 10
n3 = 10
es la muestra total.
Y =
N1 + N 2 + N 3
N1 + N 2
N1
160
Y Y + Y + Y
i
160
i =1
i = N1 +1
i = N 2 +1
160
=
Y =
N
N1
Y
i =1
n1
N
n3
n2
N2
+
Y
i =1
n2
N
N3
+
50 10
100 10
10 10
Y
Y
i
Yi
i
10
10
= 10
+
+
=
160
160
160
Y
i =1
n3
N
W Y
i i
i =1
Para estimar el total, cada elemento de la muestra se multiplica por los factores de
expansin, wi, los elementos del primer estrato se multiplican 1, los del segundo 5,
los del tercero 10. Si se quiere el promedio, adems se divide entre N=160.
Un teorema fundamental en estadstica es el Teorema Central del Lmite. De
manera laxa, dice que los promedios de muchas muestras probabilsticas de una
poblacin tienden, al aumentar el tamao de muestra n, a tener distribucin normal,
a pesar de que la variable que se mide no tenga distribucin normal en la poblacin.
Muchas muestras
aleatorias de
tamao n
n
Poblacin
Distribucin de los
muchos valores de
los promedios muestrales
error
estandar
Muchos
valores
de
y
diferentes
10
normal
asimtrica
fuerte
n 1
yi
n 20
asimtrica
moderada
yi
yi
caso
dicotmico
p
n5
yi
n 30
np > 5
n(1 p) > 5
1-p
0 1
yi
11
EE =
1-
Donde
De aqu:
P + = 1
(2.1)
Lo que equivale a:
P[ + ] = 1
(2.2)
Intervalo de confianza
Las expresiones anteriores se pueden representar sucintamente como:
P < = 1
(2.3)
= 1.96 V ( )
n, y otros parmetros.
12
Diseo de
la muestra
Poblacin
Y 1 Y 2 ... Y
y1
y2
.
.
yn
Estimador como
funcin de los
datos
(y , y
1
2 ,...,
yn )
()
()
de
()
confianza
al
95%
()
para
est
dado
por
que es el error de muestreo mximo con confianza del 95% que se quiere tener.
Este valor lo determina el usuario del proceso, en funcin de la gravedad del
alejamiento posible entre el valor nico que se tendr y el verdadero valor
desconocido
Entonces de la expresin
= 1.96 V ( )
se despeja el tamao
13
= 1.96 V ( ) , se obtiene n.
()
()
()
VD ()
DEFF =
V ()
iid
2.3
n0.
El tamao
n = n0 DEFF .
Diseos de muestra
14
Poblacin
N
Muestra
n
Seleccin aleatoria de los elementos muestrales con probabilidades
De seleccin en cualquier extraccin iguales y sin reemplazo.
Muestreo sistemtico (uno de cada k), si el orden es aleatorio, equivale
al mas, si hay un orden con cambios suaves, no peridicos en el intervalo
de muestreo k=n / N, entonces es ms eficiente (ms representativo)
que el mas.
15
Poblacin
N
Muestra
n
16
Muestreo
E t tifi d
Poblacin
N =N1 + N2 + N3
N1
N3
Muestra
n =n1 + n2 + n3
N2
n1
n3
n2
Seleccin aleatoria, sistemtica o con probablidades proporcionales de
i
los elementos muestrales en cada estrato, por separado, es decir
la seleccin esindependiente de un estrato a otro.
proporcionales al tamao de los estratos, o
i
l
a las desviaciones estandar o inversamente a los costos en cada estrato
.
id
17
Muestreo
M1
M3
M2
M4
M6
Poblacin:
N Unidades Primarias de Muestreo, UPM
conMi unidades ltimas de muestreo ( )USM
cada
M5
M7
Muestra de
n UPMy
mi unidades ltimas
cada una
m5
m4
m1
18
Muestreo trietpico
M1
M3
M2
M4
M6
M5
Poblacin:
(
N Unidades Primarias de Muestreo, UPM
)
Secundarias de Muestreo (USM )
con M Unidades
i
)
en cadaUPMi, y conBij unidades ltimas( UUM
en cada USM ij .
M7
UPM
Muestra
n UPM y
mi USM en
cadaUPM y conbij unidades
lti i
en cadaUSM
b21
b12
m1
b22
m2
m3
b32
USM
19
UUM en
la
USM32
M2
M4
M6
M5
M7
b21
b12
m1
b22
m2
m3
b32
20
X1
X1
Poblacin
Muestra
Extrapolacin
(Inferencia)
X2
X2
X3
Distribuciones
Marginales y
Conjunta de
variables
IMPORTANTES
Distribuciones
Marginales y
Conjunta de
Variables
IMPORTANTES
X3
X4
X4
3.1 Extrapolacin
Un razonamiento innato en los seres humanos, es el aplicar a experiencias nuevas
las conclusiones obtenidas en el pasado en otras experiencias semejantes.
Por ejemplo, al ingerir 5 frutos rojos y pequeos y tener dolor de estmago,
se generaliza a ese tipo de frutos o a un nuevo fruto.
Me com 5 frutos
pequeos rojos y
me doli el
estmago!
Extrapolacin
Es semejante
a los otros?
Elementos
estudiados
Extrapolacin
Elementos
semejantes
a los
estudiados
Poblacin
Muestra
Extrapolacin
Extrapolacin Vlida?.
Nos preguntamos la extrapolacin no se equivoca?, Cmo hacer que no se
equivoque?. La respuesta es s se puede equivocar, pero frecuentemente no se
equivoca.
Si se pueden encontrar leyes deterministas que expresen relaciones
(necesarias y suficientes) entre propiedades de las instancias estudiadas
(muestras), se pueden aplicar los resultados o conclusiones a todas las instancias
(poblacin) no estudiadas an, que cumplan con las propiedades requeridas. Aqu
estn muchas leyes de la naturaleza, principalmente inorgnicas, como la fsica
clsica, termodinmica (macroscpica), etctera. As la experiencia (traducida en
leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros;
con ciertas molculas se aplica a otras; etctera.
muestra
extrapolacin
poblacin
elemento
3.4 Probabilidad
En Estadstica se usa el concepto de probabilidad derivado del estudio de grandes
nmeros de elementos. Cualquier texto de Probabilidad menciona los teoremas
bsicos, por ejemplo, se puede consultar Chung (1974).
aleatorias
E(Xi)=p
2 (Xi)=p(1-p)
Sn=X1+X2+...+Xn
n 1
independientes
idnticamente
1
Xi =
0
Se dice que Sn puede tomar valores 0,1,...,n y tiene distribucin binomial con
media y varianza dados por:
2 ( S n ) = np(1 p)
E(Sn)=np
Sn
p < c = 1.
n
P
lim
n
grande
Sn
n
Esto
se
interpreta
que
cuando n se hace
c > 0 considerando
Sn
se acerca cada vez ms a p.
n
es la frecuencia relativa de valores 1 o tambin llamada la proporcin
muestral.
Se dice que
Sn
=p
n
Sn
es la media muestral, entonces:
n
c>0
lim P X < c = 1
a, b
a<b
=
P
a
b
<
lim
1
2
dx
=
se le llama error estndar de X .
n
n
3.6 Representatividad
En el caso de muestras autoponderadas y con n grande los promedios muestrales
se parecen mucho a los poblacionales. Se puede afirmar que esto ocurre por que en
la muestra la distribucin de los valores de la(s) variable(s) de estudio tambin se
parece a la de la poblacin. Se dice entonces que la muestra es representativa de la
poblacin.
Pero la representatividad es para la(s) variable(s) de inters en el estudio,
aun que no se tenga para otras variables. Por ejemplo, un grupo de 45 alumnos de
la Especialidad de Estadstica Aplicada del IIMAS-UNAM, es posible que pueda ser
considerado como una muestra de sujetos entre 23 y 45 aos, de clase media, en
Mxico y clnicamente sanos para el estudio del contenido de hemoglobina en
sangre. Sin embargo, si el estudio pretende evaluar los conocimientos de
Estadstica de la poblacin de la UNAM, ciertamente el grupo no es una muestra
representativa, por que fueron seleccionados por su inters y conocimientos de
estadstica, cosa que no ocurre en otros programas educativos de la Institucin.
P o b la c i n
S e le c c i n a le a to ria
a u to p o n d e ra d a ,
m u e s tra g ra n d e
M u e s tra
re p re s e n ta tiv a
X
P ro p o rc i n p o b la c io n a l
e x tra p o la c i n
X
P ro p o rc i n m u e s tra l
M u e s tra
P a c ie n te s
d e lc e ra
en el
h o s p ita l A
P o b la c i n
D e fin ic i n d e
la p o b la c i n
P a c ie n te s d e
lc e ra s e m e ja n te s
a lo s d e l h o s p ita l A
e x tra p o la c i n
10
P o b la c i n
M u e s tra
D e f in ic i n d e la
Z a p a t o s D o m it
p r o d u c id o s e n
L e n , G to . E n
ju lio 1 9 9 9
P o b la c i n
S u b m u e s tra
g ra n d e
a u to p o n d e ra d a
T o d o s lo s z a p a to s
D o m it e n L e n y o t r a s
f b r ic a s
e x tr a p o la c i n
11
12
13
14
(1
) (
Y / N
i =1
= (Yi Y ) 2 / N ,
2
y
i =1
S y2 =
N
y2 =
N 1
(Yi Y ) 2
i =1
N 1
.
N
Y = Yi = NY
i =1
V () = E[ E ()]2
Si el estimador no es insesgado es conveniente tomar como medida de variabilidad el
error cuadrtico medio (ECM).
ECM () = E ( ) 2
ECM () = V () + [ E () ]2
donde
E () = B() = sesgo
y el estimador
( = Y )
(
(
)
)
P | | < = 1
P | Y Y | < = 1
P[ | y Y |<
A
es
]=1
(4.1)
Entonces,
]= 1
P + = 1 = . 95
P y Y y +
= . 95
y ~ N (Y ,
y2
n
P
< = 1
donde * =
100.
FORMA
NOMBRE
VARIANZA= y
Uniforme
h2
12
Triangular simtrica
h2
24
Triangular asimtrica
h2
18
h2
8
Elipse
h2
16
Normal
h2
36
Con un conocimiento ms o menos profundo del fenmeno estudiado (el que determina
Y(ui)=Yi y el tipo de unidades ui) se puede determinar h y la forma de la distribucin de
los valores de Y y con ellos obtener y2 que se usar posteriormente para fijar n. Kish
(1965, p. 262) presenta una ampliacin de esta tabla.
Nota: Recordemos que
( )
V ( X ) = E [X E ( X )] = E X 2 E 2 ( X )
2
E(X ) =
xf (x )dx
( ) = x f (x )dx
E X
n 1
y as sucesivamente: en
N 1
N
n k +1
. Para estimar Y = Yi / N
la seleccin k, la probabilidad de una unidad l es
N k +1
i =1
y = Y = yi / n
(5.1)
i =1
V ( y) = E(y Y )
S y2 =
n
N
n Sy
= 1
N n
1 N
(Yi Y ) 2 .
N 1 i =1
V ( y) =
poblaciones infinitas.
al
) adems su varianza es
2
donde
S y2
n
n(n 1)
.
N ( N 1)
N
Yi = NY
=Y
n
y la de que ambas una ui y una uj estn
N
tenemos:
Y = NY = Ny
adems si
(5.2)
~ N[ ,V( )] , entonces:
P[ 1.96 V( ) + 1.96 V( ) ] = 0.95
= Y , = y
P y 1 .96
1 4
()
S y2
n
y V = V ( y ) = 1
N n
2
2
S
S
n y
n y
Y y + 1 .96 1 -
= 0 .95
1-
N n
N n
4 2 4 4 3
P y Y < = 0.95
= error absoluto.
= 1.96 V ( y )
Despejando n de
n=
se tiene:
1
2
+
(1.96 )2 S y2 N
(1.96 )2 S y2
=&
Recordemos que:
(Yi Y )2
E ( yi E ( yi ) )2 = E ( yi Y )2 = 2y = i
S y2 =
2
N
2
2 (Yi Y )
y, Sy =
N 1
(N 1)
2
S y2 y2
y . Se determina n para
As
CV0
1
[
V ( y )] 2
=
E( y)
n S y
1
N n
=
Y
Despejando n, se obtiene:
n=
Sy2
(CV0 ) Y +
2
Sy2
(5.3)
Si n es "grande se espera que el teorema Central del Lmite d una buena aproximacin
de la distribucin de y . As:
y ~ N [Y ,V ( y )]
P y z V ( y ) Y y + z V ( y ) = 1
2
2
si 1 = .95
n S2
n S2
Y y + 1.96 (1 ) = 0.95,
P y 1.96 (1 )
N n
N n
entonces
y Y
[V ( y )]
2
n Sy
donde V ( y ) = 1
.
N n
P [| y Y |< ] = 1 , = z
V ( y )
[V ( y )] 1 2
y Y
= 1
P
<
1
1
[V ( y )] 2 [V ( y )] 2
que P Z < z / 2 = 1 (z/2 es el valor de Z obtenido en las tablas que deja un rea
de /2 a la derecha de l). Como
y Y
[V ( y )]
y Y
[V ( y )]
sea un
2
z / 2 =
[V ( y )] 2
1
S y2
n
1
n N
de aqu se despeja n:
n=
2
1
+
2
2
z / 2 S y N
=&
z2 / 2 S y2
(5.4)
Si = 0.05 entonces:
(1.96) 2 S y2
n =&
2
Se puede usar
n=
n' =
z2 / 2 S y2
n' .
n'
1+
N
P[U U U ]
P[U U U ] 1
P[U U U U + U ] 1
P y V ( y) Y y + V ( y) 1
=2
=3
= 4 .4
2
1
2
1
= .75
2
1
1 2 = .889
1
1 2 = .95
= 4 .4 V ( y )
(5.4a)
n=
1
+
( 4 .4 ) 2 S 2 N
En las expresiones anteriores, si tanto como S se expresan en por ciento de la media,
2
n=
( ')2
1
+
Z 2 / 2 (CV ) 2 N
=&
z2 / 2 (CV ) 2
( ')2
( 4.4)(CV ) 2
n=
=&
( ) 2
1
( ) 2
+
( 4.4) 2 (CV ) 2 N
1
Yi .
Y = i
= P
p= y
S y2
SY2 =
(Yi Y )
N 1
= NP (1 P )
con estimador
N
1
=
P (1 P ),
N 1 N 1
n
S y2 = s y2 =
(y
y)
n 1
2 = P(1 P )
nP
(1 P ).
=
n 1
N
(1 P )
1 P
1
N
n=
=&
1 P P(CV0 )2
2
(CV0 ) P +
N 1
(5.5)
Para usar esta expresin, se estima a priori o con una prueba piloto el valor de P y se fija
el CVo que se desea.
Si utilizamos la desigualdad de Tchebycheff tenemos:
n=
N
( 4 .4 ) 2
P (1 P )
1
N
=&
2
2
1
+
N
N
( 4 .4 ) 2
P (1 P )
N 1
( 4 .4 ) 2
5
n =& 42 = 2
Ntese que si P est cercano a cero, el valor de n aumenta. Esto indica que para estimar
la proporcin de unidades con una caracterstica rara se requieren muchas unidades en la
muestra. Esto es lo contrario de lo que sucede si se usa la aproximacin a la normal, en
SY2 =
n=
NP
(1 P )
N 1
1
+
z2 S y2 N
=&
z2 S y2
2
N
P(1 P) =&P(1 P)
N 1
z2 / 2 P (1 P )
n=
.
2
S y2 =
Si
2 2 (.25) 1
= 2.
n =&
2
Entonces se debe dar que nP>5 y n(1-P)>5 para que se tenga buena cercana a la
.001
.01
.02
.025
.03
.035
.04
n
1,000,000
10,000
2,500
1,600
1,111
816
625
adems si
P ~ N ( P,V ( P ))
n Np (1 p )
.
V ( p ) = 1
N (N 1)n
6. Muestreo estratificado
El muestreo estratificado consiste en dividir la poblacin en L subconjuntos o
estratos, y de cada uno de ellos seleccionar una muestra probabilstica; de manera
independiente de un estrato a otro.
Existen tres razones importantes para utilizar este tipo de muestreo:
estadsticas, marcos y de costos.
La razn estadstica ocurre cuando la poblacin est constituida por
unidades heterogneas y podemos tener una idea previa de los grupos de unidades
ms homogneas entre s, entonces es conveniente formar estratos. Los estratos
son subconjuntos de la poblacin que agrupan unidades homogneas, aunque sean
heterogneas entre estratos. Cada estrato se muestrea por separado y se obtienen
los estimadores de parmetros (totales, medias, proporciones) para cada estrato. Se
supone que se conoce el nmero de unidades en cada estrato (Nh). Aunque esto se
ver despus, es importante sealar que si se usan estimadores de razn o de
regresin o si el muestreo se hace con probabilidad proporcional al tamao, los
estratos se forman con subconjuntos de unidades donde sea constante la
proporcionalidad de Y a X, aunque esa proporcionalidad cambie de estrato a
estrato.
Como ejemplos de la razn estadstica para usar estratos, considrense:
(a) En un muestreo donde interesa conocer alguna caracterstica de los
hogares en la Ciudad de Mxico (por ejemplo: gastos en alimentos, ropa, ingresos,
tipo de casa habitacin, aos de escolaridad del padre, nmero de hijos, etctera).
Se sabe que esas caractersticas dependen fuertemente del nivel socioeconmico
de las familias, por lo tanto conviene hacer estratos considerando reas de la ciudad
con niveles socioeconmicos semejantes. As, las colonias se pueden clasificar a
priori con relacin al nivel socioeconmico como: muy alto, alto, medio, medio bajo y
bajo, formando de esta manera cinco estratos. La encuesta se planea para cada
estrato por separado. El efecto de formacin de estratos es reducir la variabilidad de
los estimadores. La variabilidad de Y se puede reducir mucho si los estratos son
muy homogneos dentro de cada uno de ellos y heterogneos entre los mismos.
(b) En un muestreo para estimar la cosecha total de caf en Mxico, se
conoca que el estado fisiolgico, edad y estado de sanidad de los rboles influye
mucho en su produccin. Entonces, se tomaron como estratos, categoras de
rboles bien definidas y homogneas en lo que respecta a edad, estados
fisiolgicos y de sanidad. Adems, los predios se agruparon en estratos de acuerdo
a la regin ecolgica donde estaban ubicados. Esto es porque la productividad del
caf vara segn las condiciones ecolgicas como altura sobre el nivel del mar,
vientos, temperaturas extremas, etctera.
(c) En una encuesta para estimar el consumo de energa elctrica es
conveniente agrupar las fbricas en estratos, as quedaran agrupadas en: fbricas
grandes, fbricas pequeas, empresas de produccin familiar y un estrato final
constituido por casa-habitacin. Esto, porque sabemos que el consumo de
electricidad va a ser muy variable entre estratos, y esperamos que sea menor dentro
de estos.
Otra razn poderosa para formar estratos es la disponibilidad de marcos. Si para
una parte de la poblacin se tiene un buen marco, ste se usa para el muestreo de
esa parte y la o las otras partes de la poblacin se muestrean usando otros marcos
ms imprecisos y, posiblemente distintos esquemas (diseos) de muestra. Por
45
h = 1,2,", L,
L= nmero de
Valores poblacionales
Yhi
N = Nh
h =1
Nh
Yh =
Yhi
i =1
Nh
Nh
Yh = N hYh = Yhi
i =1
46
Nh
Sh2
(Yhi Yh )
i =1
Nh 1
L Nh
Y = Yh = Yhi
h =1
h =1 i =1
Y = Nh Yh
h=1
Y =
Y
Nh
Wh =
Nh
Wh = 1.
h =1
Valores muestrales
En esta parte se considera cualquier estrategia de muestreo probabilstico en cada
estrado, incluso pueden ser diferentes de un estrato a otro. Supngase que de
manera independiente se toman muestras de cada estrato. Sea nh el tamao de
muestra en el estrato h-simo. La muestra total es
L
n = nh
h =1
Supngase
que
L Nh
h =1
h =1 i =1
se
quiere
estimar
el
total
de
la
poblacin,
esto
es
47
totales de los estratos (es un estimador insesgado). Esto es vlido con cualquier
diseo de muestra y estimadores por estrato, los que pueden ser distintos en los
diferentes estratos.
La varianza del estimador del total es
las varianzas de los estimadores de los totales de estratos. Esto es por tener
muestras independientes en los estratos.
Adems el estimador de la varianza del estimador del total es: V (Y ) =
V (Yh ) .
h =1
yhi
i =1
nh
Y = Yh = N h yh
h =1
(6.1)
h =1
nh
y
Y = N h hi
h =1 i =1 nh
L nh N
= h yhi
h =1 i =1 nh
48
Nh
corresponde al factor de expansin, de las unidades obtenidas en cada
nh
donde
estrato.
V (Y ) =
V (Yh ) =
h =1
h =1
N h2V ( yh2 )
S h2
h =1
N h2 1
nh S h2
N h nh
(6.2)
nh
( y hi y h )2
i =1
nh 1
Ntese que
S h2
(6.3)
Al dividir cada trmino de (6.3) entre N=Nh , tenemos el intervalo de confianza para
Y ,
la media de la poblacin.
Si se considera que la muestra es grande en cad estrao, la muestra toal
ser mayor an. Esto justifica el uso del valor 1.96 en lugar del valor de las tabl s de
t. Ntese que:
L
nh S h2
2
V (Y ) = N h 1
N
h =1
h nh
(6.4)
49
Y = =
N
Donde W =
h
Nh
N
N h yh
h =1
Nh
h =1
y h = Wh y h
(6.5)
h =1
()
L
n h S h2
V Y = Wh 1
N
h =1
h nh
(6.6)
V (Y ) = Wh 1
N
h =1
h nh
(6.6a)
es el
P Y 1 . 96 V (Y ) Y Y + 1 . 96 V (Y ) = 0 . 95
Yh = Ph , y h = p h .
L
P = Wh p h ,
h =1
n p (1 p h )
V (Y ) = V ( P ) = Wh2 1 h h
.
nh
h =1
Nh
50
1
Yhi=
0 De otro modo
Slo si las Ph son muy diferentes de estrato a estrato, vale la pena estratificar. Si
.2 Ph .8 h , no conviene usar los estratos.
6.1
nh N h
=
= Wh .
n
N
De esta relacin se tiene:
nh = n
Nh
N
= nW h .
(6.7)
tiene:
L
nh
h =1
h =1
h =1
i =1
Y = Yh = N h y h = N h
donde k =
L
y hi
N
= h
nh h=1 nh
nh
nh
yhi = k yhi
i =1
h =1 i =1
Nh
Nh
N
=
= .
N
n
nh
n h
N
51
C = C0 + C h nh
(6.8)
h =1
N h Sh L N h Sh
nh = n
Ch h =1 Ch
nh
(6.9)
N h Sh
Ch
h) =
V(Y
Ah
+ (cte. que no involucra n h )
nh
Ah L Ah
nh = n
,
C h h =1 C h
nh
Ah
Ch
52
N S L N S
C C 0 = C h nh = n h h h h C h
Ch h =1 C h
h =1
h =1
L
C C0 =
n N
h =1
S C
h h
h
N S
h h
C
h
(C C0 ) N h S h
L
n=
Ch
h =1
N h Sh
h =1
(6.10)
Ch
L N S
N
S
C
h h h hC h
h =1
h =1
h
n=
2
L
(6.11)
(1.96)
+ N h S h2
h =1
Las expresiones (6.10) y (6.11) se refieren a la estimacin del total. Para estimar un
promedio, Y , la expresin
(6.10) sigue siendo vlida pero la (6.11) debe
modificarse:
= 1.96 V Y
()
53
L N h Sh
Nh
S h C h
2
h =1 N
h =1 C h
n=
2
1 L
+ 2 N h S h2
2
N h =1
(1.96)
L
(6.11)
Donde ahora
n
V ( Y ) = N h2 1 h
h =1
Nh
Si se sustituye
nh =
Nh
N
L
S h2
N2
= h S h2 N h S h2
n h h =1 n h
(6.12)
se tiene:
N
V (Y ) =
n
N h S h2 N h S h2
(6.12)
h =1
Con este valor en lugar de las S2, se pueden usar las expresiones (5.3) y (5.4) para
obtener n. Si se quiere tener un coeficiente de variacin fijo (CVo), sin tomar en
(CV0 )2 Y 2 = V (Y ) = Nn N h S h2 N h S h2 .
L
h =1
h =1
De donde
54
n=
N N h S h2
h =1
(6.13)
Y 2 (CV0 )2 + N h S h2
L
h =1
Y ~ [Y ,V (Y )]
Si se considera que
Y Y
= 1
P
[V (Y )] 1 2 [V (Y )] 1 2
P [| Y Y |< ] = 1 ,
P | Z |< z / 2 = 1 ,
Esto es
2
z 2 / 2
y se desea tener:
()
z / 2 =
L
N L
= V Y = N h S h2 N h S h2
n h =1
h =1
[V (Y )]
n=
N N h S h2
h =1
z 2 / 2
+ N h S h2
(6.14)
h =1
que es Y , entonces
N
1
1 L
1 L
V (Y ) = 2 V (Y ) =
N h S h 2 N h S h2 .
nN h =1
N
N h =1
Resumiendo: Si se considera que el costo es importante, esto es, hay costos
diferenciales en los estratos, conviene usar la distribucin ptima (6.9) y determinar
el tamao de muestra con expresiones (6.10), (6.11) o (6.11). Si no hay costos
diferenciales muy marcados y se decide usar la distribucin proporcional (6.7) para
determinar el tamao de muestra total, se usar (6.13), si se quiere fijar el
coeficiente de variacin, sin consideraciones sobre la distribucin de los
55
56
Unidades primarias
upm
Manzanas
Unidades secundarias
usm
Individuos dentro de la
Manzana
Municipios
Predios
rboles
Hojas o frutos
Manzanas
Familias
Grupos
(por materia)
Alumnos
Plantas
Lotes de produccin
56
Yij =
Mi
Yi =
Yi =
Yi = Yij .
j =1
1
1
Yi =
Yi =
Mi
Mi
Mi
Yij
j =1
Y=
N Mi
i =1
i =1 j =1
Y = Yi = NY = Yij .
Y
57
1 N
Y = Yi
N i =1
Ye =
Y
N
Mi
Y
=
M
i =1
Mi
2
S wi
=
(Yij Yi ) 2
j
Mi 1
Sb2
1 N
=
(Yi Y ) 2 =
N 1 i =1
1
Yi = yi =
mi
Yi = M iYi =
S wi2 =
mi
1 mi
(yij yi ) 2
mi 1 j =1
1 n
Y = Yi
n i =1
(7.1)
58
Y = N Y
n
N
Y =
n
N
i M i yi = n
1
Mi
mi
i =1
mi
j =1
yij =
N Mi
n m
i
yij
= N
(7.2)
Factores de
expansin f
i
Mi
= k el diseo es autoponderado, es decir,
Si mi es proporcional a M i entonces
mi
N
fij = k
los factores de expansin son iguales, f ij = f , j = 1,..., M i , i = 1,..., N .
n
La varianza estimada entre totales estimados de unidades primarias; es:
1 n
1 n
1n
2
2
Y Y
=
S =
M i Yi M i y i
i
b n 1i
n 1 i N
n
i
=1
1)
(
1
1 2
NN
1 1
V ( Y ) = N 2 S 2 + M 2
S
n N b n i i m
M wi .
i i
90%95% del
valor de V ( Y )
(7.3)
es cero si m =M
i
i
En la gran mayora de las encuestas, en general de los muestreos, los valores de Yij
2
son semejantes dentro de las upm. Esto hace que las S wi tiendan a ser pequeas.
Tambin los valores de las Yij son ms diferentes entre upm; adems, los totales Yi
difieren mucho si el nmero Mi de usm, dentro de las upm son diferentes; y
2
finalmente en S b se tiene varianza entre totales, no entre valores individuales. Todo
esto hace que la primera parte de (7.3) constituya frecuentemente un 90 a 95% o
incluso mas del valor total de la varianza del estimador del total.
En algunos textos de muestreo se trata el tema de muestreo de
conglomerados. Este es el que surge si en cada upm se estudian todas (se censa)
las usm. En este caso mi=Mi y entonces el segundo trmino de (7.3) se hace cero.
Esto en realidad corresponde a un muestreo de una etapa, donde las upm son las
59
unidades de muestreo nicas y a cada una de ellas se le asocia (se determina) Yi, el
total de los Yij en su interior.
La varianza del total, (7.3) se estima mediante
1 2 N n 2 1
1 2
2 1
S wi .
V (Y ) = N S b + M i
n
N
n
m
M
i
i
i
(7.4)
(7.5)
1
n
= 1.96 V (Y ) = 1.96 N 2 (
n=
1
+
2 2
(1.96) Sb N
=
1 2
)S
N b
de aqu despejamos n
(1.96) 2 Sb2
Y =
y ,
n m i j ij
V (Y ) = N
Sb2
S w2 =
( )
1
n
2
*
1 + N M
n N
1
N
S wi2
i
S w2
m
1 *
mn M
(7.6)
C = nC1 + nmC2
60
De aqu, los valores de n y m ptimos, esto es, los que minimizan V( Y ) en (7.6)
manteniendo el costo fijo C0, son:
m = M * SW
(S
C1 / C2
2
b
M * S w2
(7.7)
2
n=
C0
C1 + C 2 m
(7.8)
Ye =
Mi
i =1
las unidades; esto no siempre es factible, por lo que se debe usar el llamado
estimador de razn.
Tal caso se discute a continuacin.
61
Yo Y
Yi X i y que se conoce X , X , no
conocer Y. Se supone que existe el valor
bajo el supuesto
Yi
Y Y
R = i =1 = =
N
X X
Xi
i =1
Y = RX
, Y = RX
Y =
y
i =1
n
xi
X = R X
(8.1)
i =1
62
Y
Y = = R X
N
donde
yi
y
R = = i =n1
x
xi
i =1
Yi
Yi X i
Yi = RX i
i = Yi Yi = Yi R X i
Y
y
error
Xi
X
X
, esta tasa se aplica al estimador y . Es decir, si
x
x
es digamos 1.2, se tiene una sobreestimacin de 20%; sta se aplica a y . As, en
La tasa de error conocida es
general
X
l
Y = y = R X , y tambin Yl = RX
x
Caso II
Hay ocasiones en donde las
dado que
=
entonces se usa R
Xi
y
.
x
63
R,
R =
i =1
n
i =1
repetir
y
x
muchas
veces
el
muestreo
no
R,
es
es
al
decir
se acerca a ms y ms R, es decir,
E ( R ) R CV ( x ) [V ( R )]
O bien (sesgo de
2.
R estandarizado),
E ( R ) R
[V ( R )]
El lado izquierdo es el sesgo de
CV ( x )
x,
de donde:
CV( x )
n SX
1
N n
CV ( x ) = 0 . 1 =
X
n=
1 1
n N
=
X
1
2
SX
(8.2)
(0.1) X
1
+
N
S X2
I = 1.96 V ( ) , + 1.96 V ( )
64
B ()
P[ I ]
V ()
0.00
0.01
0.10
.9500
.9500
.9489
0.50
1.00
.9210
.8300
1 n
2
2
N2
n 2
2 2
=
( S y + R Sx 2R Sx S y )
n
N
(8.3)
n 1
= N 2 1 ( S y2 + R 2 S x2 2 RS x y ) ,
n n
donde
1 1
n N (Yi RX i )
ECM ( R) = 2 1
N 1
X n N i =1
S y2 =
1
(Yi Y ) 2 ,
i =1 N 1
R=
1 N
( X i X )2 ,
N 1 i =1
S x2 =
Y Y
=
X X
1 N
S xy =
(Yi Y )( X i X )
N 1 i =1
65
=
es el coeficiente de correlacin entre Xi y Yi que es:
N
(X X)(Yi Y )
i =1 i
=
N
N
2
2
(X X) (Yi Y )
i =1 i
i =1
covarianza de X y Y
N
(X X)(Yi Y )
i =1 i
N
N
(X X) 2 (Y Y ) 2
i
i
i =1
i =1
N
N
x2
y2
i = Yi RX i
i = yi R xi
V ( i ) = V (Yi RX i ) = V (Y ) + R 2V ( X ) 2 RCov(Yi , X i )
= S y2 + R 2 S x2 2 RS x S y
En la prctica se debe estimar
i = Yi R X i
y a los
para obtener V ( ) = 1
Si se quiere mantener el
n V(i )
N n
2
( 1.96 ) 2
el tamao de
muestra es:
n=
1
E0
1
+
2 2
2 2
N (S y + R S x 2 RS x S y ) N
S2
1
+
2 2 2
N
(1.96) S N
=
(1.96) 2 S2
(8.4)
) se obtiene mediante:
El estimador de ECM( R
2
1
n S
ECM ( R ) = 2 1
X N n
(8.5)
donde
66
2
1 n
, i = yi Rx
S2 =
y
RX
i
i
i
n 1 i =1
P[ Y Y < ] = 0.95
P [Y 1.96 EC M (Y ) Y Y + 1.96 EC M (Y ) ] = 0.95
Yi
Aproximadamente
Yi = RX i
Xi
El caso ms frecuente es cuando Xi es la misma variable que Yi, pero medida en
una ocasin anterior. Algunos ejemplos de variables Xi y Yi que se usan para
construir estimadores de razn, son:
Unidad de
muestreo
Predios agrcolas
Ciudades o
pueblos.
Variable Xi
Tamao del predio
en hectreas.
Poblacin en el
censo anterior.
Variable Yi
Objetivo a estimar
Produccin de caf,
Y produccin total
maz, etctera.
Poblacin actual
Y poblacin total
67
Familias
Distritos de ventas
Casas habitacin
Animales para
consumo de su
carne
rea de 1km2 de
bosque
Y
X
Gasto en alimento
R=
Ventas actuales
Y total de ventas
actuales
Nmero de
habitaciones
R=
Peso inicial de un
periodo de engorda
Peso final
Conteo de rboles
en una fotografa
Conteo real de
Y total de rboles
rboles en el campo
Ingreso mensual
Ventas de un
producto 3 meses
antes
Nmero de
habitantes en la
casa
Y
X
Yih
X ih , Yih = Rh X ih , utilizando estimadores de razn
en cada estrato; las R pueden cambiar mucho de un estrato a otro.
h
para logra que
>
CV ( x )
2CV ( y )
Yi
a
Xi
En la figura existe alta correlacin entre las variables pero no una buena
proporcionalidad entre ellas. Si a es grande el estimador de razn no es
68
X i y Yi . Es la proporcionalidad entre
Yi- a
(Y a) = X y a
x
ya
Y = X
+a
x
Xi
Ye =
Mi
i =1
N n
Mi y i
n
=
1
i
=
Ye =
N n
Mi
n i =1
mi
y ij
j =1
mi
Mi
i =1
(8.6)
Mi
i =1
N Mi
y ij
i =1 j =1 n mi
=
Ye = n m
i
N Mi
i =1 j =1 n mi
n
mi
W
i =1 j =1
n
y ij
ij
mi
W
i =1 j =1
ij
69
1 i
ECM = V (Ye ) = 1
Sy +
M
i
N nM 2
nM 2 N i =1
Mi
Donde
n
M =
S wi2
Mi
i =1
S y2 =
M i2 yi Ye
i =1
S wi2
mi
(8.7)
n 1
se defini en (7.1).
Ye
es
1
1
2
2
[ ]
[ ]
70
Y = a + bX .
b = tan
y Y
xX
b( x X ) = y Y
Y = y b( x X )
b( x X )
Y
a
X
estimar
Xi
error*
* Error de estimacin de
Para
b=
Y,
con
que es conocido.
consideremos
que
se
compone
de
dos
partes
Y = y b( x X )
(9.1)
71
Y = NY = N { y b( x X )}
(9.2)
n
, se
N
tiene
V (Y ) =
S y2 (1 2 )
n
Donde
X y Y. Adems
N
1
(Y i Y ) 2
N 1 i =1
S y2 =
1 n
2
Sy =
( yi y ) 2
n 1 i =1
( xi x )( yi y)
n 1
i =1
n 1
=
n
( xi x )2 n ( yi y)2
n 1 i=1 n 1
i =1
n
se obtiene un estimador de V( Y
Y , esto es
n=
z2 / 2 S y2 1 2
72
Z2 / 2 S y2
[V (Y )]
=
1
2
Sy2 1 2
Y (CV0 )
2
73
k. Se obtiene k
como el cociente
N
. k = N kn = N
n
n
...
...
...
...
1+k
2+k
...
i+k
...
2k
1+2k
2+2k
...
i+2k
...
3k
1+(j-1)k
2+(j-1)k
...
...
...
...
1+(n-1)k
2+(n-1)k
...
...
i+(j-1)k
jk
...
...
#
i+(n-1)k
#
nk
k,
sea
i = P (U i ) =
1 n
=
K N
P (U i ) =
1
K
con probabilidad
i = 1.... N
73
N = 14, n = 3
N = nk + cte.
N = 3k + 2
k =4
Se toma un nmero entre 1 y k
U 1 conglomerado muestra
U2
(U 1 , U 5 , U 9 , U 13 )
U3
(U 2 , U 6 , U 10 , U 14 )
U4
(U 3 , U 7 , U 11 )
U5
(U 4 , U 8 , U 12 )
U6
U7
U8
U9
U 10
U 11
U 12
U 13
U 14
Un ejemplo de muestreo sistemtico: se va a investigar el ingreso en las familias de
los estudiantes de una facultad. Se tiene la lista en orden alfabtico por apellido. Si
se considera que el nombre no tiene ninguna relacin con el ingreso en pesos de la
familia, se puede usar el muestreo sistemtico y se considerar como una muestra
aleatoria irrestricta (mas).
Cuando la poblacin est en un orden aleatorio en lo que respecta a los
valores Yi, se usa el muestreo sistemtico para facilitar la extraccin de la muestra.
El muestreo, en este caso, es equivalente al muestreo aleatorio irrestricto y se
usarn por lo tanto las mismas expresiones para estimar la media Y o el total de la
poblacin Y como se hizo con mas , expresiones (5.1) y (5.2) (seccin 5).
Cuando la poblacin est ordenada con relacin a los valores de Yi, con
tendencia a cambiar paulatinamente dichos valores, el muestreo sistemtico
produce varianzas de los estimadores menores que con el mtodo mas ver grfica.
Esto se debe a que la muestra queda ms dispersa sobre la poblacin. Se asegura
que la muestra sea ms representativa. Un ejemplo de esta situacin es el que
ocurre cuando se va a muestrear ramas de un rbol para evaluar su produccin de
frutos (caso del caf). Si existe una tendencia de la produccin a tener valores
mayores en las ramas ms bajas, el muestreo sistemtico asegura que en la
muestra aparezcan ramas de todas las alturas del rbol.
74
Zona de nivel
econmico medio
Zona de bajo nivel
econmico
Zona de nivel
econmico medio-alto
Zona de nivel
econmico alto
75
Yi
Orden en la
poblacin de las
unidades
Xi
Muestra de valores altos.
Poblacin
(relacin de los valores de Y con el orden en el
marco)
Aleatoria
Con orden creciente o decreciente.
Con orden peridico
76
yk
tsr
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
11
21
31
41
51
61
71
81
91
460
12
22
32
42
52
62
72
82
92
470
13
23
33
43
53
63
73
83
93
480
14
24
34
44
54
64
74
84
94
490
15
25
35
45
55
65
75
85
95
500
16
26
36
46
56
66
76
86
96
510
17
27
37
47
57
67
77
87
97
520
18
28
38
48
58
68
78
88
98
530
19
29
39
49
59
69
79
89
99
540
20
30
40
50
60
70
80
90
100
550
()
()
( )
y Vmas Y = 7.57 10 5 .
yk
tsr
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
20
21
40
41
60
61
80
81
100
505
19
22
39
42
59
62
79
82
99
505
18
23
38
43
58
63
78
83
98
505
17
24
37
44
57
64
77
84
97
505
16
25
36
45
56
65
76
85
96
505
15
26
35
46
55
66
75
86
95
505
14
27
34
47
54
67
74
87
94
505
13
28
33
48
53
68
73
88
93
505
12
29
32
49
52
69
72
89
92
505
11
30
31
50
51
70
71
90
91
505
()
Se observa Vsi Y =
77
yk
tsr
1
1
2
11
3
21
4
31
5
41
6
51
7
61
8
71
9
81
10
91
2
3
4
5
6
7
8
9
10
55
12
13
14
15
16
17
18
19
20
155
22
23
24
25
26
27
28
29
30
255
32
33
34
35
36
37
38
39
40
355
42
43
44
45
46
47
48
49
50
455
52
53
54
55
56
57
58
59
60
555
62
63
64
65
66
67
68
69
70
655
72
73
74
75
76
77
78
79
80
755
82
83
84
85
86
87
88
89
90
855
92
93
94
95
96
97
98
99
100
955
()
( )
yk
tsr
1
48
2
14
3
71
Tabla 4.
r
4
5
13
40
38
10
17
56
73
3
74
75
49
443
23
51
26
79
7
28
37
41
42
348
11
98
8
31
80
33
44
16
15
407
58
65
78
86
27
90
94
82
19
612
()
( )
70
93
34
43
60
55
12
35
46
488
()
6
59
7
18
8
45
9
6
10
53
22
68
87
66
89
1
72
95
36
595
24
25
96
2
76
21
100
67
47
476
88
32
39
62
81
69
30
50
91
587
77
99
20
57
85
61
63
64
52
584
84
9
54
5
83
92
97
29
4
510
( )
78
r
1
yk
tsr
2
6
5
10
6
12
7
14
8
16
9
18
10
20
22
42
62
82
99
79
59
39
19
505
24
44
64
84
97
77
57
37
17
505
26
46
66
86
95
75
55
35
15
505
28
48
68
88
93
73
53
33
13
505
30
50
70
90
91
71
51
31
11
505
32
52
72
92
89
69
49
29
9
505
34
54
74
94
87
67
47
27
7
505
36
56
76
96
85
65
45
25
5
505
38
58
78
98
83
63
43
23
3
505
40
60
80
100
81
61
41
21
1
505
()
Se obtiene Vsi Y =
()
, Vmas Y = 7.57(10 5 ) .
79
81
82
Tamao
Tamao acumulado
Intervalo
u1
X1
X1
(1 , X1)
u2
X2
X1 + X 2
(X1+1 , X1+X2)
u3
X3
X1 + X 2 + X 3
poblacin
(X1+ X2+1 ,
X1+X2+X3)
(X1+ X2+
ui
Xi
X1 + X 2 + " + X i
+ Xi-1+1 ,
X1+X2++Xi)
u N 1
X N 1
X 1 + X 2 + " + X N 1
uN
XN
X1 + X 2 + " + X N
Total
Pi =
Xi
X
Ejemplo:
Universidad
Tamao
Tamao Acumulado
Intervalo
Pi
83
50,000
50,000
(1,50)
50/700
UdeG
150,000
200,000
(51,200)
150/700
UNAM
400,000
600,000
(201,600)
400/700
UABC
50,000
650,000
(601,650)
50/700
UACH
50,000
700,000
(651,700)
50/700
P(UNAM)=400/700
P(UAM)=50/700
yi
i =1
zi
i =1
=z
(11.1)
Yi
Y
=X i
Pi
Xi
Xi
; i = 1...N
X
P( z j = Z i ) =
Xi
; i = 1...N
X
Xi
; i = 1...N
X
i =1
i =1
E ( z j ) = Zi P ( z j = Z i ) = Zi
N
N
Xi
Y Xi
= i
= Yi = Y
X
i =1 X i X
i =1
X
V ( z j ) = = E z j E ( z j ) = ( Zi Y ) P ( z j = Zi ) = (Zi Y )2 i
X
i =1
i =1
2
z
2
N
N
Xi
Yi Y
Yi
=
Y
=
Xi X
X
X
i =1 X i
i
=
1
i X
()
X
V z = V (Y ) =
n
es:
Y
Y
1
X i i = z2
n
i =1
Xi X
N
z = yl
(11.2)
85
para toda i.
Y = kX ,
Yi = kX i ,
de donde
k=
Yi
i =1
= k Xi
i =1
Y
= R.
X
Yi
Y
=0
X
i X
para toda
(11.3)
tambin
n
(z
1
z )2
1
V ( z ) = V (Y ) = z2 = i =1
n
n
n 1
Considerando que Y tiene distribucin normal y
86
(11.4)
Xi
n 1 i =1 xi n i =1 xi
(11.5)
De manera alternativa
n
( zi z ) 2
z2 = i =1
n 1
[V (Y )]
Y , CV (Y ) =
Y
(11.6)
87
=
=
Y
y
n
i
= wi ,
i=1,...,n,
Expansin.
La varianza terica, es decir, en la poblacin
de todos los posibles valores de T es:
N N
N Y i2
ij
i j
YiY j
(
V T y =
1 i ) +
i =1 i
i
j
i j
86
V TY
n
n ( )
n 1 i 2
i j Yi Y j
= 2 Yi + 2 ij
i =1
ij
i j
i j j
i
n
N
ij =
ihjh
=
ih
jh
n(n 1)
N ( N 1)
i y j en el mismo
i y j en diferentes estratos
c) Sistemtico
Con intervalo de seleccin k
k=
N
n
ij =
1
k
X
Y = Ty =
n
Yi
X
i
87
Ti
i =1
Y =
88
N
Yi Y j
2i
V (Y ) = ( i j ij )
+
=
1
i j j
i
i
j
i
i j ij
V (Y ) =
ij
i j j
n
2
n
Ti T j
+ i
i =1 i
j
i
Xi
Xi
= P(U i en 1a )
X
es la probabilidad de que la
unidad i-sima
extraccin. Y
P2i = P(Ui / Uk ) =
se seleccione en la primera
Xi
N
X
uk
Xk
Xi
X Xk
es la probabilidad de
que en la primera extraccin este la unidad ksima, diferente de i, y que aparezca la i-sima en
la segunda extraccin, entonces
i = P ( U i e n p rim e ra e x tra c c i n )
+ P ( U i e n s e g u n d a e x tra c c i n )
i = P (U i e n 1a ) + P (U i e n 2 a )
89
i = P1i +
Xk
k =1,i
P2i
X
u =1
donde
P (U i en 2 ) =
k =1, i
Xk
P2 i =
X
u =1
k =1, i
Xk Xi
X X Xk
ij = P (Ui en 1 )P(U j en 2a / Ui en 1a )
a
+P (U j en 1a )P (Ui en 2a / U j en 1a )
ij =
Xj
Xi X j
Xi
+
X X Xi
X X Xj
i = P (U i en 1a ) + P (U i en 2a ) + P (U i en 3a ) , como
ya se conocen los dos primeros trminos, resta
obtener el tercero.
P (U i en 3 ) =
a
w.u i
P (U
w ,u i
yUu en 1a y 2a )P (U i / Uw ,Uu )
Xj
Xi X j
Xi
+
X X Xi
X X Xj
Xi
X Xw Xu
+ P (Ui
en 1a y 2a ) + P (Ui y U j en 1a y 3a )
y U j en 2a y 3a ) ,
90
X u i , j X X i
Xj
Xu
P (Ui en 3a y U j en 1a ) =
(
X u i , j X X j
P (Ui en 1a y U j en 3a ) =
)(
)(
Xj
X X i Xu
Xi
X X j Xu
u
N
X X j
P (Ui en 3a y U j en 2a ) = u
u i , j X X Xu
P (Ui en 2 y U j en 3 ) =
a
Xu
u i , j X
N
)
)
y U j en 2a )
Xj
X X u X i
Xi
X Xu X j
i =1
i ih
elementos en h, en la muestra es
equivale a
W
M h = WiYih W = i Yhi ,
i
i W
n
Wi
= n,
donde
Wi
W
Mh =
Nh
esto
es el peso relativo y
semejante a
PM h
Population
Distribution
(1)
Ph conocido
Weighted
No. of Adults
in Sample(2)
M h Total
estimado
Sample
Distribution
(3)
Mh
= PM h
Mh
h
Adjustment
Factor
(1)/ (3)
FA =
Ph
PM h
93
.0719660
.1028236
.0708987
.0557924
.0544026
.0574872
211
193
277
135
144
138
.0739832
.0676718
.0795933
.0473352
.0504909
.0483871
.9727346
1.5194460
.8907624
1.1786660
1.0774730
1.1880687
.0705058
.1007594
.0777364
.0582026
.0610057
.0823047
198
324
267
196
186
216
.0694250
.1136045
.0936185
.0682737
.0652174
.0757363
1.1555680
.8869317
.8303528
.8469074
.9354210
1.0867272
.0138044
.0172057
.0109779
.0077643
.0064683
.0062688
34
30
30
37
12
18
.0119215
.0105189
.0105189
.0129734
.0042076
.0063113
1.1579480
1.6356880
1.0436290
.5984774
1.5372900
.9932661
.0145081
.0196276
.0130655
.0094590
.0079636
.0090016
42
86
38
33
30
27
.0145081
.0301543
.0133240
.0115708
.0105189
.0094670
.9851716
.6509067
.9806026
.8174890
.7570769
.9508398
1.0000000
2852
1.0000000
94
Survey
Variables
I.General Social Survey
(percent approving hitting)
Overall
By sex
Male
Female
By education
Some college
High School
Others
II. Epidemiologic Catchment
Area Survey
(prevalence
of
mental
disorders)
Any disorders
Anxiety disorders
Weighted
Estimate
Unweighted
Estimate
60.0
59.4
63.5
56.8
63.2
56.8
68.7
63.3
46.8
68.6
63.2
45.2
14.8
6.5
18.5
8.8
Dif 1.8
Dif 3.7
96
2a. muestra
1a. muestra
Poblacin
a) Muestreo doble para estratificacin.
mas en estratos
n mas
Barato Postestratos
yh
Es caro medir
Yih
Poblacin
nh
n
n = nh
93
es el
= W y h
h
2
S
V Y = (1 f h )
Wh2 + gWh (1 Wh ) + g Wh y h Y
nh
h
n
n
Las proporciones o pesos, w h = h , son variables aleatorias (si
es muy
N
n
pequeo
g=
2
h
hay
reemplazo,
tendr
distribucin
multinomial).
Donde
N 1 1
.
N 1 n N
y=
i
n
yi
x
y x= i .
n
i n
x
, donde x es el error por
x
x
=
x
=
x
Yr x R , donde
R= x
94
Y X R
X = N x .
=
Barato
Caro
medir Xi
medir Yi
n mas
n mas
y=
1
yi
n i
R= x
X = N x
Y X R
=
X i
X
i
Y =
1 n Yi
. Con este total se estima la media de las Yi de la primera muestra
n i pi
como
Yn =
Y ,
n
esta estima a
poblacin se tiene
= NY .
n
Con x =
95
n
n
1
(
)
i xi n i xi
n
( )
( )
2
2
n
N ( N n ) n y i2 ( x ) 1 n y i
y i2
x
+
2
nn ( n 1) i xi
n n 1 i x i
i xi
Barato
medir Xi
n mas
n ppt
X i
n
= Pi
Y n =
No se conocen las
Yi, su total se estima
con
1 n Yi
n i Pi
N
= Y = N Y
n n
con
y.
R= x
n y se miden los Xi
y los Yi.
Y = xR ; y del total Y es
Y X R .
=
(1972).
96
Barato
n mas
medir Xi
n mas
estimar
Y,
Estimar X , X
y
=
x
En base a n
X X
Y = X R
97
inocua]
pregunta
pregunta
pregunta
pregunta
+
P (" si" ) = P
P
"
si"
P
P
"
si"
inocua
sensitiva
inocua
sensitiva
En la expresin anterior se conoce en el lado derecho todo excepto
pregunta
P "Si"
que es la proporcin de s en la poblacin, para la pregunta
sensitiva
despejar
la
incgnita.
Si
se
usa
n1 , de manera que es
n
pregunta
P "Si"
= 0.7 ,
sensitiva
pregunta
P "Si"
= 0.3 , como ejemplo, se tiene:
inocua
n1
n
= (0.7) P + (0.3)(0.5)
98
1 n1
(
0
.
3
)(
0
.
5
)
P =
0.7 n
(14.1)
99
funcin de N se tiene:
nt
s
t
=
N =
s
n
N
El tamao de muestra n debe ser grande para que s no sea cero; esto es para que
aparezcan animales marcados en la segunda muestra. El estimador N es sesgado,
pero el sesgo es pequeo si t y s son grandes.
La varianza estimada de N es:
t 2 n( n s )
V ( N ) =
s2
Para determinar el tamao de ambas muestras, t y n, se requiere un conocimiento
aproximado de N y del valor de V(N) que estamos dispuestos a tolerar. El libro de
Mendenhall, et. al. (1971) presenta la siguiente tabla:
100
V ( N )
Valores de
N
Valores de
.001
.001
t
N
.01
.1
.25
.50
1.0
0
0
Valores de
n
N
.01
99900 9900
900
300
100
.1
9990
990
90
30
10
.25
3996
396
36
12
.50
1998
198
18
1.0
999
99
V ( N )
= 12 , con esto se tiene
N
t
= 0.25
N
n
= 0.25
N
101
Apndice de Frmulas
Apndice de Frmulas
4. Conceptos Generales
(4.1)
P[| y Y |< ] = 1
pag. 33
5.1 Introduccin
n
(5.1)
y = Y = yi / n
pag. 37
Y = NY = Ny
pag. 38
i =1
(5.2)
n=
(5.3)
S y2
(CV0 ) Y +
n=
(5.4)
S y2
1
+
z2 / 2 S y2 N
=
pag. 39
z2 / 2 S y2
2
pag. 40
n=
(5.4a)
2
2
(4.4) S
1
N
pag. 41
102
Apndice de Frmulas
5.3 Estimacin de proporciones
N
(1 P )
1 P
1
N
n=
=
2
(CV0 )2 P + 1 P P(CV0 )
N 1
(5.5)
pag. 42
6. Muestreo estratificado
(6.2)
(6.3)
(6.4)
h =1
h =1
Y = Yh = Nh Yl h
pag. 48
L
L
L
n S2
V (Y ) = V (Yh ) = Nh2V ( y h ) = Nh2 1 h h
h =1
h =1
h =1
Nh nh
pag. 48
(6.1)
V (Y ) =
h =1
N h2 1
nh Sh2
N h nh
pag. 49
pag. 49
(6.5)
N h yh
L N
L
h
Y
=
1
h
Y = =
=
yh = Wh yh
N
N
N
h =1
h =1
(6.6)
L
nh S h2
V Y = Wh 1
N
h =1
h nh
(6.6a)
()
V (Y ) = Wh2 1 h
h =1
Nh
Sh2
nh
pag. 49
pag. 49
pag. 49
103
Apndice de Frmulas
6.1 Distribucin (afijacin) de la muestra a los estratos
6.1.1 Distribucin proporcional
nh = n
(6.7)
Nh
N
= nWh
pag. 51
C = C 0 + C h nh
(6.8)
pag. 51
h =1
(6.9)
N h Sh L N h Sh
nh = n
Ch h =1 Ch
1
pag. 51
(C C0 ) N h S h
L
n=
(6.10)
h =1
N h Sh
h =1
N h Sh
(6.11)
h =1
(1.96)
h =1
pag. 52
Ch
L N S
Ch h h
h =1 Ch
n=
Ch
N h S h2
pag. 53
L Nh Sh
Nh
S h C h
2
C
=
1
h =1 N
h
h
n=
2
1 L
+ 2 N h S h2
2
(1.96)
N h =1
L
(6.11)
pag. 53
104
Apndice de Frmulas
6.3 Distribucin proporcional
(6.12)
(6.12)
n
V (Y ) = N h2 1 h
N
h =1
h
N
V (Y ) =
n
L
Sh2
N2
= h Sh2 N h Sh2
n h h =1 n h
pag. 54
N h S h2 N h S h2
pag. 54
h =1
(6.13)
n=
N N h S h2
h =1
Y 2 (CV0 )2 + N h S h2
L
pag. 54
h =1
(6.14)
n=
N N h S h2
h =1
z 2 / 2
+ N h S h2
pag. 55
h =1
Estimadores de la muestra
(7.1)
S wi2 =
1 mi
(yij yi ) 2
mi 1 j =1
pag. 58
105
Apndice de Frmulas
(7.2)
n m
Nn
N n 1 mi
NMi
Y = My
M
y
=
=
i i
i
ij
ni
n i=1 mi j=1
nm
i j
Ni
yij =N
pag. 63
Factor de
expansin
(7.3)
V (Y ) =
1
1 1
N 2 Sb2
N
n
90%95% del
valor de V (Y )
N N 2 1
1 2
Mi
Swi
n i
mi M i
es cero si m =M
i
pag. 63
(7.4)
1 2 N n 2 1
1 2
2 1
S wi
V (Y ) = N S b + M i
n i
n N
mi M i
pag. 64
(7.5)
pag. 64
(7.6)
(7.7)
(7.8)
( )
1
n
V (Y ) = N 2 S b2 1 + N 2 M *
n N
m = M * SW
n=
C1 / C2
S b2
M * S w2
C0
C1 + C 2 m
S w2
m
1 *
mn M
Pag. 65
pag. 65
pag. 65
106
Apndice de Frmulas
8. Estimadores de razn (bajo mas)
n
Y =
(8.1)
y
i =1
n
x
i =1
n=
(8.2)
X = R X
pag. 62
1
(0.1) 2 X 2 1
+
N
S X2
pag. 64
(8.3)
1
ECM (Y ) = X 2 ECM ( R ) = X 2V [ (Yi RX i )] = X 2V ( )
n i =1
N2
=
n
n=
(8.4)
n 2
2 2
1 S y + R S x 2 R S x S y
N
1
E0
1
2
2
2 2
N (Sy + R Sx 2R Sx S y ) N
1
+
2 2
2
(1.96) S N N
)
=
pag. 65
(1.96) 2 S2
pag. 66
S2
Para acotar
(8.5)
2
1
n S
EC M ( R ) = 2 1
X N n
2
l =
con S
(8.6)
1
Yi Rl X i
n 1 i
n
N n
M i yi
n
=
Ye = i =1n
N
M
n i =1 i
pag. 66
mi
i =1
j =1
Yij
Mi m
Mi
pag. 69
i =1
107
Apndice de Frmulas
(8.7)
m
1
n 1 2
EC M = V (Ye ) = 1
Sy +
M i2 1 i
N nM 2
Mi
nM 2 N i =1
S wi2
mi
pag. 69
Y = y b( x X )
(9.1)
( z12 )
n=
(9.2)
pag. 70
Sy2 2
Y = NY = N { y b( x X )}
pag. 71
X
Y =
n
(11.1)
yi
x
i =1
zi
i =1
(11.3)
(11.4)
pag. 81
Y
1
X
Y
V (Y ) = X i i = z2
n i =1 X i X
n
N
(11.2)
=z
Z2
2
n y
1 n yi
X
i
= V (Y ) =
V (z) =
n
n(n 1) i =1 xi n i =1 xi
2
N
Y
Y
Z 2 / 2 X X i i
i =1 X i X
Z 2 / 2 z2
n=
=
2
2
(11.5)
Y
Y
X Xi i
X
X
i =1
i
n=
(CV0 ) 2 Y 2
N
(11.6)
2
pag. 83
pag. 83
yi 1 n yi
X
2
z =
n 1 i =1 xi n i =1 xi
2
pag. 82
pag. 83
pag. 84
108
Apndice de Frmulas
14. Respuesta aleatorizada
(14.1)
1 n1
P =
(0.3)(0.5)
0.7 n
pag. 96
109
Bibliografa
Bibliografa
1. Babbie, E. (1992). The Practice of Social Research. Ed. Wadsworth.
2. Campbell, D. y Stanley, J. (1991). Diseos Experimentales y Cuasi Experimentales
en la Investigacin Social. Amorrotu Editores. Buenos Aires.
3. Carpenter, et. al. (1998). Evaluating Alternative Explanations in Ecosystem
Experiments. Ecosystems 1(4) pp. 335-344.
4. Chung, K.L. (1974). Elementary Probability Theory with Stochastic Processes.
Springer-Verlag.
5. Cochran, W. G. (1977). Sampling Techniques. John Wiley & Sons, 3 ed.
6. Deming W. E. (1950). Some Theory of Sampling. Dover Publications Inc.
7. Hansen, M. H. Hurwitz, W.N. y Madow, W.G. (1953). Sample Survey Methods and
Theory. Vol. I y II, John Wiley & Sons.
8. Kish L. (1965). Survey Sampling. John Wiley & Sons.
9. Lee, E.S., Forthofer, R.N. and Lorimer, R. (1989). Analyzing Complex Survey Data.
SAGE Publications Inc.
10. Mendenhall, Ott y Scheaffer. (1971). Elementary Survey Sampling. Duxbury Press.
11. Overton, W., Stehman, S. (1995). The Horvitz-Thompson Theorem as a Unifying
Perspective for Probability Sampling: with Examples from Natural Resource
Sampling. The American Statistician. Vol. 49, No. 3, pp. 261-268.
12. Raj, Des (1968). Sampling Theory. McGraw Hill Co.
13. Raj, Des (1972). The Design of Sample Surveys. McGraw Hill Book Co.
14. Srndal, C.E., Swensson, B., Wretman, J. (1992). Model Assisted Survey Sampling.
Springer-Verlag.
15. Schindler, D.W. (1998). Replication Versus Realism: The Need for EcosystemScale Experiments. Ecosystems 1(4) pp. 323-333.
16. Stephan, F.F. and Mc. Carthy, P.J. (1974). Sampling Opinions and Analysis of
Survey Procedure. Greenwoos Press Publishers, Westport , Connecticut 1st. ed.
17. Sukhatme, P.V. y Sukhatme, B. V. Asok, C. (1984). Sampling Theory of Surveys
with Applications. Iowa State University Press.
CONCEPTOS DE MUESTREO
Vverdadera (diseo )
DEFF =
Viid (iid )
Adems, se supone que:
diseo
muestra en particular los factores de expansin. iid es el estimador que ignora el diseo
y considera la muestra como tomada con iguales probabilidades y con reemplazo, es
decir produce variables aleatorias idnticas e independientemente distribuidas (iid).
Usualmente las varianzas se desconocen, as que hay que usar sus estimadores, sin
embargo en este escrito no se har distincin entre el uso del DEFF terico y el
104
CONCEPTOS DE MUESTREO
estimado, se entender que al hacer uso del DEFF se tienen estimadores consistentes de
las dos varianzas o bien se suponen conocidas. Cuando sea necesario se especificar la
forma de cada una de esas varianzas.
Si se desea efectuar una prueba de hiptesis sobre el parmetro
to =
iid
vo
vo
es un estimador consistente de
}, o de otro modo
} = 0.95
Con un diseo muestral complejo, y con muestras de tamao relativamente grande, para
que opere el Teorema Central del Lmite, se puede suponer que
por factores de expansin, es insesgado o por lo
consistente
to =
diseo
vo
por lo que
diseo
Vverdadera
diseo
N (0,1) .
to =
V
(
)
diseo Vverdadera (diseo )
diseo
( verdadera diseo )
=
vo
Vverdadera (diseo )
Vverdadera (dsieo )
vo
105
CONCEPTOS DE MUESTREO
Una variable multiplicada por una constante, produce una nueva variable con media
dada por la media inicial que se multiplica por esa constante y la Varianza por el
cuadrado de la constante, en este caso la constante es la raz cuadrada del DEFF, de aqu
se obtiene la expresin (16.1), de la definicin del DEFF se tiene que
Si se usa el intervalo de confianza usual, el sealado antes, se tiene una Varianza errnea
por que solo est vo, es decir la Varianza segn iid. Por esto tanto el intervalo de
confianza como las pruebas de hiptesis basadas en l son errneos.
DEFF
0.9
1.0
1.5
2.0
2.5
3.0
Nivel de
significancia
real si la prueba
se hace al 5%
4
5
11
17
22
26
Nivel de
significancia
real si la prueba
se hace al 1%
0.7
1
4
7
10
14
Como se puede observar, por ejemplo, si el DEFF es de 2, la prueba tiene un error tipo I
o nivel de significancia real de 17%, en lugar del 5%. Es decir va a rechazar la hiptesis
demasiadas veces. En general si el DEFF es mayor que uno, los intervalos sin corregir
tienen una cobertura real menor a la intentada y mayores probabilidades de error tipo I,
que el nivel de significancia intentado, es decir el intervalo es demasiado estrecho por
que el error estndar del estimador usado es menor que el que tiene de acuerdo a la
estrategia de muestreo usada. Si se usa un paquete de cmputo, que supone iid y que
obtiene el intervalo de confianza al 95%, y se usa un diseo y estimador complejo, hay
que corregir el intervalo, multiplicando el error estndar de la media por la raz cuadrada
del DEFF. As el intervalo corregido ser:
{ 1.96
}.
parmetro con diseo coincide con el de diseo, en caso de que no sea autoponderado el
diseo, el estimador deber ser el corregido. Sin embargo an con muestras
autoponderadas la varianza se debe obtener segn el diseo usado y no utilizar v o .
corregida
to
DEFF
106
CONCEPTOS DE MUESTREO
ne =
n
. Si se tiene un DEFF de 2, el diseo usado produce una varianza que es el
DEFF
V depende del tamao de muestra y claro de otros parmetros que hay que conocer
o estimar con una muestra piloto. Si se tiene informacin de un DEFF en una encuesta
semejante a la planeada, se tiene entonces que, niid es el tamao de muestra si se usa un
muestreo que produce vaiid. Es decir uno con iguales probabilidades de seleccin y con
reemplazo. Para el caso de estimar una media poblacional, se tiene
(1.96) 2 2
n=
DEFF = niid DEFF .
2
n S2
1 1
Vverdadera (Y ) = (1 )
= ( )S 2 y
N n
n N
Vmas ( iid )
S2
=
, entonces:
n
107
CONCEPTOS DE MUESTREO
n S2
n
N n
DEFF =
= 1 que es el factor de correccin por finitud. Esto expresa
2
S
N
n
que el muestreo mas con reemplazo es menos eficiente, produce varianzas mayores
que el mas sin reemplazo. Esto es debido a la redundancia de los posibles valores si
aparecen en muestra elementos repetidos. Es importante sealar que si el cociente n/N
es pequeo, digamos =0.01 =.001, entonces la diferencia es negligible, por que aun
que se tome con reemplazo, la probabilidad de un reemplazo es muy baja. Tambin se
puede llevar a cabo el diseo sin reemplazo y emplear las expresiones de varianzas que
lo suponen con poco error.
2.- Muestreo Bietpico
Si se tiene un muestreo en dos etapas, donde las unidades de primera etapa, UPM,
contienen a las unidades de segunda etapa, USM. Si se toman por mas n de las UPM
y dentro de cada una de las muestreadas se toman, tambin por mas m USM, entonces
de modo aproximado, se tiene:
DEFF = 1 + (m 1) , donde
w2
M 1 . Otra manera de expresar ese coeficiente es, considerando que hay N
2
(Y
N
ij
Y )(Yik Y )
( M 1) MN 2
de la expresin DEFF = 1 + (m 1) se puede observar que el DEFF aumenta si
aumenta
USM dentro=
de las UPM.
De hecho si solo se toma una (m=1) USM dentro de cada UPM, el DEFF es uno,
equivale a muestreo aleatorio, tambin mientras ms USM estn en la muestra el
DEFF aumenta para =
DEFF para=
diferentes valores del
108
CONCEPTOS DE MUESTREO
coeficiente de correlacin al variar m. En la segunda grfica est el tamao de
DEFF =1+(1-m)rho
40
1
VALO RES DE
RHO
o .9
9
0 .8
30
0 .7
0 .6
0 .5
20
0 .4
0 .3
10
0 .2
0 .1
0
0
10
20
30
40
109
CONCEPTOS DE MUESTREO
ne segn m;
ne=n/DEFF
0.1
Ne=m/deff
5
0.2
4
0.3
0.4
2
0.5
0.6
0.7
0.8
0.9
1
10
20
30
40
110
CONCEPTOS DE MUESTREO
1 Nh
(Yhi Yh )2
=
Nh 1 i
L
Total 2 =
Nh
(Y
h
hi
Y )
i
L
2
L
= Wh (Yh Y ) + Wh h
2
=
varianzas.
1
2
2
2
n1
n2
El DEFF de la diferencia siempre es menor que el DEFF de cualquiera de las dos
medias. Entonces para efectuar una prueba conservadora se puede usar un proceso que
supone muestras iid, pero el error estndar de la diferencia se multiplica por la raz
cuadrada del DEFF mayor de las medias estimadas.
6.- Comparacin de medias en dominios no independientes.
De clases que ocurren dentro de las mismas UPM, por ejemplo comparar ingresos de
hombres y mujeres o de emigrantes y nativos, de escolaridad alta con baja, etc. Sean a
y b dos categoras en las que se quiere comparar las medias de una variable numrica.
Entonces se tiene que DEFF = (Y ) = 1 + (m 1) donde m es el promedio del
a
Entonces de nuevo, si se tiene una rutina que obtiene las medias y errores estndar de
la diferencia suponiendo caso iid, esos errores estndar se corrigen multiplicando por
la raz cuadrada del mximo de los dos DEFF, el de la media en el dominio a o el b. Si
se hace una prueba de F, la F calculada se corrige dividindola entre el DEFF
mximo.
111
CONCEPTOS DE MUESTREO
Separado :
Ys = X h R h = X
hi
i
h nh
hi
N h nh
h n i Yhi
h Yh
Yc = XR = X L
=X L h L
Nh
X
h h
h n i X hi
h
L
Combinado :
112
CONCEPTOS DE MUESTREO
En el separado, el sesgo de los estimadores de la razn en cada estrato, se puede
acumular, si hay muchos estratos.
Si las razones en los estratos Rh , difieren mucho de un estrato a otro y los tamaos de
muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es
preferible.
Si los tamaos de las muestras en los estratos son pequeos, o los estratos tienen Rh
semejantes o ambas cosas, el estimador combinado es preferible.
Los errores cuadrticos medios son los que siguen:
L
1
1 2 2 2
S y + Rh S x 2 R h h S y S x
ECM (Ys ) = ( N h2 )
h =1
nh N h
L
1
1 2 2 2
S y + Rc S x 2 R c S y S x
ECM ( Rc ) = ( N h2 )
h =1
nh N h
2
h es el
Gshi = Yhi R h X hi
y para el separado
Gchi = Yhi R c X hi .
As para el separado:
Vh (Yhi R h X hi ) = S y2 + R h2 S x2 2 h S y S x
h
1 nh
1
(
Y
R
X
)
hi h hi n
nh 1 i =1
h
1 nh
=
(Gshi G s h )
n h 1 i =1
nh
1=1
(Yhi R h X hi )
113
CONCEPTOS DE MUESTREO
En este caso el ltimo trmino dentro del parntesis cuadrado, la media de las Gshi, es
cero.
Y para el combinado :
Vh (Yhi R c X hi ) = S y2 + R c2 S x2 2 S y S x
h
1 nh
1
(
Y
R
X
)
hi
c
hi
nh 1 i =1
nh
1 nh
=
(Gchi G ch )
n h 1 i =1
nh
1=1
(Yhi R c X hi )
ESQUEMA A.
El texto de Raj, considera el caso de seleccin de las UPM con probabilidades de
seleccin arbitrarias y sin reemplazo. Para obtener estimadores de totales y sus
varianzas, usa el teorema de Horvitz-Thompson, en base a las probabilidades de
inclusin de primer y de segundo orden, i y ij , que son las probabilidades de que la
UPM i-sima; y de que la i-sima y la j-sima estn en la muestra respectivamente.
Este esquema requiere conocer los valores de i y ij para todas las parejas de UPM en
muestra. Esto es difcil de obtener en la gran mayora de los casos. El esquema de
probabilidades arbitrarias comprende, como un caso particular al Muestreo Aleatorio
Simple (mas), en el que i = n/N y ij= (n(n-1))/(N(N-1)). El esquema A,
considera la seleccin de las UPM con probabilidades arbitrarias (un caso particular de
este es el de mas), y dentro de cada UPM en muestra se lleva a cabo un muestreo de
las unidades secundarias, terciarias, etc., que tenga cada UPM. El submuestreo puede ser
114
CONCEPTOS DE MUESTREO
de cualquier nmero de etapas, con o sin estratos de USM y subsiguientes, y con
cualquiera forma de seleccionar las muestras y de formar estimadores (simples, de razn
o por algn otro mtodo). Se pueden tener esquemas de muestreo diferentes para
diferentes UPM. Lo que se requiere es generar un estimador conocido del total de los
valores de Yijklm.., sea este Ti, adems conocer su varianza terica V(Ti) y un estimador
de esta varianza.
El estimador del total, con este esquema A, con mas de UPM y submuestreo de
cualquier forma, es el siguiente:
N n
Y = Ti
n i
(17.1)
2
2
V (Y ) = N Sb + (V (Ti ) )
n N
i n
(17.2)
Donde:
2
1 n
S =
(Ti T )
n 1 i =1
2
b
1 n
T = Ti
n i =1
M
Ti = M i yi = i
mi
ij
y su varianza estimada
1 2
2 1
V (Ti ) = M i
Swi
mi M i
Con estos dos elementos en las expresiones generales, (17.1) y (17.2), se tiene:
N n Mi m
Y = Yij
n i mi j
i
115
CONCEPTOS DE MUESTREO
n
N 1
1
1
1 2
2
2
S wi
V (Y ) = N Sb +
Mi
n N
i n mi
donde
1 mi Yij
Szi =
Ti
mi 1 j =1 Pi
1 m
2
2
(Yij Yi )
S w =
mi 1 j =1
i
1
Yi =
mi
mi
ij
i =1
Si se trata de nuevo de dos etapas, las n UPM se toman con mas y si en cada UPM en
muestra se toman las mi USM por ppt con reemplazo, con probabilidades de seleccin
Pij, se tiene:
N
Y =
n
1 mi Yij 1 mi
Ti = = Z ij =Z i
mi j Pij mi j
Por lo tanto
Y=
n
1
i m
i
n
Yij N
j P = n
ij
mi
Z
i
= NZ
116
CONCEPTOS DE MUESTREO
Como las Pij son las probabilidades de seleccin de la USMij en la UPMi, se consideran
las n variables aleatorias independientes e idnticamente distribuidas, Zi=Yij/Pij, su
media es el estimador del total Yi. Entonces un estimador de la varianza del estimador
es:
n
N
1 1
2 2
V (Y ) = N Sb + V (Ti )
i n
n N
Donde
1 2
V (Ti ) = Szi
mi
1 mi Yij
Ti
Szi =
mi 1 j =1 Pi
ESQUEMA B.
El esquema llamado B, por Raj, es muy usado en las encuestas complejas, por que es
muy fcil obtener los estimadores de las varianzas de los estimadores de totales.
Se realizan n extracciones o selecciones de UPM con reemplazo, existe la posibilidad de
que algunas UPMi sean extradas o estn en la muestra mas de una vez. La muestra
tendr un numero menor o igual a n de UPM. Para cada extraccin y de manera
independiente se realiza el submuestreo de cualquier forma y de cualquier nmero de
etapas, cada submuestreo de una UPMi, produce estimadores del total de Y, en las UPMi
en muestra, los Ti. En este caso, como hay reemplazo, algunas UPM estn en muestra
mas de una vez, sin embargo hay n diferentes valores de Ti, ya que debe haber n
diferentes procesos de submuestreo independientes, uno por cada extraccin, sea o no
una unidad con mas de una extraccin. Los estimadores en este caso son:
n
n
T
1
1
i
Y = = Z i = Z
n i Pi n i
(17.3)
117
CONCEPTOS DE MUESTREO
1 1 Ti
V (Y ) =
Y
n n 1 i Pi
(17.3)
Como se puede observar ambos estimadores son muy simples de obtener aun que el
muestreo sea muy complejo, basta con que las UPM se seleccionen mediante ppt con
reemplazo, y un submuestreo independiente por cada extraccin.
Es de notarse que se puede estimar la varianza del estimador, sin tener que estimar las
varianzas de los estimadores de los totales en cada UPM. Es decir, no se requiere tener
el estimador de V(Ti). Esto por supuesto es muy conveniente para los clculos de
varianzas.
Como una aproximacin muy conveniente, es frecuente que en realidad se tenga una
seleccin ppt sin reemplazo, como cuando se obtienen tamaos Xi acumulados y sobre
ellos se hace una seleccin sistemtica con arranque aleatorio. En este caso, si el nmero
de UPM en la poblacin N es muy grande comparado con el tamao de muestra n, n/N
de 0.01 o menos; y si no hay tamaos muy grandes de las UPM, es decir si las Pi son
todas pequeas, sin que algunas sean varias veces mayores que otras, entonces la
probabilidad de un reemplazo es muy pequea. As, a pesar de ser un muestreo ppt sin
reemplazo, se puede usar el esquema B, como una muy buena aproximacin.
Ejemplo 1 de Esquema B
Se tienen tres etapas de muestreo, ppt con reemplazo de UPM, con estratos de USM y
mas para seleccin de USM, dentro de cada estrato y adems con UTM,
seleccionadas por mas en cada USM en muestra.
Como un ejemplo del esquema B de Raj, y sin prdida de generalidad, suponga que se
quiere estimar el nmero de ciudadanos con capacidad de compra de un producto, es
decir, si un ciudadano tiene la capacidad de compra se le asigna un 1 en la variable Yihjkt,
y si no la tiene un cero. Los ndices son i para la AGEBi (UPMi), h para el estrato de
manzanas (USMihj), j para la manzana j del estrato h de la AGEBi, y finamente k para la
vivienda. La Unidad ltima es la Vivienda y el valor de la variable en ella es Yihjk que es
la suma de los ciudadanos con capacidad de compra en esa vivienda. Es decir es la suma
de los Yihjkc sobre c, los ciudadanos en la vivienda. De modo que el total de la variable
indicadora Yihjkc sobre toda la poblacin, es el nmero de ciudadanos por estimar, el
parmetro Y. Se considera, sin prdida de generalidad, un caso donde hay N=300
AGEBS, que son las UPM, con muestreo ppt con reemplazo se seleccionan n=20
manzanas (UPMi). La medida de tamao Xi es el nmero de habitantes de la AGEBi en
el censo anterior, de modo que Pi es Xi / X, donde X es la suma de las Xi en las 300
AGEBS. En cada AGEB, en muestra, se forman 3 estratos de manzanas. Se considera que
hay Mih=1, Mih=2 y Mih=3 manzanas (las USM) en cada estrato; se toma por mas solo
118
CONCEPTOS DE MUESTREO
una manzana de cada estrato mih= 1, mi = 1+1+1=3. En cada manzana (USMij) se toman
qihj =5 de las Qihj viviendas que tenga la manzana, mediante un muestreo sistemtico con
inicio aleatorio. Se considera como mas para fines de estimacin de totales. Es muy
importante resaltar que no se requieren conocer ni estimar la varianza entre viviendas
dentro de manzanas, ni la de manzanas dentro de estrato y dentro de AGEB. Para
construir los estimadores es muy conveniente iniciar con las ltimas unidades de
muestreo e ir construyendo estimadores de totales sucesivamente a las unidades de
muestreo superiores. En este caso un estimador del total de ciudadanos con capacidad
de compra en la manzana ihj en muestra es:
Yihj =
Qihj
qihj
qihj
ihjk
Qihj
ihjk
Con este estimador, pasamos a la estimacin del total de ciudadanos con la capacidad,
en cada estrato.
M
Yhi = hi
mhi
M hi
Y
=
j hij 1 Yhi
mih
Ahora con estos estimadores, obtenemos el valor de Ti, el estimador de Yi, el total de
ciudadanos con la capacidad en la AGEBi
L
Ti = Yi = Yih = Yih
Finalmente el estimador del total en la poblacin es:
n
20
T
Yi
1
1
i
Y = =
n i Pi 20 i Pi
X
Y =
n
X 1 M ih Qihj
Y =
Yihjk
i
h
j
k n X i mih qihj
n
mih qihj
119
CONCEPTOS DE MUESTREO
Los sucesivos factores de expansin se consideran juntos, para formar el factor de
expansin para cada valor de Yihjk.
Se tiene que los factores de expansin son:
De vivienda a manzana Qihj / qihj
De manzana a estrato de manzanas Mih / mih
De AGEB a la poblacin X / (nXi)
Ejemplo 2, de esquema B
Solo tres estratos, con diferentes muestreos y submuestreos en cada estrato. Suponga que
se tiene: Estrato 1 con Nh = 300 UPMs, se toman con ppt, con probabilidad Pih con
reemplazo n1 =50, en cada extraccin de una UPM, se hace una seleccin por mas de
mi =3 USM, en cada una se mide Y1ij. En el estrato 2 hay 1000 UPMs y tambin con ppt
con reemplazo, con probabilidades P2i, se toman n2 = 100 UPMs, y en cada una de ellas
se seleccionan m2i = 5 USM por ppt con reemplazo, con probabilidades P2ij, en cada una
de ellas se mide su valor Y2ij. En el estrato 3, hay una sola UPM con 84 USM, las que se
estratifican en dos estratos (de USM), uno con 14 y el otro con 74 USM. Se toma por
mas una muestra de 2 USM en cada estrato, y en cada una se mide su valor Y3jj. Se
desea estimar el total de la poblacin Y y su varianza. Se plantea que Y = Y1+ Y2 +Y3,
entonces hay que obtener los estimadores de cada total y su estimador de varianza en
cada estrato. Se aplica el esquema B en estratos 1 y 2.
Para el estrato 1, se tiene el total estimado de una UPM en muestra:
M
Y1i = T1i = 1i
3
1 50 T1i
Y1 =
50 i P1i
Y
j
1ij
1 1 50 T1i
V (Y1 ) = Y1
50 49 i P1i
120
CONCEPTOS DE MUESTREO
1 100 T2 i
Y2 =
100 i P2 i
1 1 100 T2 i
V (Y2 ) =
Y2
100 99 i P2 i
14
Y31 = Y31 j
2 j
2
y en el segundo
70
Y32 = Y32 j
2 j
2
De manera que
Y3 = Y31 + Y32
La varianza de este estimador es la suma de las varianzas en los estratos
2
2
2
Y
Y32 j
31 j
2
1
1
1
1
1
1
+ 702 Y32 j j
V (Y3 ) = 14 2 ( ) Y31 j j
2 14 2 J
2
2
70
2
2
Y = Y1 + Y2 + Y3
3
V (Y ) = V (Yh )
h
Esquema C
Se efecta la seleccin de UPM por ppt con reemplazo, pero si una UPM aparece en
muestra k veces, solo se submuestrea una vez y su estimador del total Ti , se multiplica
por k. As el estimador del total Yest se obtiene por:
121
CONCEPTOS DE MUESTREO
1 kiTi
Y=
n i Pi
a
122
CONCEPTOS DE MUESTREO
18.1 Esquema A.
Unidades Primarias de Muestreo (UPM) seleccionadas por mas, y cualquier esquema
de submuestreo de las USM.
Se considera que del proceso de submuestreo de las UPM en muestra, en primera etapa,
se obtienen tanto los estimadores de los totales de Y y de X, en las UPM, sean Tyi y Txi
respectivamente. Adems se requiere la forma de estimar la varianza de un estimador de
un total en la unidad primaria, es decir la forma de V(Ti) estimado, para cualquier cosa
123
CONCEPTOS DE MUESTREO
que sea estimada con Ti. El caso comn es considerar una nueva variable Yijk..- RXijk..
entonces se plantea la estimacin de la varianza del estimador del total de esa nueva
variable en la UPMi. La forma general del estimador es
N
Y
R= = n
X N
n
T
i
n
yi
Tx
i
N ( Ty
)
)
N ( Tx
(18.1)
1
1 1 n
2 1
ECM ( R ) = 2 {N
Ty R Tx
X
n N n 1 i
N
SubM =
n
[V (T
n
i
yi
R Tx
) + SubM
2
(18.2)
)]
= 1.96( ECM ( R )
1
2
1
1 1 n
2 1
Ty R Tx
1.96{ 2 {M i
X
n N n 1 i
i
1
2
124
CONCEPTOS DE MUESTREO
Por supuesto que se requiere de informacin previa que d una idea de la magnitud de la
varianza de la variable Tyi-RTxi entre UPM. Se puede tener esa idea si se descompone la
varianza de la nueva variable en sus componentes Y y X.
{S
2
y
+ R 2 S x2 2 R S y S x
Por ejemplo si solo hay unidades secundarias y stas se toman por mas, entonces:
(T
yi
R Tx = M i yi R xi
i
)
(Y
mi
M
Ty R Tx = i
mi
i
(Y
mi
j
ij
R X ij = M i
ij
R X ij
mi
V T y R Tx
i
1
1 m
1 m
Yij RX ij
= Mi
Yij R X ij
mi j
mi M i j
1
1 2 2 2
{S y + R S x 2 R S y S x
V T y R Tx = Mi 2
mi M i
N
SubM =
n
1 m
1
2 1
i M i m M j Yij R X ij m
i
i
i
n
j Yij R X ij
mi
125
CONCEPTOS DE MUESTREO
En caso de que existieran unidades terciarias u otras adicionales, aun suponiendo que las
USM se tomaron por mas, entonces los valores de Yij y Xij se deben sustituir por sus
correspondientes estimadores de totales en las USM, a partir del submuestreo.
Ejemplo 2. Estimadores de promedios en un dominio con estratos en una etapa, con
mas en cada estrato.
Yhi
YIhi =
0
JefeMigrante
JefeNoMigrante
JefeMigrante
1
Xhi =
0 JefeNoMigrante
De tal manera que el promedio que se quiere conocer es la suma de todos los valores de
YIhi en la poblacin, que es el total de ingresos de los emigrantes, entre el total de Xhi,
que es el nmero de emigrantes en la poblacin. El estimador es entonces
L
451 20
673 20
234 20
1200 20
YI 1i + 20 i YI 2i + 20 i YI 3i + 20 i YI 4i
YI
20 i
h
= L
=
R = IngMigr =
451 20
673 20
234 20
1200 20
X
X
h
X
1
i
+
X
2
i
+
X
3
i
+
h
X 4i
20 i
20 i
20 i
20 i
YIh
El error cuadrtico medio es, tomando la expresin del estimador de Yc y su ECM, pero
ahora dividiendo entre el estimador de X:
1
ECM ( R ) = 2
X
1 2 2 2
2 1
h h n N S yh + R S xh 2 R S yh S xh
h
h
L
126
CONCEPTOS DE MUESTREO
nh
1
ECM ( R ) = 2
X
V (YI
1
R X h ) =
X
N V {
2
h
(YIhi R Xhi)
i
nh
18.2 Esquema B.
Las UPM se seleccionan mediante un ppt con reemplazo. Cada UPM se submuestrea de
manera independiente, el nmero de veces que quede en muestra. Por supuesto que la
medida de tamao debe tener una buena proporcionalidad con los valores de Yi, y si es
posible tambin de los de Xi. Por ejemplo puede ser usada para las probabilidades de
seleccin el nmero de USM o de UUM, en cada UPMi, con una informacin previa.
1 n Ty
n
Zy
Y
Pi
i
=
R= = n
T
Zx
X 1
x
n i Pi
i
2
Ty
Tx
S
1
1
1
1
ECM ( R ) = 2
=
Pi
X n n 1 i Pi
X n
n
Zi =
Ty R Tx
i
Pi
= Z y R Z x
i
Entonces, S2z es la varianza de esta nueva variable entre las UPM en muestra. Ntese
que la media de la nueva variable Zi, es cero, ya que el estimador de R es el cociente de
la media de Zxi entre la media de Zxi.
Es importante notar de nuevo que para estimar el error cuadrtico medio de R, no se
requieren los estimadores de las varianzas de Tyi ni de Txi. Esto hace que para el
estimador del ECM, no importe cuantas etapas se tenga o la forma general del
submuestreo de las UPM.
127
CONCEPTOS DE MUESTREO
h Yh h nh
Y
R = = L
= T
1
X
h X h
h nh
L
Thyi
i P
hi
=
nh
Thxi
i P
hi
nh
hy
hx
h
L
h
(18.3)
1 n Thyi
Z hy =
nh i Phi
h
1
1
1 L
hyi RThxi
ECM ( R ) = 2
Phi
nh
X h nh ( nh 1) i
h
Thyi R Thxi
i
Phi
nh
(18.4)
Ntese, de nuevo que se trata de la varianza de una nueva variable, entre las UPMi en
muestra. Esa nueva variable Z*hi es
Thyi R Thxi
= Z hyi R Z hxi = Z hi*
Phi
de modo que se simplifica conceptualmente a:
128
CONCEPTOS DE MUESTREO
1 L 1 *
ECM ( R ) = 2 Vh ( Z hi )
X h nh
Estimador de R en muestreo con estratos, varias etapas y con seleccin
de UPM con esquema A.
Se presenta el caso del esquema A, seleccin por mas de las UPM y con un
submuestreo arbitrario de las USM, y etapas subsecuentes en cada UPM. Adems con las
UPM en estratos. Se presenta el caso en el que se ignora la variabilidad debida al
submuestreo, de manera que es una situacin muy semejante al caso de una etapa,
estimar R con muestreo aleatorio simple con estratos en las etapas. Las expresiones son
muy semejantes a las planteadas en el caso de estimar un total basado en una razn.
La informacin esta dada por muestras independientes, de UPMs obtenidas por
Muestreo Aleatorio Simple (mas) en cada estrato, de tamao nh y en cada UPM se
estiman los totales Yhi y Xhi, en cada UPM, sean stos
X hi
Yhi
Donde i= 1,...,nh y h=1,...L. Se conocen los tamaos de los estratos Nh. Y con ellos
sus ponderadores Wh = Nh/N. Se pueden forma dos tipos de estimadores que son, el
Separado y el Combinado.
Separado :
nh
L
N
Y
h
h
= Wh
= Wh
R s = Wh R h = Wh n
h
h
X hi h N h X h h
L
hi
Yh
X h
Combinado:
Nh n
h n i Y hi Y
h Yh
h
= L
=
R c = L
L
Nh
X
X
X hi
h h
nh i
h
L
CONCEPTOS DE MUESTREO
Si las razones en los estratos Rh, difieren mucho de un estrato a otro y los tamaos de
muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es
preferible.
Si los tamaos de las muestras en los estratos son pequeos, o los estratos tienen Rh
semejantes o ambas cosas, el estimador combinado es preferible.
Los errores cuadrticos medios son los que siguen:
2
1
W
1 2
S y + R h2 S x2 2 R h h S y S x
ECM ( R s ) = h2 ( N h2 )
h
h =1 X
nh N h
L
1
ECM ( R c ) = 2
X
(N
h =1
2
h
1
1 2 2 2
S y + Rc S x 2 R c S y S x
)
nh N h
h
Yhi R h X hi
y para el separado
Yhi R c X hi
As para el separado:
Vh (Yhi R h X hi ) = S y2 + R h2 S x2 2 h S y S x
h
1 nh
1
(
Y
R
X
)
hi h hi n
nh 1 i =1
h
Y para el combinado:
nh
1=1
(Yhi R h X hi )
Vh (Yhi R c X hi ) = S y2 + R c2 S x2 2 S y S x
h
1 nh
1
(
Y
R
X
)
hi c hi n
nh 1 i =1
h
nh
1=1
(Yhi R c X hi )
130
CONCEPTOS DE MUESTREO
Yij
i =1
N j =
n
N j
1
N
=
y
de modo que p j =
i =1
j = 1,2,...u .
n j .
Para esto se obtienen los pesos o factores de expansin ajustados a que su suma sea n, el
tamao de muestra.
n
n
1
N = = Wi entonces si se ajustan los pesos a pesos que respeten las
i =1
i =1
n j
... j = 1,2,...u . En la mayora de los muestreos polietpicos el
n
tamao de muestra no es fijo, entonces para obtener las varianzas o ECM de las
son entonces p j =
131
CONCEPTOS DE MUESTREO
proporciones estimadas, se usan las expresiones de varianza de estimadores de razn.
Para obtener las covarianzas entre dos estimadores se usan las expresiones de varianza
pero se substituyen los cuadrados de desviaciones por producto de desviaciones.
Esquema A. Sin estratos y con Unidades Primarias de Muestreo (UPM) seleccionadas
por mas, y cualquier esquema de submuestreo de las UPM.
N UPM n
Tyij N ( T y
N j
nUPM i
=
= UPM
p j =
n
N UPM
N UPM ( T x
N
Txi
nUPM i
)
)
.
(19.1)
Donde se tiene que NUPM y nUPM son el nmero de UPM en la poblacin y en la muestra
respectivamente; Tyij es el total estimado de unidades en la categora j en la UPMi, Txi
el total estimado de unidades en la UPMi.
El estimador del error cuadrtico medio del estimador anterior, por la aproximacin en
series de Taylor es :
1
1
1
2
ECM ( p j ) = 2 N UPM
N
nUPM N UPM
nUPM 1 i
(19.2)
Cov( p j p j* ) = 2 NUPM
N
nUPM NUPM nUPM 1 i
En este ltimo trmino se obtiene la covarianza entre los totales de las variables
Tyij p j Txi para j y j*.
132
CONCEPTOS DE MUESTREO
L
1 nh Thyij
h nh i Phi
N j
h
= L
= T
=
p j =
nh
Thxi
1
N
h N h h nh i Phi
N j h
Z hyj
h
L
(19.3)
Z hx
h
En cada estrato, se toman nh UPM de muestreo con ppt, y el estimador del total de
elementos en el estrato h y en categora j-sima, es la suma de los promedios de
variables Zhyij , donde las variables son Thyij que es el total de elementos estimado en
la UPM i-sima y que pertenecen a la categora j, dividido entre Phi que es la
probabilidad de seleccin de la UPM i-sima en el estrato h. En el denominador es la
suma de promedios de las variables Zhxi que es el cociente de Thxi que es el total
estimado de elementos en la UPM i-sima, dividido entre Phi.
1
Z hy =
nh
Thyij
i Phi
nh
ECM ( p j ) = 2
Phi
nh
N h n h ( nh 1) i
h
Thyij p j Thxi
i
Phi
nh
(19.4)
Ntese, de nuevo que se trata de la varianza de una nueva variable, entre las UPMi en
muestra. Esa nueva variable Z*hij es
Thyij p j Thxi
= Zhyij p j Zhxi = Z hij*
Phi
de modo que se simplifica conceptualmente a:
1 L 1
ECM ( p j ) = 2 V h ( Z hij* )
N h n h
Cov( p j , p j* ) =
nh Thyij p Thxi
j
1
1 nh Thyij p j Thxi Thyij * p j*Thxi 1 nh Thyij * p j * Thxi
1 L
= 2
Phi
nh i
Phi
Phi
nh i
Phi
N h nh( nh 1) i
133
CONCEPTOS DE MUESTREO
Yhij
X hi
Donde i= 1,...,nh. y h=1,...L. Se conocen los tamaos de los estratos Nh. Y con ellos
sus ponderadores Wh = NUPMh/NUPM, donde NUPMh es el nmero de UPM en estrato h y
NUPM el nmero total de UPM en la poblacin. Se pueden forma dos tipos de estimadores
que son, el Separado y el Combinado.
Separado :
nh
p js = Wh p j h = Wh
Y
i
hij
nh
X
i
Combinado :
p j c =
h
L
hi
UPM h
L
N UPM hYhj
= Wh
= Wh
h
h
N
X
L
hj
N h
N UPM h
nh
N UPM h
nh
Yhj
X h
nh
Y
i
hij
X hi
N j
=
N
134
CONCEPTOS DE MUESTREO
Los errores cuadrticos medios son los que siguen:
1
W 2h
2 1
Sy jh 2 + p j 2 Sx 2 h 2 p j h Syhj Sxh
ECM ( p j s ) = 2 ( NUPM h )
h
h
h =1 N h
nh NUPM h
L
1 L
1
2 1
Syhj 2 + p j 2 Sx2 h 2 p j Syhj Sxh
ECM ( p j c ) = 2 ( NUPM h )
c
c
N h =1
nh NUPM h
Yhij p j h X hi
y para el separado.
Yhij p j c X hi
As para el separado:
2
2
2
Vh (Yhij p j h X hi ) = Sy hj + p j h Sxh 2 h Sy hj Sxh
1 nh
1
=
(Yhij p j h X hi )
nh 1 i=1
nh
nh
1=1
(Yhij p j h X hi )
Y para el combinado:
2
2
2
Vh (Yhij p j c X hi ) = Sy hj + p j c Sxh 2 Sy hj Sxh
1 nh
1
=
(Yhij p j c X hi )
nh 1 i=1
nh
nh
1=1
(Yhij p j c X hi )
1 nh
{
nh 1 i =1
1
(Yhij p j c X hi )
nh
nh
1=1
(Yhij p j c X hi )
1
(Yhij* p j* c X hi )
nh
nh
1=1
(Yhij* p j* c X hi )
135
CONCEPTOS DE MUESTREO
Estadstica de Wald
Con las varianzas y covarianzas estimadas, segn esquema B o A de Raj, se construye
la matriz Vdiseo (u-1 X u-1), de varianzas del vector p = ( p 1 , p 2 ,... p c 1 )" Entonces la
estadstica de Wald, para la hiptesis es
(Wald)
Si la hiptesis p=po es cierta, la estadstica tiene asintticamente una distribucin 2
con c-1 grados de libertad. Pueden existir problemas de inestabilidad en la estimacin de
la matriz, pero si el nmero de UPM en muestra es grande y el nmero de celdas c, es
pequeo, el estimador es estable. Si el valor de f = nUPM L es pequeo la estimacin de
las varianzas y covarianzas es inestable. Donde nUPM es el nmero de UPM en la
muestra y L el nmero de estratos. Para corregir esta inestabilidad lo que se hace es usar
una distribucin F, con u-1 y f-u-2 grados de libertad, como sigue:
f u 2
wald 2
F1, wald =
f (u 1)
Una segunda correccin con distribucin F con u-1 y f grados de libertad es
F2, wald =
wald 2
u 1
Note que si f es pequeo, el valor de P para la F con 1 y f grados de libertad es mayor
que el de la 2 con un grado de libertad, pero si f crece la diferencia se hace menor.
Adems el operador diag(po) genera una matriz diagonal con elementos poj.
Sin embargo la distribucin de esta estadstica de prueba no es asintticamente 2, con
u-1 gl. La distribucin es en realidad una suma ponderada de 2 con 1 gl. Es decir se
c 1
j =1
con distribucin normal con media cero y varianza 1. (Zj2 son 2 con un gl). Los valores
de las j son los eigenvalores de la matriz de efectos de diseo generalizada que es:
1
D = Po V , donde para simplificar se tiene V = Vdiseo .
136
CONCEPTOS DE MUESTREO
Esos eigenvalores se llaman efectos de diseo o DEFF generalizados, y debe notarse
que no son los DEFF para cada proporcin estimada pj, que sern dj, donde
dj =
Vdiseo ( p j )
p iidj (1 p iidj ) , con p iidj el estimador directo sin ajustar, de la proporcin en la
n
celda j-sima.
Entonces, si bien la estadstica de Pearson corrige por falta de representatividad, ya que
usa las proporciones estimadas va razones con factores de expansin, no corrige por la
falta de independencia dentro de UPM, y por esto no tiene distribucin asinttica 2
con c-1 gl. Entonces se han diseado varias correcciones para esto.
1 Correccin, ajuste por DEFF promedio.
Se obtienen los DEFF estimados para cada proporcin en cada celda, y se obtiene su
1
promedio d. = d j , y entonces la estadstica de prueba es :
u
u j =1
p (d.) =
2
p2
(2 Ajuste promedio)
d.
Este ajuste hace que cuando hay efectos de conglomeracin, es decir coeficientes de
correlacin intraconglomerados positivos, los DEFF son mayores que uno y se
disminuye el valor de la estadstica de prueba. Esto no requiere el clculo de estimadores
de las covarianzas entre estimadores de proporciones, solo de las varianzas. Esta
correccin se obtiene tambin si se calcula un tamao de muestra efectivo promedio
ne =
n
d. ,
2p
2
E ( p ) = j de manera que entonces E (
) = E ( u 1 ) = u 1
j =1
2
u 1
u 1
Donde
j =1
u 1
p ( ) = p
(21er Ajuste)
137
CONCEPTOS DE MUESTREO
Donde es el promedio estimado de los efectos de diseo generalizados. No se requiere
estimar todos los eigenvalores, ya que este promedio se puede obtener a partir de los
efectos de diseo de las celdas, por medio de la expresin:
u p
(u 1) = j (1 p j )d j
j =1 poj
F p ( ) =
(u 1)
Si los eigenvalores tiene mucha variacin entre ellos, se requiere un mejor ajuste, y este
consiste en usar el coeficiente de variacin de los eigenvalores. Por supuesto esto si
requiere el conocimiento pleno de ellos, lo que implica el de la matriz de DEFF
generalizada. Ahora se corrige la media y la varianza de la estadstica de Pearson, el
ajuste es
p ( , a 2 ) =
2
p 2 ( )
(1 + a )
2
(2 2oAjuste)
a =
2
j =1
((u 1) ) 1 .
2
2
j = tr ( D 2 ) = n 2 Vdiseo ( p j p k ) / poj pok
j =1
j =1 k =1
138
CONCEPTOS DE MUESTREO
gl 2o =
u 1
.
1 + a 2
Estadstica 2 de Neyman
La estadstica de Wald supone que la Ho: p=po es cierta y con ese valor obtiene la
matriz de varianzas y covarianzas. La estadstica de Neyman estima la matriz de
varianzas covarianzas con los estimadores simples de las pj en la muestra, como si
fuesen iid.
2
u n
n ( p p )2
j np o j
j
oj
"
2
N =
(2 de Neyman)
= n
= n( p p o ) P 1 ( p p o )
p j
np j
j =1
j =1
Donde ahora la matriz P/n es las varianzas y covarianzas de las proporciones estimadas
sobre la base de esas mismas proporciones,
ej =
(p
poj )
ej =
(p
poj )
aleatorias aproximadamente con distribucin normal con media cero y varianza uno, los
residuos con valores mayores de 2 son sospechosos de causar el rechazo de la Ho.
139
CONCEPTOS DE MUESTREO
Es claro que
p
j =1
jk
las regiones.
Si se supone que de cada regin se toma una muestra independiente, con cualquier
diseo, pueden ser diferentes, con cada muestra se estiman las proporciones, como se
vi en la seccin anterior, mediante estimadores que toman en cuenta los factores de
nk
1
expansin, N k =
, sea la variable indicadora Yj = 1 si el elemento est en la
i =1
ik
nk
Yj
i =1
ik
N jk
. Para
N k
n jk .
Para esto se obtienen los pesos o factores de expansin ajustados a que su suma sea nk,
el tamao de muestra de la regin k.
n
n
1
N k =
= Wik , entonces si se ajustan los pesos a pesos que respeten las
i =1
ik
i =1
140
CONCEPTOS DE MUESTREO
n
n
nk
*
*
Wik y entonces n jk = Yijk Wik y nk = Wik . Las proporciones
Nk
i =1
i =1
n jk
estimadas son entonces p jk =
... j = 1,2,...u . De otro modo
nk
n jk = n k p jk . Dentro de cada regin se estiman las varianzas y covarianzas de acuerdo al
*
tiene : Wik =
jk
=1 .
representa la covarianza segn diseo entre p jk . y.. p j*k ...... j , j* = 1,2,...u 1 Se supone
que se cuenta con un estimador consistente de esas covarianzas Vk = Vdiseo ( Pk ) = vkjj* .
Se tiene varias opciones para efectuar la prueba, son estadsticas semejantes a las del
caso de bondad de ajuste.
w 2 = Q " [V (Q )] Q
1
p =
2
k =1 j =1
(n
p kj nk p + j )
n k p + j
141
CONCEPTOS DE MUESTREO
Donde se tiene el promedio ponderado de proporciones en celda j, para las r regiones
1 r
p + j = nk p kj . Si todas las muestras son autoponderadas, esta estadstica es la usual
n k =1
(la que obtendra cualquier paquete estadstico), es decir la que se obtendra si se
construye la tabla de contingencia sin hacer ajustes y obtiene la prueba de 2. Sin
embargo, en caso autoponderado o no, la distribucin de la estadstica es asintticamente
como una suma ponderada de 2 con 1 gl.
p2
( c 1) ( r 1)
j =1
con
n
fk = k
n
y n = nk .
k =1
md =
2
p2
d
, donde d kj =
estimadas y d =
v kjj
p j (1 p j )
n
j
d
k =1 j =1
rc
hj
m =
2
p2
(1 f k )(1 p k )
(r 1)(c 1) , y las dkj
142
CONCEPTOS DE MUESTREO
Se pueden hacer los ajustes para F, si hay pocos grados de libertad en la estimacin de
varianzas; y tambin las correcciones de 2 orden de Rao-Scott, de manera semejante a la
prueba de bondad de ajuste.
Pruebas de Independencia
De nuevo, principalmente tomado del libro de Lethonen y Pahkinen(Op.cit).
En este caso se considera que se tiene una sola muestra y que se clasifican los elementos
en ella, de acuerdo a dos variables categricas. Sean pjk, las proporciones poblacionales
en celda jk; con j=1, ...c y k=1...r, las categoras de ambas variables. Es decir
r
c
N jk
y adems p jk = 1 . La hiptesis de independencia supone que las
p jk =
N
k =1 j =1
proporciones en las celdas son iguales al producto de proporciones marginales, as, si
c
j =1
k =1
p + k = p jk y p j + = p jk
entonces Ho es: p jk = p+ k p j + .
Para la derivacin de las estadsticas de prueba, conviene expresar la hiptesis en
trminos de diferencias Ho: F jk = p jk p + k p j + = 0 ,
y adems solo considerar k= 1,..r-1 y j=1,..c-1, por el hecho de que las proporciones
suman uno. Se forma entonces un vector columna de dimensiones (c-1)(r-1), que es
F = ( F11 ,..., F1,c 1 ,..., Fr 1,1 ,..., Fr 1,c 1 )" .
Se obtienen estimadores de las proporciones que corrigen por falta de representatividad,
N jk
es decir de tipo Horvitz-Thompson, p jk =
, tambin se expresan en funcin de las
N
llamadas frecuencias observadas corregidas por diseo
modo que p jk =
n jk ,
mencionadas antes de
n jk
, stos son estimadores de razn, por que en muestreos
n
143
CONCEPTOS DE MUESTREO
de proporciones estimadas esperadas es: Po = diag ( p o ) p o p "o . De manera que la
matriz de covarianzas del vector de las diferencias observado-esperado estimadas y bajo
Ho, es :
PoF = H " Po H .
Para la estadstica de Neyman se obtienen las covarianzas del vector de proporciones
estimadas, sin suponer cierta la Ho. P = diag ( p ) p p " , donde el vector de
dimensiones (r-1)(c-1), contiene p jk =
n jk
. Entonces la matriz de covarianzas para el
n
PF = H " P H
Estadstica de Wald.
Esta estadstica usa la matriz de covarianzas de las F, as se tiene:
Wald 2 = F " (VF ) 1 F
Esta tiene distribucin asintticamente 2 con (c-1)(r-1) gl. En caso de que se tengan
pocas UPM dentro de estratos, con f = nUPM L pequeo, conviene hacer la correccin
de la distribucin F, que es
f (r 1)(c 1) 1
Wald 2 tiene distribucin aproximada F con (r-1)(c-1) y
F1,Wald =
f (r 1)(c 1)
(f-(r-1)(c-1)-1) gl. Ntese que si f es pequeo, hay una reduccin a la estadstica 2 de
Wald.
Otra correccin tipo F es F2,Wald =
Wald 2
(r 1)(c 1)
Estadstica de Pearson.
Si se usan los estimadores de las proporciones corregidos por factores de expansin y se
obtiene con ellos la 2 usual, la de Pearson, se tiene:
r
p = n
2
k =1 j =1
p kj p j + p + k )
, que tiene una distribucin como suma de 2 con
p j + p + k
2
Estadstica de Neyman.
Si se usan los estimadores de las proporciones corregidos por factores de expansin,
pero en el denominador se usan los observados corregidos en lugar de los esperados, se
tiene:
144
CONCEPTOS DE MUESTREO
r
N = n
2
k =1 j =1
p kj p j + p + k )
, que tambin tiene una distribucin asinttica como
p jk
2
suma ponderada de 2.
p (d ) =
2
d =
p2
d
j =1 k =1
rc
jk
y d jk =
Vdiseo ( p jk )
y donde njk es el nmero observado de datos
n jk n jk
( ) 1
n
n
n
p2
p ( ) =
=
=
= (c 1)(r 1) p jk (1 p jk ) p jk + p + k d jk (1 p j + )d j + (1 p + k )d + k
c
j =1 k =1
j =1
k =1
(
)1
n
n
n
145
CONCEPTOS DE MUESTREO
Usualmente es mejor la primera correccin de Rao-Scott que el ajuste por promedio de
DEFF.
Ambas correcciones se pueden hacer tambin a la estadstica de Neyman.
Si hay problemas de inestabilidad debido a pocos grados de libertad en la estimacin de
covarianzas, la correccin a F es:
p 2 ( )
2
F p ( ) =
, la que tiene asintticamente una distribucin F central , si Ho
(r 1)(c 1)
es cierta , con (r-1)(c-1) y f gl. Tambin se hace la misma correccin para la estadstica
de Neyman.
Segunda Correccin de Rao-Scott.
Para acercar no solo el primer momento de la estadstica de prueba a la 2 con (c-1)(r1) gl., sino tambin el segundo momento, se hace la correccin por coeficiente de
variacin de los efectos de diseo generalizados. Esto implica el conocimiento pleno de
la matriz de efectos de diseo generalizados.
p ( , a 2 ) =
2
p 2 ( )
(1 + a )
2
donde
tr ( D )
y la matriz de efectos de diseo generalizada
(c 1)(r 1)
estimada es.
1
D = PoF VF
y el coeficiente de variacin es
a =
2
( c 1)( r 1)
( c 1)( r 1)
l 2 = tr ( D 2 ) .
La estadstica corregida por el segundo ajuste tiene distribucin asinttica 2 con grados
de libertad ajustados por Satterthwaite dados por
gl 2o ajuste =
(c 1)(r 1)
(1 + a )
2
146
CONCEPTOS DE MUESTREO
Donde en el denominador est el error estndar de un residuo estimado. Estos se
obtienen de las races cuadradas de los elementos de la diagonal de la matriz de
covarianzas de los estimados de los residuos, dada antes.
(
)(
Y
i Xi)
N
i =1
Yi X i i =1
N
Yi X i N (Y X ) i =1
i =1
=
r= N
2
N
X 2i N ( X 2 )
X
i
N
i =1
i =1
2
X
i
N
i =1
La regresin entre una Y y variables X1,X2, ...,Xp, se puede considerar a nivel poblacional
como la solucin a las ecuaciones normales poblacionales que son
B = ( X X ) 1 ( X Y )
Donde la matriz ( X X ) es la matriz que tiene las sumas poblacionales de productos
entre las Xj, quiz con una Xo identifica a 1 siempre ( para la ordenada al origen o
intercepto),
N
i =1
N
XX =
X
i =1
N
X
i =1
N
1i
2i
X 3i
i =1
X
i =1
X
i =1
N
1i
1i
2
1i
X 2i
X 1i X 3i
i =1
X
N
i =1
X
i =1
N
1i
i =1
X
i =1
3i
2i
N
i =1
3i
X 2i
1i
X 3i
2i
X 3i
2i
X 2i
i =1
N
i =1
N
X
i =1
2
3i
147
CONCEPTOS DE MUESTREO
y el vector X Y =
1i
2i
3i
i =1
N
i =1
N
i =1
Yi
Yi
Yi
i =1
i =1
i =1
i =1
B = ( X WX ) 1 ( X WY ) ,
lh mhd nhdc
= U hdck ,
h =1 d
d =1 k =1
148
CONCEPTOS DE MUESTREO
Por ejemplo, si se conoce N, el tamao de la poblacin, el estimador de la media de los
Y
valores de Yhdck, es el anterior con U hdck = hdck donde hdck es la probabilidad de
N hdck
inclusin del elemento hdck-simo.
Bajo los supuestos:
S1.- La muestras de los diferentes estratos son independientes.
S2.- Las l h ( antes nUPM) UPM se toman dentro de cada estrato con reemplazo. Nota
importante, si es sin reemplazo, pero el tamao de muestra es mucho menor que el
nmero de UPM en la poblacin, entonces el supuesto se cumple con buena
aproximacin.
S3.- l h 2
Se puede reescribir el estimador lineal anterior, en trminos de las UPM, como
lh
= U
h =1 d
hd
donde U hd = U hdck
c
n
n
vaiid. Sean gi se tiene : V g g = V ( g i ) = nV (g i ) , entonces el estimador de la
i
i
varianza
del
estimador
lineal
l l lh
V ( ) =
(U hd U h ) ,
h =1 (l l 1) d =1
L
es:
donde
lh
Uh =
U
d
lh
hd
lh
l l
V ( ) = 1 h l (U hd U h ) donde Lh es el total de UPM en estrato h. Si
Lh (ll 1) d =1
h =1
L
149
CONCEPTOS DE MUESTREO
Y3hdck
hdck
= g ( ) = g ( ) + g j ( )( j ) = g j ( ) j + g ( ) g j ( ) j
j =1
j =1
j =1
g ( )
Donde g j ( ) =
.
j
En la ltima expresin solo el primer trmino contiene estimadores, el trmino entre
parntesis cuadrado es una constante; de manera que la varianza del estimador depende
de la primera parte nada mas.
p
p
p
=
U
y
g ( ) =
g ( )
U =
U g ( ) =
W~ ,
j
jhd
j =1
j =1
jhd
j =1
jhd
jhd
l l lh
(Whd Wh ) .
h =1 (ll 1) d =1
L
)=
= U jhd g j ( ) y entonces: VL (
p
j =1
= Y = g (1 ,2 ) = g (Y , X ) = g () , donde se tiene
Por ejemplo considere una razn
X
U 1hd = hdck
= (Y , X ) = (U 1hd ,U 2 hd ) .
Y
donde:
y
que
h
U 2 hd =
c
X hdck
hdck
hdck
Y 1
=
= g ( 1 , 2 ) = g (Y , X ) = g ( ) ,
X 2
1
g1 ( ) =
y g 2 ( ) = 2 1 por lo que W jhd = U jhd g j ( ) = Whd = (U 1hd R U 2 hd ) y
j =1
l l lh
{ (Ty hd R Txhd ) 1
(l 1) d =1
lh
VL (R ) = h=1 l
2
Tx
L
U 2 hd = Tx hd =
c
lh
(Ty
d =1
hd
R Txhd )
}2
, donde
X hdck
hdck
150
CONCEPTOS DE MUESTREO
Yhdck
U 1hd = Ty hd =
c
X hdck
es decir Tx =
h
hdck
hdck
como: B =
(Y
hcdk
Y )( X hcdk X )
( X
h
hcdk
X)
1
.
2
(X
=
U 2 hdck
hdck
L
h
hcdk
hhdck
1 =
)(
entonces
(Y
hdck
hcdk
se
)(
Y X hcdk X
estiman
los
parmetros
L
1
y 2 =
h
hdck
(X
hcdk
lineales
X
, con
esta definicin ahora se tiene que B se estima con un estimador de razn y su ECM, es
1
Yhdck Y X hdck X
y tambin
el correspondiente. Sean U 1hd =
c
U 2 hd =
c
hdck
(X
hdck
hdck
)(
(U
1hd
B U 2 hd )
y con esta
2
l l lh
(
)
V
B
=
expresin, L
(Whd Wh ) .
h =1 (l l 1) d =1
L
1 3
151
CONCEPTOS DE MUESTREO
convenientes, U1hdck, U2hdck, U3hdck, y U4hdck, asociadas a cada elemento de muestreo
y que incluya los factores de expansin, es decir el inverso de las probabilidades de
seleccin de cada elemento. Con ellos se obtiene los estimadores ponderados de los 4
parmetros
1 = U 1hd ,
lineales:
2 = U 2 hd ,
h
3 = U 3hd
= 1 3 = R1 R 2 .
4 = U 4 hd , con ellos se obtiene el estimador
2 4
h
d
Se definen ahora dos variables nuevas W1hd =
(U
1hd
(U R 2U 4hd )
R1U 2 hd )
y W2 hd = 3hd
2
4
Con ellas se tiene que Whd = W1hd W2 hd y la varianza de la diferencia estimada es:
2
1 3 L ll lh
(Whd Wh ) .
VL =
(
)
1
l
h =1 l
d =1
4
2
X hdckYhdck
muestra
X hdck X hdck
nuestra
hdck
hdck
U ihdck U jhdck
hdck hdck
hdck , hd ck
donde = hdck ,hd ck
y con
hdck ,hd ck
B , i, j = 1,...q .
U ihdck = X ihdck Yhdck X hdck
Los elementos de la matriz , son los estimadores Horvitz-Thompson de las varianzas y
covarianzas de U ihdck con U jhdck . Si se conoce el diseo y sus factores de expansin se
pueden usar expresiones de esquemas A y B de Raj, o en el caso de que se tenga n<<N,
la aproximacin
ll lh
(Wihd Wih )(W jhd W jh ) , donde
(
)
1
l
h =1 l
d =1
lh
Wihd =
c
U ihdck
hdck
, W jhd =
c
U jhdck
hdck
y con Wih =
ihd
lh
lh
y W jh =
W
d
lh
jhd
152
CONCEPTOS DE MUESTREO
Uso de Esquemas A y B de Raj.
El supuesto de que las UPM se obtienen en cada estrato por muestreo con iguales
probabilidades de seleccin y con reemplazo, es poco realista. Entonces las expresiones
de errores cuadrticos para los parmetros complejos como funciones de parmetros
lineales son una aproximacin que funciona bien en la medida que se use mas en cada
estrato y que nh<<Nh . En caso de que se tenga un mas con estratos con pocas UPM,
la aproximacin no es buena, en este caso se deben usar las expresiones del Esquema A
de Raj, que aparecen como (19.1) y (19.2). En el caso en que las UPM dentro de cada
estrato se tomen con ppt con reemplazo se debe usar el esquema B de Raj, con
expresiones (19.3) y (19.4). Si se tiene un esquema ppt de seleccin de UPM sin
reemplazo, se puede usar como una buena aproximacin el esquema B de Raj siempre y
cuando se tenga nh<<Nh. Finalmente si se tiene un esquema de seleccin con
probabilidades desiguales y sin reemplazo hay que usar estimadores de varianzas de
Horvitz-Thompson lo que requiere el conocimiento de las probabilidades de inclusin de
segundo orden hdck ,hd ck
=
Modelos Lineales.
Otro enfoque, adicional a los de linearizacin y de remuestreo, para la varianza de
estimadores en los modelos lineales consiste en multiplicar los estimadores de los
errores estndar de los coeficientes de regresin por la raz cuadrada del DEFF de la
media de la variable dependiente. Esto es un mtodo conservador ya que los errores
estndar que resultan son sobreestimaciones de los reales.
153
R=
X
V (G )
ECM ( R ) =
X 2
Donde
R X hijk ...
en toda la poblacin.
La
N
Y =
n
Y
i =1
N
X =
n
Y
R =
X
X
i =1
(Yi RX i )
n
N
G = (Yi R X i ) = N i =1
n i =1
n
(Yi RXi )
(G ) 1
V
1 2 1 1 1 n
i=1
ECM(R) = 2 = 2 V(N
)= 2 N ( )
(Yi RXi 0)2
n
n N n 1 i=1
X
X
X
h =1
h =1
Y = Yh = N h yh
h =1
h =1
G = G h = N h {
Y
R =
X
h =1
h =1
X = X h = N h xh
nh
(Y
i =1
hi
R X hi )
nh
nh
1
ECM ( R ) = 2
X
1
ECM ( R ) = 2
X
(Yhi R X hi
V ( N
i =1
N {(
h
2
h
nh
nh
)=
1
X 2
N V {
h
2
h
(Y
hi
R X hi )
nh
nh
(Yhi R X hi
1
1 1 nh
Yhi R X hi i =1
(
)
nh N h nh 1 i =1
nh
1 n Ty
Zy
Y n i Pi
R= = n
=
Zx
X 1 Tx
n i Pi
i
n T
1
G
G = i = Z G
n i Pi
R X ijk ...
en la
1
1
ECM ( R ) = 2 [V (G )] = 2 [V ( Z G )]
X
X
2
n
T
1 1 1 Gi
0
ECM ( R ) = 2
X n n 1 i Pi
S z2G
Txi
Tyi
1
1
1
1
ECM ( R ) = 2
R = 2
X n n 1 i Pi
Pi
X n
n
ZGi =
T yi R Txi
Pi
= Z yi R Z xi
1
Yh
Y
h nh
h
R= = L
= T
1
X
h X h
h nh
L
Thyi
i P
hi
=
nh
Thxi
i P
hi
nh
hy
hx
h
L
h
1 nh Thyi 1 nh
Z hy =
= Z hyi
nh i Phi nh i
L
h =1
h =1
h =1
G = G h = Z G hy =
1
nh
nh
Thyi R X hxi
Phi
(R) = 2
ECM
n
n
P
nh i
Phi
(
1
)
X
h h h
i
hi
Ntese, de nuevo que se trata de la varianza de Zs
construidas con los totales estimados de la nueva
variable Ghijk..., en las UPMi en muestra. Se genera la
variable ZGhi que es:
L
nh
ECM ( R ) = 2 Vh ( Z Ghi )
X h nh
Yhi
, X hi y Ghi
Donde i= 1,...,nh y h=1,...L. Se conocen los tamaos de
los estratos Nh. Y con ellos sus ponderadores Wh =
Nh/N. Se considera solo el estimador combinado,
para que tengan sentido las medias.
R =
h
L
X h
h
L
N h nh
Y hi
nh i
Y
=
nh
X
Nh
X hi
nh i
nh
G hi
L
L
G = G h = N h i
nh
h
h
donde
G hi
es
el
las UPMhi en
muestra
El error cuadrtico medio del estimador de R es:
(G )
V
ECM ( R ) =
X 2
Si se ignora la contribucin al ECM de las USM dentro
de las UPM, y las UTM dentro de las USM, etc. Se
tiene que :
n
hi
L
L
V (G ) = V { G h } = N 2 hV i
nh
h
h
10
nh
G hi
L
V (G ) = N 2 hV i
nh
h
L
1 2
2 1
=
N
(
) S Ghi
h
n
N
h
h
h
donde
2
SG hi
nh
1
1
(Yhi Rc X hi ) (Yhi Rc X hi )
nh 1 i =1
nh 1=1
nh
11
Caso
Y = Yh
h =1
R=
X
X = X h
h =1
G = G h
h =1
(G )
V
ECM ( R ) =
X 2
LB
+ V { 1
nh
h
nh
Thyi R X hxi
Phi