You are on page 1of 46

Sesin Tcnica 5

Diseos de Muestreo
PRIMERA PARTE

Diseo de muestreo y diseo de


la encuesta
Diseo de muestreo de una encuesta: conjunto
de tcnicas para seleccionar una muestra
probabilstica y los mtodos de estimacin
empleados para inferir los valores de los
parmetros de inters a partir de la muestra.
Diseo de la encuesta: definiciones, mtodos y
procedimientos concernientes a todas las fases
necesarias para conducir la operacin.

Conceptos previos
Poblaciones: Una poblacin (U) es un conjunto
de (N) elementos. Un elemento se denotar
por i.
Variables: Cada elemento tiene asociados
valores de variables de inters. Sea yi el valor
de la variable y en el i-simo elemento.
Parmetros: Son valores desconocidos de la
poblacin que nos interesa estimar.
Muestra: Una parte (de tamao n) de la
poblacin. Una muestra se denotar por M.

Conceptos previos (cont.)


Conjunto de observaciones: A cada elemento
seleccionado en la muestra la observamos y
tendremos al conjunto de observaciones: O :
{yi: i M}.
Estimador: Funcin (T) de las observaciones
(T=t(O)), que usamos para estimar los
parmetros.
Error de muestreo: Error proveniente de
observar M y no U. (Error intrnseco)
Errores no de muestreo: Los otros errores.

Conceptos previos (cont.)


Cmo se mide el error de muestreo?
Como veremos ms adelante la varianza estimada del
estimador juega un papel clave porque ella es una
medida de la variabilidad entre las estimaciones que
esperaramos si se tomaran muchas muestras. El
problema es que la varianza depende de la unidad
de medida, por ello es conveniente utilizar el
Coeficiente de Variacin que es libre de unidad de
medida:
varomuestral
usar intervalos de
CV
estimacin del parmetro

confianza

Diseos de muestreo ms comunes


Muestreo Aleatorio Simple (MAS)
Muestreo Aleatorio Estratificado (MAE)
Muestreo por conglomerados:
Con seleccin MAS
Con seleccin proporcional al tamao (PPT) u
otro diseo de probabilidad variable.

Muestreo sistemtico
Muestreo en varias etapas

MUESTREO ALEATORIO
SIMPLE

Muestreo Aleatorio Simple (1)


Definicin: M.A.S. es el diseo en el cual cada
muestra posible tiene igual probabilidad de
seleccin ( ).
Una consecuencia es que en MAS cada elemento
de la poblacin tiene la misma probabilidad de ser
seleccionado en la muestra (n/N ).
Estos procedimientos de muestreo se conocen
como Mtodos de seleccin equiprobables
(EPSEM).
MAS es EPSEM pero no todos los EPSEM son
MAS.

Muestreo Aleatorio Simple (2)


Cmo se selecciona una MAS? Por definicin,
cada elemento (i) de los N de la poblacin tiene
igual probabilidad de ser seleccionado (p i =
n/N). Una forma prctica es elegir n de a uno y
sin reponer sorteando n nmeros aleatorios
distintos entre 1 y N. Usando una tabla de
nmeros aleatorios o un programa de
cmputo (por ejemplo la funcin ALEATORIO
de Excel ).

Muestreo Aleatorio Simple (3)


Estimadores insesgados:
- Para la media poblacional (), la media
muestral: y 1 y i
n iM

- Para el total poblacional (N): Y N y


- Para la varianza poblacional la varianza
muestral corregida: va r( y ) (1 - n )s n 2 siendo
1
2
s
(y

y
)
i
n 1 iM
2
n

Muestreo Aleatorio Simple (4)


Intervalos de confianza:
Un intervalo de confianza (IC) al (1-)% es un
intervalo que contiene al verdadero valor del
parmetro poblacional con probabilidad igual
a 1-.
IC para la media (n>50): y z 1 va r( y )
siendo z 1 el valor de la distribucin Normal
Estndar que acumula 1-/2 de probabilidad:
= 0.1

z1- = 1.645

= 0.05

z1- = 1.96

= 0.01

z1- = 2.576

Muestreo Aleatorio Simple (5)


Determinacin del tamao de la muestra:
Sea e el error mximo permitido (en la
unidad original), entonces el n que
garantiza ese error mximo para la
estimacin de al nivel de confianza 1-
2

en el MAS es:
Problema: ?

N(z 1- )
n
2
2
2
Ne (z 1- )

Muestreo Aleatorio Simple (6)


Caso particular: Estimacin de proporciones (o
porcentajes).
Si el objetivo es estimar una proporcin, las cosas se
simplifican porque la proporcin no es ms que la media de
una variable y que slo toma los valores 0 1. Los
estimadores insesgados son:
-Para la proporcin poblacional: la proporcin observada en la
muestra
-La estimacin de la varianza se simplifica porque en este
caso s2=(n/n-1)(p(1-p))
-Para los intervalos de confianza hay que tener cuidado con la
aproximacin Normal (ver tabla en las Notas)
-En la determinacin del n, 2 puede acotarse por 0.25

Muestreo Aleatorio Simple (7)


Estimacin de una razn (o cociente): Dos casos:
a) La razn es el parmetro a estimar
b) La razn la estimamos para estimar otro parmetro.
Caso a): Se quiere estimar el cociente y/x (por ejemplo:
rendimiento=produccin/rea) y se estima la media de y y
la media de x y se usa como estimador a:
y
r

x
Caso b): Se tiene informacin auxiliar sobre x sea X, se usa
esa informacin para estimar el total (o la media de Y)
y
mediante:

YX

Xr

Con MAS, r
es un estimador sesgado de la verdadera razn

MUESTREO ALEATORIO
ESTRATIFICADO

Muestreo Aleatorio Estratificado (1)


Definicin: La poblacin de N elementos se
divide en L grupos llamados estratos. Se
toman luego M.A.S. dentro de cada estrato.
Consecuencia: la probabilidad de seleccin
de un elemento de la poblacin ya no es
constante (depende del estrato al cual
pertenece).
Cundo es ms eficiente? Cuando los
estratos son muy homogneos
internamente y heterogneos entre ellos.

Muestreo Aleatorio Estratificado (2)


Sean: Nh = tamao de la poblacin del estrato h.
nh = tamao de la muestra del estrato h.
yhi = valor de y en la i-sima unidad del
estrato h
h = media poblacional en el estrato h
L

Por tanto:
h 1

;
h 1

Nh
h
h 1 N

Muestreo Aleatorio Estratificado (3)


Estimadores insesgados:
- Para la media poblacional ():

y est

- Para el total poblacional (N):

Nh

yh
h 1 N

Y N y est

- Para la varianza poblacional (2):


2

Nh
sh
va r( y est ) 2 (N h n h )
nh
h N

donde sh2 se define como antes, pero a


nivel del estrato

Muestreo Aleatorio Estratificado (4)


Intervalos de confianza:
Lo ya desarrollado para el M.A.S. vale aqu
sustituyendo y por y est (cuidado con la
aproximacin Normal)

Determinacin del tamao de muestra:


Ahora debemos determinar tantos tamaos
de muestra como estratos (L). Se
determina el tamao n de la muestra total
y se distribuye entre los estratos, cmo?

Muestreo Aleatorio Estratificado (5)


Asignaciones usuales:
Distribucin proporcional: asignamos a cada
estrato una proporcin de n, igual a la
proporcin de N del estrato: nh = n(Nh /N) ;
Distribucin ptima: adems de Nh considera la
dispersin de los valores de y en el estrato:

N h h
nh n
N h h
h

Muestreo Aleatorio Estratificado (6)


Determinacin del n:
1) En el caso de asignacin proporcional:
Nz12
n 2 2 2
N e z 1 N h h2
h

2) En el caso de la asignacin ptima:

z 12

N h h

N 2e 2 z 12 N h h2
h

Muestreo Aleatorio Estratificado (7)


Problemas a resolver:
1) Cmo aproximar los L valores h ?
2)
3)
4)
5)

L?
Puntos de corte de los estratos?
Qu variable de estratificacin usar?
Cmo controlar el error de estimacin
de varios parmetros a la vez? (este
problema vale para todos los diseos)

Muchas gracias

Sesin Tcnica 5
Diseos de Muestreo
SEGUNDA PARTE

Post estratificacin
Concepto: Se desea clasificar las unidades de una
poblacin en grupos a partir de la muestra y luego
de haber realizado la encuesta, pero el diseo no
fue estratificado.
Supongamos que extrajimos n unidades mediante
M.A.S. y luego se desea post-estratificar la
poblacin en L estratos. La diferencia con el M.A.E.
es que los nh pasan a ser variables aleatorias
(cambian de muestra a muestra). Lo interesante ( e
intuitivo) es que el valor esperado de esa variable
N
n

n
aleatoria es:
es decir en promedio la
N
muestra de n unidades se va a distribuir como en la
asignacin proporcional.
h

Muestreo por conglomerados(1)


Definicin: La poblacin se divide en grupos
(conglomerados) y cada grupo pasa a ser una
unidad de muestreo.
Tipos:
a) Si la unidad final de muestreo es el conglomerado:
Muestreo por conglomerados mono-etpico
b) Si los conglomerados seleccionados se sub-muestrean:
Muestreo por conglomerados poli-etpico (en dos
etapas, en tres etapas, etc.). En este caso se tendrn:
Unidades primarias de muestreo (UPM PSU),
unidades secundarias de muestreo (USM SSU), y as
sucesivamente.
Cundo es ms eficiente? Cuando los conglomerados son
muy heterogneos dentro y homogneos entre s

Muestreo por conglomerados(2)


Razones para usar el Muestreo por
conglomerados:
1.Construccin de marcos: listamos solo los
elementos de los conglomerados
seleccionados.
2.Economa de recursos: una vez en el
conglomerado es ms econmico visitar
los elementos del conglomerado que
elementos dispersos.

Muestreo por conglomerados mono-etpico (1)


Concepto: La poblacin se divide en N
conglomerados y hay Mj unidades en el j-simo
conglomerado. Llamando M al nmero de unidades
originales de la poblacin: M M
Sea yjk el valor de la variable en la k-sima unidad
secundaria del j-simo conglomerado. Entonces, el
N M
N
total poblacional de Y es Y y jk y j
N

j1

j1 k 1

j1

Y
La media por unidad es:
M

La media por conglomerado es:

congl

Y
N

Muestreo por conglomerados mono-etpico (2)

Caso 1: De los N conglomerados elegimos n


mediante M.A.S y barremos todas las
unidades de los conglomerados
seleccionados. Los estimadores insesgados
de la media y la varianza surgen facilmente
del MAS ya que cada conglomerado es ahora
una unidad que tiene asociada el total del
valor de la variable en el conglomerado (es
decir la suma de los valores de y para los
elementos del conglomerado).
(Observacin: en este caso no hay contribucin a la varianza muestral de la
varianza dentro del conglomerado porque se censan todos los elementos
del conglomerado, es decir el total de cada conglomerado muestreado se
obtiene sin error de muestreo

Muestreo por conglomerados mono-etpico (3)

Si la variable y est altamente correlacionada


con el tamao del conglomerado, se demuestra
que el estimador de razn:
n

M
y r r

y
j 1
n

M
j 1

M
N
j

es muy eficiente. Es sesgado pero el sesgo


disminuye rpidamente al aumentar n.
(Ver estimador de la varianza en las notas 2.3.2 (frmula [35]))

Muestreo por conglomerados mono-etpico (4)

Caso 2: De los N conglomerados elegimos n


mediante muestreo con probabilidad
proporcional al tamao (ppt) (con repeticin) y
barremos todas las unidades de los
conglomerados seleccionados. Es decir que el
conglomerado j lo elegimos con probabilidad
Mj/M. Cmo se hace? Se forma la suma
acumulativa de las Mj y se forman intervalos
con extremos en los acumulados
consecutivos, elegido un nmero al azar se
observa a qu conglomerado de la lista

Muestreo por conglomerados mono-etpico (5)

Ejemplo:
Conglomerado

Tamao (Mj)

Mj

Rango asignado

20

20

1-20

10

30

21-30

45

75

31-75

67

142

76-142

50

192

143-192

16

208

193-208

25

233

209-233

13

246

234-246

Seleccionamos nmeros al azar entre 1 y 246, sale por ejemplo el 123,


entonces el conglomerado 4 es seleccionado y as sucesivamente, con
reemplazo, es decir volvemos a sortear un nmero entre 1 y 246, sale
por ejemplo el 78, el conglomerado 4 es nuevamente incluido, luego,
en la tercera extraccin obtenemos el 205, entra el conglomerado 6,
etc.

Muestreo en varias etapas (sub-muestreo)

Concepto: La poblacin se divide en grupos


(conglomerados que son unidades primarias
de muestreo: UPM), se muestrean
conglomerados pero en lugar de barrerlos
se selecciona una muestra de unidades del
conglomerado (unidades secundarias de
muestreo: USM), luego en una tercera etapa
puede a su vez submuestrearse y as
sucesivamente.
Es el diseo complejo ms utilizado en las encuestas.
Pueden combinarse distintos diseos en las diferentes
etapas

Muestreo en dos etapas (1)


Caso 1: M.A.S. en ambas etapas.
Primera etapa: se eligen n UPM de las N con M.A.S.
Primera etapa: se eligen mi USM con M.A.S de la i-sima
UPM seleccionada.
Observacin: se agrega ahora la varianza muestral entre
USM dentro de las UPM.
Estimadores: el total de la j-sima UPM seleccionada
se
m
y j M j y j siendo y j yij
estimar por
i 1
Y la media poblacional es insesgadamente estimada por:
j

1 n
y y j
n j1

Varianza y estimador ver Notas 2.5.2 frmulas [40] y [41]

Muestreo en dos etapas (2)


Caso 2: UPM elegidas con ppt y USM con
M.A.S
En este caso un estimador insesgado del total
M

y
es:
n
y la estimacin de la varianza se simplifica:
n

ppt

j1

Yppt
M
y j

var(Yppt )

n(n 1) j 1
M
2

Un caso particular muy utilizado en los muestreos


agrcolas es el muestreo de reas.

Caso particular: Muestreo de reas.


Concepto: Las UPM son reas contiguas de
terreno (por ejemplo segmentos censales o
subdivisiones de ellos). Se estratifican (por
ejemplo, por uso del suelo) y se seleccionan ppt
(con reposicin). Luego las UPM seleccionadas
se segmentan (el tamao del segmento est en
funcin del estrato) y se selecciona UN
segmento al azar (M.A.S) por UPM sorteada.
Esta forma de proceder simplifica mucho las
cosas como veremos en la siguiente diapositiva.

Muestreo de reas
Asignada la UPM a su estrato y definido el tamao que tendrn
todos los segmentos de ese estrato queda determinado el
nmero de segmentos (aproximado) de cada UPM. Sea Mjh el
nmero de segmentos de la j-sima UPM del estrato h, en la
poblacin. En la primera etapa elegimos la muestra de UPM con
probabilidad proporcional al nmero de segmentos: Mjh /Mh luego
en la UPM seleccionada elegimos 1 segmento aleatoriamente.
Cul es la probabilidad de inclusin de un segmento del estrato
h en la muestra? Pr(segmento sea seleccionado/sali la
UPM)xPr(UPM) = (1/Mjh)x(Mjh /Mh )=1/Mh es decir es igual a sacar
1 segmento del total de segmentos del estrato.
Y esto simplifica mucho las cosas. VER: FAO: Encuestas
Agrcolas con Mltiples Marcos de Muestreo.Vol 1. (Cap 4)

Muestreo sistemtico (1)


Slo la primera unidad es seleccionada
aleatoriamente y luego se elige una cada
tantas hasta completar las n. Si la
poblacin tiene N unidades y k=N/n,
elegimos aleatoriamente un nmero entre
1 y k y luego una de cada k.

Muestreo sistemtico (2)


Propiedades: 1)es un diseo EPSEM ya que cada unidad tiene
la misma probabilidad de ser seleccionada (aunque no es
equivalente al M.A.S.).
2) Puede tratarse como un diseo por conglomerados donde
elegimos un conglomerado de k conglomerados posibles o
como un diseo estratificado en n estratos y elegimos una
unidad de cada uno.
3) No se puede estimar insesgadamente la varianza.
4) Cuando k no es entero hay que usar muestreo sistemtico
circular
5) Es muy simple y cuando la correlacin entre las unidades
disminuye con la distancia entre ellas es muy eficiente.

Eleccin de un diseo
Elementos a considerar:
1) Presupuesto
2) Facilidades computacionales
3) Personal capacitado disponible
4) Informacin de base
5) Marcos disponibles y costo de
elaboracin/actualizacin
6) Niveles de precisin requeridos
7) Nivel de desagregacin de los datos

Estimacin de la varianza(1)
A fin de calcular el error de muestreo (en
cualquier diseo) es necesario estimar la
varianza muestral de los estimadores. En
algunos casos ello no es posible, por ejemplo en
el muestreo sistemtico usual. En otros no hay
una expresin algebraica para la varianza
estimada o sta es muy compleja. Por ello se
han diseado diversos mtodos para estimarla.
Los paquetes estadsticos ms usados en
general incorporan alguno de ellos.

Estimacin de la varianza(2)
Algunos mtodos:
Linearizacin: Estimadores no lineales, se aproximan por el
desarrollo en series de Taylor y se desechan los trminos
mayores a los de primer orden. Caso ms comn: estimacin
de la varianza de estimadores de razn.
Grupos aleatorios (Muestreo replicado): La muestra total de n
se divide en R grupos (de tamao n/R), de manera que cada
grupo es una versin en pequeo de toda la encuesta. Si las
muestras de cada grupo son independientes, y siendo rel
parmetro estimado por la r-sima muestra, se demuestra
1 R es:
que un estimador insesgado de la varianza de
r
V

R r 1

1
r Caso ms comn: estimacin de la

R ( R 1) r 1
R

varianza en el muestreo sistemtico


(con R arranques aleatorios).

Estimacin de la varianza(3)
Replicas balanceadas (BBR): La muestra se divide en H
estratos con 2 unidades por estrato. Hay 2H maneras de
elegir una submuestra de tamao H con una unidad por
estrato. Se toman R de estas muestras asignado los
valores 1 y -1 a cada unidad en cada estrato. Cada
submuestra as obtenida es un vector (r ) de H
componentes 1 y -1 que corresponden a H unidades
etiquetadas con 1 y -1. Se eligen aquellos que sean
ortogonales 2 a 2. Siendo (elr )estimador de para el rsimo vector, una estimacin de la varianza es:
R
1
( r )
V

R( R 1) r 1

siendo

R
1
r
R r 1

Estimacin de la varianza(4)
Jacknife: La muestra se divide aleatoriamente en k
grupos de m observaciones cada uno (n=mk). Se estima
el parmetro con toda la muestra () y con las unidades
de k-1 grupos (se omite el grupo -simo). Sea
k
1
un

k (k 1 )( ) y entonces

estimador de la varianza es:

k 1

k
1
V

k ( k 1) 1

Bootstrap: Como las anteriores es una tcnica de remuestreo donde R muestras independientes de tamao
n con reposicin son independientemente extradas de
la muestra de n original y se producen R estimaciones y
se estima la varianza entre elllas.

Software

Todos los mtodos de estimacin de la


varianza son muy intensivos en clculo y
requieren de paquetes especficos. Dentro
de los paquetes estadsticos ms comunes
los mtodos incorporados son:
SAS: Linearizacin
Stata: Linearizacin
SUDAAN (software desarrollado para el anlisis de diseos complejos) :
Linearizacin, Jacknife, BRR, Bootstrap
Osiris (para Mac): BRR y Jacknife
R: Linearizacin, Jacknife, BRR, Bootstrap

Muchas gracias

You might also like