Professional Documents
Culture Documents
INFERENCIA ESTADSTICA
INTRODUCCIN.
El empleo de encuestas es uno de los mtodos de investigacin ms utilizados en
la actualidad. La realidad, en continuo cambio y con muchsimas opciones diferentes, es
muy difcil de abarcar en su totalidad. Por este motivo se hace necesario seleccionar una
parte lo ms pequea posible, pero representativa del total, en la que sea posible medir
las caractersticas deseadas. Esta necesidad ha obligado a crear un instrumento
matemtico que llamamos muestreo.
Las muestras que se elijan para hacer un estudio deben ser lo ms pequeas
posible por exigencias de tiempo y coste. Adems, el aumento del nmero de datos no
siempre acarrea una mayor certeza, ya que ms importante que escoger muchos datos es
que los datos estn bien seleccionados, con el fin de que sean representativos de la
poblacin que se desea estudiar. Se ver como el azar juega un papel importante en la
eleccin de la muestra para que sta sea representativa.
En este tema estudiaremos dos parmetros de una poblacin: la media de una
determinada caracterstica numrica y la proporcin o porcentaje de la poblacin que
comparte un determinado rasgo comn.
La inferencia estadstica se basa en resultados de la teora de la probabilidad, los
cuales nos aseguran, que al estudiar la media o la proporcin de muestras, tomadas
adecuadamente en la poblacin, estas caractersticas sern muy similares a las de la
poblacin total.
El mtodo de inferencia estadstica hace estimaciones de lo que ocurre en toda la
poblacin estudiando lo que ocurre en una parte de la misma (la muestra). Como se
pretende sacar conclusiones sobre el total de la poblacin a partir de una muestra de la
misma, estas conclusiones estarn sujetas a error. La teora de la probabilidad permite
tambin acompaar a la estimacin muestral de una media o de una proporcin, en una
poblacin, de la probabilidad de que el error cometido no exceda de un determinado
valor, o del riesgo (probabilidad de equivocacin) que se corre al aceptar o al rechazar
una hiptesis sobre los valores de la media o de la proporcin de la poblacin.
Ahora bien, la inferencia se hace a partir de muestras que deben estar
debidamente escogidas. Por esta razn trataremos previamente a los mtodos de la
inferencia, las tcnicas de muestreo, es decir, las diversas formas de poder seleccionar
una muestra que sea adecuada para realizar las inferencias, controlando el posible error.
Para trabajar este tema se necesita el manejo de los nmeros combinatorios
como herramienta de clculo y el conocimiento y uso de la distribucin normal y sus
propiedades.
Finalmente, insistir en la importancia de la inferencia estadstica como disciplina
fundamental en todas las reas cientficas, tanto naturales como sociales.
Inferencia estadstica.
ESTADSTICA
POBLACIN Y MUESTRA.
En el campo de la Estadstica el concepto de poblacin se encuentra prximo a
la nocin general de grupo o conjunto.
Definicin.
POBLACIN.
Se llama poblacin o universo a cualquier conjunto, colectivo o
coleccin finita o infinita de individuos o elementos.
Una poblacin puede ser, no slo un conjunto de personas, sino tambin un
conjunto de animales, objetos, fenmenos, medidas, .....
Ejemplo:
Si pasamos un test a todos los alumnos espaoles de una determinada edad, los
resultados obtenidos constituyen una poblacin de medidas de la capacidad a la que se
derige el test.
Definicin.
CENSO.
Se da el nombre de censo a la enumeracin y anotacin de ciertas
caractersticas de todos los elementos de una poblacin.
Ejemplo:
El profesor-tutor de un grupo de un instituto realiza un listado de los alumnos/as
de su tutora, en la incluye, nombre y apellidos, nombre de los padres, domicilio,
telfono, nmero de hermanos y asignaturas pendientes del curso anterior. Este sera un
ejemplo de censo de la poblacin formada por el alumnado del grupo en cuestin.
Las poblaciones en Estadstica pueden ser finitas o infinitas. Una poblacin es
finita cuando consta de un nmero limitado de unidades, y una poblacin es infinita
cuando su tamao es indefinidamente grande.
Ejemplo:
- Si consideramos el nmero de hermanos que tienen los alumnos/as de un
curso de un instituto determinado, estaramos hablando de una poblacin
finita. Habra tantos valores como alumnos/as haya en dicho curso.
- Si obtenemos una serie de medidas del tiempo que tarda un alumno en
resolver una divisin de dos cifras, estas medidas pueden consideradas parte
de un conjunto mucho mayor, de tamao indefinidamente grande, constituido
por todas las medidas que obtendramos si repitisemos la experiencia una y
otra vez.
- Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos el
valor de la cara superior. Tal experiencia puede ser repetidamente hasta el
infinito, por lo que cualquier conjunto de resultados podra ser considerado
una parte extrada de una poblacin indefinidamente grande.
En definitiva, con frecuencia, las poblaciones en Estadstica suelen ser
consideradas infinitas.
Inferencia estadstica.
ESTADSTICA
El gran tamao que presentan algunas poblaciones es precisamente la principal
razn que hace recomendable reducir su estudio a muestras obtenidas de ellas.
Definicin.
MUESTRA.
Se define muestra como una parte o subconjunto de una poblacin,
debidamente elegida, que se somete a observacin cientfica en representacin
de la misma, con el propsito de obtener resultados vlidos para el total de la
poblacin.
Para que una muestra se considere vlida debe cumplir que:
Inferencia estadstica.
ESTADSTICA
El impacto sobre la realidad estudiada. Cuando el estudio realizado pudiera
provocar efectos en los sujetos, parece adecuado limitar la realizacin de
experimentos a mbitos reducidos. Por ejemplo, la medicin de los
resultados de un nuevo mtodo de aprendizaje de la lectura habra de hacerse
sobre un nmero reducido de alumnos, sin extender a toda la poblacin la
nueva metodologa hasta no confirmar los resultados positivos de la misma.
d) Una poblacin homognea. Si la poblacin es homognea se pueden obtener
muy buenos resultados a partir de cualquier muestra.
e) La falta de personal. Si no se dispone de suficiente personal preparado para
llevar a cabo un estudio exhaustivo, tambin resulta aconsejables hacer un
muestreo.
c)
Por otro lado, el uso del muestreo presenta limitaciones, entre estas destacamos:
a)
b)
c)
d)
El riesgo que supone la toma de una muestra que pueda no ser representativa.
Cuando es necesaria informacin de todos los elementos de la poblacin.
Cuando no se domina bien la tcnica de muestreo.
Cuando la poblacin est formada por un nmero muy pequeo de
elementos, ya que una ligera equivocacin en la toma de la muestra puede
originar grandes errores.
Inferencia estadstica.
ESTADSTICA
Definicin.
ESTADSTICO Y ESTIMADOR DE UN ESTADSTICO.
Los valores que describen a las poblaciones recibirn el nombre de
parmetros o estadsticos, mientras que las medidas que describen el
comportamiento de una muestra se denomina estimador del parmetro o
estimador del estadstico.
Ejemplo:
A partir del valor alcanzado por la media en una muestra podramos intentar
estimar el valor de la media de en la poblacin. As, si los diez jvenes del ejemplo
anterior son alumnos/as elegidos al azar de una escuela de baloncesto, intentaramos
deducir la estatura media de los integrantes de dicha escuela, tomando como referencia
los 176 centmetros obtenidos.
TIPOS DE MUESTREO.
Definicin.
MUESTREO.
Se llama muestreo al procedimiento mediante el cual elegimos a las
unidades estadsticas que forman la muestra, dentro del conjunto que constituye
la poblacin.
Diremos que el muestreo es probabilstico cuando todos los elementos
de la poblacin poseen un probabilidad conocida (o calculada de antemano), no
nula, de ser elegidos para formar parte de la muestra. Se contrapone al llamado
muestreo no probabilstico, en el que, o bien no se conoce la probabilidad de
que los elementos de la poblacin sean seleccionados para la muestra, o bien
para parte de ellos esta probabilidad es nula y, por tanto, no es posible llevar a
cabo inferencias estadsticas.
Lgicamente, el muestreo que se encuentra en la base de la mayora de los
mtodos de la Estadstica Inferencial es el muestreo probabilstico. Para llevarlo a cabo
es necesario que la seleccin pueda considerarse como una prueba o experimento
aleatorio o de azar, de los que constituyen la base de la teora de la probabilidad en la
cual se fundamenta la estadstica matemtica.
Las generalizaciones de resultados, a partir del estudio de muestras extradas
mediante procedimientos de muestreo no probabilstico, nos impiden conocer el margen
de error con el que hacemos las generalizaciones a la poblacin. En cambio, el muestreo
probabiltico permite hacer inferencias sobre la poblacin, y gracias a los
procedimientos de la Estadstica Inferencial podemos conocer el error con el que se
realizan las generalizaciones.
En las pginas siguientes, se describen muestreos probabilsticos (muestreo
aleatorio con y sin reposicin, muestreo aleatorio sistemtico, muestreo estratificado,
muestreo por conglomerados, muestreo polietpico) y muestreos no probabilticos
(muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dos
Inferencia estadstica.
ESTADSTICA
conceptos que aparecen al referirnos al muestreo: factor o coeficiente de elevacin y
fraccin de muestreo.
Definiciones.
FACTOR DE ELEVACIN.
Se denomina factor o coeficiente de elevacin al cociente entre el
tamao de la poblacin y el tamao de la muestra,
N
. Representa el nmero
n
n
. Si se multiplica por 100, representa el
N
n
es mayor de 0.1 (se muestrea ms
N
Inferencia estadstica.
ESTADSTICA
En el muestreo aleatorio sin reposicin, el nmero de muestras de tamao n que
determinada es:
1 !nnN !
p
N N!
n
N
n
n
.
N
En efecto:
N 1
caso favorables n1 N 1! N n! n! n
p
caso posibles N N n! n1! N! N
n
Inferencia estadstica.
ESTADSTICA
ello, si la poblacin es finita, se enumeran los elementos de la poblacin desde 1 hasta
N, y se extraen a continuacin n elementos usando una urna o un bombo. Este
procedimiento, aunque sencillo, requiere tener unos medios materiales: un bombo o una
urna, papeles numerados o bolas numeradas, etc., por lo que se suelen utilizar otras
alternativas como las tablas de nmeros aleatorios o la generacin de nmeros aleatorios
con la calculadora.
Las tablas de nmeros aleatorios son tablas de nmeros colocados de tal forma
que no exista ninguna relacin entre ellos sea cual sea el sentido en que los leamos. Al
final de los contenidos tericos de este tema aparece una tabla de nmeros aleatorios.
Ejemplo:
Si en una poblacin de 834 individuos deseamos extraer una muestra de 42,
asignaramos un nmero a cada uno de los 834 elementos de la poblacin. Para
determinar los 42 elementos de la muestra, marcaramos un nmero en la tabla de
nmeros aleatorios al azar y a partir de ste leeramos en dicha tabla nmeros de tres
dgitos en cualquier direccin, desestimando los que superen 834.
Tambin podramos encontrar estos 42 nmeros generando nmeros de forma
aleatoria con la calculadora. As:
- Con la calculadora Texas Instruments TI-92, utilizando la orden rand(834),
obtendramos nmeros entre 1 y 834.
- Con la calculadora CASIO fx-180P, debemos utilizar la sucesin de teclas,
INV () RAN, y descartamos los nmeros que superen 834.
Muestreo aleatorio sistemtico. El muestreo aleatorio sistemtico resulta ser un
procedimiento ms cmodo que el muestreo aleatorio, con o sin reposicin, cuando la
poblacin o la muestra que vamos a extraer son grandes. En lugar de recurrir a
papeletas, bolas, tablas de nmeros aleatorios o calculadora, puede determinarse la
muestra eligiendo sistemticamente, en una relacin ordenada de los individuos de la
poblacin, aquellos que se encuentren a una distancia determinada. Suponiendo que el
tamao de la muestra es N y que la muestra que queramos extraer constara de n
individuos, procederamos del siguiente modo:
a) Calculamos el coeficiente de elevacin, k
N
.
n
m k,
m 2k ,
m 3k , ........,
m n 1 k
Inferencia estadstica.
ESTADSTICA
Supongamos que queremos hacer una investigacin en un instituto de 720
alumnos y alumnas, de los que queremos tomar una muestra de 80 individuos. En
primer lugar, ordenar todos los alumnos y alumnas alfabticamente sera un buen
criterio de ordenacin. Sin embargo, disponer los alumnos situando una tras otra las
listas de los alumnos/as de cada clase, en las que estos aparezcan por orden de
calificaciones, podra llevar a que se seleccionaran sistemticamente los alumnos/as con
calificaciones altas y no los de las calificaciones bajas, o viceversa.
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de
elevacin
720
9 . Elegimos aleatoriamente un nmero entre 1 y 9 (tabla de nmeros
80
Inferencia estadstica.
ESTADSTICA
Inferencia estadstica.
10
ESTADSTICA
Si queremos hacer un estudio sobre la influencia de un determinado pienso en el
engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y
luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cada
granja o de una muestra representativa de la poblacin de cerdos de la misma.
Muestreo polietpico. En el muestreo polietpico las unidades que finalmente
componen la muestra se determinan en etapas sucesivas. Se trata de un caso particular
del muestreo por conglomerados, en el que la unidad final no son los conglomerados
sino subdivisiones de stos. Por tanto, ser interesante aplicarlo cuando los
conglomerados contengan un elevado nmero de individuos y resulte aconsejable hacer
una seleccin entre ellos.
Si nicamente desarrollamos dos etapas, muestreo bietpico, el procedimiento
consistira en la seleccin de los conglomerados en la primera etapa, y la seleccin de
los individuos en la segunda.
No obstante, el muestreo polietpico puede extenderse a ms de dos etapas
dando lugar a una seleccin sucesiva de unidades cada vez menores, que estn
jerarquizadas de tal modo que la unidades de la primera etapa son divisibles en unidades
de la segunda etapa, stas a su vez en unidades de la tercera etapa, y as hasta alcanzar
las unidades que finalmente constituirn la muestra. Estas unidades finales no
necesariamente han de ser los individuos.
En cada etapa, la seleccin de las unidades podr hacerse siguiendo
procedimientos de muestreo aleatorio, sistemtico o estratificado.
Ejemplo:
En el ejemplo anterior referido al estudio sobre la influencia de un determinado
pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de toda
Espaa. Entonces, en una primera etapa, podramos seleccionar de forma aleatoria una
serie de provincias; en segundo lugar, en cada una de las provincias seleccionar tambin
aleatoriamente algunas comarcas (bien delimitadas); posteriormente, dentro de cada
comarca elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar
todos los cerdos o una muestra de ellos elegida adecuadamente.
B) MUESTREOS NO PROBABILSTICOS.
Muestreo intencional u opintico. En el muestreo intencional u opintico la
representatividad depende de la intencin u opinin de la persona que selecciona la
muestra, y que, segn su criterio, procura que sea representativa. Por tanto, la
evaluacin de la representatividad es subjetiva. En este caso, la composicin de la
muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del
individuo que la obtiene, y no slo por factores objetivos que son los que deben tenerse
en cuenta de modo riguroso, como ocurre en el muestreo probabilstico.
Ejemplo:
Se pretende hacer una encuesta en un instituto, entre los alumnos de 4 de
E.S.O., para saber la modalidad de Bachillerato que seguirn los que continen
Inferencia estadstica.
11
ESTADSTICA
estudiando. El Jefe de Estudios pregunta a unos cuantos alumnos de cada grupo de 4 de
E.S.O., con el nico criterio de que piensa que esos seguirn estudiando.
Este tipo de muestreo carece, pues, de una base terica satisfactoria a pesar de lo
cual su uso est bastante generalizado, especialmente el llamado muestreo por cuotas.
Muestreo por cuotas. En el muestreo por cuotas, el investigador establece
estratos de la poblacin, determina el nmero de individuos a seleccionar en cada uno
de ellos y elige intencionadamente individuos para completar las cuotas establecidas. Se
asemeja al muestreo por estratos en cuanto que supone un conocimiento previo de la
poblacin, que permite diferenciar segmentos o estratos dentro de la misma, pero se
distancia de aquel por el hecho de que aqu los individuos que constituyen la cuota
aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en
funcin de otros criterios (accesibilidad, comodidad, economa, etc.). La nica
condicin impuesta es que los individuos cumplan los requisitos fijados en las cuotas.
Ejemplo:
El agente visitador o entrevistador recoge informacin de personas o familias en
nmero proporcional al de las que cumplen determinadas condiciones en la poblacin, y
puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos
niveles socioeconmicos. As, se podra fijar que el 15 % de la muestra ha de constar de
mujeres que tengan menos de 40 aos, sean de clase media y habiten en determinado
barrio, y esta sera la nica condicin para seleccionar este 15 % de la muestra.
El muestreo por cuotas no es un muestreo probabilstico, y por tanto, no permite
llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.
Muestreo incidental. En el muestreo incidental el investigador determina
deliberadamente qu individuos formarn parte de la muestra, tratando de recoger a los
casos considerados tpicamente representativos de la poblacin. Los criterios de
eleccin suelen basarse generalmente en el conocimiento terico sobre el tema de
estudio. Pero, en definitiva, a pesar de la posible buena intencin y conocimiento del
tema y de la poblacin que tenga el investigador, la muestra no servir para hacer
inferencias a toda la poblacin ya que siempre cabe que pueda estar distorsionada por
tendencias o preferencias subconscientes o inconscientes del investigador.
Ejemplo:
Para estimar el problema de absentismo escolar, un investigador puede
seleccionar los alumnos de un centro situado en una zona de trabajadores agrcolas
temporeros que han de desplazarse en determinadas pocas del ao, los alumnos de un
centro situado en una barriada marginal de una gran ciudad y los de un centro
residencial, dado que por su conocimiento terico del problema sabe que stos
representan los diferentes tipos de comportamientos en relacin con la asistencia a
clase.
Muestreo accidental. En el muestreo accidental, tambin llamado sin norma,
circunstancial o errtico, se seleccionan determinados individuos o grupos de
individuos sin que exista ningn criterio aparente. La muestra se toma de cualquier
manera, a la aventura, por razones de comodidad o por las circunstancias que rodean al
Inferencia estadstica.
12
ESTADSTICA
proceso o a capricho. Este tipo de muestreo se considera el ms alejado de la posibilidad
de generalizar a la poblacin los resultados obtenidos.
Slo si la poblacin es homognea la representatividad de la muestra puede ser
satisfactoria. A veces la uniformidad puede sustituirse por una buena mezcla antes de
tomar muestras, como en el caso de los avisos agtese antes de usar, o bien cuando se
barajan los naipes o se hacen girar las bolas dentro de un bombo.
Ejemplo:
Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el
comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a
los artculos completos. Por otra parte, influye en la adopcin de este procedimiento en
estas cuestiones de la realidad cotidiana el hecho de que, en caso de equivocacin, las
consecuencias no seran demasiado graves.
Una broma final.
El uso de un muestreo no probabilstico podra llevarnos a consecuencias
curiosas. Imaginemos un investigador que hace un estudio sobre la respuesta anmica
ante la lluvia. Este investigador est de vacaciones en un complejo turstico de Vera,
durante una semana de principios de otoo. Sabe que en Almera la probabilidad de que
llueva es mnima. Curiosamente, aparecen las nubes y empieza a llover. Decide
aprovechar para recoger unas entrevistas de personas de una zona muy seca en la que
llueve. Pero como no tena previsto que lloviera, no ha trado paraguas, y pregunta a las
personas que estn en el bar social del complejo turstico. Todos se quejan de la lluvia.
En Almera no debera llover. Le sorprende la respuesta.... No ha tenido en cuenta que
la muestra ha de ser tomada aleatoriamente. Y, los turistas que vienen a Almera esperan
que el Sol forme parte del paisaje como el desierto de Tabernas.
INFERENCIA ESTADSTICA.
Llamamos inferencia al paso de lo particular a lo general, no en el sentido de la
induccin completa utilizada en matemticas, sino tal como se emplea en las ciencias de
la naturaleza. Se podra decir que es una afirmacin relativa a poblaciones estadsticas,
efectuada a partir de ciertas observaciones con determinada medida de incertidumbre.
Podemos considerar como un problema crucial de la Estadstica el de inferir la
poblacin o afirmar algo sobre ella a partir de una muestra. Esto equivale a basar
conclusiones y/o decisiones en la ignorancia o incertidumbre parciales.
Para que la inferencia sea la ms satisfactoria posible en una situacin
determinada se emplean tcnicas estadstico-matemticas, que permiten estimar, por
medio de muestras, las caractersticas de una poblacin, sustituyendo las conjeturas ms
o menos ingeniosas por procedimientos objetivos cuya representatividad puede medirse.
En conclusin, el problema fundamental que trata de resolver la Inferencia
estadstica es obtener de las propiedades de la muestra las de la poblacin en estudio.
Inferencia estadstica.
13
ESTADSTICA
hemos medido. Podemos seleccionar una muestra de tamao n y calcular un estadstico,
por ejemplo, la media, para los n valores seleccionados. Si volvemos a extraer muestras
aleatorias y repetimos la operacin sucesivamente, lograremos reunir un nmero
elevado de medias.
Con las medias obtenidas, podemos construir una distribucin de frecuencias
para los valores de las medias, X . Pues bien, a medida que aumenta el nmero de
muestras extradas de tamao n, esa distribucin se aproxima a una distribucin terica
que denominaremos distribucin muestral del estadstico media.
Definicin.
DISTRIBUCIN MUESTRAL DE UN ESTADSTICO.
La distribucin muestral de un estadstico se define como la funcin
de probabilidad (o funcin de densidad de probabilidad) del estimador de ese
estadstico. Es decir, se trata de una funcin que expresa la probabilidad asociada
a cada posible valor del estadstico obtenido a partir de una muestra aleatoria de
tamao n.
Ejemplo:
Para ilustrar este concepto, construiremos la distribucin muestral del estadstico
media, X , cuando extraemos muestras aleatorias de tamao 2 en una poblacin
constituida por los valores {1, 2, 3}. La muestra estar formada por los valores de las
dos variables aleatorias: x1 (resultado de la primera seleccin) y x 2 (resultado de la
segunda eleccin). A su vez, la media muestral X es tambin una variable aleatoria,
puesto que se obtiene por combinacin lineal de las dos variables aleatorias x1 y x 2 .
Formaremos muestras de tamao 2 recurriendo a dos vas diferentes:
a) Procedimiento emprico.- Seleccionamos al azar una muestra con reposicin
de 2 elementos y calculamos su media. Repetimos el proceso hasta un total
de 20 veces. Los resultados de este proceso podran ser, por ejemplo:
x1
x2
x
x1
x2
x
1
2
1.5
1
3
2
2
1
1.5
2
3
2.5
2
2
2
1
3
2
2
1
1.5
3
1
2
3
3
3
1
1
1
1
2
1.5
2
3
2.5
3
3
3
3
2
2.5
2
1
1.5
1
2
1.5
1
2
1.5
3
2
2.5
3
1
2
1
3
2
Inferencia estadstica.
ni
fi
1
1.5
2
2.5
3
1
7
6
4
2
0.05
0.35
0.30
0.20
0.10
14
ESTADSTICA
1
1
1
1
2
1.5
1
3
2
2
1
1.5
2
2
2
2
3
2.5
3
1
2
3
2
2.5
3
3
3
ni
fi
1
1
1/9 = 0.11
1.5
7
2/9 = 0.22
2
6
3/9 = 0.33
2.5
4
2/9 = 0.22
3
2
1/9 = 0.11
Conociendo esta distribucin muestral terica, se tiene que la probabilidad de
obtener el valor X 1 para la media de una muestra extrada al azar de la poblacin es
p X 1 0'11 , mientras que la probabilidad de obtener el valor X 2 es
p X 2 0'33 . Es decir, en un 11 % de los casos, la muestra tendr como media 1 y
en un 33 % de los casos, el valor de la media de la muestra ser 2.
Como afirmbamos anteriormente, la distribucin muestral emprica de un
estadstico se aproxima a la distribucin muestral terica a medida que aumenta el
nmero de muestras extradas. Las frecuencias relativas obtenidas empricamente llegan
a coincidir con las probabilidades tericas cuando el nmero de muestras crece
indefinidamente.
Veamos someramente otro ejemplo.
Supongamos que la poblacin es P = {1, 2, 3, 5} y que representa el tiempo (en
horas diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedican
al estudio.
Siguiendo la misma tcnica utilizada en ejemplo anterior tenemos:
a) El conjunto de muestras de tamao 2 de la poblacin P tiene 16 elementos
diferentes.
Medias de las muestras de tamao 2.
1
2
3
5
1
1 1.5 2
3
Inferencia estadstica.
15
ESTADSTICA
2
3
5
1.5
2
3
2
2.5
3.5
2.5
3
4
3.5
4
5
ni
1
1.5
2
2.5
3
3.5
4
5
1
2
3
2
3
2
2
1
ni
1
4/3
5/3
2
7/3
8/3
3
10/3
11/3
4
13/3
5
1
3
6
7
9
9
10
6
6
3
3
1
Inferencia estadstica.
ni
1
16
ESTADSTICA
5/4
4
6/4 10
7/4 16
2
23
9/4 28
10/4 34
11/4 32
3
31
13/4 24
14/4 22
15/4 12
4
10
17/4 4
18/4 4
5
1
T= 256
Tamao
4
16
64
256
Media
2.75
2.75
2.75
2.75
Desviacin Tpica
1.479016
1.045825
0.853912
0.73509
Distribucin de la poblacin.
Inferencia estadstica.
17
ESTADSTICA
Distribucin de las medias de las muestras de tamao 3.
Distribucin de las medias de las muestras de tamao 4.
Al observar las grficas anteriores se comprueba que la grfica de la poblacin
es uniforme y los diagramas de las distribuciones muestrales van aproximndose a la
curva normal a medida que el tamao de las muestras se aumenta.
2 1.479019945
0.853912565
3 1.479019948
0.739509972
4 1.479019944
Inferencia estadstica.
18
ESTADSTICA
por Pierre Simon de Laplace (1.749 1.827), y fue Liapunov (1.857 1.917) dio en
1.901 una demostracin rigurosa del teorema.
TEOREMA CENTRAL DEL LMITE.
Consideramos una poblacin cuya medida es y cuya desviacin tpica
es . Si de esa poblacin se extraen, al azar, todas las muestras de tamao n,
obtenidas con reposicin y con orden, se puede construir una distribucin de
medias muestrales, la cual tiene forma aproximadamente normal cuando n es
suficientemente grande. Adems, la media X y la desviacin tpica X de esa
distribucin muestral estn relacionadas con la media y la desviacin tpica de la
poblacin del siguiente modo.
Tras la lectura del teorema central del lmite, cabe preguntarse: qu entendemos
por un n sufucientemente grande?.
X
X
N n
N 1
Inferencia estadstica.
19
ESTADSTICA
En los casos de poblaciones finitas con reemplazamiento o infinitas con o sin
reemplazamiento se tiene:
X
X
Pero por el teorema del lmite central sabemos que la distribucin muestral de
las medias se acerca a la distribucin normal cuando aumenta el tamao de la muestra.
Insistimos, cunto ms se aleje la distribucin poblacional del modelo normal,
ms debe incrementarse el tamao de la muestra para que la distribucin muestral de la
media se aproxime a una curva normal. Por tanto, en la prctica:
a) Si la poblacin es normal no habr ningn problema al afirmar que la
.
n
N ,
ZX
30.
Puesto que X presenta una distribucin muestral normal, la variable tipificada
se distribuye normalmente N (0 , 1).
Z
s
n 1
X
n
n
n 1
Inferencia estadstica.
20
ESTADSTICA
{5 , 7} 6, {5 , 9} 7, {7 , 5} 6,
{7 , 9} 8, {9 , 5} 7, {9 , 7} 8.
La distribucin de medias muestrales es:
6
7
8
Total
X
Ni
2
2
2
6
Puedes comprobar fcilmente que:
X 7 , es igual a 7 .
X 0.8165.... ,
N n 1.6399
N 1
2
es
igual
3 2
0.81995.. .
3 1
8
2
9
1
Total
9
1.6399
1.1547..
n
2
Inferencia estadstica.
21
ESTADSTICA
La distribucin muestral de las proporciones, X p , se distribuye
p q
n
, de media
p q
, cuando n es suficientemente grande y p no se
n
acerca ni a 0 ni a 1, verificando n p 5 y n q 5 , y la poblacin es infinita
p y desviacin tpica
pq
n
pq
N n
N 1
Ejemplo:
- Consideramos la poblacin P = {1, 2, 3}. La proporcin de cifras pares es
p
1
2
y de cifras impares es q . Las muestras con reemplazamiento de tamao 2 y
3
3
3,1
0
3,2
0.5
3,3
0
1
3
y p
1
3
Inferencia estadstica.
22
ESTADSTICA
p q
1 2
3 3 1
2
3
1
2
y de cifras impares es q . Las muestras sin reemplazamiento de tamao 2
3
3
3,1
0
3,2
0.5
1
3
1
1
18 3 2
p q
N n
N 1
1 2
3 3
2
32 1
3 1 3
1
1
2 3 2
ESTIMACIN DE PARMETROS.
Si es un parmetro caracterstico de una poblacin, cuyo valor desconocemos,
posibles muestras de esa poblacin puede tener diferentes valores del estadstico E . El
estadstico que tomamos como estimador es por tanto una variable, mientras que el
parmetro es una constante. Cada uno de los valores del estimador constituye una
estimacin del parmetro. En el ejemplo sobre las edades de los alumnos universitarios,
extraemos 5 muestras aleatorias y calculamos la media de edad de cada una de ellas. Las
respectivas medias X 1 , X 2 , X 3 , X 4 y X 5 son estimaciones , puesto que hemos
tomado el estadstico X como estimador de .
Pero para que un estadstico sea tomado como estimador de un parmetro
poblacional, debemos contar con ciertas garantas de que los valores del estadstico
Inferencia estadstica.
23
ESTADSTICA
(estimaciones) se aproximan al verdadero valor del parmetro. Una de las condiciones
bsicas es que la muestra sea representativa de la poblacin, a lo que contribuye
especialmente el que la muestra sea aleatoria.
Recordamos que definimos estimador como un estadstico que permite obtener
un valor aproximado para alguna caracterstica de la poblacin. Cada uno de los valores
de ese estadstico representan una estimacin. Mientras que el estimador es una variable
aleatoria, la estimacin es un valor numrico alcanzado por esa variable aleatoria.
La estimacin de un parmetro se puede hacer mediante estimacin puntual o
por estimacin por intervalos. La estimacin puntual consiste en obtener un nico valor
del parmetro poblacional a partir de las observaciones muestrales, y se llama as
porque se le puede asignar un punto sobre la recta real. Mientras que en la estimacin
por intervalo se obtienen dos puntos, que definen un intervalo en la recta real que
contendr el valor del parmetro desconocido con cierta seguridad.
2
. Si el tamao n de las muestras es
n
.
normal N ,
n
ERROR MUESTRAL.
Siempre que tomamos una muestra en representacin de toda la poblacin se
comete un error. Normalmente existe una diferencia entre los valores obtenidos a partir
de la muestra y los correspondientes a la poblacin. Pero cuando hablamos del error
muestral no nos referimos al error real que hemos obtenido nosotros, sino a un error
determinado estadsticamente, vlido para todas las posibles muestras del mismo
tamao.
Sea x la media de una muestra de tamao n y sea la media poblacional de la
poblacin de tamao N. Obteniendo todas las muestras de tamao n y calculando la
media x de cada una, se obtiene una distribucin normal, llamada distribucin
muestral de las medias o distribucin de las medias muestrales X .
Inferencia estadstica.
24
ESTADSTICA
,
n
p q
n
N n
,
N 1
p q
N n
N 1
Inferencia estadstica.
25
ESTADSTICA
Definicin.
NIVEL DE CONFIANZA.
Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del
parmetro que se pretende estimar. Se expresa por 1 - .
Estrictamente, establece el porcentaje de muestras (de un tamao dado) en las
que el estadstico que deseamos estimar tiene un valor dentro del intervalo estimado. Un
nivel de confianza de 90% o del 95% indica que, de toda el rea encerrada por la curva
de Gauss y el eje OX, probablemente el 90% o el 95% de las veces contendr a la media
poblacional , desestimando el 10% o el 5%, restante.
Definicin.
NIVEL DE SIGNIFICACIN.
Se denomina nivel de significacin o nivel de riesgo a la diferencia
entre la certeza y el nivel de confianza deseado. Por tanto, se expresa por .
Definicin.
ERROR MXIMO ADMISIBLE.
Se define el error mximo admisible como el valor d que verifica que
la probabilidad de que la media muestral x y la media poblacional difieran en
menos de la cantidad d con el nivel de confianza elegido (1 - ):
p x d 1
De lo anterior se deduce:
p d x d 1
O lo que es lo mismo:
p x d x d 1
Si:
d X
entonces
d 2 X entonces
d 3 X entonces
Es decir:
d X
d 2 X
d 3 X
En general:
p x 2
p x 3
p x X x X 0.6826
0.9973
x 2 X 0.9544
x 3 X
p x k X x k X 1
Inferencia estadstica.
26
ESTADSTICA
p k Z k 1 p k Z k p Z k p Z k
p Z k 1 p Z k 2 p Z k 1 1
De donde:
p Z k 1
cuyo valor lo podemos obtener en la tabla N(0 , 1) para una valor dado .
Valores de k, ms usuales, segn el nivel de confianza 1 -
1-
K
50 %
0.67
682 %
1
90 %
1.65
95 %
1.96
955 %
2
99 %
2.58
997 %
3
p q
f
p k
n
n
p q
n
d k X k
d k X k
N n
n
N 1
d k p k
d k p k
p q
(poblacin infinita o finita con reemplazamiento).
n
p q
N n
TAMAO DE LA MUESTRA.
Las encuestas se realizan en una muestra representativa de la poblacin. Su
tamao vara de unas encuestas a otras y viene recogido en la llamada ficha tcnica. En
dicha ficha tcnica debe aparecer: el tamao de la muestra, el nivel de confianza y el
margen de error. El tamao n de la muestra depende del tamao N de la poblacin, del
nivel de confianza (1 - ) adoptado y del error mximo admisible d.
DISTRIBUCIN DE LAS PROPORCIONES MUESTRALES:
Inferencia estadstica.
27
ESTADSTICA
p q
k2 pq
n
n
d2
k2 N p q
N n
n
N 1
N 1 d 2 k 2 p q
p q
k2 2
n
n
d2
N k 2 2
N n
n
N 1
d 2 N 1 k 2 2
Inferencia estadstica.
28
ESTADSTICA
Sea X una variable aleatoria con distribucin N ( , ) y x1, x2, ......, xn, una
muestra aleatoria de tamao n. La distribucin muestral de las medias X sigue una ley
Z
y la variable tipificada
normal N ,
n
p z
Z z
2
2
Sustituyendo:
p z
z 1
2
2
n
o bien:
p z
z 1
2
2
n
de donde:
p X z
X z
n
n
2
2
Inferencia estadstica.
29
ESTADSTICA
CUANDO SE CONOCE LA DESVIACIN TPICA POBLACIONAL.
En este caso, el intervalo de confianza de la media poblacional es:
x z
, x z
x z
, x z
donde se tiene: s n 1
n 1
ni
, de
x ni
n 1
xz
N n
, x z
N 1
n
2
N n
N 1
Inferencia estadstica.
f
es la
n
30
ESTADSTICA
proporcin de elementos que poseen la caracterstica determinada y q = 1 - p la
proporcin de elementos que no la poseen.
La distribucin de las proporciones muestrales se distribuye de acuerdo a una
normal N p,
pq
n
p ' p
pq
n
p ' p
p z
z 1
pq
2
2
n
o lo que es igual:
p p'
p z
z 1
pq
2
2
n
de donde:
p p ' z
d z
pq
p p ' z
n
2
p q
n
pq
que est dado en funcin de p. Por tanto, una vez extrada la muestra y obtenida la
proporcin muestral p, debemos estimar los valores de p y q, mediante: p = p y q = q.
Cuando n es grande, n 30 , (y, adems, n p 5 y n q 5 ) para
determinar el intervalo de confianza se puede sustituir el parmetro p por p'
f
de la
n
muestra, resultando:
p p' z
2
p' q'
p p ' z
n
2
p' q'
1
n
Ejemplos:
- Supongamos que deseamos valorar el grado medio de conocimientos en
historia de una poblacin de varios miles de estudiantes. Sabemos que la
desviacin tpica poblacional es de 2.3 puntos. Nos proponemos estimar la
media poblacional, , pasando una prueba a 100 alumnos, con un nivel de
confianza del 95 %. Calculamos la media en la muestra, resultando ser de
6.32. Para hacer esta estimacin vamos a construir el intervalo de confianza
de con un nivel de confianza del 95 %.
El intervalo de confianza para la media en poblaciones infinitas o finitas con
reemplazamiento, caso que suponemos (de varios miles), es:
Inferencia estadstica.
31
ESTADSTICA
x z
, x z
En nuestro ejemplo:
0.05
0.975 , tenemos z 1.96 , y as:
Como: p Z z 1 1
2
2
2
2
2.3
100
6.32 1.96
, 6.32 1.96
2.3
100
5.87 ,
6.77
x z
s
n
, x z
1.12
1.12
3.25 1.96
, 3.25 1.96
400
400
3.14 , 3.36
Y as el intervalo buscado es:
un
z 2.575
2
de donde:
2.575 0.5
0.1
. Es decir, n
d,
n
165.76
y el
tamao de la muestra debe ser 166 medidas (el menor entero mayor que
165.76).
Un monitor de un gimnasio quiere estimar la estatura media de todos los
asociados al mismo, con un error menor de 0.5 cm, utilizando una muestra de
30 asociados. Sabiendo que la desviacin tpica = 5.3 cm, cul sera el
nivel de confianza con el que se realiza la estimacin?.
Inferencia estadstica.
32
ESTADSTICA
5.3
, tenemos: 0.5 z
, y de aqu
n
30
2
2
z 0.52
deducimos:
. Ahora bien, p Z 0.52 1 , que nos permite
z 1.645
2
, y la proporcin
104
0.347 . As, el error mximo admisible
300
p' q'
0.347 0.653
1.645
0.045 , y con este dato
n
300
tenemos
que
el
intervalo
buscado
se
obtendr
como:
p' q'
, podemos despejar el tamao
n
z p' q'
CONTRASTE DE HIPTESIS.
El contraste de hiptesis o la prueba de decisin estadstica permite
comprobar ciertas afirmaciones que realizamos acerca de una poblacin, referidas a sus
parmetros o a la forma en que se distribuye. Mediante este tipo de pruebas podramos
decidir acerca del ajuste de las distribuciones observadas a distribuciones tericas, la
existencia de diferencias entre grupos, relaciones entre variables, etc.
Definicin.
TEST ESTADSTICO.
Inferencia estadstica.
33
ESTADSTICA
Un test estadstico es un procedimiento para, a partir de una muestra
aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar
una hiptesis previamente emitida sobre el valor de un parmetro desconocido
de esa poblacin.
HIPTESIS ESTADSTICAS.
En cualquier estudio sobre la realidad el investigador se plantea interrogantes a
los que trata de dar respuesta o temas de inters sobre los que pretende incrementar su
conocimiento. En la indagacin sobre esos interrogantes, el investigador formula
hiptesis, que son posibles soluciones o respuestas a los problemas planteados. Tales
hiptesis permanecern en el terreno de la conjetura hasta tanto no sean comprobadas.
La estadstica permite comprobar hiptesis cientficas a partir de los datos recogidos
sobre un problema, pero para ello es necesario que tales hiptesis sean formuladas en
trminos estadsticos. Es decir, las hiptesis cientficas tienen que ser operativizadas
previamente, expresadas en forma de afirmaciones acerca de parmetros. Por tanto, en
una prueba de decisin estadstica no contrastamos directamente las hiptesis
cientficas, sino que trabajamos con hiptesis estadsticas que son una traduccin de
aquellas. Tras comprobar la hiptesis estadstica, podemos inferir que la hiptesis
cientfica queda validada.
Las hiptesis estadsticas son proposiciones acerca de parmetros de la
poblacin (media, proporciones, varianza, diferencia de medias, etc.) o de su
distribucin. Cuando llevamos a cabo una prueba estadstica, estamos trabajando con
una hiptesis nula, que simbolizaremos por H0. Junto a esta, consideramos la hiptesis
alternativa, opuesta a la anterior, que queda simbolizada por H1.
Veamos en qu consiste cada una de ellas:
Puesto que cada una de estas hiptesis afirma lo contrario que la otra es
incompatible que ambas sean ciertas. Por tanto, si llegamos a la conclusin de que la
hiptesis nula no se cumple, podemos afirmar que se cumple la hiptesis alternativa y
viceversa.
Inferencia estadstica.
34
ESTADSTICA
Esta hiptesis se denomina hiptesis nula porque parte del supuesto
de que es nula la diferencia entre el valor verdadero de la media y su valor
hipottico.
p x z
x z
n
n
2
2
restando
p z
x z
n
n
2
2
Inferencia estadstica.
35
ESTADSTICA
z
HIPTESIS:
H 0 : 0
H1 : 0
Regin de aceptacin:
0 z
, 0 z
n
n
2
x 0 z
2
Observacin.
Cuando la desviacin tpica poblacional no sea conocida, y la muestra sea
suficientemente grande podremos utilizar la desviacin tpica de la muestra o, en su
caso, la indique la hiptesis.
Ejemplo:
Se cree que el cociente intelectual medio de los estudiantes de una universidad
es 113, con una desviacin tpica de 7. Para contrastar la hiptesis, se extrae una
muestra de 180 estudiantes y se obtiene en estos estudiantes un cociente intelectual
medio de 115. Podemos aceptar la hiptesis con un nivel de significacin del 5 %?.
H 0 : 113 .
Hiptesis nula,
Hiptesis alternativa, H 1 : 113 .
Como el tamao de la muestra es superior a 30, las medias muestrales se
.
distribuiran (si la hiptesis fuese cierta) segn una ley N 113,
180
180
113 1.96
, 113 1.96
180
Inferencia estadstica.
36
ESTADSTICA
z
HIPTESIS:
H 0 : 0
H1 : 0
Regin de aceptacin:
, 0 z
Regin de rechazo:
0 z
Observacin.
Es importante hacer notar que al quedar la regin crtica en una sola cola,
determinamos z , con la condicin p Z z 1 .
CONTRASTE UNILATERAL IZQUIERDO. La regin crtica se sita en el
lado izquierdo.
-z
HIPTESIS:
H 0 : 0
H1 : 0
Regin de aceptacin:
Inferencia estadstica.
37
ESTADSTICA
0 z
,
n
Regin de rechazo:
, 0 z
Ejemplo:
El peso de los pollos de una granja es una distribucin normal de media 2.6 kg y
desviacin tpica 0.5. Se experimenta un nuevo tipo de alimentacin con 50 cras.
Cuando se hacen adultos se les pesa y se obtiene una media de 2.78 kg. Vamos a
contrastar la hiptesis de que el peso medio de la poblacin no aumenta con un nivel de
significacin del 1 %.
H 0 : 2.6
Hiptesis nula:
Hiptesis alternativa: H 1 : 2.6
Como el nivel de confianza es del 99 %, p Z z 0.99 , de donde se obtiene
0.5
50
, o
Regin de aceptacin:
p q
0 0
n
, p
p q
0 0
n
p q
0 0
n
p' p
p q
0 0
n
Ejemplo:
Inferencia estadstica.
38
ESTADSTICA
Un dentista afirma que el 40 % de los nios de diez aos presentan indicios de
caries dental. Tomada una muestra de 100 nios, se observ que 30 presentaban indicios
de caries. Utilizando la aproximacin normal queremos comprobar, con un nivel de
significacin del 5 %, si el resultado proporcionado por la muestra permite rechazar la
hiptesis del dentista.
H 0 : p 0.4
Hiptesis nula:
Hiptesis alternativa: H 1 : p 0.4
Un nivel de significacin del 5 % determina que
z 1.96
2
, y tenemos la
p q
0 0
n
, p
0.4 1.96
p q
0 0
n
0.4 0.6
, 0.4 1.96
100
0.304 , 0.496
0.4 0.6
100
Regin de aceptacin:
0, p
q
n
Regin crtica:
p q
0 0 , 1
n
Ejemplo:
Segn la ley electoral de cierto pas, para obtener representacin parlamentaria,
un partido poltico ha de conseguir ms del 5 % de los votos. Poco antes de celebrarse
las elecciones, una encuesta realizada sobre 1000 ciudadanos elegidos al azar revela que
slo 65 de ellos votarn al partido V. Puede estimarse, con un nivel de significacin del
1 %, que V no tendr representacin parlamentaria?. Y con un nivel de significacin
del 5 %?
H 0 : p 0.05
Hiptesis nula:
Hiptesis alternativa: H 1 : p 0.05
Inferencia estadstica.
39
ESTADSTICA
Un nivel de significacin del 5 % determina que z 2.33 , ( p Z z 0.99 ),
y tenemos la siguiente regin de aceptacin:
0, p
q
n
0 , 0.05 2.33
, 0.066
0.05 0.95
1000
65
obtenida en la muestra
Regin de aceptacin:
q
n
0 , 1
Regin crtica:
0, p
p q
0 0
n
Ejemplo:
En las ltimas votaciones, hace un ao, el 53 % de los votantes de un pueblo
estaban a favor del alcalde. Se acaba de realizar una encuesta a 360 personas elegidas al
azar y 176 de ellas estaban a favor del alcalde. Se puede afirmar con un nivel de
confianza del 90 % que el alcalde no pierde popularidad?
Test de hiptesis para la proporcin (unilateral izquierdo).
H 0 : p 0.53
Hiptesis nula:
Hiptesis alternativa: H 1 : p 0.53
Es decir, la hiptesis nula mantiene que la proporcin de votos favorable al
alcalde es la misma de las pasadas elecciones o ha aumentado.
Inferencia estadstica.
40
ESTADSTICA
Un nivel de confianza del 90 %, nos da un z 1.28 ( z 1.2817 ,
interpolando).
Regin de aceptacin:
0.53 1.28
0.496
q
n
0 , 1
0.53 0.47
, 1
360
, 1
del alcalde
Inferencia estadstica.
41
ESTADSTICA
rechaza la hiptesis nula H0 para = 5% decimos que existe una diferencia
significativa y para = 1% decimos que existe una diferencia muy significativa.
PROBABILIDAD DE COMETER UN ERROR DE UN TIPO U OTRO.
La probabilidad de cometer error de tipo I es precsamente , el nivel de
significacin, pues si la hiptesis es verdadera, nos exponemos a rechazar el 100 %
de las medias muestrales. Esta probabilidad no depende del tamao de la muestra.
La probabilidad de cometer un error de tipo II depende del verdadero valor de
y del tamao de la muestra. Si suponemos que se comete un error de tipo II, y si es el
verdadero valor de la media y 0 el que le atribuimos mediante la hiptesis nula, estos
valores son distintos.
En los grficos siguientes la curvas de lnea continua representan la verdadera
distribucin de las medias muestrales (media ). Las curvas de lnea discontinua son las
supuestas distribuciones (media 0). Sobre ellas se construyen los intervalos de
aceptacin. El rea marcada nos da, en cada caso, la proporcin de muestras para las
cuales se aceptara la hiptesis nula y, por tanto, se cometera un error de tipo II. Es
claro que para muestras grandes esta probabilidad es mucho menor.
n pequeo
n grande
Inferencia estadstica.
42
ESTADSTICA
Inferencia estadstica.
43