You are on page 1of 176

Estadistica Inferencial

2013
1


Instituto Tecnolgico Superior De Jess Carranza
(I T S J C)



CLAVE DE LA MATERIA: GEC 9013





ANTOLOGA: ESTADISTICA INFERENCIAL





PRESENTA: ING. JUAN FRANCISCO GMEZ VALENCIA





SEMESTRE: 403.-A






INGENIERA: EN GESTIN EMPRESARIAL






JESS CARRANZA VERACRUZ 7 DE ENERO DEL 2013



Estadistica Inferencial


2013
2

UNIDAD 1 INTRODUCCIN A LA ESTADISTICA INFERENCIAL


1.1 Breve historia de la estadstica.4
1.2 Concepto de estadstica.5
1.3 Estadstica descriptiva.5
1.4 Estadstica inferencial..5
1.5 Breve introduccin a la inferencia estadstica...7
1.6 Teora de decisin en estadstica.11
1.7 Componentes de una investigacin estadstica......16
1.8 Recoleccin de datos..19
1.9 Estadstica paramtrica (poblacin y muestra aleatoria)..27
1.10 Aplicaciones.33

UNIDAD 2 INFERENCIA ESTADSTICA

2.1 Conceptos Bsicos38
2.2 Distribuciones de muestreo41
2.3 Estimacin puntual47
2.4 Estimacin de intervalo47
2.5 Intervalos de confianza para medias49
2.6 Intervalos de confianza para diferencia entre medias.52
2.7 Intervalos de confianza para proporciones57
2.8 Intervalos de confianza para diferencias entre proporciones62
2.9 Intervalos de confianza para varianzas66
2.10 Intervalos de confianza para razones de dos varianzas70

UNIDAD 3 PRUEBA DE HIPOTESIS CON UNA MUESTRA

3.1 Metodologa para la prueba de hiptesis74
3.2 Hiptesis nula y alternativa75
3.3 Error tipo I y error tipo II..76
3.4 Pruebas de hiptesis Z para la media (desviacin estndar poblacional
conocida)76
3.5 Pruebas para proporciones76
3.6 Seleccin del tamao de muestra ( para estimar la media poblacional)78
3.7 Seleccin del tamao de muestra (para estimar la proporcin
poblacional)...80








Estadistica Inferencial


2013
3

UNIDAD 4 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMERICOS


4.1 Introduccin91
4.2 Distribuciones normal y t de Student..94
4.3 Pruebas de significancia.98
4.4 Comparacin de dos muestras independientes: Pruebas t para las
diferencias entre dos medias104
4.5 Prueba de Fisher para varianzas y de
igualdad de las varianzas de dos
poblaciones normales.106
4.6 Comparaciones de dos muestras pareadas115
4.7 Modelo totalmente aleatorio: anlisis de
varianza de un factor122
4.8 Seleccin del tamao de muestra parareadas
estimar la diferencia de dos medias123
4.9 Aplicaciones130


UNIDAD 5 PREUBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE NMEROS CATEGORICOS




5.1 Prueba Z para la diferencia entre dos proporciones140
5.2 Prueba para la diferencia entre dos proporciones144
5.3 Prueba para la diferencia en n proporciones Z..152
5.4 Prueba de independencia (ji-cuadrada)152
5.5 Pruebas de contingencia (ji-cuadrada).156
5.6 Pruebas de bondad de ajuste.164
5.7 Aplicaciones...174


BIBLIOGRAFA.176










Estadistica Inferencial


2013
4

1.1.-Breve historia de la estadistica

INFERENCIA ESTADSTICA


INTRODUCCIN.

El empleo de encuestas es uno de los mtodos de investigacin ms
utilizados en la actualidad. La realidad, en continuo cambio y con muchsimas
opciones diferentes, es muy difcil de abarcar en su totalidad. Por este motivo se
hace necesario seleccionar una parte lo ms pequea posible, pero representativa
del total, en la que sea posible medir las caractersticas deseadas. Esta necesidad
ha obligado a crear un instrumento matemtico que llamamos muestreo.

Las muestras que se elijan para hacer un estudio deben ser lo ms
pequeas posible por exigencias de tiempo y coste. Adems, el aumento del
nmero de datos no siempre acarrea una mayor certeza, ya que ms importante
que escoger muchos datos es que los datos estn bien seleccionados, con el fin
de que sean representativos de la poblacin que se desea estudiar. Se ver como
el azar juega un papel importante en la eleccin de la muestra para que sta sea
representativa.

En este tema estudiaremos dos parmetros de una poblacin: la media de
una determinada caracterstica numrica y la proporcin o porcentaje de la
poblacin que comparte un determinado rasgo comn.

La inferencia estadstica se basa en resultados de la teora de la
probabilidad, los cuales nos aseguran, que al estudiar la media o la proporcin de
muestras, tomadas adecuadamente en la poblacin, estas caractersticas sern
muy similares a las de la poblacin total.

El mtodo de inferencia estadstica hace estimaciones de lo que ocurre en
toda la poblacin estudiando lo que ocurre en una parte de la misma (la muestra).
Como se pretende sacar conclusiones sobre el total de la poblacin a partir de una
muestra de la misma, estas conclusiones estarn sujetas a error. La teora de la
probabilidad permite tambin acompaar a la estimacin muestral de una media o
de una proporcin, en una poblacin, de la probabilidad de que el error cometido
no exceda de un determinado valor, o del riesgo (probabilidad de equivocacin)
que se corre al aceptar o al rechazar una hiptesis sobre los valores de la media o
de la proporcin de la poblacin.

Ahora bien, la inferencia se hace a partir de muestras que deben estar
debidamente escogidas. Por esta razn trataremos previamente a los mtodos de
la inferencia, las tcnicas de muestreo, es decir, las diversas formas de poder
seleccionar una muestra que sea adecuada para realizar las inferencias,
controlando el posible error.
Estadistica Inferencial


2013
5

Para trabajar este tema se necesita el manejo de los nmeros
combinatorios como herramienta de clculo y el conocimiento y uso de la
distribucin normal y sus propiedades.

Finalmente, insistir en la importancia de la inferencia estadstica como
disciplina fundamental en todas las reas cientficas, tanto naturales como
sociales.

1.2.-Concepto de estadstica
La estadstica es el conjunto de tcnicas que se emplean para la recoleccin,
organizacin, anlisis e interpretacin de datos. Los datos pueden ser
cuantitativos, con valores expresados numricamente, o cualitativos, en cuyo caso
se tabulan las caractersticas de las observaciones. La estadstica sirve en
administracin y economa para tomar mejores decisiones a partir de la
comprensin de las fuentes de variacin y de la deteccin de patrones y
relaciones en datos econmicos y administrativos.
1.3.-Estadistica descriptiva.
La estadstica descriptiva comprende las tcnicas que se emplean para resumir y
describir datos numricos. Estos mtodos pueden ser grficos o implicar anlisis
computacional.
Ejemplo. El volumen mensual de ventas de un producto durante el ao anterior
puede describirse y cobrar significado elaborando un diagrama de barras o una
grfica de lneas. Las ventas relativas por mes pueden resaltarse calculando un
nmero ndice para cada mes, con lo que la desviacin respecto de 100 de
cualquier mes indicara la desviacin porcentual de ventas de ese mes en
comparacin con las ventas mensuales promedio durante todo el ao.
1.4.-Estadistica inferencial
La estadstica inferencial comprende las tcnicas con las que, con base
nicamente en una muestra sometida a observacin, se toman decisiones sobre
una poblacin o proceso estadsticos. Dado que estas decisiones se toman en
condiciones de incertidumbre, suponen el uso de conceptos de probabilidad.
Mientras que a las caractersticas medidas de una muestra se les llama
estadsticas muestrales, a las caractersticas medidas de una poblacin
estadstica, o universo, se les llama parmetros de la poblacin. El procedimiento
para la medicin de las caractersticas de todos los miembros de una poblacin
definida se llama censo. Cuando la inferencia estadstica se usa en el control de
procesos, al muestreo, le interesa en particular el descubrimiento y control de las
fuentes de variacin en la calidad de la produccin.
Estadistica Inferencial


2013
6
Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivo
elctrico, una muestra de estos dispositivos puede someterse a voltajes crecientes
hasta que falle cada uno de ellos. Con base en estos resultados muestrales puede
estimarse la probabilidad de falla a varios niveles de voltaje de los dems
dispositivos de la poblacin muestreada.
La poblacin es un agregado de unidades individuales, compuesto de personas o
cosas que se hallan en una situacin determinada. Las unidades individuales se
llaman unidades elementales. Definir una poblacin es determinar sus unidades
elementales de acuerdo con el inters que se tiene respecto a alguna
caracterstica de aqulla.
Tanto la definicin de una poblacin como la caracterstica por observar de sus
unidades elementales dependen de la naturaleza del problema. Por ejemplo, si el
problema es "Camisas para personas adultas de El Salvador", se trata de
determinar la cantidad adecuada de produccin de camisas de acuerdo con las
diversas medidas. La poblacin son todas las personas adultas de El Salvador. La
caracterstica de inters son las medidas del cuello de las personas adultas en
dicho pas.
Veamos otro ejemplo: las cuotas diferenciadas para alumnos de la UES
(Universidad de El Salvador). El problema por resolver es la asignacin de las
cuotas a los estudiantes. La poblacin son los alumnos (o sus padres) de la UES;
la caracterstica de inters es el monto de los ingresos de dichos estudiantes.
Las poblaciones pueden ser infinitas o finitas. Una poblacin infinita es la que
contiene un nmero infinito de unidades elementales; por ejemplo, el conjunto de
piezas que se obtienen en un proceso productivo; en el sentido de que se siguen
produciendo indefinidamente. Otro ejemplo son todos los posibles resultados al
lanzar una moneda sin cesar.
Una poblacin es finita cuando tiene un nmero finito de unidades elementales.
Por ejemplo, los estudiantes de una determinada universidad; el nmero de
escuelas que existen en una determinada ciudad, el nmero de rboles de coco
sembrados en una determinada parcela, etctera. El nmero de unidades
elementales de una poblacin se denota con la letra N.
Una muestra es una parte de la poblacin; por ejemplo, cuando se desea hacer un
estudio relativo al rendimiento acadmico de los alumnos de cierta universidad, y
para esto se toma slo un grupo de estudiantes de la misma. Todos los
estudiantes de ella son la poblacin y el grupo escogido constituye la muestra. Es
importante hacer notar que para hacer una investigacin mediante el anlisis de
una muestra, sta tiene que ser, necesariamente, representativa. La
representatividad de la muestra implica que cada unidad de la poblacin debe
tener igual probabilidad de ser seleccionada. En estas condiciones, se dice que la
muestra es aleatoria. La obtencin de una muestra representativa es uno de los
aspectos ms importantes de la teora estadstica. Incluye preguntas como, qu
Estadistica Inferencial


2013
7
tan grande debe ser la muestra?, qu tipo de datos deben ser recolectados?,
cmo se recogern stos? Estas preguntas sern contestadas ms adelante. (El
nmero de unidades elementales de una muestra se denota con la letra n).
1.5.-Breve introduccin a la estadstica inferencial
El empleo de encuestas es uno de los mtodos de investigacin ms utilizados en
la actualidad. La realidad, en continuo cambio y con muchsimas opciones
diferentes, es muy difcil de abarcar en su totalidad. Por este motivo se hace
necesario seleccionar una parte lo ms pequea posible, pero representativa del
total, en la que sea posible medir las caractersticas deseadas. Esta necesidad ha
obligado a crear un instrumento matemtico que llamamos muestreo.

Las muestras que se elijan para hacer un estudio deben ser lo ms
pequeas posible por exigencias de tiempo y coste. Adems, el aumento del
nmero de datos no siempre acarrea una mayor certeza, ya que ms importante
que escoger muchos datos es que los datos estn bien seleccionados, con el fin
de que sean representativos de la poblacin que se desea estudiar. Se ver como
el azar juega un papel importante en la eleccin de la muestra para que sta sea
representativa.

En este tema estudiaremos dos parmetros de una poblacin: la media de
una determinada caracterstica numrica y la proporcin o porcentaje de la
poblacin que comparte un determinado rasgo comn.

La inferencia estadstica se basa en resultados de la teora de la
probabilidad, los cuales nos aseguran, que al estudiar la media o la proporcin de
muestras, tomadas adecuadamente en la poblacin, estas caractersticas sern
muy similares a las de la poblacin total.

El mtodo de inferencia estadstica hace estimaciones de lo que ocurre en
toda la poblacin estudiando lo que ocurre en una parte de la misma (la muestra).
Como se pretende sacar conclusiones sobre el total de la poblacin a partir de una
muestra de la misma, estas conclusiones estarn sujetas a error. La teora de la
probabilidad permite tambin acompaar a la estimacin muestral de una media o
de una proporcin, en una poblacin, de la probabilidad de que el error cometido
no exceda de un determinado valor, o del riesgo (probabilidad de equivocacin)
que se corre al aceptar o al rechazar una hiptesis sobre los valores de la media o
de la proporcin de la poblacin.

Ahora bien, la inferencia se hace a partir de muestras que deben estar
debidamente escogidas. Por esta razn trataremos previamente a los mtodos de
la inferencia, las tcnicas de muestreo, es decir, las diversas formas de poder
seleccionar una muestra que sea adecuada para realizar las inferencias,
controlando el posible error.

Estadistica Inferencial


2013
8
Para trabajar este tema se necesita el manejo de los nmeros
combinatorios como herramienta de clculo y el conocimiento y uso de la
distribucin normal y sus propiedades.

Finalmente, insistir en la importancia de la inferencia estadstica como
disciplina fundamental en todas las reas cientficas, tanto naturales como
sociales.

POBLACIN Y MUESTRA.

En el campo de la Estadstica el concepto de poblacin se encuentra
prximo a la nocin general de grupo o conjunto.

Definicin.

POBLACIN.
Se llama poblacin o universo a cualquier conjunto, colectivo o
coleccin finita o infinita de individuos o elementos.

Una poblacin puede ser, no slo un conjunto de personas, sino tambin un
conjunto de animales, objetos, fenmenos, medidas, .....

Ejemplo:
Si pasamos un test a todos los alumnos espaoles de una determinada
edad, los resultados obtenidos constituyen una poblacin de medidas de la
capacidad a la que se derige el test.

Definicin.

CENSO.
Se da el nombre de censo a la enumeracin y anotacin de ciertas
caractersticas de todos los elementos de una poblacin.

Ejemplo:
El profesor-tutor de un grupo de un instituto realiza un listado de los
alumnos/as de su tutora, en la incluye, nombre y apellidos, nombre de los padres,
domicilio, telfono, nmero de hermanos y asignaturas pendientes del curso
anterior. Este sera un ejemplo de censo de la poblacin formada por el alumnado
del grupo en cuestin.

Las poblaciones en Estadstica pueden ser finitas o infinitas. Una poblacin
es finita cuando consta de un nmero limitado de unidades, y una poblacin es
infinita cuando su tamao es indefinidamente grande.

Ejemplo:
- Si consideramos el nmero de hermanos que tienen los alumnos/as de
un curso de un instituto determinado, estaramos hablando de una
Estadistica Inferencial


2013
9
poblacin finita. Habra tantos valores como alumnos/as haya en dicho
curso.
- Si obtenemos una serie de medidas del tiempo que tarda un alumno en
resolver una divisin de dos cifras, estas medidas pueden consideradas
parte de un conjunto mucho mayor, de tamao indefinidamente grande,
constituido por todas las medidas que obtendramos si repitisemos la
experiencia una y otra vez.
- Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos
el valor de la cara superior. Tal experiencia puede ser repetidamente
hasta el infinito, por lo que cualquier conjunto de resultados podra ser
considerado una parte extrada de una poblacin indefinidamente
grande.
En definitiva, con frecuencia, las poblaciones en Estadstica suelen ser
consideradas infinitas.
El gran tamao que presentan algunas poblaciones es precisamente la
principal razn que hace recomendable reducir su estudio a muestras obtenidas
de ellas.

Definicin.

MUESTRA.
Se define muestra como una parte o subconjunto de una poblacin,
debidamente elegida, que se somete a observacin cientfica en
representacin de la misma, con el propsito de obtener resultados vlidos
para el total de la poblacin.

Para que una muestra se considere vlida debe cumplir que:

- Su tamao sea proporcional al tamao de la poblacin.
- No haya distorsin en la eleccin de los elementos de la muestra.
- Sea representativa.

Un estudio exhaustivo cuyos datos se utilizan para multitud de
trabajos e investigaciones es el Censo de Poblacin. Requiere un gran
esfuerzo tanto econmico como de medios y en l se recaba informacin de
todos los habitantes de un pas. Sin embargo, para el conocimiento de
algunas caractersticas de la poblacin, se utilizan mtodos alternativos que
reducen el costo y el tiempo. Los modelos reducidos de la poblacin,
constituidos por las muestras, tienen como finalidad obtener resultados que
puedan ser aplicables (extrapolables) a la poblacin.

Las principales razones que inducen a tomar muestras son:

a) El coste temporal. Estudiar una poblacin de tamao considerable exige
una dedicacin de tiempo que retrasara enormemente las
investigaciones en marcha y prolongara en exceso la realizacin de los
Estadistica Inferencial


2013
10
estudios. A veces, esto ltimo podra entrar adems en conflicto con el
carcter vivo, cambiante, en continua evolucin de las realidades que
ocupan el inters de los investigadores en el campo de las ciencias
sociales, cuyo estudio desde una perspectiva sincrnica, requiere la
concrecin en segmentos temporales limitados. Por ejemplo, si
queremos saber cmo ha afectado a la intencin de voto de los
espaoles determinadas declaraciones de un destacado lder poltico no
disponemos de un tiempo indefinido, porque otros hechos o
declaraciones posteriores influiran en las opiniones y tendencias de la
poblacin. En este caso, sera necesario recurrir a un muestreo que
permita abordar el estudio con un bajo coste temporal.
b) El coste econmico. La inversin en recursos temporales y humanos
necesaria para abordar algunos problemas de investigacin sera
elevada si pretendiramos abarcar a la poblacin. La recogida de los
datos que posteriormente van a ser analizados estadsticamente
requiere desplegar estrategias que exigen disponer de recursos. El
envo de cuestionarios por correo, la realizacin de entrevistas por parte
de personas especializadas, el desplazamiento de observadores a los
lugares estudiados, etc., suponen un coste econmico que queda
reducido si nos limitamos al estudio de una muestra extrada de la
poblacin.
c) El impacto sobre la realidad estudiada. Cuando el estudio realizado
pudiera provocar efectos en los sujetos, parece adecuado limitar la
realizacin de experimentos a mbitos reducidos. Por ejemplo, la
medicin de los resultados de un nuevo mtodo de aprendizaje de la
lectura habra de hacerse sobre un nmero reducido de alumnos, sin
extender a toda la poblacin la nueva metodologa hasta no confirmar
los resultados positivos de la misma.
d) Una poblacin homognea. Si la poblacin es homognea se pueden
obtener muy buenos resultados a partir de cualquier muestra.
e) La falta de personal. Si no se dispone de suficiente personal preparado
para llevar a cabo un estudio exhaustivo, tambin resulta aconsejables
hacer un muestreo.

Por otro lado, el uso del muestreo presenta limitaciones, entre estas
destacamos:

a) El riesgo que supone la toma de una muestra que pueda no ser
representativa.
b) Cuando es necesaria informacin de todos los elementos de la
poblacin.
c) Cuando no se domina bien la tcnica de muestreo.
d) Cuando la poblacin est formada por un nmero muy pequeo de
elementos, ya que una ligera equivocacin en la toma de la muestra
puede originar grandes errores.

Estadistica Inferencial


2013
11
Para el investigador tienen especial inters las muestras en la medida en que
permiten generalizar los resultados de un estudio a las poblaciones de las que
fueron extradas. Para que ello sea posible es necesario que el muestreo se
realice siguiendo determinados procedimientos que garanticen la
representatividad de la muestra y, por tanto, las posibilidades de generalizacin.
1.6.-Teora de la desicin estadstica.


Cuando buscamos informacin acerca de una poblacin, pero slo disponemos de datos de una
muestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa poblacin. Los conceptos y
tcnicas que satisfacen esta necesidad constituyen la Inferencia Estadstica.

1. ESTIMACIN DE PARMETROS

Con la estimacin de parmetros deseamos estimar el valor de ese parmetro, a travs de un
estadstico calculado en la muestra. La inferencia en los distintos niveles de medicin se realizar a
travs de P y X.
Un estimador es un procedimiento expresado a manera de frmula por medio del cul se obtiene
un valor numrico denominado estimacin.

1.1. Estimacin intervalar

Consta de dos puntos definidores de un intervalo (lmites de confianza), que segn nuestras
estimaciones contienen el parmetro poblacional que nos interesa, e.d., podemos estimar el parmetro P
dentro de un intervalo a y b, en el que a y b se obtienen de observaciones de la muestra y podemos afirmarlo a
un nivel de confianza determinado.
El principal objetivo de la estadstica inferencial consiste en precisar el valor desconocido de los
parmetros poblacionales a partir de los resultados obtenidos en muestras aleatorias.
Gracias a la teora del error muestral podemos resolver la discrepancia existente entre valores
muestrales y poblacionales. Para ello construimos intervalos dentro de los cules para un nivel de confianza
prefijado podemos asegurar que se encontrar el verdadero valor del parmetro poblacional.
Estudiando el estadstico obtenido en la muestra y su error tpico podemos determinar por las
propiedades de la curva normal a qu distancia mxima se encontrar el verdadero valor; dicha
distancia constituir el intervalo dentro del cual podemos asegurar que se encuentra el valor
poblacional.

2. LA DISTRIBUCIN MUESTRAL

Una distribucin muestral es una distribucin probabilstica terica de estadsticos
pertenecientes a muestras, p.e. medias proporciones.
Se obtiene una distribucin muestral cuando se toman todas las muestras aleatorias simples (cada una
de ellas con al menos un elemento diferente) de tamao N de una misma poblacin, se calcula un estadstico
por cada muestra (p.e. medias o proporciones) y se distribuyen dichos estadsticos alrededor del parmetro
que estiman. Ej.: de una nacin se coge una muestra de 2000 y se calcula la X de edad, si repetimos con todas
las muestras posibles de 2000, obtendremos una distribucin muestral de medias de edad.


Estadistica Inferencial


2013
12
2.1. El teorema del lmite central

Es muy importante en estadstica. La suma de gran cantidad de variables aleatorias independientes
siempre tiene una distribucin aproximadamente normal. La distribucin de dicha suma ser tanto ms
parecida a la normal cuanto mayor sea el nmero de variables aleatorias. El teorema central del lmite expresa
cuantitativamente la rapidez de esta convergencia.
Lo que nos dice el teorema es que las medias de las muestras aleatorias simples extradas de una
poblacin que se distribuye normalmente, darn lugar a una distribucin muestral que tambin es normal,
aunque N sea pequeo.

1.3. La Ley de los grandes nmeros

Segn esta ley la diferencia entre una poblacin dada y una muestra decrece conforme aumenta el
tamao muestral.
A partir de cierto tamao muestral, el error muestral se hace tan pequeo que un aumento del tamao
muestral no compensara el incremento de los costos.
La importancia de esta ley es muy grande, ya que al ser la distribucin muestral la que se utiliza en las
pruebas de significacin, ello quiere decir que cuando N es suficientemente grande no tenemos ya que
preocuparnos de los supuestos referentes a la normalidad de la poblacin, pudiendo aplicar las propiedades de
la curva normal, ya que la distribucin muestral tiende a aproximarse a la normalidad.

Gracias al teorema del lmite central y la ley de los grandes nmeros podemos afirmar que la
distribucin de los estimadores en el muestreo ser una distribucin normal.

3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA DISTRIBUCIN
MUESTRAL

La tendencia central de una distribucin muestral se denomina valor esperado de un estadstico y se
representa por E(X).
Si el promedio o valor esperado de un estadstico es el parmetro que estima, entonces se dice que el
estadstico es un estimador no sesgado del parmetro. Cualquier diferencia que se produzca entre un
estadstico concreto y su parmetro es atribuible por ello ms bien a un error aleatorio.

4. DISTRIBUCIONES MUESTRALES DE MEDIAS

La medida de error muestral que indica la magnitud de las desviaciones de los estadsticos se
denomina error tpico, para distinguirlo de otras desviaciones tpicas.
Segn la ley de los grandes nmeros al aumentar la muestra disminuye el error tpico, e.d, que al
aumentar N los estadsticos se agrupan con mayor proximidad alrededor de sus respectivos
parmetros.


PROPIEDADES:

1. La distribucin muestral de medias se aproxima a la curva normal (por el teorema del lmite
central y la ley de los grandes nmeros). En la prctica pensaremos que n > 30 para servirnos de las
medidas de la curva normal.
2. Al ser una distribucin de frecuencias es posible calcular medidas de tendencia central,
variacin, etc.
3. La X de una distribucin muestral de medias es igual a la verdadera X de la poblacin.
4. La o es menor que la o de la poblacin; esto se debe a que tomamos valores medios,
eliminando los valores extremos.

Podemos decir que entre

X 1o
X
~ 68,26%
Estadistica Inferencial


2013
13
X 2o
X
~ 95,45%
X 3o
X
~ 99,73%

e.d., entre la X ms o menos una desviacin tpica de esa distribucin muestral de X se encontrarn el
68,26% de las medias muestrales de la distribucin muestral de medias.
Para trabajar bajo la curva normal hay que hablar de unidades Z, que se estandarizan para la
distribucin muestral de medias:

x - X X -
Z = ------ = Z = --------
S o
X


X = media muestral
= X= media de poblacin o media de medias
o
X
= desviacin tpica de la distribucin muestral de medias; error tpico de la media.

4.1. ERROR TPICO DE LA X

El investigador rara vez escoge ms de 1 2 muestras, que espera poder generalizar a la poblacin,
pues el procedimiento de completar una distribucin muestral de medias sera tan costoso como analizar a
casi todos los miembros de la poblacin.
No se tiene pues un conocimiento real de la X, pero s un buen mtodo para estimar la desviacin
tpica de la distribucin muestral de medias sobre la base de datos recogidos en una sola muestra.
Con la ayuda del error tpico podemos encontrar el rango de valores de la X, dentro del cul es
probable que flucte nuestra verdadera X poblacional.
Cuanto ms pequeo sea el error tpico, ms fiable es el estadstico. La cuanta del error tpico depende
del tamao de la muestra; al aumentar la muestra disminuye el error tpico => las muestras grandes engendran
estadsticos ms fiables que las pequeas.
A todo estadstico le corresponde una distribucin muestral y un error tpico.
La media de una muestra es una estimacin insesgada de la media de la poblacin, e.d., la X de la
muestra puede ser mayor menor que la de la poblacin. Si se extraen muchas muestras y se promedian sus
medias, el resultado tiende a la media de la poblacin al aumntar el tamano de la muestra.

* * * V E R F O R M U L A R I O P A R A E R R O R T P I C O
D E L A M E D I A * * *

4.2. INTERVALOS DE CONFIANZA

El intervalo de confianza se define como el valor de las puntuaciones directas entre las cules
afirmamos, a un nivel de confianza dado, que se encuentra el parmetro que consideramos. El intervalo
de confianza tiene un lmite inferior y un lmite superior, que son los lmites de confianza.
Se ha convenido utilizar como intervalo de confianza los de 95%, 95,45%, 99% y 99,73%, por medio
de los cules se estima la media poblacional, sabiendo p.e. que hay 95 oportunidades entre 100 de estar en lo
cierto y un 5 de equivocarse, e.d., el nivel de confianza sera la parte de la distribucin muestral que yo tomo
para hacer la estimacin.
Al realizar una estimacin pienso que la media muestral a travs de la cul hago la inferencia caer en
ese intervalo con un 95% de probabilidades, aunque s que hay un 5% de que quede fuera.
Cuanto ms amplio sea el intervalo, tanto menos se acerca a dicho parmetro, e.d., al aumentar el nivel
de confianza se sacrifica tambin en grado de precisin al sealar la media poblacional.

Estimaciones de la a partir de una sola muestra

Segn la adaptacin de la distribucin muestral de la media a la curva normal, sabemos que con un
nivel de confianza de 99% y conociendo la X, la verdadera media de la poblacin no se apartar de X en ms
de 2,58 o
X.
Estadistica Inferencial


2013
14

(-X) s 2,58 o
X


Como formulacin general de la estimacin de parmetros tendremos:

Estimador factor de confiabilidad x error tpico del estimador

X Zo
X

P (X - Zo
X
< < X + Zo
X
) = Nc Ns


X Zo
X
nos dar la distancia mxima entre X y . Z depende del nivel de confianza dado.
Conociendo el error tpico del estadstico en la distribucin muestral, el intervalo ser el producto del
Nc por dicho error.

5. DISTRIBUCIN T DE STUDENT

Cuando las muestras son pequeas (n < 30) en la estimacin de medias deberemos utilizar la
distribucin t de Student, que depende del Ns y de los grados de libertad. El intervalo viene dado por:
X to
X

t = Z

La distribucin t correspondiente se asemeja mucho a la distribucin normal, y veremos que se aplica
una distribucin t de la misma manera en la que se hace con una distribucin normal.

Caractersticas:

1. Hay una familia de distribucin t (una distinta para cada valor de n).
2. Cada curva t es simtrica a los dos lados de 0.
3. = 0; o
2
es algo superior a 1
4. el punto ms alto de la curva viene dado por t = 0.
5. Debe calcularse la puntuacin t para trabajar con la distribucin t:

X -
t = --------
o
X


S
o
X
= -------
\n

6. El rea bajo la curva es igual a 1.
7. Para la estimacin intervalar la frmula ser:

X to
X

P (X - to
X
< < X + to
X
) = Nc Ns

to
X
= error absoluto; distancia mxima entre X y .

Grados de libertad

El nmero de grados de libertad de un estadstico es denominado generalmente por la letra v. Se define
como el nmero de observaciones independientes en la muestra (e.d. el tamao muestral) menos el n de H
parmetros de la poblacin que deben estimarse a partir de las observaciones de la muestra.
Estadistica Inferencial


2013
15

v = gl = N - H
v = gl = N-1 (para parmetros)

Tablas de distribucin t de Student

Aparecen Ns para 1 2 colas, llamadas pruebas unilaterales o bilaterales. Para estimaciones de
parmetros se utilizan pruebas bilaterales. A la izquierda se sitan gl (df), que son lo grados de libertad.

6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES

La proporcin es una frecuencia relativa:

n
P = ---
N

La suma de todas las proporciones es igual a 1; cada proporcin es s 1. El porcentaje es la proporcin
* 100. P = poblacin; p = muestras.
Estimaremos proporciones igual que acabamos de estimar las medias.
Todos los estadsticos, tanto las medias como las proporciones, tienen su propias distribuciones
muestrales; lo dicho para la distribucin muestral de medias vale para la distribucin muestral de
proporciones.
Muchas veces el investigador busca presentar una estimacin de una proporcin poblacional con base
en la proporcin que obtiene en una muestra aleatoria, p.e. cul es la proporcin de los votos que irn a un
partido?
La distribucin muestral de proporcin 'p' est calculada con base en muestras aleatorias
simples de tamao 'n', sacadas de una poblacin en la que la proporcin poblacional es 'P'. Est
distribuida normalmente si 'n' es grande.
Si extraemos distintas muestras y calculamos su proporcin podemos realizar una distribucin
muestral de proporcin.

PROPIEDADES:

1. la media de la distribucin muestral de proporcin es igual a la proporcin poblacional

p = P

2. La distribucin muestral de proporcin es aproximadamente normal si np nq > 5.
Si p = 0,50 la distribucin es aproximadamente normal si n > 30. Pero si P est cerca
de 0 de 1 la distribucin muestral de proporcin tender a tener un extremo ms
largo a la izquierda o a la derecha, y deber aumentar para tener una aproximacin a la
curva normal. Al ser una distribucin de frecuencias podemos calcular entonces
tendencia central, variacin, etc.

3. Ps 1 o
p
~ 68, 26%
Ps 2 o
p
~ 95,45%
Ps 3 o
p
~ 99,73%

Entre la proporcin muestral Ps y 1 o
p
, 2o
p
y 3 o
p
se encuentran respectivamente el 68,26%, 95,45%
y 99,73% de proporcin de esta distribucin muestral de proporcin.

5. Hay que estandarizar las unidades Z:

Ps - P
Z = --------
Estadistica Inferencial


2013
16
o
p


Ps = proprocin muestral; P = proporcin poblacional
o
p
= desviacin tpica de la distribucin muestral de proporcin.

6.1. ERROR TPICO DE LA PROPORCIN

Es la desviacin tpica de esa distribucin muestral que nos da la fiabilidad del estadstico. Cuanto
menor sea, mejor ser la estimacin.

* * * V E R F O R M U L A R I O P A R A E R R O R T P I C O
D E L A P R O P O R C I N * * *


4.2. INTERVALOS DE CONFIANZA

Estimador factor de confiabilidad + error tpico del estimador

P Zop

P(Ps - Zop < P < Ps + Zop) = Nc Ns
P (p - Zo
p
< P < p + Zo
p
) = Nc NS

Debern utilizarse en general muestras grandes para la estimacin de proporciones, pues sino da unos
intervalos excesivamente amplios que poco pueden decirnos como informacin.

1.7.-Componentes bsicos de una investigacin estadistica

ESTIMACIN POR INTERVALOS.

En la estimacin por intervalos atribuimos al parmetro desconocido un segmento
de posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdadero
del parmetro. Es decir, para estimar el valor del parmetro u, podemos ofrecer un intervalo
de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor
buscado. Por ejemplo, podramos determinar que con una probabilidad de 0.90, el valor de
u se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimacin por intervalos resulta imprescindible apoyarse en
la distribucin muestral de los estadsticos utilizados como estimadores. Por ejemplo el
estadstico X , estimador de . Sabemos que si extraemos muestras de una poblacin en la
que la media es y la varianza
2
o , la distribucin muestral de X tiene como media y
como varianza
n
X
2
2
o
o = . Si el tamao n de las muestras es suficientemente grande, la
distribucin muestral del estadstico X tiende al modelo normal
|
|
.
|

\
|
n
N
o
, .



Estadistica Inferencial


2013
17
ERROR MUESTRAL.

Siempre que tomamos una muestra en representacin de toda la poblacin se
comete un error. Normalmente existe una diferencia entre los valores obtenidos a partir de
la muestra y los correspondientes a la poblacin. Pero cuando hablamos del error muestral
no nos referimos al error real que hemos obtenido nosotros, sino a un error determinado
estadsticamente, vlido para todas las posibles muestras del mismo tamao.

Sea x la media de una muestra de tamao n y sea la media poblacional de la
poblacin de tamao N. Obteniendo todas las muestras de tamao n y calculando la media
x de cada una, se obtiene una distribucin normal, llamada distribucin muestral de las
medias o distribucin de las medias muestrales X .

La curva de Gauss representa la distribucin de todas las medias de tamao n
obtenidas en la poblacin. La media de las medias coincide con la media de la poblacin,
obtenindose muchas muestras cuyas medias, x , son iguales o muy cercanas a y muy
pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .

Definicin.

ERROR MUESTRAL.
Se define el error muestral o error de muestreo como la desviacin tpica
de la distribucin muestral de las medias o de las proporciones.


Recordamos que, para la distribucin de las medias muestrales y para la distribucin
de las proporciones muestrales, respectivamente:

- Cuando la poblacin es finita y la extraccin es con reemplazamiento, o cuando
la poblacin es infinita:

n
q p
p
n
X

, = = o
o
o

- Cuando la poblacin es finita y la extraccin es sin reemplazamiento:

1

,
1

=
N
n N
n
q p
p
N
n N
n
X
o
o
o






Estadistica Inferencial


2013
18
ERROR MXIMO ADMISIBLE.

La distribucin muestral de las medias sigue una ley normal
|
|
.
|

\
|
n
N
o
, y
su representacin grfica es la curva de Gauss. Estadsticamente nunca se puede abarcar
toda el rea comprendida entre la curva de Gauss y el eje OX, por ser ste una asntota de la
curva, siendo preciso fijar el rea se pretende abarcar. Esta rea, (1-o), recibe el nombre de
nivel de confianza porque representa el rea que contendr, probablemente, el valor de la
media poblacional . Se expresa en tanto por ciento.


Definicin.

NIVEL DE CONFIANZA.
Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del
parmetro que se pretende estimar. Se expresa por 1 - o.

Estrictamente, establece el porcentaje de muestras (de un tamao dado) en las que el
estadstico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de
90% o del 95% indica que, de toda el rea encerrada por la curva de Gauss y el eje OX, probablemente
el 90% o el 95% de las veces contendr a la media poblacional , desestimando el 10% o el 5%,
restante.
Definicin.

NIVEL DE SIGNIFICACIN.
Se denomina nivel de significacin o nivel de riesgo a la diferencia entre la
certeza y el nivel de confianza deseado. Por tanto, se expresa por o.

Definicin.

ERROR MXIMO ADMISIBLE.
Se define el error mximo admisible como el valor d que verifica que la
probabilidad de que la media muestral x y la media poblacional difieran en
menos de la cantidad d con el nivel de confianza elegido (1 - o):

Estadistica Inferencial


2013
19
( ) o = < 1 d x p

De lo anterior se deduce:
( ) o = < < 1 d x d p

O lo que es lo mismo:
( ) o = + < < 1 d x d x p

Si:
( ) 6826 . 0 entonces = + < < =
X X X
x x p d o o o
( ) 9544 . 0 2 2 entonces 2 = + < < =
X X X
x x p d o o o
( ) 9973 . 0 3 3 entonces 3 = + < < =
X X X
x x p d o o o

Es decir:

X
d o = para un nivel de confianza del 68.26 %.

X
d o 2 = para un nivel de confianza del 95.44 %.

X
d o 3 = para un nivel de confianza del 99.73 %.

1.8.-Recoleccin de datos
TIPOS DE MUESTREO.

Definicin.

MUESTREO.
Se llama muestreo al procedimiento mediante el cual elegimos a las
unidades estadsticas que forman la muestra, dentro del conjunto que constituye la
poblacin.

Diremos que el muestreo es probabilstico cuando todos los elementos de la
poblacin poseen un probabilidad conocida (o calculada de antemano), no nula, de
ser elegidos para formar parte de la muestra. Se contrapone al llamado muestreo no
probabilstico, en el que, o bien no se conoce la probabilidad de que los elementos
de la poblacin sean seleccionados para la muestra, o bien para parte de ellos esta
probabilidad es nula y, por tanto, no es posible llevar a cabo inferencias estadsticas.

Lgicamente, el muestreo que se encuentra en la base de la mayora de los mtodos
de la Estadstica Inferencial es el muestreo probabilstico. Para llevarlo a cabo es necesario
que la seleccin pueda considerarse como una prueba o experimento aleatorio o de azar, de
los que constituyen la base de la teora de la probabilidad en la cual se fundamenta la
estadstica matemtica.

Estadistica Inferencial


2013
20
Las generalizaciones de resultados, a partir del estudio de muestras extradas
mediante procedimientos de muestreo no probabilstico, nos impiden conocer el margen de
error con el que hacemos las generalizaciones a la poblacin. En cambio, el muestreo
probabiltico permite hacer inferencias sobre la poblacin, y gracias a los procedimientos
de la Estadstica Inferencial podemos conocer el error con el que se realizan las
generalizaciones.

En las pginas siguientes, se describen muestreos probabilsticos (muestreo
aleatorio con y sin reposicin, muestreo aleatorio sistemtico, muestreo estratificado,
muestreo por conglomerados, muestreo polietpico) y muestreos no probabilticos
(muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dos
conceptos que aparecen al referirnos al muestreo: factor o coeficiente de elevacin y
fraccin de muestreo.

Definiciones.

FACTOR DE ELEVACIN.
Se denomina factor o coeficiente de elevacin al cociente entre el tamao
de la poblacin y el tamao de la muestra,
n
N
. Representa el nmero de elementos
que hay en la poblacin por cada elemento de la muestra.


FRACCIN DE MUESTREO.
Se denomina fraccin de muestreo al cociente entre el tamao de la
muestra y el tamao de la poblacin,
N
n
. Si se multiplica por 100, representa el
porcentaje de la poblacin que representa la muestra.


A) MUESTREOS PROBABILSTICOS.

Muestreo aleatorio simple con y sin reposicin. Se denomina muestreo aleatorio
simple a aquel en que todos los elementos de la poblacin tienen la misma probabilidad de
formar parte de la muestra y sta es determinada nicamente por el azar. Se trata de un tipo
de muestreo probabilstico que permite con facilidad llevar a cabo inferencias estadsticas y
calcular la probabilidad de error asociada a las mismas.

Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos con o
sin reemplazamiento de entre los N elementos que componen la poblacin, de tal modo que
todas las muestras de tamao n que se puedan formar tengan la misma probabilidad de ser
elegidas.

Si la muestra se selecciona sin reemplazamiento (es decir, cuando un elemento ha
sido extrado queda descartado de cara a la siguiente extraccin) se habla de muestreo
aleatorio sin reposicin, tambin llamado muestreo irrestrictamente aleatorio.
Estadistica Inferencial


2013
21

Si la muestra se selecciona con reemplazamiento (es decir, el elemento elegido en
cada extraccin vuelve a ser incluido en la poblacin antes de extraer el siguiente elemento)
se habla de muestreo aleatorio con reposicin, tambin llamado generalmente muestreo
aleatorio simple.

Si bien los dos mtodos son distintos, cuando el tamao de la poblacin es infinito o
tan grande que pueda considerarse como infinito, ambos mtodos llegan a las mismas
conclusiones. Si la fraccin de muestreo
N
n
es mayor de 0.1 (se muestrea ms del 10 % de
la poblacin) la diferencia entre ambos mtodos puede ser apreciable, llegando a
conclusiones contradictorias segn se aplique un mtodo u otro.

Ejemplo:
En el muestreo aleatorio sin reposicin, el nmero de muestras de tamao n que se
pueden formar es:
|
|
.
|

\
|
n
N
, y, por tanto, la probabilidad de elegir una muestra determinada es:
( )
!
! ! 1
N
n n N
n
N
p

=
|
|
.
|

\
|
= .

La probabilidad de que un elemento determinado de la poblacin forme parte de la
muestra viene dada por
N
n
p = .

En efecto:

( ) ( )
( ) ( ) N
n
N n n N
n n N N
n
N
n
N
p =


=
|
|
.
|

\
|
|
|
.
|

\
|

= =
! ! 1 !
! ! ! 1
1
1
posibles casos
favorables casos
.


En la prctica el procedimiento de muestreo aleatorio consiste en extraer al azar los
elementos que constituyen la muestra, obteniendo la muestra unidad a unidad. Para ello, si
la poblacin es finita, se enumeran los elementos de la poblacin desde 1 hasta N, y se
extraen a continuacin n elementos usando una urna o un bombo. Este procedimiento,
aunque sencillo, requiere tener unos medios materiales: un bombo o una urna, papeles
numerados o bolas numeradas, etc., por lo que se suelen utilizar otras alternativas como las
tablas de nmeros aleatorios o la generacin de nmeros aleatorios con la calculadora.

Las tablas de nmeros aleatorios son tablas de nmeros colocados de tal forma que
no exista ninguna relacin entre ellos sea cual sea el sentido en que los leamos. Al final de
los contenidos tericos de este tema aparece una tabla de nmeros aleatorios.

Estadistica Inferencial


2013
22
Ejemplo:
Si en una poblacin de 834 individuos deseamos extraer una muestra de 42,
asignaramos un nmero a cada uno de los 834 elementos de la poblacin. Para determinar
los 42 elementos de la muestra, marcaramos un nmero en la tabla de nmeros aleatorios
al azar y a partir de ste leeramos en dicha tabla nmeros de tres dgitos en cualquier
direccin, desestimando los que superen 834.

Tambin podramos encontrar estos 42 nmeros generando nmeros de forma
aleatoria con la calculadora. As:
- Con la calculadora Texas Instruments TI-92, utilizando la orden rand(834),
obtendramos nmeros entre 1 y 834.
- Con la calculadora CASIO fx-180P, debemos utilizar la sucesin de teclas,
INV () RAN, y descartamos los nmeros que superen 834.

Muestreo aleatorio sistemtico. El muestreo aleatorio sistemtico resulta ser un
procedimiento ms cmodo que el muestreo aleatorio, con o sin reposicin, cuando la
poblacin o la muestra que vamos a extraer son grandes. En lugar de recurrir a papeletas,
bolas, tablas de nmeros aleatorios o calculadora, puede determinarse la muestra eligiendo
sistemticamente, en una relacin ordenada de los individuos de la poblacin, aquellos que
se encuentren a una distancia determinada. Suponiendo que el tamao de la muestra es N y
que la muestra que queramos extraer constara de n individuos, procederamos del siguiente
modo:

a) Calculamos el coeficiente de elevacin,
n
N
k = .
b) Elegimos aleatoriamente un nmero m comprendido entre 1 y k.
c) Determinamos la muestra sumndole repetidamente k al nmero, m,
elegido.

La muestra estar constituida por los individuos:

( )k n m k m k m k m m 1 ........, , 3 , 2 , , + + + +

Para que la muestra conserve el carcter aleatorio, debemos procurar que la
ordenacin de los individuos de la poblacin no presente tendencias que hagan recaer la
eleccin sistemtica sobre unidades que no sean representativas de la heterogeneidad de la
poblacin.

Ejemplo:
Supongamos que queremos hacer una investigacin en un instituto de 720 alumnos
y alumnas, de los que queremos tomar una muestra de 80 individuos. En primer lugar,
ordenar todos los alumnos y alumnas alfabticamente sera un buen criterio de ordenacin.
Sin embargo, disponer los alumnos situando una tras otra las listas de los alumnos/as de
cada clase, en las que estos aparezcan por orden de calificaciones, podra llevar a que se
seleccionaran sistemticamente los alumnos/as con calificaciones altas y no los de las
calificaciones bajas, o viceversa.
Estadistica Inferencial


2013
23
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de elevacin
9
80
720
= . Elegimos aleatoriamente un nmero entre 1 y 9 (tabla de nmeros aleatorios,
calculadora, .....). Si el nmero obtenido fuese 6, los individuos seleccionados seran:
{6, 15 (= 6+9), 24 (= 6+2 9), 33 (=6+3 9), ........, 717 (=6+79 9)}

Evidentemente, k no suele ser un nmero entero. Si se desprecian los decimales
ocurrir que una parte de los sujetos que se encuentran al final de la ordenacin pierden
toda posibilidad de ser elegidos. Una solucin podra consistir en mantener los decimales
del coeficiente k y redondear el resultado de las sumas al nmero entero ms prximo, una
vez que se han realizado todas ellas. Otra sera, sumar alternativamente las cantidades
Ent(k) y Ent(k) +1.

Adems del procedimiento que acabamos de exponer, existen otras formas de
muestreo que tambin se consideran muestreos sistemticos. Por ejemplo, para elegir una
muestra de personas, podemos seleccionar una o varias letras del abecedario y tomar como
muestra todos los sujetos cuyo apellido comience por esa(s) letra(s).
Muestreo estratificado. El muestreo estratificado se realiza cuando queremos
garantizar cierta representatividad de la muestra respecto de alguna caracterstica. Para ello,
en funcin de esa caracterstica, dividimos la poblacin de tamao N en K estratos o
subpoblaciones de tamaos respectivos
K
N N N N ........, , , ,
3 2 1
y elegimos de forma
aleatoria (mediante sorteo, tablas, procedimientos sistemticos, .....) submuestras de
tamaos
k
n n n n ........, , , ,
3 2 1
en cada estrato, asegurndonos de este modo de que todas
las subpoblaciones estarn representadas en la muestra. La muestra total ser la suma de las
submuestras elegidas en cada estrato, es decir,
k
n n n n n + + + + = ........
3 2 1
.

Cabe diferenciar entre muestreo estratificado con asignacin proporcional o de
afijacin proporcional, muestreo estratificado con asignacin constante o de afijacin igual
y muestreo estratificado con asignacin ptima.

En el muestreo estratificado con asignacin proporcional, o de afijacin
proporcional, se respeta la importancia cuantitativa de cada estrato, asignando en la
muestra un nmero de individuos proporcional al tamao del estrato en la poblacin.


N
n
N
n
N
n
N
n
N
n
k
k
= = = = = .. ..........
3
3
2
2
1
1


En el muestreo estratificado con asignacin constante, o de afijacin igual,
todos los estratos contribuyen a la muestra con idntico nmero de individuos, con
independencia de cual sea la importancia numrica de dicho estrato.

Finalmente, se habla de muestreo estratificado con asignacin ptima cuando la
contribucin de cada estrato se determina a partir de parmetros ya conocidos de la
poblacin.

Estadistica Inferencial


2013
24
Ejemplo:
Se desea extraer una muestra de 60 alumnos y alumnas de un centro escolar en el
que hay 500 matriculados, de los que 300 son nios y 200 son nias, para estimar la
estatura media.
- Si se utiliza un muestreo estratificado de afijacin igual deberamos seleccionar
30 nios y 30 nias.
- Si se utiliza un muestreo estratificado de asignacin proporcional deberamos
escoger 36 nios y 24 nias.
- Si conocemos la variabilidad de la caracterstica considerada, y sabemos que la
varianza en el caso de los alumnos es de 15 cm y en las alumnas 5 cm, la
proporcin de alumnos a alumnas sera de 3 : 1, y usando un muestreo
estratificado de asignacin ptima, los tamaos de las submuestras deberan ser
de 45 nios y 15 nias.

Lgicamente, el menos recomendable de los tres tipos de muestreo estratificado es el de
asignacin constante, ya que asigna el mismo tamao a cada estrato, y como consecuencia se favorece a
los estratos de menor tamao y perjudica a los grandes, en cuanto a la precisin de los resultados que
obtengamos.

Muestreo por conglomerados. El muestreo por conglomerados se utiliza cuando
las unidades de la poblacin presentan alguna forma de agrupamiento, que permite elegir
grupos en lugar de individuos. De esta forma, el acceso a la muestra queda facilitado
considerablemente, al quedar reunidos en una serie de grupos los individuos que la
constituyen. Al realizar el muestreo, seleccionaramos aleatoriamente una serie de grupos o
conglomerados, tratando de reunir el nmero total de individuos que pretendemos incluir en
la muestra. Los conglomerados deben ser lo ms representativos posible de la poblacin, es
decir, deben representar la heterogeneidad de la poblacin del estudio y ser entre s
homogneos.

Este procedimiento no requiere construir censos o listados completos de los
elementos de la poblacin, que son sustituidos en este caso por los censos de
conglomerados. En realidad, el muestreo por conglomerados no es ms que la aplicacin de
los muestreos aleatorios con o sin reposicin, sistemtico o estratificado al caso en que la
unidad de muestreo no son los individuos sino los grupos de individuos. Usando este
procedimiento se evita la dispersin de unidades a la que conducen otros tipos de muestreo,
y se reducen los costes y el tiempo de un trabajo de recogida de datos.

Cuando los conglomerados se corresponden con zonas geogrficas, y se define el
conglomerado como un rea o parte bien limitada del terreno, se denomina muestreo por
reas.

Ejemplo:
Si queremos hacer un estudio sobre la influencia de un determinado pienso en el
engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y
Estadistica Inferencial


2013
25
luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cada
granja o de una muestra representativa de la poblacin de cerdos de la misma.


Muestreo polietpico. En el muestreo polietpico las unidades que finalmente
componen la muestra se determinan en etapas sucesivas. Se trata de un caso particular del
muestreo por conglomerados, en el que la unidad final no son los conglomerados sino
subdivisiones de stos. Por tanto, ser interesante aplicarlo cuando los conglomerados
contengan un elevado nmero de individuos y resulte aconsejable hacer una seleccin entre
ellos.

Si nicamente desarrollamos dos etapas, muestreo bietpico, el procedimiento
consistira en la seleccin de los conglomerados en la primera etapa, y la seleccin de los
individuos en la segunda.

No obstante, el muestreo polietpico puede extenderse a ms de dos etapas dando
lugar a una seleccin sucesiva de unidades cada vez menores, que estn jerarquizadas de tal
modo que la unidades de la primera etapa son divisibles en unidades de la segunda etapa,
stas a su vez en unidades de la tercera etapa, y as hasta alcanzar las unidades que
finalmente constituirn la muestra. Estas unidades finales no necesariamente han de ser los
individuos.

En cada etapa, la seleccin de las unidades podr hacerse siguiendo procedimientos
de muestreo aleatorio, sistemtico o estratificado.
Ejemplo:
En el ejemplo anterior referido al estudio sobre la influencia de un determinado
pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de toda
Espaa. Entonces, en una primera etapa, podramos seleccionar de forma aleatoria una serie
de provincias; en segundo lugar, en cada una de las provincias seleccionar tambin
aleatoriamente algunas comarcas (bien delimitadas); posteriormente, dentro de cada
comarca elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar
todos los cerdos o una muestra de ellos elegida adecuadamente.


B) MUESTREOS NO PROBABILSTICOS.

Muestreo intencional u opintico. En el muestreo intencional u opintico la
representatividad depende de la intencin u opinin de la persona que selecciona la
muestra, y que, segn su criterio, procura que sea representativa. Por tanto, la evaluacin de
la representatividad es subjetiva. En este caso, la composicin de la muestra puede estar
influida por las preferencias o tendencias, aun las inconscientes, del individuo que la
obtiene, y no slo por factores objetivos que son los que deben tenerse en cuenta de modo
riguroso, como ocurre en el muestreo probabilstico.

Ejemplo:
Se pretende hacer una encuesta en un instituto, entre los alumnos de 4 de E.S.O., para saber
la modalidad de Bachillerato que seguirn los que continen estudiando. El Jefe de Estudios pregunta a
Estadistica Inferencial


2013
26
unos cuantos alumnos de cada grupo de 4 de E.S.O., con el nico criterio de que piensa que esos
seguirn estudiando.

Este tipo de muestreo carece, pues, de una base terica satisfactoria a pesar de lo
cual su uso est bastante generalizado, especialmente el llamado muestreo por cuotas.


Muestreo por cuotas. En el muestreo por cuotas, el investigador establece estratos
de la poblacin, determina el nmero de individuos a seleccionar en cada uno de ellos y
elige intencionadamente individuos para completar las cuotas establecidas. Se asemeja al
muestreo por estratos en cuanto que supone un conocimiento previo de la poblacin, que
permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquel por
el hecho de que aqu los individuos que constituyen la cuota aportada a la muestra por cada
estrato no son determinados aleatoriamente, sino en funcin de otros criterios
(accesibilidad, comodidad, economa, etc.). La nica condicin impuesta es que los
individuos cumplan los requisitos fijados en las cuotas.

Ejemplo:
El agente visitador o entrevistador recoge informacin de personas o familias en
nmero proporcional al de las que cumplen determinadas condiciones en la poblacin, y
puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos niveles
socioeconmicos. As, se podra fijar que el 15 % de la muestra ha de constar de mujeres
que tengan menos de 40 aos, sean de clase media y habiten en determinado barrio, y esta
sera la nica condicin para seleccionar este 15 % de la muestra.

El muestreo por cuotas no es un muestreo probabilstico, y por tanto, no permite
llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.
Muestreo incidental. En el muestreo incidental el investigador determina
deliberadamente qu individuos formarn parte de la muestra, tratando de recoger a los
casos considerados tpicamente representativos de la poblacin. Los criterios de eleccin
suelen basarse generalmente en el conocimiento terico sobre el tema de estudio. Pero, en
definitiva, a pesar de la posible buena intencin y conocimiento del tema y de la poblacin
que tenga el investigador, la muestra no servir para hacer inferencias a toda la poblacin
ya que siempre cabe que pueda estar distorsionada por tendencias o preferencias
subconscientes o inconscientes del investigador.

Ejemplo:
Para estimar el problema de absentismo escolar, un investigador puede seleccionar
los alumnos de un centro situado en una zona de trabajadores agrcolas temporeros que han
de desplazarse en determinadas pocas del ao, los alumnos de un centro situado en una
barriada marginal de una gran ciudad y los de un centro residencial, dado que por su
conocimiento terico del problema sabe que stos representan los diferentes tipos de
comportamientos en relacin con la asistencia a clase.


Muestreo accidental. En el muestreo accidental, tambin llamado sin norma,
circunstancial o errtico, se seleccionan determinados individuos o grupos de individuos
Estadistica Inferencial


2013
27
sin que exista ningn criterio aparente. La muestra se toma de cualquier manera, a la
aventura, por razones de comodidad o por las circunstancias que rodean al proceso o a
capricho. Este tipo de muestreo se considera el ms alejado de la posibilidad de generalizar
a la poblacin los resultados obtenidos.

Slo si la poblacin es homognea la representatividad de la muestra puede ser
satisfactoria. A veces la uniformidad puede sustituirse por una buena mezcla antes de tomar
muestras, como en el caso de los avisos agtese antes de usar, o bien cuando se barajan
los naipes o se hacen girar las bolas dentro de un bombo.

Ejemplo:
Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el
comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a los
artculos completos. Por otra parte, influye en la adopcin de este procedimiento en estas
cuestiones de la realidad cotidiana el hecho de que, en caso de equivocacin, las
consecuencias no seran demasiado graves.

Una broma final.
El uso de un muestreo no probabilstico podra llevarnos a consecuencias curiosas.
Imaginemos un investigador que hace un estudio sobre la respuesta anmica ante la lluvia.
Este investigador est de vacaciones en un complejo turstico de Vera, durante una semana
de principios de otoo. Sabe que en Almera la probabilidad de que llueva es mnima.
Curiosamente, aparecen las nubes y empieza a llover. Decide aprovechar para recoger unas
entrevistas de personas de una zona muy seca en la que llueve. Pero como no tena previsto
que lloviera, no ha trado paraguas, y pregunta a las personas que estn en el bar social del
complejo turstico. Todos se quejan de la lluvia. En Almera no debera llover. Le
sorprende la respuesta.... No ha tenido en cuenta que la muestra ha de ser tomada
aleatoriamente. Y, los turistas que vienen a Almera esperan que el Sol forme parte del
paisaje como el desierto de Tabernas.

1.9.-Estadistica paramtrica

ESTIMACIN POR INTERVALOS.

En la estimacin por intervalos atribuimos al parmetro desconocido un segmento
de posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdadero
del parmetro. Es decir, para estimar el valor del parmetro u, podemos ofrecer un intervalo
de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor
buscado. Por ejemplo, podramos determinar que con una probabilidad de 0.90, el valor de
u se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimacin por intervalos resulta imprescindible apoyarse en
la distribucin muestral de los estadsticos utilizados como estimadores. Por ejemplo el
estadstico X , estimador de . Sabemos que si extraemos muestras de una poblacin en la
Estadistica Inferencial


2013
28
que la media es y la varianza
2
o , la distribucin muestral de X tiene como media y
como varianza
n
X
2
2
o
o = . Si el tamao n de las muestras es suficientemente grande, la
distribucin muestral del estadstico X tiende al modelo normal
|
|
.
|

\
|
n
N
o
, .


ERROR MUESTRAL.

Siempre que tomamos una muestra en representacin de toda la poblacin se
comete un error. Normalmente existe una diferencia entre los valores obtenidos a partir de
la muestra y los correspondientes a la poblacin. Pero cuando hablamos del error muestral
no nos referimos al error real que hemos obtenido nosotros, sino a un error determinado
estadsticamente, vlido para todas las posibles muestras del mismo tamao.

Sea x la media de una muestra de tamao n y sea la media poblacional de la
poblacin de tamao N. Obteniendo todas las muestras de tamao n y calculando la media
x de cada una, se obtiene una distribucin normal, llamada distribucin muestral de las
medias o distribucin de las medias muestrales X .

La curva de Gauss representa la distribucin de todas las medias de tamao n
obtenidas en la poblacin. La media de las medias coincide con la media de la poblacin,
obtenindose muchas muestras cuyas medias, x , son iguales o muy cercanas a y muy
pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .

Definicin.

ERROR MUESTRAL.
Se define el error muestral o error de muestreo como la desviacin tpica
de la distribucin muestral de las medias o de las proporciones.


Recordamos que, para la distribucin de las medias muestrales y para la distribucin
de las proporciones muestrales, respectivamente:

- Cuando la poblacin es finita y la extraccin es con reemplazamiento, o cuando
la poblacin es infinita:

n
q p
p
n
X

, = = o
o
o

- Cuando la poblacin es finita y la extraccin es sin reemplazamiento:

Estadistica Inferencial


2013
29
1

,
1

=
N
n N
n
q p
p
N
n N
n
X
o
o
o


ERROR MXIMO ADMISIBLE.

La distribucin muestral de las medias sigue una ley normal
|
|
.
|

\
|
n
N
o
, y
su representacin grfica es la curva de Gauss. Estadsticamente nunca se puede abarcar
toda el rea comprendida entre la curva de Gauss y el eje OX, por ser ste una asntota de la
curva, siendo preciso fijar el rea se pretende abarcar. Esta rea, (1-o), recibe el nombre de
nivel de confianza porque representa el rea que contendr, probablemente, el valor de la
media poblacional . Se expresa en tanto por ciento.


Definicin.

NIVEL DE CONFIANZA.
Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del
parmetro que se pretende estimar. Se expresa por 1 - o.

Estrictamente, establece el porcentaje de muestras (de un tamao dado) en las que el
estadstico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de
90% o del 95% indica que, de toda el rea encerrada por la curva de Gauss y el eje OX, probablemente
el 90% o el 95% de las veces contendr a la media poblacional , desestimando el 10% o el 5%,
restante.
Definicin.

NIVEL DE SIGNIFICACIN.
Se denomina nivel de significacin o nivel de riesgo a la diferencia entre la
certeza y el nivel de confianza deseado. Por tanto, se expresa por o.

Definicin.

Estadistica Inferencial


2013
30
ERROR MXIMO ADMISIBLE.
Se define el error mximo admisible como el valor d que verifica que la
probabilidad de que la media muestral x y la media poblacional difieran en
menos de la cantidad d con el nivel de confianza elegido (1 - o):

( ) o = < 1 d x p

De lo anterior se deduce:
( ) o = < < 1 d x d p

O lo que es lo mismo:
( ) o = + < < 1 d x d x p

Si:
( ) 6826 . 0 entonces = + < < =
X X X
x x p d o o o
( ) 9544 . 0 2 2 entonces 2 = + < < =
X X X
x x p d o o o
( ) 9973 . 0 3 3 entonces 3 = + < < =
X X X
x x p d o o o

Es decir:

X
d o = para un nivel de confianza del 68.26 %.

X
d o 2 = para un nivel de confianza del 95.44 %.

X
d o 3 = para un nivel de confianza del 99.73 %.

En general:
( ) o o o = + < < 1
X X
k x k x p

Para una variable tipificada, el valor de k se obtiene as:

( ) o = < < 1 k Z k p ( ) ( ) ( ) = s < = < < k Z p k Z p k Z k p
( ) ( ) | | ( ) o = < = < < = 1 1 2 1 k Z p k Z p k Z p

De donde:
( )
2
1
o
= < k Z p

cuyo valor lo podemos obtener en la tabla N(0 , 1) para una valor dado o.

Valores de k, ms usuales, segn el nivel de confianza 1 - o:

1 - o 50 % 682 % 90 % 95 % 955 % 99 % 997 %
Estadistica Inferencial


2013
31
K 0.67 1 1.65 1.96 2 2.58 3

En el caso de las proporciones:

o =
|
|
.
|

\
|
+ < < 1

n
q p
k
n
f
p
n
q p
k
n
f
p

El error mximo admisible d y el error muestral
x
o o
p
o estn relacionados por
el valor k obtenido a partir del nivel de confianza (1 - o). As:

Error mximo admisible para la estimacin de la media poblacional:
-
n
k k d
X
o
o = = (poblacin infinita o finita con reemplazamiento).
-
1

= =
N
n N
n
k k d
X
o
o (poblacin finita sin reemplazamiento).

Error mximo admisible para la estimacin de la proporcin poblacional:
-
n
q p
k k d
p

= = o (poblacin infinita o finita con reemplazamiento).


-
1

= =
N
n N
n
q p
k k d
p
o (poblacin finita sin reemplazamiento).


TAMAO DE LA MUESTRA.

Las encuestas se realizan en una muestra representativa de la poblacin. Su tamao
vara de unas encuestas a otras y viene recogido en la llamada ficha tcnica. En dicha ficha
tcnica debe aparecer: el tamao de la muestra, el nivel de confianza y el margen de error.
El tamao n de la muestra depende del tamao N de la poblacin, del nivel de confianza
(1 - o) adoptado y del error mximo admisible d.

DISTRIBUCIN DE LAS PROPORCIONES MUESTRALES:

- Para una poblacin infinita, o finita con reemplazamiento, a partir de la
expresin que relaciona el error mximo admisible o margen de error d y el error
muestral
p
o se tiene:

2

2


d
q p k
n
n
q p
k
p
k d = = = o

Cuando no se conoce la proporcin p, se estima para el caso ms desfavorable, es decir, que tanto p como q sean el 50%.
Estadistica Inferencial


2013
32
- Para una poblacin finita y muestreo sin reemplazamiento se tiene, a partir de la
expresin del error mximo admisible:

( ) q p k d N
q p N k
n
N
n N
n
q p
k
p
k d

2 2
1

2
1


+
=

= = o


DISTRIBUCIN DE LAS MEDIAS MUESTRALES.

- Para poblaciones infinitas o poblaciones finitas con reemplazamiento, la
expresin que relaciona el error mximo admisible d y el error muestral
x
o nos
permite obtener el tamao de la muestra:
2
2

2

d
k
n
n
k
X
k d
o o
o = = =

- Si la poblacin es finita y el muestreo es sin reemplazamiento, el tamao sera:

( )
2

2
1
2
2

1

o
o o
o
k N d
k N
n
N
n N
n
k
X
k d
+
=

= =


INTERVALO DE CONFIANZA DE LA MEDIA.

En una poblacin cuya distribucin es conocida, pero con algn parmetro
desconocido, podemos estimar dicho parmetro a partir de una muestra representativa.
Estamos trabajando en el caso de la estimacin de parmetros mediante un intervalo de
confianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional con un
nivel de confianza 1-o:

o = < < 1 ) ( b a p

El valor 1-o, que indica con qu probabilidad el intervalo [a , b] contiene el valor
real del parmetro estimado , se elige previamente, siendo un nmero real comprendido
entre 0 y 1. El valor 1-o se expresa en porcentaje.

Estadistica Inferencial


2013
33
Sea X una variable aleatoria con distribucin ) , ( o N y x
1
, x
2
, ......, x
n
, una muestra
aleatoria de tamao n. La distribucin muestral de las medias X sigue una ley normal
|
|
.
|

\
|
n
N
o
, y la variable tipificada
n
X
Z
o

= es una distribucin N(0,1).
Recordemos que si la poblacin no es normal basta con tomar una muestra
suficientemente grande.

1.10.-Aplicaciones de la estadstica inferencial

Supongamos que tenemos la estatura, medida en centmetros, de un grupo de diez jvenes:
{170, 172, 180, 175, 178, 194, 178, 165, 170, 178}. La estatura media es de 176
centmetros y la desviacin tpica es (aproximadamente) de 7.5 centmetros. La media y la
desviacin tpica son valores que describen al conjunto de estaturas, y seran ejemplos de
parmetros.

En cambio, en la Estadstica Inferencial se estudian conjuntos de puntuaciones, las
muestras, con el fin de generalizar los resultados a conjuntos de puntuaciones ms amplios,
las poblaciones, de las que fueron extrados.


Para ilustrar este concepto, construiremos la distribucin muestral del estadstico media, X
, cuando extraemos muestras aleatorias de tamao 2 en una poblacin constituida por los
valores {1, 2, 3}. La muestra estar formada por los valores de las dos variables aleatorias:
1
x (resultado de la primera seleccin) y
2
x (resultado de la segunda eleccin). A su vez, la
media muestral X es tambin una variable aleatoria, puesto que se obtiene por
combinacin lineal de las dos variables aleatorias
1
x y
2
x .
Formaremos muestras de tamao 2 recurriendo a dos vas diferentes:

a) Procedimiento emprico.- Seleccionamos al azar una muestra con reposicin de
2 elementos y calculamos su media. Repetimos el proceso hasta un total de 20
veces. Los resultados de este proceso podran ser, por ejemplo:

1
x
1 1 2 2 2 1 2 3 3 1
2
x
2 3 1 3 2 3 1 1 3 1
x
1.5 2 1.5 2.5 2 2 1.5 2 3 1

1
x
1 2 3 3 2 1 1 3 3 1
2
x
2 3 3 2 1 2 2 2 1 3
x
1.5 2.5 3 2.5 1.5 1.5 1.5 2.5 2 2

Estadistica Inferencial


2013
34
La distribucin de frecuencias para los valores de la media obtenidos
quedara tal y como muestra la siguiente tabla:

x i
n
i
f
1 1 0.05
1.5 7 0.35
2 6 0.30
2.5 4 0.20
3 2 0.10

As habremos construido una distribucin muestral emprica.

b) Procedimiento terico.- Sin tener que extraer repetidas muestras para calcular la
media de los valores que las componen, podemos construir una distribucin
muestral terica, valindonos de conceptos probabilsticos. As podemos
determinar las 9 muestras aleatorias posibles con reposicin a partir de la
poblacin considerada y calcular las respectivas medias.

1
x
1 1 1 2 2 2 3 3 3
2
x
1 2 3 1 2 3 1 2 3
x
1 1.5 2 1.5 2 2.5 2 2.5 3

Teniendo en cuenta las medias de las nueve muestras posibles, todas
ellas equiprobables, puedo construir la funcin de probabilidad para la
variable aleatoria X .

x i
n
i
f
1 1 1/9 = 0.11
1.5 7 2/9 = 0.22
2 6 3/9 = 0.33
2.5 4 2/9 = 0.22
3 2 1/9 = 0.11
Conociendo esta distribucin muestral terica, se tiene que la probabilidad de
obtener el valor 1 = X para la media de una muestra extrada al azar de la poblacin es
( ) 11 ' 0 1 = = X p , mientras que la probabilidad de obtener el valor 2 = X es ( ) 33 ' 0 2 = = X p
. Es decir, en un 11 % de los casos, la muestra tendr como media 1 y en un 33 % de los
casos, el valor de la media de la muestra ser 2.

Como afirmbamos anteriormente, la distribucin muestral emprica de un
estadstico se aproxima a la distribucin muestral terica a medida que aumenta el nmero
de muestras extradas. Las frecuencias relativas obtenidas empricamente llegan a coincidir
con las probabilidades tericas cuando el nmero de muestras crece indefinidamente.

Veamos someramente otro ejemplo.
Estadistica Inferencial


2013
35

Supongamos que la poblacin es P = {1, 2, 3, 5} y que representa el tiempo (en
horas diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedican al
estudio.

Siguiendo la misma tcnica utilizada en ejemplo anterior tenemos:

a) El conjunto de muestras de tamao 2 de la poblacin P tiene 16 elementos
diferentes.

Medias de las muestras de tamao 2.
1 2 3 5
1 1 1.5 2 3
2 1.5 2 2.5 3.5
3 2 2.5 3 4
5 3 3.5 4 5

La informacin que da la tabla anterior se puede organizar en una tabla de
distribucin de frecuencias del siguiente modo:

Distribucin de medias muestrales (n = 2)
x i
n
1 1
1.5 2
2 3
2.5 2
3 3
3.5 2
4 2
5 1

Hemos construdo la distribucin muestral de medias de tamao 2. Esa
distribucin, igual que toda distribucin, tiene grfica de una determinada forma,
una media, una desviacin tpica, etc.

b) El conjunto de muestras de tamao 3 de la poblacin P tiene 64 elementos
diferentes. Y procediendo de un modo anlogo podemos obtener la siguiente
tabla:

Distribucin de medias muestrales (n = 3)
x i
n
1 1
4/3 3
5/3 6
2 7
Estadistica Inferencial


2013
36
7/3 9
8/3 9
3 10
10/3 6
11/3 6
4 3
13/3 3
5 1

As hemos construido la distribucin muestral de medias de tamao 3.

c) Igual podemos hacer la distribucin muestral de medias de tamao 4. En este
caso hay 256 muestras diferentes.

Distribucin de medias muestrales (n = 4)
x i
n
1 1
5/4 4
6/4 10
7/4 16
2 23
9/4 28
10/4 34
11/4 32
3 31
13/4 24
14/4 22
15/4 12
4 10
17/4 4
18/4 4
5 1
T= 256



En resumen, se han construido las tres distribuciones muestrales de medias,
asociadas con la poblacin P. Las caractersticas de la poblacin P y de las tres
distribuciones muestrales se exponen a continuacin.

Tamao Media Desviacin Tpica
Poblacin 4 2.75 1.479016
Distribucin muestral de medias, n = 2 16 2.75 1.045825
Distribucin muestral de medias, n = 3 64 2.75 0.853912
Distribucin muestral de medias, n = 4 256 2.75 0.73509
Estadistica Inferencial


2013
37



Distribucin de la poblacin.


Distribucin de las medias de las muestras de tamao 2.
Distribucin de las medias de las muestras de tamao 3.

Distribucin de las medias de las muestras de tamao 4.

Al observar las grficas anteriores se comprueba que la grfica de la poblacin es
uniforme y los diagramas de las distribuciones muestrales van aproximndose a la curva
normal a medida que el tamao de las muestras se aumenta.

Tambin vemos que las medias de las cuatro distribuciones coinciden, y en cambio,
las desviaciones tpicas disminuyen a medida que aumenta el tamao de las muestras.

Veamos como se relacionan la desviacin tpica de la poblacin con la desviacin
tpica de la distribucin muestral y con el tamao de las muestras. Obsrvese que:

479019945 . 1 2 045825033 . 1 =

Estadistica Inferencial


2013
38
479019948 . 1 3 853912565 . 0 =

479019944 . 1 4 739509972 . 0 =

Los tres productos dan, prcticamente, el mismo resultado que el valor de la
desviacin tpica de la poblacin. En realidad, el producto entre la desviacin tpica de la
distribucin muestral de las medias y la raz cuadrada del tamao de las muestras es igual a
la desviacin tpica de la poblacin (la inexactitud de los resultados anteriores se debe a las
aproximaciones tomadas).

2.1.-Conceptos bsicos.

ESTIMACIN POR INTERVALOS.

En la estimacin por intervalos atribuimos al parmetro desconocido un segmento
de posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdadero
del parmetro. Es decir, para estimar el valor del parmetro u, podemos ofrecer un intervalo
de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor
buscado. Por ejemplo, podramos determinar que con una probabilidad de 0.90, el valor de
u se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimacin por intervalos resulta imprescindible apoyarse en
la distribucin muestral de los estadsticos utilizados como estimadores. Por ejemplo el
estadstico X , estimador de . Sabemos que si extraemos muestras de una poblacin en la
que la media es y la varianza
2
o , la distribucin muestral de X tiene como media y
como varianza
n
X
2
2
o
o = . Si el tamao n de las muestras es suficientemente grande, la
distribucin muestral del estadstico X tiende al modelo normal
|
|
.
|

\
|
n
N
o
, .


ERROR MUESTRAL.

Siempre que tomamos una muestra en representacin de toda la poblacin se
comete un error. Normalmente existe una diferencia entre los valores obtenidos a partir de
la muestra y los correspondientes a la poblacin. Pero cuando hablamos del error muestral
no nos referimos al error real que hemos obtenido nosotros, sino a un error determinado
estadsticamente, vlido para todas las posibles muestras del mismo tamao.

Sea x la media de una muestra de tamao n y sea la media poblacional de la
poblacin de tamao N. Obteniendo todas las muestras de tamao n y calculando la media
Estadistica Inferencial


2013
39
x de cada una, se obtiene una distribucin normal, llamada distribucin muestral de las
medias o distribucin de las medias muestrales X .

La curva de Gauss representa la distribucin de todas las medias de tamao n
obtenidas en la poblacin. La media de las medias coincide con la media de la poblacin,
obtenindose muchas muestras cuyas medias, x , son iguales o muy cercanas a y muy
pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .

Definicin.

ERROR MUESTRAL.
Se define el error muestral o error de muestreo como la desviacin tpica
de la distribucin muestral de las medias o de las proporciones.


Recordamos que, para la distribucin de las medias muestrales y para la distribucin
de las proporciones muestrales, respectivamente:

- Cuando la poblacin es finita y la extraccin es con reemplazamiento, o cuando
la poblacin es infinita:

n
q p
p
n
X

, = = o
o
o

- Cuando la poblacin es finita y la extraccin es sin reemplazamiento:

1

,
1

=
N
n N
n
q p
p
N
n N
n
X
o
o
o


ERROR MXIMO ADMISIBLE.

La distribucin muestral de las medias sigue una ley normal
|
|
.
|

\
|
n
N
o
, y
su representacin grfica es la curva de Gauss. Estadsticamente nunca se puede abarcar
toda el rea comprendida entre la curva de Gauss y el eje OX, por ser ste una asntota de la
curva, siendo preciso fijar el rea se pretende abarcar. Esta rea, (1-o), recibe el nombre de
nivel de confianza porque representa el rea que contendr, probablemente, el valor de la
media poblacional . Se expresa en tanto por ciento.
Estadistica Inferencial


2013
40


Definicin.

NIVEL DE CONFIANZA.
Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del
parmetro que se pretende estimar. Se expresa por 1 - o.

Estrictamente, establece el porcentaje de muestras (de un tamao dado) en las que el
estadstico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de
90% o del 95% indica que, de toda el rea encerrada por la curva de Gauss y el eje OX, probablemente
el 90% o el 95% de las veces contendr a la media poblacional , desestimando el 10% o el 5%,
restante.
Definicin.

NIVEL DE SIGNIFICACIN.
Se denomina nivel de significacin o nivel de riesgo a la diferencia entre la
certeza y el nivel de confianza deseado. Por tanto, se expresa por o.

Definicin.

ERROR MXIMO ADMISIBLE.
Se define el error mximo admisible como el valor d que verifica que la
probabilidad de que la media muestral x y la media poblacional difieran en
menos de la cantidad d con el nivel de confianza elegido (1 - o):

( ) o = < 1 d x p

De lo anterior se deduce:
( ) o = < < 1 d x d p

O lo que es lo mismo:
( ) o = + < < 1 d x d x p

Si:
( ) 6826 . 0 entonces = + < < =
X X X
x x p d o o o
( ) 9544 . 0 2 2 entonces 2 = + < < =
X X X
x x p d o o o
( ) 9973 . 0 3 3 entonces 3 = + < < =
X X X
x x p d o o o

Es decir:

X
d o = para un nivel de confianza del 68.26 %.

X
d o 2 = para un nivel de confianza del 95.44 %.
Estadistica Inferencial


2013
41

X
d o 3 = para un nivel de confianza del 99.73 %.

2.2.-Distribuciones de muestreo
DISTRIBUCIN DE LAS MEDIAS MUESTRALES.

- Para poblaciones infinitas o poblaciones finitas con reemplazamiento, la
expresin que relaciona el error mximo admisible d y el error muestral
x
o nos
permite obtener el tamao de la muestra:
2
2

2

d
k
n
n
k
X
k d
o o
o = = =

- Si la poblacin es finita y el muestreo es sin reemplazamiento, el tamao sera:

( )
2

2
1
2
2

1

o
o o
o
k N d
k N
n
N
n N
n
k
X
k d
+
=

= =


INTERVALO DE CONFIANZA DE LA MEDIA.

En una poblacin cuya distribucin es conocida, pero con algn parmetro
desconocido, podemos estimar dicho parmetro a partir de una muestra representativa.
Estamos trabajando en el caso de la estimacin de parmetros mediante un intervalo de
confianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional con un
nivel de confianza 1-o:

o = < < 1 ) ( b a p

El valor 1-o, que indica con qu probabilidad el intervalo [a , b] contiene el valor
real del parmetro estimado , se elige previamente, siendo un nmero real comprendido
entre 0 y 1. El valor 1-o se expresa en porcentaje.

Sea X una variable aleatoria con distribucin ) , ( o N y x
1
, x
2
, ......, x
n
, una muestra
aleatoria de tamao n. La distribucin muestral de las medias X sigue una ley normal
|
|
.
|

\
|
n
N
o
, y la variable tipificada
n
X
Z
o

= es una distribucin N(0,1).
Recordemos que si la poblacin no es normal basta con tomar una muestra
suficientemente grande.
Estadistica Inferencial


2013
42
Grficamente:


o
o o
=
|
|
|
|
.
|

\
|
< < 1
2 2
z Z z p

Sustituyendo:
o
o
o

o
=
|
|
|
|
.
|

\
|
<

< 1
2 2
z
n
X
z p

o bien:
o
o
o

o
=
|
|
|
|
.
|

\
|
<

< 1
2 2
z
n
X
z p

de donde:
o
o
o

o
o
=
|
|
|
|
.
|

\
|
+ < < 1
2

2
n
z X
n
z X p

En la prctica no se suelen tomar distintas muestras para calcular el intervalo de
confianza, se toma una sola, de ah que x X = .

Estadistica Inferencial


2013
43
El intervalo de confianza parte del conocimiento de un estadstico, x , obteniendo en
una muestra de tamao n y mediante una estimacin se obtiene un intervalo que cuenta con
una probabilidad del 95%, del 90%, etc., es decir, (1-o)% de contener el parmetro
desconocido media poblacional .
CUANDO SE CONOCE LA DESVIACIN TPICA POBLACIONAL.

En este caso, el intervalo de confianza de la media poblacional es:


|
|
|
|
.
|

\
|
+
n
z x
n
z x
o
o
o
o

2
,
2



CUANDO NO SE CONOCE LA DESVIACIN TPICA POBLACIONAL.

En este caso, cuando la muestra est formada por 30 o ms de 30 individuos u
observaciones, se puede obtener el intervalo de confianza de la media poblacional a partir
de la expresin:


|
|
|
|
.
|

\
|
+
n
s
z x
n
s
z x
2
,
2
o o


siendo s la desviacin tpica de la muestra.


Observaciones.

Para establecer los intervalos de confianza:

- Cuando no se conoce la desviacin tpica de la poblacin, siendo rigurosos se
debe usar el parmetro muestral raz cuadrada de la cuasi varianza,
2
1 n
s , para
estimar dicha desviacin tpica poblacional.
Recordamos la expresin de la cuasivarianza:
( )
1

2
2
1

n
n x x
s
i i
n
, de donde
se tiene:
( )
1

2
1

n
n x x
s
i i
n
, que sera el valor que debera sustituir a la
desviacin tpica poblacional. No obstante, si 30 > n se puede utilizar la desviacin
tpica muestral.
Estadistica Inferencial


2013
44
- En el caso de que el muestreo no sea con reemplazamiento y la poblacin sea
finita, se debe multiplicar el error muestral por el factor
1

N
n N
, donde N es el
tamao de la poblacin y n el tamao de la muestra. As, el intervalo de
confianza sera:

|
|
|
|
.
|

\
|

1

2
,
1

2
N
n N
n
z x
N
n N
n
z x
o
o
o
o

INTERVALO DE CONFIANZA DE LA PROPORCIN.

Para estimar la proporcin p de elementos que posee una caracterstica de una
poblacin, lo hacemos mediante una muestra de tamao n en donde
n
f
p = ' es la
proporcin de elementos que poseen la caracterstica determinada y q = 1 - p la
proporcin de elementos que no la poseen.

La distribucin de las proporciones muestrales se distribuye de acuerdo a una
normal
|
|
.
|

\
|
n
pq
p N , , lo que permite tipificar la variable
n
pq
p p
Z

=
'
que sigue una
distribucin N(0,1) y obtener con un nivel de confianza (1-o), el intervalo de confianza
para el parmetro poblacional p, a partir de la expresin:

o
o o
=
|
|
|
|
.
|

\
|
<

< 1
2
'
2
z
n
pq
p p
z p

o lo que es igual:
o
o o
=
|
|
|
|
.
|

\
|
<

< 1
2
'
2
z
n
pq
p p
z p
de donde:

o
o o
=
|
|
|
|
.
|

\
|
+ < < 1
2
'
2
'
n
pq
z p p
n
pq
z p p

Estadistica Inferencial


2013
45
El error mximo admisible
n
q p
z d

2
o
= , tiene el grave inconveniente de que
est dado en funcin de p. Por tanto, una vez extrada la muestra y obtenida la proporcin
muestral p, debemos estimar los valores de p y q, mediante: p = p y q = q.

Cuando n es grande, 30 > n , (y, adems, 5 > p n y 5 > q n ) para determinar el
intervalo de confianza se puede sustituir el parmetro p por
n
f
p = ' de la muestra,
resultando:

o
o o
=
|
|
.
|

\
|
+ < < 1
' '
'
' '
'
2 2
n
q p
z p p
n
q p
z p p
Ejemplos:
- Supongamos que deseamos valorar el grado medio de conocimientos en
historia de una poblacin de varios miles de estudiantes. Sabemos que la
desviacin tpica poblacional es de 2.3 puntos. Nos proponemos estimar la
media poblacional, , pasando una prueba a 100 alumnos, con un nivel de
confianza del 95 %. Calculamos la media en la muestra, resultando ser de
6.32. Para hacer esta estimacin vamos a construir el intervalo de confianza
de con un nivel de confianza del 95 %.
El intervalo de confianza para la media en poblaciones infinitas o finitas
con reemplazamiento, caso que suponemos (de varios miles), es:
|
|
|
|
.
|

\
|
+
n
z x
n
z x
o
o
o
o

2
,
2

En nuestro ejemplo:
Como: 975 . 0
2
05 . 0
1
2
1
2
= = =
|
|
.
|

\
|
<
o
o
z Z p , tenemos 96 . 1
2
=
o
z , y as:

|
|
.
|

\
|
+
100
3 . 2
96 . 1 32 . 6 ,
100
3 . 2
96 . 1 32 . 6
De donde, operando, tenemos el intervalo de confianza buscado:
Estadistica Inferencial


2013
46
( ) 77 . 6 , 87 . 5
- Para estimar la media de los resultados que obtendran al resolver un cierto
test los alumnos de 4 % de E.S.O. de toda una comunidad autnoma, se les
pasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos en
dicha muestra dan una media de 3.25 con una desviacin tpica de 1.12. A
partir de ellos, pretendemos estimar el valor de la media de la poblacin
con un nivel de confianza del 95 %. En este caso se procedera como en el
caso anterior, slo que deberemos utilizar el valor de desviacin tpica
muestral en lugar de la poblacional, cosa que se puede hacer ya que el
tamao de la muestra es superior a 30. En definitiva, el intervalo de
confianza para la media poblacional sera:
|
|
|
|
.
|

\
|
+
n
s
z x
n
s
z x
2
,
2
o o


|
|
.
|

\
|
+
400
12 . 1
96 . 1 25 . 3 ,
400
12 . 1
96 . 1 25 . 3
Y as el intervalo buscado es: ( ) 36 . 3 , 14 . 3
- De la duracin de un proceso sabemos que la desviacin tpica poblacional
es 0.5 segundos. Cul es el nmero mnimo de medidas que hay que
realizar para que, con un nivel de confianza del 99 %, el error de
estimacin no exceda de 0. 1 segundos?.
Al nivel de confianza del 99 % (o = 0.01),
2
1
2
o
o
=
|
|
.
|

\
|
< z Z p , corresponde
un 575 . 2
2
=
o
z .
Obtenemos el tamao n de la muestra a partir de la relacin: d
n
z s
o
o

2
,
de donde:
2
2

|
|
|
.
|

\
|
>
d
z
n
o
o
. Es decir, 76 . 165
1 . 0
5 . 0 575 . 2
2
= |
.
|

\
|
> n y el tamao
de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).
Estadistica Inferencial


2013
47
- Un monitor de un gimnasio quiere estimar la estatura media de todos los
asociados al mismo, con un error menor de 0.5 cm, utilizando una muestra
de 30 asociados. Sabiendo que la desviacin tpica o = 5.3 cm, cul sera el
nivel de confianza con el que se realiza la estimacin?.
Como, el error d es:
n
z d
o
o

2
= , tenemos:
30
3 . 5
5 . 0
2
o
z = , y de aqu
deducimos: 52 . 0
2
=
o
z . Ahora bien, ( )
2
1 52 . 0
o
= < Z p , que nos permite
despejar el coeficiente de significacin: ( ) ( ) 52 . 0 1 2 < = Z p o , y al
sustituir, ( ) 6030 . 0 3015 . 0 2 6985 . 0 1 2 = = = o . Y finalmente, el nivel de
confianza, 3970 . 0 6030 . 0 1 1 = = o , sera del 39.7 %.
- Tomada una muestra de 300 personas mayores de 15 aos en una gran
ciudad, se encontr que 104 de ellas lean el peridico regularmente. Con
estos datos queremos hallar, con un nivel de confianza del 90 %, un
intervalo de confianza para la proporcin de lectores de peridicos entre los
mayores de 15 aos.
Un nivel de confianza del 90 % nos da un 645 . 1
2
=
o
z , y la proporcin
muestral obtenida es 347 . 0
300
104
' = = p . As, el error mximo admisible sera
045 . 0
300
653 . 0 347 . 0
645 . 1
' '

2
= = =
n
q p
z d
o
, y con este dato tenemos
que el intervalo buscado se obtendr como: ( ) 045 . 0 347 . 0 , 045 . 0 347 . 0 + , o
lo que es lo mismo el intervalo de confianza es: ( ) 392 . 0 , 302 . 0 . O sea, con
un nivel de confianza del 90 %, la proporcin de lectores de peridicos, en
el colectivo total, est entre el 30.2 % y el 39.2 %.
- Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetir
la experiencia para conseguir una cota de error de 0.01 con el mismo nivel
de confianza del 90 %. Cuntos individuos debe tener la muestra?.
Estadistica Inferencial


2013
48
De la expresin del error,
n
q p
z d
' '

2
o
= , podemos despejar el tamao de
la muestra: 6 . 6131
01 . 0
653 . 0 347 . 0 645 . 1
' '
2
2
2
2
2
= = =
d
q p z
n
o
. Es decir, la
muestra debe contar con un mnimo de 6132 individuos. Con esta muestra,
se volvera a calcular la proporcin muestral de lectores de peridicos p, y
con ella se determinara el intervalo de confianza (p- 0.01 , p + 0.01).
2.3.-Estimacin puntual
La estimacin puntual consiste en obtener un nico valor del parmetro poblacional a partir
de las observaciones muestrales, y se llama as porque se le puede asignar un punto sobre la
recta real. Mientras que en la estimacin por intervalo se obtienen dos puntos, que definen
un intervalo en la recta real que contendr el valor del parmetro desconocido con cierta
seguridad.
2.4.-Estimacin por intervalo.

ESTIMACIN POR INTERVALOS.

En la estimacin por intervalos atribuimos al parmetro desconocido un segmento
de posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdadero
del parmetro. Es decir, para estimar el valor del parmetro u, podemos ofrecer un intervalo
de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor
buscado. Por ejemplo, podramos determinar que con una probabilidad de 0.90, el valor de
u se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimacin por intervalos resulta imprescindible apoyarse en
la distribucin muestral de los estadsticos utilizados como estimadores. Por ejemplo el
estadstico X , estimador de . Sabemos que si extraemos muestras de una poblacin en la
que la media es y la varianza
2
o , la distribucin muestral de X tiene como media y
como varianza
n
X
2
2
o
o = . Si el tamao n de las muestras es suficientemente grande, la
distribucin muestral del estadstico X tiende al modelo normal
|
|
.
|

\
|
n
N
o
, .


Estadistica Inferencial


2013
49
2.5.-Intervalo de confianza para medias

INTERVALO DE CONFIANZA DE LA MEDIA.

En una poblacin cuya distribucin es conocida, pero con algn parmetro
desconocido, podemos estimar dicho parmetro a partir de una muestra representativa.
Estamos trabajando en el caso de la estimacin de parmetros mediante un intervalo de
confianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional con un
nivel de confianza 1-o:

o = < < 1 ) ( b a p

El valor 1-o, que indica con qu probabilidad el intervalo [a , b] contiene el valor
real del parmetro estimado , se elige previamente, siendo un nmero real comprendido
entre 0 y 1. El valor 1-o se expresa en porcentaje.

Sea X una variable aleatoria con distribucin ) , ( o N y x
1
, x
2
, ......, x
n
, una muestra
aleatoria de tamao n. La distribucin muestral de las medias X sigue una ley normal
|
|
.
|

\
|
n
N
o
, y la variable tipificada
n
X
Z
o

= es una distribucin N(0,1).
Recordemos que si la poblacin no es normal basta con tomar una muestra
suficientemente grande.
Grficamente:


Estadistica Inferencial


2013
50
o
o o
=
|
|
|
|
.
|

\
|
< < 1
2 2
z Z z p

Sustituyendo:
o
o
o

o
=
|
|
|
|
.
|

\
|
<

< 1
2 2
z
n
X
z p

o bien:
o
o
o

o
=
|
|
|
|
.
|

\
|
<

< 1
2 2
z
n
X
z p

de donde:
o
o
o

o
o
=
|
|
|
|
.
|

\
|
+ < < 1
2

2
n
z X
n
z X p

En la prctica no se suelen tomar distintas muestras para calcular el intervalo de
confianza, se toma una sola, de ah que x X = .

El intervalo de confianza parte del conocimiento de un estadstico, x , obteniendo en
una muestra de tamao n y mediante una estimacin se obtiene un intervalo que cuenta con
una probabilidad del 95%, del 90%, etc., es decir, (1-o)% de contener el parmetro
desconocido media poblacional .
CUANDO SE CONOCE LA DESVIACIN TPICA POBLACIONAL.

En este caso, el intervalo de confianza de la media poblacional es:


|
|
|
|
.
|

\
|
+
n
z x
n
z x
o
o
o
o

2
,
2







Estadistica Inferencial


2013
51
CUANDO NO SE CONOCE LA DESVIACIN TPICA POBLACIONAL.

En este caso, cuando la muestra est formada por 30 o ms de 30 individuos u
observaciones, se puede obtener el intervalo de confianza de la media poblacional a partir
de la expresin:


|
|
|
|
.
|

\
|
+
n
s
z x
n
s
z x
2
,
2
o o


siendo s la desviacin tpica de la muestra.


Observaciones.

Para establecer los intervalos de confianza:

- Cuando no se conoce la desviacin tpica de la poblacin, siendo rigurosos se
debe usar el parmetro muestral raz cuadrada de la cuasi varianza,
2
1 n
s , para
estimar dicha desviacin tpica poblacional.
Recordamos la expresin de la cuasivarianza:
( )
1

2
2
1

n
n x x
s
i i
n
, de donde
se tiene:
( )
1

2
1

n
n x x
s
i i
n
, que sera el valor que debera sustituir a la
desviacin tpica poblacional. No obstante, si 30 > n se puede utilizar la desviacin
tpica muestral.
- En el caso de que el muestreo no sea con reemplazamiento y la poblacin sea
finita, se debe multiplicar el error muestral por el factor
1

N
n N
, donde N es el
tamao de la poblacin y n el tamao de la muestra. As, el intervalo de
confianza sera:

|
|
|
|
.
|

\
|

1

2
,
1

2
N
n N
n
z x
N
n N
n
z x
o
o
o
o






Estadistica Inferencial


2013
52



2.6.-Intervalo de confianza para diferencia entre medias

En vez de estimar el valor de un parmetro, a veces se debe decidir si una afirmacin relativa a un parmetro es verdadera o
falsa. Es decir, probar una hiptesis relativa a un parmetro. Se realiza una prueba de hiptesis cuando se desea probar una
afirmacin realizada acerca de un parmetro o parmetros de una poblacin.
Una hiptesis es un enunciado acerca del valor de un parmetro (media, proporcin, etc.).
Prueba de Hiptesis es un procedimiento basado en evidencia muestral (estadstico) y en
la teorade probabilidad (distribucin muestral del estadstico) para determinar si una hiptesis es razonable y no debe
rechazarse, o si es irrazonable y debe ser rechazada.
La hiptesis de que el parmetro de la poblacin es igual a un valor determinado se conoce como hiptesis nula. Una
hiptesis nula es siempre una de status quo o de no diferencia.

En toda prueba de hiptesis se presentan 3 casos de zonas crticas o llamadas tambin zonas de rechazo de la hiptesis nula,
estos casos son los siguientes:

Estadistica Inferencial


2013
53

En toda prueba de hiptesis se pueden cometer 2 tipos de errores:

Prueba medias de una muestra
Se utiliza una prueba de una muestra para probar una afirmacin con respecto a una media de una poblacin nica.
Estadistica Inferencial


2013
54

Nota: Se considera prctico utilizar la distribucin t solamente cuando se requiera que el tamao de la muestra sea menor de
30, ya que para muestras ms grandes los valores t y z son aproximadamente iguales, y es posible emplear la distribucin
normal en lugar de la distribucin t.

Ejemplos ilustrativos:
1) La duracin media de una muestra de 300 focos producidos por una compaa resulta ser de 1620 horas.
Estadistica Inferencial


2013
55

Como se tiene como dato el tamao de la poblacin se tiene que verificar si cumple con la condicin para utilizar el factor
finito de correccin.
Estadistica Inferencial


2013
56

Los clculos en Excel se muestran en la siguiente imagen:

El grfico elaborado con Winstats y Paint se muestra en la siguiente imagen:
Estadistica Inferencial


2013
57

2) La duracin media de lmparas producidas por una compaa han sido en el pasado de 1120 horas. Una muestra de 8
lmparas de la produccinactual dio una duracin media de 1070 horas con una desviacin tpica de 125 horas.

2.7.-Intervalo de confianza de proporciones

INTERVALO DE CONFIANZA DE LA PROPORCIN.

Para estimar la proporcin p de elementos que posee una caracterstica de una
poblacin, lo hacemos mediante una muestra de tamao n en donde
n
f
p = ' es la
proporcin de elementos que poseen la caracterstica determinada y q = 1 - p la
proporcin de elementos que no la poseen.

La distribucin de las proporciones muestrales se distribuye de acuerdo a una
normal
|
|
.
|

\
|
n
pq
p N , , lo que permite tipificar la variable
n
pq
p p
Z

=
'
que sigue una
distribucin N(0,1) y obtener con un nivel de confianza (1-o), el intervalo de confianza
para el parmetro poblacional p, a partir de la expresin:

Estadistica Inferencial


2013
58
o
o o
=
|
|
|
|
.
|

\
|
<

< 1
2
'
2
z
n
pq
p p
z p

o lo que es igual:
o
o o
=
|
|
|
|
.
|

\
|
<

< 1
2
'
2
z
n
pq
p p
z p
de donde:

o
o o
=
|
|
|
|
.
|

\
|
+ < < 1
2
'
2
'
n
pq
z p p
n
pq
z p p

El error mximo admisible
n
q p
z d

2
o
= , tiene el grave inconveniente de que
est dado en funcin de p. Por tanto, una vez extrada la muestra y obtenida la proporcin
muestral p, debemos estimar los valores de p y q, mediante: p = p y q = q.

Cuando n es grande, 30 > n , (y, adems, 5 > p n y 5 > q n ) para determinar el
intervalo de confianza se puede sustituir el parmetro p por
n
f
p = ' de la muestra,
resultando:

o
o o
=
|
|
.
|

\
|
+ < < 1
' '
'
' '
'
2 2
n
q p
z p p
n
q p
z p p
Ejemplos:
- Supongamos que deseamos valorar el grado medio de conocimientos en
historia de una poblacin de varios miles de estudiantes. Sabemos que la
desviacin tpica poblacional es de 2.3 puntos. Nos proponemos estimar la
media poblacional, , pasando una prueba a 100 alumnos, con un nivel de
confianza del 95 %. Calculamos la media en la muestra, resultando ser de
6.32. Para hacer esta estimacin vamos a construir el intervalo de confianza
de con un nivel de confianza del 95 %.
El intervalo de confianza para la media en poblaciones infinitas o finitas
con reemplazamiento, caso que suponemos (de varios miles), es:
Estadistica Inferencial


2013
59
|
|
|
|
.
|

\
|
+
n
z x
n
z x
o
o
o
o

2
,
2

En nuestro ejemplo:
Como: 975 . 0
2
05 . 0
1
2
1
2
= = =
|
|
.
|

\
|
<
o
o
z Z p , tenemos 96 . 1
2
=
o
z , y as:

|
|
.
|

\
|
+
100
3 . 2
96 . 1 32 . 6 ,
100
3 . 2
96 . 1 32 . 6
De donde, operando, tenemos el intervalo de confianza buscado:
( ) 77 . 6 , 87 . 5
- Para estimar la media de los resultados que obtendran al resolver un cierto
test los alumnos de 4 % de E.S.O. de toda una comunidad autnoma, se les
pasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos en
dicha muestra dan una media de 3.25 con una desviacin tpica de 1.12. A
partir de ellos, pretendemos estimar el valor de la media de la poblacin
con un nivel de confianza del 95 %. En este caso se procedera como en el
caso anterior, slo que deberemos utilizar el valor de desviacin tpica
muestral en lugar de la poblacional, cosa que se puede hacer ya que el
tamao de la muestra es superior a 30. En definitiva, el intervalo de
confianza para la media poblacional sera:
|
|
|
|
.
|

\
|
+
n
s
z x
n
s
z x
2
,
2
o o


|
|
.
|

\
|
+
400
12 . 1
96 . 1 25 . 3 ,
400
12 . 1
96 . 1 25 . 3
Y as el intervalo buscado es: ( ) 36 . 3 , 14 . 3
- De la duracin de un proceso sabemos que la desviacin tpica poblacional
es 0.5 segundos. Cul es el nmero mnimo de medidas que hay que
Estadistica Inferencial


2013
60
realizar para que, con un nivel de confianza del 99 %, el error de
estimacin no exceda de 0. 1 segundos?.
Al nivel de confianza del 99 % (o = 0.01),
2
1
2
o
o
=
|
|
.
|

\
|
< z Z p , corresponde
un 575 . 2
2
=
o
z .
Obtenemos el tamao n de la muestra a partir de la relacin: d
n
z s
o
o

2
,
de donde:
2
2

|
|
|
.
|

\
|
>
d
z
n
o
o
. Es decir, 76 . 165
1 . 0
5 . 0 575 . 2
2
= |
.
|

\
|
> n y el tamao
de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).
- Un monitor de un gimnasio quiere estimar la estatura media de todos los
asociados al mismo, con un error menor de 0.5 cm, utilizando una muestra
de 30 asociados. Sabiendo que la desviacin tpica o = 5.3 cm, cul sera el
nivel de confianza con el que se realiza la estimacin?.
Como, el error d es:
n
z d
o
o

2
= , tenemos:
30
3 . 5
5 . 0
2
o
z = , y de aqu
deducimos: 52 . 0
2
=
o
z . Ahora bien, ( )
2
1 52 . 0
o
= < Z p , que nos permite
despejar el coeficiente de significacin: ( ) ( ) 52 . 0 1 2 < = Z p o , y al
sustituir, ( ) 6030 . 0 3015 . 0 2 6985 . 0 1 2 = = = o . Y finalmente, el nivel de
confianza, 3970 . 0 6030 . 0 1 1 = = o , sera del 39.7 %.
- Tomada una muestra de 300 personas mayores de 15 aos en una gran
ciudad, se encontr que 104 de ellas lean el peridico regularmente. Con
estos datos queremos hallar, con un nivel de confianza del 90 %, un
intervalo de confianza para la proporcin de lectores de peridicos entre los
mayores de 15 aos.
Estadistica Inferencial


2013
61
Un nivel de confianza del 90 % nos da un 645 . 1
2
=
o
z , y la proporcin
muestral obtenida es 347 . 0
300
104
' = = p . As, el error mximo admisible sera
045 . 0
300
653 . 0 347 . 0
645 . 1
' '

2
= = =
n
q p
z d
o
, y con este dato tenemos
que el intervalo buscado se obtendr como: ( ) 045 . 0 347 . 0 , 045 . 0 347 . 0 + , o
lo que es lo mismo el intervalo de confianza es: ( ) 392 . 0 , 302 . 0 . O sea, con
un nivel de confianza del 90 %, la proporcin de lectores de peridicos, en
el colectivo total, est entre el 30.2 % y el 39.2 %.
- Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetir
la experiencia para conseguir una cota de error de 0.01 con el mismo nivel
de confianza del 90 %. Cuntos individuos debe tener la muestra?.
De la expresin del error,
n
q p
z d
' '

2
o
= , podemos despejar el tamao de
la muestra: 6 . 6131
01 . 0
653 . 0 347 . 0 645 . 1
' '
2
2
2
2
2
= = =
d
q p z
n
o
. Es decir, la
muestra debe contar con un mnimo de 6132 individuos. Con esta muestra,
se volvera a calcular la proporcin muestral de lectores de peridicos p, y
con ella se determinara el intervalo de confianza (p- 0.01 , p + 0.01).




Estadistica Inferencial


2013
62
2.8.-Intervalo de confianza para diferencia de proporciones.

INTERVALOS DE CONFIANZA

INTRODUCCIN

Para indicar el estudio de este tema es necesario recordar algunos aspectos de las funciones:
a. Si
2
2
2
1
s y s son las varianzas de las variables aleatorias independientes de tamaos n
1
y
n
2
que se sacan de poblaciones normales con varianzas
2
2
2
1
y o o , respectivamente,
entonces,

2
2
2
2
2
1
2
1
s
s
F
o
o
=
tiene distribucin F con n
1
-1 y n
2
-1 grados de libertad

b. Si U y V son variables aleatorias independientes que tienen distribuciones _
2
con v
1
y v
2

grados de libertad, respectivamente. Entonces, la distribucin de la variable

2
1
V
U
F
u
u
=
tiene distribucin F con v
1
y v
2
grados de libertad

Ejemplo. El valor de f con 6 y 10 grados de libertad y un rea de 0.95 a la derecha es,
f
0.95,6,10
=0.246
As mismo,
1/(f
1-0.05,10,6
)=0.246

c. Si se escribe f
ov1,v2
para fa con v
1
y v
2
grados de libertad, se obtiene,
f
1-o,v1,v2
=1/(f
o,v2,v1
)

Ejemplo, El valor de t con n=14 grados de libertad que tienen un rea de 0.025 a la
izquierda, y por tanto, un rea de 0.975 a la izquierda, es
t
0.975
= - t
0.025
=-2.145

d. Sea Z la variable aleatoria normal estndar y V una variable aleatoria Chi Cuadrada con
v grados de libertad. Si Z y V son independientes, entonces, la distribucin de la
variable aleatoria T es t-Student con v-1 grado de libertad

u
=
V
Z
T

d. Si S
2
es la variable aleatoria de tamao n tomada de una poblacin normal que tiene la
varianza o2, entonces, el estadstico

2
2
2
s ) 1 n (
X
o

=
Estadistica Inferencial


2013
63
tiene distribucin _
2
con n-1 grado de libertad

Ejemplo. Un fabricante de autos garantiza que sus bateras durarn en promedio 3 aos con
una desviacin estndar de 1 ao. Si 5 de estas bateras se muestrean y se encuentran que
tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 aos. Se puede garantizar que la desviacin
estndar es de 1 ao?

Calculando la desviacin tpica tenemos,
815 . 0
4 * 5
) 15 ( 26 . 48 * 5
s
2
2
=

=
Entonces,
26 . 3
1
815 . 0 * 4
2
= = _

Es un valor de la distribucin Chi Cuadrado con 4 grados de libertad. Dado que el 95% de
estos valores de _
2
4
cae entre 0.484 y 11.143, el valor calculado con o
2
=1 es razonable, y
por tanto, el fabricante no puede dudar que su desviacin tpica sea diferente de 1

ESTIMACIN DE TAMAO MUESTRAL E INTERVALOS

Dada una variable aleatoria de distribucin gaussiana, X~N(,o
2
), nos interesamos en
primer lugar, en calcular intervalos de confianza para sus dos parmetros, y o.

Intervalo para la media si se conoce la varianza: Este no es un caso prctico (no se puede conocer o sin
conocer previamente ), pero sirve para introducirnos en el problema de la estimacin confidencial de la
media;

Intervalos de confianza para la media (caso general): Este se trata del caso con verdadero inters prctico.
Por ejemplo sirve para estimar intervalos que contenga la media del colesterol en sangre en una poblacin, la
altura, el peso, etc, cuando disponemos de una muestra de la variable.

Intervalo de confianza para la varianza: ste es otro caso de inters en las aplicaciones. El objetivo es
calcular un intervalo de confianza para o
2
, cuando slo se dispone de una muestra.

La utilidad consiste en decidir cul deber ser el tamao necesario de una muestra para obtener intervalos de
confianza para una media, con precisin y significacin dadas de antemano. Para que esto sea posible es
necesario poseer cierta informacin previa, que se obtiene a partir de las denominadas muestras piloto. Los
problemas asociados a este caso son

Diferencia de medias homocedticas: Se realiza el clculo del intervalo de confianza suponiendo que ambas
variables tienen la misma varianza, es decir son homocedticas. En la prctica se usa este clculo, cuando
ambas variables tienen parecida dispersin.

Diferencia de medias (caso general): Es el mismo caso que el anterior, pero se realiza cuando se observa
que hay diferencia notable en la dispersin de ambas variables.

Estadistica Inferencial


2013
64
INTERVALO PARA EL VALOR MEDIO SI SE CONOCE LA VARIANZA

Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a poder
conocer con exactitud s mientras que m es desconocido. Sin embargo nos aproxima del
modo ms simple a la estimacin confidencial de medias. Para estimar m, el estadstico que
mejor nos va a ayudar es X, del que conocemos su ley de distribucin, que es el parmetro
desconocido,
|
|
.
|

\
| o
~
n
, N X
2


Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que la ley
de distribucin no dependa de ningn parmetro desconocido, para ello tipificamos:
n
X
Z
o

= que se distribuye N(0,1)

Este es el modo en que haremos siempre la estimacin puntual: buscaremos una relacin en la que
intervengan el parmetro desconocido junto con su estimador y de modo que estos se distribuyan segn una
ley de probabilidad que es bien conocida y a ser posible tabulada.

De este modo, fijado ) 1 , 0 ( e o , consideramos la variable aleatoria Z~N(0,1) y tomamos un
intervalo que contenga una masa de probabilidad de 1-o. Este intervalo lo queremos tan
pequeo como sea posible. Por ello lo mejor es tomarlo simtrico con respecto a la media
(0), ya que all es donde se acumula ms masa. As las dos colas de la distribucin (zonas
ms alejadas de la media) se repartirn a partes iguales el resto de la masa de probabilidad,
o.


Intervalo para la media (caso general). Como hemos mencionado, los casos anteriores se
presentarn poco en la prctica, ya que lo usual es que sobre una poblacin quizs podamos
conocer si se distribuye normalmente, pero el valor exacto de los parmetros y o no son
conocidos. De ah nuestro inters en buscar intervalos de confianza para ellos. El problema
que tenemos en este caso es ms complicado que el anterior, pues no es tan sencillo
eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo siguiente:
n
X
Z
o

= ~N(0,1)

Estadistica Inferencial


2013
65
Por el teorema de Cochran sabemos por otro lado que:

=

_ ~
o

= _
n
1 i
2
1 n
2
2
i 2
1 n
) X X (

y que adems estas dos ltimas distribuciones son independientes. A partir de estas
relaciones podemos construir una distribucin t-Student con n-1 grados de libertad.

La distribucin t
n
es algo diferente a N(0,1) cuando n es pequeo, pero conforme ste
aumenta, ambas distribuciones se aproximan.



Y tambin sabemos que,
1 n 1 n
t
n
s
X
T

~

=

Dado el nivel de significacin 1-a buscamos en una tabla de t-Student t
n-1
el percentil 100(1-o/2) t
n-1
,
1-o/2
, el
cual deja por encima de si la cantidad o/2 de la masa de probabilidad. Luego la distribucin t-Student tiene las
mismas propiedades de simetra que la normal tipificada.
( ) o = s

o = <
o = >
o
o
o
1 t T P
2 / ) t T ( P
2 / ) t T ( P
1 n , 2 / 1 1 n
1 n , 2 / 1 1 n
1 n , 2 / 1 1 n


El intervalo de confianza es,
1 n , 2 / 1 1 n , 2 / 1 1 n
t
n / s
x
t T
o o
s

s
es decir, el intervalo de confianza al nivel 1-o para la esperanza de una distribucin
gaussiana cuando sus parmetros son desconocidos es:
n
s
t x
1 n , 2 / 1
- +
o


Al igual que en el caso del clculo del intervalo de confianza para cuando o es conocido,
podemos en el caso o desconocido, utilizar la funcin de verosimilitud para representarlo
geomtricamente.
n
s
t x x y
n
s
t x x
1 n , 2 / 1 2 / 1 n , 2 / 1 2 /
- + = - =
o o o o

Estadistica Inferencial


2013
66

Ejemplo. Se quiere estimar un intervalo de confianza al nivel de significacin o=5% para
la altura media de los individuos de una ciudad. En principio slo sabemos que la
distribucin de las alturas es una variable aleatoria X de distribucin normal. Para ello se
toma una muestra de n=25 personas y se obtiene, 10 s 170 x = =

Solucin: En primer lugar, en estadstica inferencial, los estadsticos para medir la
dispersin ms conveniente son los insesgados. Por ello vamos a dejar de lado la desviacin
tpica muestral, para utilizar la cuasidesviacin tpica:
206 . 10 24 25 10 ) 1 n ( n s s = = =

Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadstico
T y tomar como intervalo de confianza,
1 n , 2 / 1 1 n
t T t
n / s
x
T
o
s ~

=

es decir,

= = = s

204 . 174
796 . 165
5
206 . 10
* 06 . 2 170 06 . 2 t
25 / 206 . 10
170
24 , 975 . 0


2.9.-Intervalo de confianza para varianzas

Intervalo de confianza para la varianza
Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la
siguiente propiedad de la distribucin :




Consideremos dos cuantiles de esta distribucin que nos dejen una
probabilidad en la ``zona central'' de la distribucin (cf. figura 8.7):


Estadistica Inferencial


2013
67
Figura: Cuantiles de la distribucin .







Entonces un intervalo de confianza al nivel para la varianza de una
distribucin gaussiana (cuyos parmetros desconocemos) lo obtenemos teniendo
en cuenta que existe una probabilidad de que:




Estadistica Inferencial


2013
68
Por tanto el intervalo que buscamos es

8.4.6.1 Ejemplo
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,
obtenindose en una muestra de tamao 25 los siguientes valores:




Calcular un intervalo de confianza con para la varianza de la altura
de los individuos de la ciudad.
Solucin:
Para estimar un intervalo de confianza para (varianza poblacional) el
estadstico que nos resulta til es:




Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf.
figura 8.8)


Figura: Percentiles del 2,5% y del 97,5% para la
distribucin .
Estadistica Inferencial


2013
69







Por tanto, para el valor poblacional de la desviacin tpica tenemos que




con una confianza del 95%, que por supuesto contiene a las estimaciones
puntuales y calculados sobre la muestra.






Estadistica Inferencial


2013
70
2.10.-Intervalo de confianza para razones de dos varianzas

NTERVALO DE CONFIANZA Y CONTRASTE
DE HIPTESIS PARA LA RAZN DE
VARIANZAS





Cuando se desea hacer inferencias acerca de las varianzas de dos poblaciones, es necesario
colocarlas en forma de razn. Si las varianzas son iguales, entonces el cociente es igual a 1, en
caso de que sean diferentes, su cociente tambin se alejar de 1. Como por lo general no se
conocen las varianzas de las poblaciones de inters, cualquier comparacin que se desee, tendr
que estar basada en las varianzas muestrales y , las cuales debern ser de muestras
independientes y extradas de poblaciones normales.

Entonces, es un estimador insesgado de y tendr una distribucin
con n
1
1 grados de libertad.

De manera similar ser un estimador de y tendr una distribucin
con n
2
1 grados de libertad.
La razn de estos dos estimadores: sigue una distribucin F de Fisher, o
simplemente distribucin F que posee las siguientes propiedades:
1. La distribucin F depende de dos valores de grados de libertad, uno correspondiente al
numerador y otro al denominador, a los cuales nos referiremos como grados de libertad del
numerador (gl
num
= v
1
= n
1
1) y grados de libertad del denominador (gl
den
= v
2
= n
2
1).
2. La densidad de la variable F viene dada por:

3. La distribucin F para cada par de valores de grados de libertad v
1
y v
2
.
4. Hay una distribucin F para cada par de valores de grados de libertad.
5. Como la distribucin , una distribucin F es positivamente asimtrica, pero su asimetra se
reduce con los aumentos de los grados de libertad.
Estadistica Inferencial


2013
71
6. Si X tiene densidad , entonces tendr una distribucin , esto es

7. La distribucin muestral usada para hacer inferencias entre dos
varianzas es la F de Fisher:

con n
1
1 y n
2
1 grados de libertad en el numerador y denominador,
respectivamente.



El intervalo de confianza para el cociente de varianzas est dado por:


Despejando se tiene:


NOTA: El valor de cola izquierda de la distribucin F de Fisher est dado por:
, donde v
1
= n
1
1 y v
2
= n
2
1



Ejemplo 14: Las siguientes son las calificaciones obtenidas en un examen de personalidad por 2
muestras de 9 mujeres casadas y 9 mujeres solteras:

Solteras 88 68 77 82 63 80 78 71 72
Casadas 73 77 67 74 74 64 71 71 72

Suponiendo que estos datos se pueden considerar como muestras aleatorias independientes
tomadas de dos poblaciones normales, pruebe la hiptesis de que la varianza de las calificaciones
de las mujeres solteras es diferente de la varianza de las calificaciones de las mujeres casadas
con o = 0.05.

1) Se supone que las muestras son aleatorias independientes y
extradas de poblaciones normalmente distribuidas.

Estadistica Inferencial


2013
72
2) H
0
:
H
a
:

3) o = 0.05
4) Estadstico de contraste

5) Valores crticos: , (tabla T-7)


6) Valor calculado de F
c
= 3.8636 ya que

7) Como 0.23 < 3.8636 < 4.43, No se rechaza H
0
.

8) Las varianzas de las calificaciones de las solteras y de las casadas
no son significativamente diferentes.



Ejemplo 15: La variabilidad de la cantidad de impurezas presentes en un compuesto qumico
usado para un proceso particular depende del tiempo en que el proceso est en operacin. Un
fabricante que usa las lneas de produccin 1 y 2 ha introducido un ligero ajuste al proceso 2 con la
esperanza de reducir tanto la variabilidad como la media de la cantidad de impurezas en el
compuesto qumico. Las medias y varianzas de las muestras de 25 observaciones de los dos
procesos son:




Determine el intervalo de confianza del 90% para el cociente de varianzas.

Solucin: Sustituyendo en la frmula los datos, se tiene
Estadistica Inferencial


2013
73

con una confianza del 90%.
Como ambos lmites son mayores que 1 se puede concluir que la varianza 1 es significativamente
mayor que la varianza 2.




Ejemplo 16: Existe un proceso industrial A para obtener el aceite esencial de cierto fruto. Un grupo
de ingenieros mexicanos ha desarrollado un mtodo B para el mismo fin, pero con costos de
produccin y mantenimiento menores. Se hizo un estudio para comparar el porcentaje de pureza
del aceite esencial obtenido por ambos mtodos, en lotes similares de fruto asignados
completamente al azar y se recopil la siguiente informacin:


% de pureza del aceite esencial
Mtodo A 82 80 83 85 79 82 81 84

Mtodo B 80 79 82 82 81 80 79 78 83

En un inicio, por consideraciones tericas, se pensaba que ambos procesos tendran la misma
variabilidad, pero de acuerdo con algunos resultados preliminares se cree ahora que el mtodo B
produce resultados menos variables. Con los datos de la tabla, cul es su conclusin con o =
0.05?

Solucin:
1. Se ve claramente que los dos procesos son independientes y no hay razn para dudar de que
el % de pureza se distribuya normalmente para ambos procesos como se puede observar en
los diagramas de tallo y hoja respectivos

Mtodo A

Mtodo B
1 79 0

1 78 0
2 80 0

3 79 00
3 81 0

(2) 80 00
(2) 82 00

4 81 0
3 83 0

3 82 00
2 84 0

1 83 0
1 85 0

820 significa 82

2. La hiptesis que se plantea es unilateral:
H
0
:
H
a
:

3. o = 0.05
Estadistica Inferencial


2013
74
4. Estadstico de contraste

3.1.-Metodologa de la prueba de hiptesis.
Prueba de hiptesis
Estadsticamente una prueba de hiptesis es cualquier afirmacin acerca de una poblacin y/o sus parmetros.

Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste involucra la toma de decisin
acerca de las hiptesis. La decisin consiste en rechazar o no una hiptesis en favor de la otra. Una hiptesis
estadstica se denota por H y son dos:


- Ho: hiptesis nula

- H1: hiptesis alternativa


Partes de una hiptesis


1-La hiptesis nula Ho

2-La hiptesis alternativa H1

3-El estadstico de prueba

4-Errores tipo I y II

5-La regin de rechazo (crtica)

6-La toma de decisin

CONCEPTO
Afirmacin acerca de los parmetros de la poblacin.
Etapas Bsicas en Pruebas de Hiptesis.
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en parmetro poblacional. Despus de recolectar
una muestra aleatoria, se compara la estadstica muestral, as como la media (x), con el parmetro hipottico, se compara con una
supuesta media poblacional (). Despus se acepta o se rechaza el valor hipottico, segn proceda. Se rechaza el valor hipottico
slo si el resultado muestral resulta muy poco probable cuando la hiptesis es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0) es el valor hipottico del parmetro que se compra con el
resultado muestral resulta muy poco probable cuando la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hiptesis nula
solamente si el resultado muestral es tan diferente del valor hipottico que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria
mente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la estadstica muestral (el estimador no segado del parmetro
que se prueba) o una versin transformada de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de una media
poblacional, se toma la media de una muestra aleatoria de esa distribucin normal, entonces es comn que se transforme la media en un
valor z el cual, a su vez, sirve como estadstica de prueba.
Consecuencias de las Decisiones en Pruebas de Hiptesis.
Decisiones Posibles Situaciones Posibles
La hiptesis nula es verdadera La hiptesis
nula es falsa
Aceptar la Hiptesis Nula Se acepta correctamente Error tipo II
Rechazar la Hiptesis Nula Error tipo I Se rechaza correctamente
Etapa 4.- Establecer el valor o valores crticos de la estadstica de prueba. Habiendo especificado la hiptesis nula, el nivel de significancia y
la estadstica de prueba que se van a utilizar, se produce a establecer el o los valores crticos de estadstica de prueba. Puede haber uno o
ms de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.
Estadistica Inferencial


2013
75
Etapa 5.- Determinar el valor real de la estadstica de prueba. Por ejemplo, al probar un valor hipottico de la media poblacional, se toma una
muestra aleatoria y se determina el valor de la media muestral. Si el valor crtico que se establece es un valor de z, entonces se transforma la
media muestral en un valor de z.
Etapa 6.- Tomar la decisin. Se compara el valor observado de la estadstica muestral con el valor (o valores) crticos de la estadstica de
prueba. Despus se acepta o se rechaza la hiptesis nula. Si se rechaza sta, se acepta la alternativa; a su vez, esta decisin tendr efecto
sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estndar de desempeo o cul de
dos estrategias demercadotecnia utilizar.
La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin de rechazo y una de no rechazo. Si la prueba
estadstica cae en esta ltima regin no se puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona
correctamente.
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en la distribucin estadstica que divide la regin del
rechazo (en la cual la hiptesis nula no se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del tamao de la
regin de rechazo.
PASOS DE LA PRUEBA DE HIPTESIS
1. Expresar la hiptesis nula
2.
3. Expresar la hiptesis alternativa
4. Especificar el nivel de significanca
5. Determinar el tamao de la muestra
6. Establecer los valores crticos que establecen las regiones de rechazo de las de no rechazo.
7. Determinar la prueba estadstica.
8. Coleccionar los datos y calcular el valor de la muestra de la prueba estadstica apropiada.
9. Determinar si la prueba estadstica ha sido en la zona de rechazo a una de no rechazo.
10. Determinar la decisin estadstica.
11. Expresar la decisin estadstica en trminos del problema.
CONCEPTOS BSICOS PARA EL PROCEDIMIENTO DE PRUEBAS DE HIPTESIS.
Hiptesis Estadstica:
Al intentar alcanzar una decisin, es til hacer hiptesis (o conjeturas) sobre la poblacin aplicada.
Tales hiptesis, que pueden ser o no ciertas, se llaman hiptesis estadsticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.

3.2.-Hipotesis Nula Y Alternativa

Hiptesis Nula.
En muchos casos formulamos una hiptesis estadstica con el nico propsito de rechazarla o invalidarla. As, si queremos decidir si
una moneda est trucada, formulamos la hiptesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).
Analgicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hiptesis de que no hay diferencia entre ellos (o
sea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma poblacin). Tales hiptesis se
suelen llamar hiptesis nula y se denotan por Ho.
Para todo tipo de investigacin en la que tenemos dos o ms grupos, se establecer una hiptesis nula.
La hiptesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jvenes se somete a un entrenamiento intensivo de natacin, stos
sern mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hiptesis toma al azar una muestra de jvenes, y
tambin al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibir entrenamiento, y otro que no recibir
entrenamiento alguno, al que llamaremos control. La hiptesis nula sealar que no hay diferencia en el desempeo de la natacin entre el
grupo de jvenes que recibi el entrenamiento y el que no lo recibi.
Una hiptesis nula es importante por varias razones:
Es una hiptesis que se acepta o se rechaza segn el resultado de la investigacin.
El hecho de contar con una hiptesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y si
no se debi al azar.
No toda investigacin precisa de formular hiptesis nula. Recordemos que la hiptesis nula es aquella por la cual indicamos que
la informacin a obtener es contraria a la hiptesis de trabajo.
Al formular esta hiptesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen del
problema flucta, por tanto, debe rechazarse como tal.
Otro ejemplo:
Hiptesis: el aprendizaje de los nios se relaciona directamente con su edad.
Hiptesis Alternativa.
Toda hiptesis que difiere de una dada se llamar una hiptesis alternativa. Por ejemplo: Si una hiptesis es p = 0,5, hiptesis alternativa
podran ser p = 0,7, p " 0,5 p > 0,5.
Una hiptesis alternativa a la hiptesis nula se denotar por H1.
Estadistica Inferencial


2013
76
- Al responder a un problema, es muy conveniente proponer otras hiptesis en que aparezcan variables independientes distintas de las
primeras que formulamos. Por tanto, para no perder tiempo en bsquedas intiles, es necesario hallar diferentes hiptesis alternativas como
respuesta a un mismo problema y elegir entre ellas cules y en qu orden vamos a tratar su comprobacin.
Las hiptesis, naturalmente, sern diferentes segn el tipo de investigacin que se est realizando. En los estudios exploratorios, a veces,
el objetivo de la investigacin podr ser simplemente el de obtener los mnimos conocimientos que permitan formular una hiptesis. Tambin
es aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que "existe algn tipo de problema social en tal grupo", o
que los planetas poseen algn tipo de atmsfera, sin especificar de qu elementos est compuesto.
Los trabajos de ndole descriptiva generalmente presentan hiptesis del tipo "todos los X poseen, en alguna medida, las caracterstica Y". Por
ejemplo, podemos decir que todas las naciones poseen algn comercio internacional, y dedicarnos a describir, cuantificando, las relaciones
comerciales entre ellas. Tambin podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como cuando decimos que
una tecnologa escapital - intensiva. En estos casos, describimos, clasificndolo, el objeto de nuestro inters, incluyndolo en un tipo ideal
complejo de orden superior.
Por ltimo, podemos construir hiptesis del tipo "X produce (o afecta) a Y", donde estaremos en presencia de una relacin entre variables.

3.3.-Error tipo I y Error Tipo II
Errores de tipo I y de tipo II.
Si rechazamos una hiptesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I.
Por otra parte, si aceptamos una hiptesis que debiera ser rechazada, diremos que se cometi un error de tipo II.
En ambos casos, se ha producido un juicio errneo.
Para que las reglas de decisin (o no contraste de hiptesis) sean buenos, deben disearse de modo que minimicen los errores de la
decisin; y no es una cuestin sencilla, porque para cualquier tamao de la muestra, un intento de disminuir un tipo de error suele ir
acompaado de un crecimiento del otro tipo. En la prctica, un tipo de error puede ser ms grave que el otro, y debe alcanzarse un
compromiso que disminuya el error ms grave.
La nica forma de disminuir ambos a la vez es aumentar el tamao de la muestra que no siempre es posible.
Niveles de Significacin.
Al contrastar una cierta hiptesis, la mxima probabilidad con la que estamos dispuesto a correr el riesgo de cometern error de tipo I, se
llama nivel de significacin.
Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyan
en nuestra eleccin.
En la prctica, es frecuente un nivel de significacin de 0,05 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel de
significacin 0,05 ( 5%) al disear una regla de decisin, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hiptesis
cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisin correcta. En tal caso decimos
que la hiptesis ha sido rechazada al nivel de significacin 0,05, lo cual quiere decir que tal hiptesis tiene una probabilidad 0,05 de ser falsa.

3.4.-Pruebas de Hiptesis para Z para la media y la desviacin
estndar poblacional

Prueba de Uno y Dos Extremos.
Cuando estudiamos ambos valores estadsticos es decir, ambos lados de la media lo llamamos prueba de uno y dos extremos o contraste de
una y dos colas.
Con frecuencia no obstante, estaremos interesados tan slo en valores extremos a un lado de la media (o sea, en uno de los extremos de la
distribucin), tal como sucede cuando se contrasta la hiptesis de que un proceso es mejor que otro (lo cual no es lo mismo que contrastar si
un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o de un extremo. En tales situaciones, la regin crtica es una
regin situada a un lado de la distribucin, con rea igual al nivel de significacin.
Curva Caracterstica Operativa Y Curva De Potencia
Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el error tipo II
simplemente no aceptando nunca la hiptesis, pero en muchas aplicaciones prcticas esto es inviable. En tales casos, se suele recurrir a
curvas caractersticas de operacin o curvas de potencia que son grficos que muestran las probabilidades de error de tipo II bajo diversas
hiptesis. Proporcionan indicaciones de hasta que punto un test dado nos permitir evitar un error de tipo II; es decir, nos indicarn la
potencia de un test a la hora de prevenir decisiones errneas. Son tiles en el diseo de experimentos por que sugieren entre otras cosas el
tamao de muestra a manejar.

3.5.-Pruebas para proporciones

Pruebas de hiptesis para la media y proporciones
Debido a la dificultad de explicar este tema se enfocar un problema basado en un estudio en una fbrica de llantas.
En este problema la fbrica de llantas tiene dos turnos de operarios, turno de da y turno mixto. Se selecciona una muestra aleatoria de 100
llantas producidas por cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas:
1.- Es la duracin promedio de las llantas producidas en el turno de da igual a 25 000 millas?
Estadistica Inferencial


2013
77
2.- Es la duracin promedio de las llantas producidas en el turno mixto menor de 25 000 millas?
3.- Se revienta ms de un 8% de las llantas producidas por el turno de da antes de las 10 000 millas?
Prueba De Hiptesis Para La Media
En la fbrica de llantas la hiptesis nula y alternativa para el problema se plantearon como sigue:
Ho: = 25 000
H1: 25 000

Si se considera la desviacin estndar las llantas producidas en el turno de da, entonces, con base en el teorema de limite central, la
distribucin en el muestreo de la media seguira la distribucin normal, y la prueba estadstica que esta basada en la diferencia entre la
media de la muestra y la media hipottica se encontrara como sigue:
Para ver el grfico seleccione la opcin "Descargar" del men superior
Si el tamao de la regin de rechazo se estableciera en 5% entonces se podran determinar los valores crticos de la distribucin. Dado que
la regin de rechazo esta dividida en las dos colas de la distribucin, el 5% se divide en dos partes iguales de 2.5%.
Dado que ya se tiene la distribucin normal, los valores crticos se pueden expresar en unidades de desviacin. Una regin de rechazo de
0.25 en cada cola de la distribucin normal, da por resultado un rea de .475 entre la media hipottica y el valor crtico. Si se busca est rea
en la distribucin normal, se encuentra que los valores crticos que dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96

Por tanto, la regla para decisin sera:
Rechazar Ho si Z > + 1.96
O si Z < - 1.96
De lo contrario, no rechazar Ho
No obstante, en la mayor parte de los casos se desconoce la desviacin estndar de la poblacin. La desviacin estndar se estima al
calcular S, la desviacin estndar de la muestra. Si se supone que la poblacin es normal la distribucin en el muestreo de la media seguira
una distribucin t con n-1 grados de libertad. En la prctica, se a encontrado que siempre y cuando el tamao de la muestra no sea muy
pequeo y la poblacin no este muy sesgada, la distribucin t da una buena aproximacin a la distribucin de muestra de la media. La prueba
estadstica para determinar la diferencia entre la media de la muestra y la media de la poblacin cuando se utiliza la desviacin estndar
S de la muestra, se expresa con:

Para una muestra de 100, si se selecciona un nivel de significanca de .05, los valores crticos de la distribucin t con 100-1= 99 grados de
libertad se puede obtener como se indica en la siguiente tabla:
Para ver el grfico seleccione la opcin "Descargar" del men superior
Como esta prueba de dos colas, la regin de rechazo de .05 se vuelve a dividir en dos partes iguales de .025 cada una. Con el uso de las
tablas para t, los valores crticos son 1.984 y +1.984. la regla para la decisin es:
Rechazar Ho si >+1.984
O si - 1.984
De lo contrario, no rechazar Ho
Estadistica Inferencial


2013
78

Los resultados de la muestra para el turno de da fueron =25 430 millas, =4 000 millas y = 100. Puesto que se esta probando
si la media es diferente a 25 000 millas, se tiene con la ecuacin
Para ver el grfico seleccione la opcin "Descargar" del men superior
Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.
Por ello, la de cisin de no rechazar la hiptesis nula Ho. En conclusin es que la duracin promedio de las llantas es 25 000 millas. A fin de
tener en cuenta la posibilidad de un error de tipo II, este enunciado se puede redactar como "no hay pruebas de que la duracin promedio de
las llantas sea diferente a 25 000 millas en las llantas producidas en el turno de da".

3.6.-Seleccin del tamao de la muestra( para estimar la media
poblacional)

Estimacin de la Diferencia entre dos Medias
Si se tienen dos poblaciones con medias
1
y
2
y varianzas
1
2
y
2
2
,
respectivamente, un estimador puntual de la diferencia entre
1
y
2
est dado por la
estadstica . Por tanto. Para obtener una estimacin puntual de
1
-
2,
se seleccionan dos muestras aleatorias independientes, una de cada poblacin, de
tamao n
1
y n
2
, se calcula la diferencia , de las medias muestrales.
Recordando a la distribucin muestral de diferencia de medias:

Al despejar de esta ecuacin
1
-
2
se tiene:
Estadistica Inferencial


2013
79

En el caso en que se desconozcan las varianzas de la poblacin y los tamaos de muestra
sean mayores a 30 se podr utilizar la varianza de la muestra como una estimacin puntual.
Ejemplos:
1. Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide el
rendimiento en millas por galn de gasolina. Se realizan 50 experimentos con el motor tipo A y 75
con el motor tipo B. La gasolina que se utiliza y las dems condiciones se mantienen constantes. El
rendimiento promedio de gasolina para el motor A es de 36 millas por galn y el promedio para el
motor B es 42 millas por galn. Encuentre un intervalo de confianza de 96% sobre la diferencia
promedio real para los motores A y B. Suponga que las desviaciones estndar poblacionales son 6 y
8 para los motores A y B respectivamente.
Solucin:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar
la media mayor menos la media menor. En este caso ser la media del motor B
menos la media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05.

3.43<
B
-
A
<8.57
La interpretacin de este ejemplo sera que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galn a favor
del motor B. Esto quiere decir que el motor B da mas rendimiento promedio que el
motor A, ya que los dos valores del intervalo son positivos.
2. Una compaa de taxis trata de decidir si comprar neumticos de la marca A o de la B para su flotilla
de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12
de cada marca. Los neumticos se utilizan hasta que se desgastan, dando como resultado promedio
para la marca A 36,300 kilmetros y para la marca B 38,100 kilmetros. Calcule un intervalo de
confianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones se
distribuyen de forma aproximadamente normal con desviacin estndar de 5000 kilmetros para la
marca A y 6100 kilmetros para la marca B.
Solucin:
Estadistica Inferencial


2013
80

-2662.68<
B
-
A
<6262.67
Grficamente:

Como el intervalo contiene el valor "cero", no hay razn para creer que el
promedio de duracin del neumtico de la marca B es mayor al de la marca A,
pues el cero nos est indicando que pueden tener la misma duracin promedio.
3.7.-Seleccin de la muestra para estimar la proporcin
poblacional

Prueba De Hiptesis Para Proporciones
El concepto de prueba de hiptesis se puede utilizar para probar hiptesis en relacin con datos cualitativos. Por ejemplo, en el problema
anterior el gerente de la fabrica de llantas quera determinar la proporcin de llantas que se reventaban antes de 10,000 millas. Este es un
ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporcin de los valores que tienen una
caracterstica particular.
El gerente de la fbrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes de
las 10,000 millas. Si ms de un 8% de las llantas se revientan antes de las 10,000 millas, se llegara a concluir que el proceso no funciona
correctamente. La hiptesis nula y alternativa se pueden expresar como sigue:
Ho: p .08 (funciona correctamente)
H1: p > .08 (no funciona correctamente)

La prueba estadstica se puede expresar en trminos de la proporcin de xitos como sigue:
En donde
Para ver el grfico seleccione la opcin "Descargar" del men superior
p = proporcin de xitos de la hiptesis nula
Ahora se determinar si el proceso funciona correctamente para las llantas producidas para el turno de da. Los resultados del turno de da
ndican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de
significanca de .05, las regiones de rechazo y no rechazo se estableceran como a continuacin se muestra:
Para ver el grfico seleccione la opcin "Descargar" del men superior
Y la regla de decisin sera:
Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.
Estadistica Inferencial


2013
81
Con los datos que se tienen,
= = .05
Y entonces,
= = = = -1.107

Z -1.107 < + 1.645; por tanto no rechazar Ho.
La hiptesis nula no se rechazara por que la prueba estadstica no ha cado en la regin de rechazo. Se llegara a la conclusin de que no
hay pruebas de que ms del 8% de las llantas producidas en el turno de da se revienten antes de 10,000 millas. El gerente no ha encontrado
ninguna prueba de que ocurra un nmero excesivo de reventones en las llantas producidas en el turno de da.
http://cosmech.tripod.com/index.htm
Pruebas de Hiptesis
Una hiptesis estadstica es una suposicin hecha con respecto a la funcin de distribucin de una variable aleatoria.
Para establecer la verdad o falsedad de una hiptesis estadstica con certeza total, ser necesario examinar toda la poblacin. En la
mayora de las situaciones reales no es posible o practico efectuar este examen, y el camino mas aconsejable es tomar una muestra
aleatoria de la poblacin y en base a ella, decidir si la hiptesis es verdadera o falsa.
En la prueba de una hiptesis estadstica, es costumbre declarar la hiptesis como verdadera si la probabilidad calculada excede el
valor tabular llamado el nivel de significacin y se declara falsa si la probabilidad calculada es menor que el valor tabular.
La prueba a realizar depender del tamao de las muestras, de la homogeneidad de las varianzas y de la dependencia o no de las
variables.
Si las muestras a probar involucran a ms de 30 observaciones, se aplicar la prueba de Z, si las muestras a evaluar involucran un
nmero de observaciones menor o igual que 30 se emplea la prueba de t de student. La frmula de clculo depende de si las
varianzas son homogneas o heterogneas, si el nmero de observaciones es igual o diferente, o si son variables dependientes.
Para determinar la homogeneidad de las varianzas se toma la varianza mayor y se divide por la menor, este resultado es un
estimado de la F de Fisher. Luego se busca en la tabla de F usando como numerador los grados de libertad (n-1) de la varianza
mayor y como denominador (n-1) de la varianza menor para encontrar la F de Fisher tabular. Si la F estimada es menor que la F
tabular se declara que las varianzas son homogneas. Si por el contrario, se declaran las varianzas heterogneas. Cuando son
variables dependientes (el valor de una depende del valor de la otra), se emplea la tcnica de pruebas pareadas.
Como en general estas pruebas se aplican a dos muestras, se denominarn a y b para referirse a ellas, as entenderemos por:
- na al nmero de elementos de la muestra a
- nb al nmero de elementos de la muestra b
- xb al promedio de la muestra b
- s2a la varianza de la muestra a
- Y as sucesivamente
Entonces se pueden distinguir 6 casos a saber:
1. Caso de muestras grandes (n>30)
2.
3. Caso de na = nb y s2a = s2b
4. Caso de na = nb y s2a <> s2b
5. Caso de na <> nb y s2a = s2b
6. Caso de na <> nb y s2a <> s2b
7. Caso de variables dependientes
1.-Cuando las muestras a probar involucran a ms de 30 observaciones.

Ejemplo:
La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una desviacin estndar de 2.5 cm.; mientras que otras
50 palmas que no forman parte del ensayo tienen media y desviacin estndar igual a 77.3 y 2.8 cm.
Estadistica Inferencial


2013
82

Se desea probar la hiptesis de que las palmas que participan en el ensayo son ms altas que las otras.
Consultando el valor z de la tabla a 95% de probabilidad se tiene que es 1.96, por lo consiguiente, el valor z calculado no fue mayor al valor
de la tabla y entonces se declara la prueba no significativa.
Conclusin: Las alturas promedio de los 2 grupos de palmas son iguales y la pequea diferencia observada en favor al primer grupo se debe
al azar.
2.-Caso de nmero igual de observaciones y varianzas homogneas.

Ejemplo:
Se plant cierto experimento en 24 parcelas para probar el efecto de la presencia o ausencia de K en el rendimiento de palma.
Peso medio del racimo (Kg.)
n a b a2 b2
1 20.0 24.0 400.00 576.00
2 24.0 28.0 576.00 784.00
3 21.0 25.0 441.00 625.00
4 22.0 25.0 484.00 625.00
5 23.0 27.0 529.00 729.00
6 24.0 27.5 576.00 756.25
7 22.5 28.0 506.25 784.00
8 22.0 26.0 484.00 576.00
9 21.5 26.0 462.25 676.00
10 20.0 24.5 400.00 600.25
11 22.0 26.5 484.00 702.25
12 24.0 28.5 576.00 812.25
Suma 266 316 5918.5 8346
Promedio 22.16 26.33

s2a = 5918.5 - (266)2/12 = 2.02
11
s2b = 8346 - (316)2/12 = 2.24
11
Se busca en la tabla de t de student con 2 (n-1) grados de libertad o sea 22, y se encuentra que el valor tabular es de 2.074 al 95% de
probabilidad, el cual es menor que la t calculada y por lo tanto se declara la prueba significativa.
Conclusin: La diferencia entre promedios observados es atribuible al efecto de tratamiento (K), por haberse conseguido un resultado
significativo.
3.-Caso de igual nmero de observaciones y varianzas heterogneas.
Estadistica Inferencial


2013
83

Ejemplo:
Se plant cierto experimento en 24 parcelas con dos clases de semillas: semilla mezclada y semilla DxP seleccionada. Se desea saber si el
rendimiento observado por la semilla seleccionada difiere a la otra.
Produccin de palma: TM/ha/ao
Para ver la tabla seleccione la opcin "Descargar" del men superior

s2a = 1748.61 - (144.5)2/12 = 0.78
11
s2b = 4001.14 - (216.2)2/12 = 9.63
11
Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa.
Conclusin: El rendimiento observado por las plantas de semilla seleccionada fue significativamente superior a las otras.
4.-Caso de diferente nmero de observaciones y varianzas homogneas

Ejemplo:
Se tom una rea de terreno distribuida en 22 parcelas y a 13 de ellas se les aplic un fertilizante nitrogenado para medir el efecto del N en el
crecimiento.
rea foliar de la hoja # 17 en m2
Para ver la tabla seleccione la opcin "Descargar" del men superior
s2a = 968.93 - (112.1)2/13 = 0.19
12
s2b = 390.84 - (59.2)2/9 = 0.18
8
s2c = 12(0.19) + 8(0.18) = 0.19
20
Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa.
Conclusin: El rendimiento observado por las plantas de semilla seleccionada fue significativamente superior a las otras.
Ejemplo:
Se tom una rea de terreno distribuida en 22 parcelas y a 13 de ellas se les aplic un fertilizante nitrogenado para medir el efecto del N en el
crecimiento.
rea foliar de la hoja # 17 en m2
Para ver la tabla seleccione la opcin "Descargar" del men superior
Estadistica Inferencial


2013
84
s2a = 968.93 - (112.1)2/13 = 0.19
12
s2b = 390.84 - (59.2)2/9 = 0.18
8
s2c = 12(0.19) + 8(0.18) = 0.19
20
Consultando la tabla con (na-1) + (nb-1) o sea (20) grados de libertad, se obtiene el valor tabular de 2.086, el cual es menor que la t
calculada, por lo tanto la diferencia se declara significativa.
Conclusin: La diferencia detectada en estas dos muestras es atribuible a la aplicacin del fertilizante nitrogenado.
5.- Caso de diferente nmero de observaciones y varianzas heterogneas.

En este caso, la tc es comparada con la tg (t generada), que a diferencia de los casos anteriores, hay que calcularla.

Donde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b respectivamente
Ejemplo:
Se tomaron 2 muestras de palma comercial de orgenes diferentes y se midi el porcentaje de almendra en el racimo en ambas muestras, el
objeto es probar si las muestras son diferentes genticamente o no.
Porcentaje de almendra
Para ver la tabla seleccione la opcin "Descargar" del men superior
s2a = 225.02 - (53)2/14 = 1.88
13
s2b = 192.26 - (43.80)2/10 = 0.05
9

En este caso la t generada (tg), reemplaza la t de la tabla y como la tc es menor que la tg, la diferencia se declara No significativa.
Conclusin: La diferencia observada entre promedios es atribuible nicamente a errores de muestreo o variabilidad natural, y no a
diferencias genticas.
6.-Caso de muestras pareadas (de variables dependientes)
En este caso, se asume que las muestras han sido distribuidas por pares.
Estadistica Inferencial


2013
85

Ejemplo: Se tomaron 12 foliolos de palma joven y a cada uno se le trat la mitad con Benlate para medir la inhibicin del crecimiento
de hongos.
Magnitud del dano
Sin Con
n Benlate Benlate D = X - Y D2
Para ver la tabla seleccione la opcin "Descargar" del men superior

Consultando la tabla con n-1 grados de libertad se obtiene el valor tabular de 2.201, por lo tanto, la diferencia se declara significativa.
Conclusin: De la prueba se desprende que el tratamiento con benlate redujo significativamente la incidencia de hongos.
Utilidad de las hiptesis:
El uso y formulacin correcta de las hiptesis le permiten al investigador poner a prueba aspectos de la realidad, disminuyendo la
distorsin que pudieran producir sus propios deseos o gustos. Pueden ser sometidas a prueba y demostrarse como probablemente
correctas o incorrectas sin que interfieran los valores o creencias del individuo.




Leer ms: http://www.monografias.com/trabajos17/pruebas-de-hipotesis/pruebas-de-hipotesis.shtml#ixzz2GaeZCCwR




Estadistica Inferencial


2013
86

Los clculos en Excel se muestran en la siguiente imagen:
Estadistica Inferencial


2013
87

El grfico elaborado con Winstats y Paint se muestra en la siguiente imagen:

Prueba medias de dos muestras
Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son iguales. Se requieren dos muestras
independientes, una de cada una de las dos poblaciones. Considrese, por ejemplo, una compaa investigadora que
experimentan con dos diferentes mezclas de pintura, para ver si se puede modificar el tiempo de secado de una pintura para
Estadistica Inferencial


2013
88
uso domstico. Cada mezcla es probada un determinado nmero de veces, y comparados posteriormente los
tiempos medios de secado de las dos muestras. Una parece ser superior, ya que su tiempo medio de secado (muestra) es 30
minutos menor que el de la otra muestra.
Pero, son realmente diferentes los tiempos medios de secado de las dos pinturas, o esta diferencia muestral es nada ms la
variacin aleatoria que se espera, aun cuando las dos frmulas presentan idnticos tiempos medios de secado? Una vez ms,
las diferencias casuales se deben distinguir de las diferencias reales.
Con frecuencia se utilizan pruebas de dos muestras para comparar dos mtodos de enseanza, dos marcas, dos ciudades, dos
distritos escolares y otras cosas semejantes.
La hiptesis nula puede establecer que las dos poblaciones tienen medias iguales:

Para tamaos ms pequeos de muestra, Z estar distribuida normalmente slo si las dos poblaciones que se muestrean
tambin lo estn.


Estadistica Inferencial


2013
89


Ejemplo ilustrativo
La media de las calificaciones de dos muestras de 15 estudiantes de primer semestre en la asignatura de Estadstica de
la universidad UTN resulta ser de 7 y 8,5. Se sabe que la desviacin tpica de las calificaciones en esta asignatura fue en el
pasado de 1,5.
Estadistica Inferencial


2013
90

Los clculos en Excel se muestran en la siguiente figura:
Estadistica Inferencial


2013
91

El grfico elaborado con Winstats y Paint se muestra en la siguiente imagen:

4.1.-Introduccin
TAMAO DE LA MUESTRA
A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta
varios factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la
varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos
sencillos de clculo del tamao muestral delimitemos estos factores.
Estadistica Inferencial


2013
92

Para calcular el tamao de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la
poblacin total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalizacin.
3. El nivel de variabilidad que se calcula para comprobar la hiptesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para
generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale
a decir que no existe ninguna duda para generalizar tales resultados, pero tambin implica
estudiar a la totalidad de los casos de la poblacin. Para evitar un costo muy alto para el
estudio o debido a que en ocasiones llega a ser prcticamente imposible el estudio de todos
los casos, entonces se busca un porcentaje de confianza menor. Comnmente en las
investigaciones sociales se busca un 95%.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hiptesis
que sea falsa como si fuera verdadera, o la inversa: rechazar a hiptesis verdadera por
considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del
error y considerarlo como 0%, entonces la muestra es del mismo tamao que la poblacin,
por lo que conviene correr un cierto riesgo de equivocarse.

Comnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son
complementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con el que se acept y se rechaz la
hiptesis que se quiere investigar en alguna investigacin anterior o en un ensayo previo a
la investigacin actual. El porcentaje con que se acept tal hiptesis se denomina
variabilidad positiva y el porcentaje con el que se rechaz se la hiptesis es la variabilidad
negativa

El muestreo es el proceso de tomar una proporcin o parte de un universo de elementos,
con la finalidad de analizar en dichos elementos, caractersticas sujetas a estudio o
fenmenos factibles de observacin y en base al anlisis de la muestra o proporcin
tomada obtener conclusiones que se refieran no slo a la muestra sino a todo el universo.
Para fines estadsticos, el universo puede considerarse finito o infinito. Se considera finito
si el nmero de elementos que lo constituyen es menor a 500,000 e infinito si es igual o
Estadistica Inferencial


2013
93
mayor a este nmero. Siempre que hagamos la eleccin de una muestra, debemos tener
cuidado de que sta rena las siguientes caractersticas:
Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se
requiere para que el nivel de confiabilidad sea el que se ha establecido previamente.
Que sea representativa: esto quiere decir que los elementos seleccionados debern
presentar caractersticas similares a las de la poblacin o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las ms
importantes son:
El costo se reduce, pues los gastos sern nicamente los ocasionados por una parte del
universo (muestra tomada) y no por la totalidad de l.
Si la muestra es representativa, las deducciones resultantes sobre el universo sern
confiables.
Como solamente se estudia una parte del universo, la informacin obtenida se realiza en
menor tiempo.
Cmo obtener el tamao de la muestra a utilizar?

Una de las preguntas planteadas con mayor frecuencia al iniciar una investigacin y difcil
de contestar, sobre todo por falta de informacin del problema, es: cuntas observaciones
se deben obtener para que el tamao de la muestra sea realmente representativo del
universo estadstico? En este sentido -la decisin del tamao de la muestra de una
poblacin -, es necesario considerar que las muestras varan en su composicin de una a
otra. La magnitud de la variacin depende del tamao de la muestra y de la variabilidad
original de la poblacin. As, el tamao de la muestra queda determinada por el grado de
precisin que se desea obtener y por variabilidad inicial de la poblacin.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z
asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es
aceptable estadsticamente.

2. Evaluar la probabilidad a favor de que suceda un evento o situacin esperada (esta
probabilidad se le denomina p).

Estadistica Inferencial


2013
94
3. Evaluar la probabilidad en contra de que suceda en un evento o situacin esperada (a
esta probabilidad se le denomina q= 1 p).

4. Determinar el error (e) mximo para el nivel de precisin que vayamos a permitir en los
resultados (error mximo de estimacin), comnmente se trabaja con errores de estimacin
entre el 2% y el 6%, ya que la validez de la informacin se reduce demasiado para valores
mayores del 6%.
Determinamos el tamao de la poblacin o universo.

5.- Se elige la frmula a utilizar para calcular el tamao de la muestra; dependiendo de si la
poblacin o universo sujeto a estudio se va a considerar infinito infinito. (Una poblacin o
universo se considera infinito si el nmero de elementos de los que consta es igual o mayor
a 500,000 y es considerado finito si el nmero de elementos es menor a esta cantidad).

Diferentes niveles de confianza utilizados en la prctica


Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.6745
4.2.-Prueba Normal y T student
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de
probabilidad que surge del problema de estimar la media de una poblacin normalmente
distribuida cuando el tamao de la muestra es pequeo.
Aparece de manera natural al realizar la prueba t de Student para la determinacin de las
diferencias entre dos medias muestrales y para la construccin del intervalo de confianza
para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviacin
tpica de una poblacin y sta debe ser estimada a partir de los datos de una muestra.
La distribucin t de Student es la distribucin de probabilidad del cociente

Estadistica Inferencial


2013
95
donde
- Z tiene una distribucin normal de media nula y varianza 1
- V tiene una distribucin ji-cuadrado con grados de libertad
- Z y V son independientes
Si es una constante no nula, el cociente es una variable aleatoria que sigue la
distribucin t de Student no central con parmetro de no-centralidad .
Aparicin y especificaciones de la distribucin t de Student
Supongamos que X
1
,..., X
n
son variables aleatorias independientes distribuidas
normalmente, con media y varianza
2
. Sea

la media muestral. Entonces

sigue una distribucin normal de media 0 y varianza 1.
Sin embargo, dado que la desviacin estndar no siempre es conocida de antemano, Gosset
estudi un cociente relacionado,

donde

es la varianza muestral y demostr que la funcin de densidad de T es

donde es igual a n 1.
La distribucin de T se llama ahora la distribucin-t de Student.
Estadistica Inferencial


2013
96
El parmetro representa el nmero de grados de libertad. La distribucin depende de ,
pero no de o , lo cual es muy importante en la prctica.
Intervalos de confianza derivados de la distribucin t de Student
El procedimiento para el clculo del intervalo de confianza basado en la t de Student
consiste en estimar la desviacin tpica de los datos S y calcular el error estndar de la
media , siendo entonces el intervalo de confianza para la media =
.
Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las
medias de muestras de dos distribuciones normales se distribuye tambin normalmente, la
distribucin t puede usarse para examinar si esa diferencia puede razonablemente suponerse
igual a cero.
para efectos prcticos el valor esperado y la varianza son:
E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3
Historia
La distribucin de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba
en una fbrica de cerveza, Guinness, que prohiba a sus empleados la publicacin de
artculos cientficos debido a una difusin previa de secretos industriales. De ah que Gosset
publicase sus resultados bajo el seudnimo de Student
Distribucin t de Student

Funcin de densidad de probabilidad
Estadistica Inferencial


2013
97

Funcin de distribucin de probabilidad
Parmetros grados de libertad (real)
Dominio

Funcin de
densidad
(pdf)

Funcin de
distribucin
(cdf)
donde es la
funcin hipergeomtrica
Media para , indefinida para otros valores
Mediana

Moda

Estadistica Inferencial


2013
98
Varianza
para , indefinida para otros
valores
Coeficiente
de simetra
para
Curtosis
para
Entropa

- : funcin digamma,
- : funcin beta
Funcin
generadora
de
momentos
(mgf)

4.3.-Pruebas de significancia


SIGNIFICACIN ESTADSTICA
La realizacin de cualquier estudio clnico-epidemiolgico pretende poner
de manifiesto al final del mismo si existe o no asociacin entre diferentes
variables. Esta asociacin puede ser resultado de que realmente exista la
asociacin indicada, pero esta asociacin tambin puede ser producto del azar, de
la presencia de sesgos o de la presencia de variables de confusin.
En estadstica, un resultado se denomina estadsticamente significativo
cuando no es probable que haya sido debido al azar. Una "diferencia
estadsticamente significativa" solamente significa que hay evidencias estadsticas
de que hay una diferencia entre las variables estudiadas. No significa que la
diferencia sea grande, importante, o significativa en el sentido estricto de la
palabra, slo indica que hay diferencias.
Estadistica Inferencial


2013
99
Una de las aplicaciones de la estadstica es hacer inferencias a
poblaciones, a partir de muestras. En la realizacin de este proceso, siempre
existe el riesgo de error o imprecisin ya sea por el azar o la variabilidad biolgica
del fenmeno a estudiar.
DEFINICION
El nivel de significacin de un test es un concepto estadstico asociado a la
verificacin de una hiptesis. En pocas palabras, se define como la probabilidad
de tomar la decisin de rechazar la hiptesis nula (H
0
) cuando sta es verdadera
(decisin conocida como Error tipo I, o "falso positivo"). La decisin se toma a
menudo utilizando el valor P (o p-valor): si el valor P es inferior al nivel de
significacin, entonces la hiptesis nula es rechazada. Cuanto menor sea el valor
P, ms significativo ser el resultado.
La H
o
(hiptesis nula) representa la afirmacin de que no hay asociacin
entre las dos variables estudiadas y la H
1
(hiptesis alternativa) afirma que hay
algn grado de relacin o asociacin entre las dos variables.

Realidad (Poblacin)

Existe diferencia o
asociacin
(H
0
falsa)
No existe
diferencia o
asociacin
(H
0
cierta)
Resultado de
la prueba
(muestra)
Diferencia o
asociacin
significativa
(rechazo H
0
)
No error
(1-)
Error tipo I
Error
Diferencia o
asociacin no
significativa
(No rechazo H
0
)
Error tipo II
Error
No error
(1-)
- H
o
(hiptesis nula) = No hay diferencia entre ambos tratamientos.
- H
1
(hiptesis alternativa) = S existe diferencia.

Estadistica Inferencial


2013
100
El nivel de significacin se estableci siguiendo los comentarios del
estadstico Fisher que seal "...es conveniente trazar una lnea de demarcacin a
partir de la cual podamos decir: o bien hay algo en el tratamiento...".
El valor de "p" que indica que la asociacin es estadsticamente
significativa ha sido arbitrariamente seleccionado y por consenso se considera en
0.05.
- Una seguridad del 95% lleva implcito una p < de 0.05.
- Una seguridad del 99% lleva implcita una p < 0.01.
Cuando rechazamos la H
o
(hiptesis nula) y aceptamos la H
1
(hiptesis
alternativa) como probablemente cierta afirmando que hay una asociacin, o que
hay diferencia, estamos diciendo en otras palabras que es muy poco probable que
el azar fuese responsable de dicha asociacin.
Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido
como explicacin de dicho hallazgo y no rechazamos la H
o
(hiptesis nula) que
afirma que ambas variables no estn asociadas o correlacionadas.
La significacin estadstica depende de 2 componentes fundamentales:
- Magnitud de la diferencia Cuanto ms grande sea la diferencia entre 2
variables, ms fcil es demostrar que la diferencia es significativa.
- Tamao muestral A mayor tamao muestral, ms fcil es detectar
diferencias. Lo hace a travs de del error estndar: a mas pacientes menor
error estndar.

Error de tipo I ()
El error tipo I, conocido tambin como erro tipo alfa, se comete cuando el
investigador rechaza la hiptesis nula (H
0
), siendo sta verdadera en la poblacin.
Es equivalente a encontrar un resultado falso positivo, ya que el investigador
concluye que hay diferencia, cuando en realidad no existe.
La "p" no es un indicador de fuerza de la asociacin ni de su importancia.
La significacin estadstica es por tanto una condicin resultante del rechazo de
una hiptesis nula mediante la aplicacin de una prueba estadstica de
significacin. El nivel de significacin es el riesgo o la probabilidad que
voluntariamente asume el investigador de equivocarse al rechazar la hiptesis
nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05
(95%) 0.01 (99%).
Estadistica Inferencial


2013
101
- Si p < 0.05 se considera significativo, en cuyo caso se rechaza la
hiptesis nula
- Si p> 0.05 se considera no significativo en cuyo caso no se rechaza la
hiptesis nula.

Error de tipo II ()
El error tipo II o beta se comete en la situacin contraria: cuando el
investigador NO rechaza la hiptesis nula (H
0
), siendo sta FALSA en la
poblacin. Es equivalente a un resultado falso negativo, ya que el investigador
concluye que ha sido incapaz de encontrar una diferencia que existe en la
realidad.
Su complemento, (1-), conocido como PODER o POTENCIA
ESTADSTICA, representa la probabilidad de observar en la muestra una
determinada diferencia o un efecto, si existen en la poblacin.
- El error de tipo I, es por lo tanto rechazar la H
o
cuando en realidad es
verdadera. Se podra considerar que para evitar este tipo de error
deberamos de elegir un nivel de confianza ms elevado, sin embargo al
aumentar el nivel de confianza aumenta la probabilidad de cometer el
error de tipo II.
Recomendaciones para disminuir el error de tipo I:
- Disponer de una teora que gue la investigacin, evitando el "salir de
pesca" con el ordenador buscando asociaciones entre variables.
- Disminuir el nmero de test estadsticos llevados a cabo en el estudio.
- Depurar la base de datos para evitar errores de valores
extremos que puedan producir hallazgos significativos.
- Utilizar valores de alfa ms reducidos (0.01 0.001).
- Reproducir el estudio. Si al reproducir el estudio se obtienen
resultados similares, estaremos ms seguros de no estar
cometiendo el error de tipo I.

Recomendaciones para disminuir el error de tipo II:
- Incrementar el tamao de la muestra.
- Estimar el poder estadstico (potencia) del estudio.
- Incrementar el tamao del efecto a detectar.
- Incrementar el valor de alfa.
Estadistica Inferencial


2013
102
- Utilizar test paramtricos (ms potentes) en lugar de test no
paramtricos.
POTENCIA DE UN ESTUDIO
DEFINICION DE POTENCIA
Los estudios cuyos resultados no son estadsticamente significativos suelen
denominarse estudios negativo. Sin embargo, la usencia de significacin no
implica necesariamente que no exista en la realidad una asociacin relevante
entre el factor de estudio y la respuesta.
La probabilidad de cometer este error se conoce como , y su complemento 1-
corresponde a la potencia estadstica, que cuantifica la capacidad de un estudio
para detectar como estadsticamente significativo una determinada diferencia o
asociacin que existe en la realidad.
El poder estadstico de un estudio depende de diferentes factores, como:
1. El tamao del efecto a detectar, es decir, la magnitud mnima de la
diferencia o asociacin entre los grupos que se considera clnicamente
relevante Cuanto mayor sea el tamao del efecto que se desea detectar,
mayor ser la probabilidad de obtener hallazgos significativos y, por lo
tanto, mayor ser el poder estadstico.

2. La variabilidad de la respuesta estudiada.
A mayor variabilidad en la respuesta, ms difcil ser detectar diferencias
entre los grupos que se comparan y menor ser el poder estadstico de la
investigacin.
De ah que sea recomendable estudiar grupos lo ms homogneos
posibles.

3. El tamao de la muestra a estudiar.
A mayor tamao muestral, mayor ser la potencia estadstica de un estudio.

4. El nivel de significacin estadstica. Si se disminuye el valor de
tambin se disminuye el poder de la prueba.
Habitualmente se trabaja con un nivel de significacin del 95% ( = 0,05),
por lo que el equilibrio hay que en encontrarlo finalmente entre el tamao de
la muestra que es posible estudiar y el poder que se quiere para el estudio.
Los cuatro factores anteriores, junto con el poder estadstico, forman un sistema
cerrado. De este modo, una vez fijados tres de ellos, el cuarto queda
completamente determinado.

Estadistica Inferencial


2013
103
CLCULO DE LA POTENCIA
Generalmente, se suele trabajar con un poder en torno al 80% o al 90%.
Con frecuencia, las condiciones en las que se lleva a cabo una investigacin son
diferentes de las que se haban previsto en un principio. En consecuencia, y a la
vista de hallazgos no significativos, es recomendable evaluar de nuevo a posteriori
su potencia con el fin de discernir si el estudio carece del poder necesario para
detectar una diferencia relevante o bien si realmente puede no existir tal
diferencia.
Existen frmulas que calculan el poder estadstico en funcin de la
naturaleza de la investigacin. Con estas frmulas obtienes un valor, a partir del
cual se determina la potencia recurriendo a unas tablas de la distribucin normal.
Sin embargo, y aunque dichas frmulas nos permitiran analizar el poder
estadstico en diferentes tipos de diseo, puede resultar ms sencillo disponer de
algn software especfico con el que poder realizar dichos clculos.
Tabla 3. Valores de , y ms frecuentemente utilizados.

Seguridad
Test unilateral

Test bilateral

80 % 0,200 0,842 1,282
85 % 0,150 1,036 1,440
90 % 0,100 1,282 1,645
95 % 0,050 1,645 1,960
97,5 % 0,025 1,960 2,240
99 % 0,010 2,326 2,576
Poder estadstico


99 % 0,99 0,01 2,326
95 % 0,95 0,05 1,645
90 % 0,90 0,10 1,282
85 % 0,85 0,15 1,036
80 % 0,80 0,20 0,842
75 % 0,75 0,25 0,674
70 % 0,70 0,30 0,524
65 % 0,65 0,35 0,385
60 % 0,60 0,40 0,253
55 % 0,55 0,45 0,126
50 % 0,50 0,50 0,000
Estadistica Inferencial


2013
104

Tanto si los hallazgos son estadsticamente significativos como si no lo son,
la estimacin de intervalos de confianza pueden tambin facilitar la interpretacin
de los resultados en trminos de magnitud y relevancia clnica, proporcionndonos
una idea de la precisin con la que se ha efectuado al estimacin, de la magnitud
y de la direccin del efecto. De este modo, los intervalos de confianza nos
permiten tener una idea acerca del poder estadstico de un estudio y, por tanto, de
la credibilidad de la ausencia de hallazgos significativos.
4.4.-Comparacin de dos muestras independientes

Comparacin de muestras independientes
Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones
normales e independientes, se utiliza el procedimiento Prueba T para muestras
independientes, y para ello, se selecciona:







A continuacin se abre una ventana con los siguientes campos:
Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir,
aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos.
Variable de agrupacin: aqu se debe introducir la variable que se utiliza para definir los grupos de
sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botn DEFINIR
GRUPOS y al presionarlo aparece una ventana donde se introducen los valores de la variable que
definen los dos grupos de sujetos a comparar, o el valor de la variable que har de corte para definir
dichos grupos. Si el valor de la variable para un individuo es menor o igual que el valor especificado,
el individuo pertenecer al primer grupo, y en caso contrario, al segundo.
Opciones: presionando este botn se obtiene una ventana donde se especifica igual que en la seccin
anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.


Estadistica Inferencial


2013
105

Ejemplo 4.3. Vamos a comprobar si existen diferencias significativas entre los tiempos
medios de dedicacin a la docencia, para los profesores asociados y los titulares de
universidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para
muestras independientes, y elegimos la variable Tiemdoc para llevarla al campo
Contrastar Variables. Seguidamente seleccionamos como Variable Agrupacin la
variable Categora, presionamos el botn DEFINIR GRUPOS, y tecleamos un 1 en el primer
grupo y un 3 en el segundo. Por ltimo pulsamos CONTINUAR y ACEPTAR para ejecutar el
procedimiento.

El resultado que muestra la Tabla 3 contiene dos tablas. La primera recoge para ambos
grupos, profesores asociados y titulares de universidad, el nmero de casos en cada
muestra, los tiempos medios dedicados a la docencia, las desviaciones tpicas y los errores
tpicos de la media. La segunda tabla muestra el valor del estadstico para la prueba de
Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye como una F
de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar que
las varianzas sean iguales, ya que el p-valor es mayor que 0.05. Tambin aparece en la tabla
el valor del estadstico para resolver el contraste de igualdad de medias, supuesto varianzas
iguales y distintas, (en ambos casos se distribuye como una t de Student), junto con los
correspondientes grados de libertad y sus p-valores. Puesto que hemos concluido que las
varianzas coinciden, fijmonos en el que se han asumido varianzas iguales, el cual vale
8.661, y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento que
tambin se puede deducir del intervalo de confianza, que no contiene el cero.

Tabla 3: Contraste sobre las Medias de dos Poblaciones Independientes
Prueba T
Estadsticos de Grupo

Desviacin Error tp. de

Categora N Media tp. la media
Tiempo diario 1 29 251,3759 29,36731 5,4534
para la docencia 3 23 187,1000 22,5337 4,6986
Prueba de muestras independientes

Prueba de


Levene para


la igualdad Prueba T para la igualdad de medias

de varianzas


F Sig. t gl
Sig.
bilateral
Diferencia de
medias
Error tpico de la
diferencia
Intervalo de confianza para
la diferencia

Inferior Superior
Tiempo Asumiendo 0.808 0,373 8,661 50 0.000 64,2759 7,4209 49,3704 79,1813
Estadistica Inferencial


2013
106
diario
varianzas
iguales

para la
No
Asumiendo

8,929 49,961 0.000 64,2759 7,1983 49,8173 78,7345
docencia
varianzas
iguales

4.5.-Prueba de Fisher

En estadstica se denomina prueba F de Snedecor a cualquier prueba en la que el
estadstico utilizado sigue una distribucin F si la hiptesis nula no puede ser rechazada. El
nombre fue acuado en honor a Ronald Fisher.
En estadstica aplicada se prueban muchas hiptesis mediante el test F, entre ellas:
- La hiptesis de que las medias de mltiples poblaciones normalmente distribuidas y con la misma
desviacin estndar son iguales. Esta es, quizs, la ms conocida de las hiptesis verificada mediante
el test F y el problema ms simple del anlisis de varianza.
- La hiptesis de que las desviaciones estndar de dos poblaciones normalmente distribuidas son
iguales, lo cual se cumple.
En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos
modelos de regresin, uno de los cuales restringe uno o ms de los coeficientes de regresin
conforme a la hiptesis nula. El test entonces se basa en un cociente modificado de la suma
de cuadrados de residuos de los dos modelos como sigue:
Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo
0 restringe m coeficientes, el test F puede calcularse como

A diferencia de otras pruebas de medias que se basan en la diferencia existente entre dos valores, el anlisis de varianza emplea la razn de
las estimaciones, dividiendo la estimacin intermediante entre la estimacin interna

Esta razn F fue creada por Ronald Fisher (1890-1962), matemtico britnico, cuyas teorasestadsticas hicieron mucho ms precisos los
experimentos cientficos. Sus proyectos estadsticos, primero utilizados en biologa, rpidamente cobraron importancia y fueron aplicados a la
experimentacin agrcola, mdica e industrial. Fisher tambin contribuy a clarificar las funciones que desempean la mutacin y la seleccin
natural en la gentica, particularmente en la poblacin humana.
El valor estadstico de prueba resultante se debe comparar con un valor tabular de F, que indicar el valor mximo del valor estadstico de
prueba que ocurra si H0 fuera verdadera, a un nivel de significacin seleccionado. Antes de proceder a efectuar este clculo, se debe
considerar las caractersticas de la distribucin F
Estadistica Inferencial


2013
107
Caractersticas de la distribucin F
- Existe una distribucin F diferente para cada combinacin de tamao de muestra y nmero de muestras. Por tanto, existe una distribucin F
que se aplica cuando se toman cinco muestras de seis observaciones cada una, al igual que una distribucin F diferente para cinco muestras
de siete observaciones cada una. A propsito de esto, el nmero distribuciones de muestreo diferentes es tan grande que sera poco prctico
hacer una extensa tabulacin de distribuciones. Por tanto, como se hizo en el caso de la distribucin t, solamente se tabulan los valores que
ms comnmente se utilizan. En el caso de la distribucin F, los valores crticos para los niveles 0,05 y 0,01 generalmente se proporcionan
para determinadas combinaciones de tamaos de muestra y nmero de muestras.

La razn ms pequea es 0. La razn no puede ser negativa, ya que ambos trminos de la razn F estn elevados al cuadrado.
Por otra parte, grandes diferencias entre los valores medios de la muestra, acompaadas de pequeas variancias muestrales pueden dar
como resultado valores extremadamente grandes de la razn F.
- La forma de cada distribucin de muestreo terico F depende del nmero de grados de libertad que estn asociados a ella. Tanto el
numerador como el denominador tienen grados de libertad relacionados.
Determinacin de los grados de libertad
Los grados de libertad para el numerador y el denominador de la razn F se basan en los clculos necesarios para derivar cada estimacin
de la variancia de la poblacin. La estimacin intermediante de variancia (numerador) comprende la divisin de la suma de las diferencias
elevadas al cuadrado entre el nmero de medias (muestras) menos uno, o bien, k - 1. As, k - 1es el nmero de grados de libertad para el
numerador.
En forma semejante, el calcular cada variancia muestral, la suma de las diferencias elevadas al cuadrado entre el valor medio de la muestra y
cada valor de la misma se divide entre el nmero de observaciones de la muestra menos uno, o bien, n - 1. Por tanto, el promedio de las
variancias muestrales se determina dividiendo la suma de las variancias de la muestra entre el nmero de muestras, o k. Los grados de libertad
para el denominador son entonces, k(n -l).
Uso de la tabla de F del anlisis de variancia (ANOVA)
En la tabla 5 se ilustra la estructura de una tabla de F para un nivel de significacin de 0,01 o 1% y 0,05 o 5%.

Estadistica Inferencial


2013
108

Clculo de la razn F a partir de datos muestrales

Para calcular F se debe seguir el siguiente procedimiento
1) Calcular la estimacin interna (Denominador)

2) Calcular la estimacin intermediante (Numerador)
Estadistica Inferencial


2013
109

Ejemplo ilustrativo
Los pesos en kg por 1,7 m de estatura se ilustran en la siguiente tabla. La finalidad es determinar si existen diferencias reales entre las cuatro
muestras. Emplear un nivel de significacin de 0,05

Solucin:
Las hiptesis Nula y Alternativa son:
Estadistica Inferencial


2013
110

Calculando las medias aritmticas se obtiene:

Se llena la siguiente tabla para calcular las varianzas muestrales:
Estadistica Inferencial


2013
111

Remplazando los datos en la frmula de la varianza se obtienen las varianzas de las 4 muestras.

Calculando la estimacin interna de varianza se obtiene:

Para calcular la estimacin intermediante de varianza primero se calcular la varianza de las medias aritmticas
Estadistica Inferencial


2013
112

Se llena la siguiente tabla:

Se remplaza los datos de la tabla para calcular varianza de las medias aritmticas

Calculando la estimacin intermediante de varianza se obtiene:

Los clculos en Excel se muestran en la siguiente figura:
Estadistica Inferencial


2013
113

La grfica elaborada en Winstats y Paint se muestra en la siguiente figura:
Estadistica Inferencial


2013
114

Decisin:
















Estadistica Inferencial


2013
115
4.6.-Comparacin de muestras pareadas
Si estamos comparando un resultado cuantitativo en dos grupos de datos, a partir de
muestras extradas de forma aleatoria de una poblacin normal, siendo n
A
el tamao
de la primera muestra y n
B
el de la segunda, la cantidad:

(donde son las medias muestrales, las correspondientes medias
poblacionales, s la desviacin tpica muestral conjunta), se distribuye como una t de
Student con n
A
+n
B
-2 grados de libertad, proporcionndonos una referencia
probabilstica con la que juzgar si el valor observado de diferencia de medias nos
permite mantener la hiptesis planteada, que ser habitualmente la hiptesis de
igualdad de las medias (por ejemplo igualdad de efecto de los tratamientos), o lo que
es lo mismo nos permite verificar si es razonable admitir que a la luz de
los datos obtenidos en nuestro experimento.
Veamos un pequeo ejemplo. Se efectu un estudio para comparar dos tratamientos
en cuanto a la mejora en la salud percibida, determinada mediante un cuestionario de
calidad de vida en pacientes hipertensos. Se asignaron 10 pacientes de forma aleatoria
a cada uno de los grupos de tratamiento, obtenindose los siguientes resultados:
Tabla 1
Trat. A 5.2 0.2 2.9 6.3 2.7 -1.4 1.5 2.8 0.8 5.3
Trat. B 6.0 0.8 3.2 6.2 3.8 -1.6 1.8 3.3 1.3 5.6
Si calculamos el valor de t segn la frmula anterior (o utilizando la calculadora disponible
en el enlace que indicamos ms abajo) obtenemos:
Tabla 2
Dif.medias 0.41
Err.est.dif. 1.11
t Student 0.37
gl 18
P 0.7165
Intervalo 95% para la dif. de medias -1.93 a 2.75
Tabla 3

Trat. A Trat. B
Media 2,63 3,04
Desv.Tp. 2,45 2,52




Estadistica Inferencial


2013
116
De acuerdo con
esos resultados, al
ser la probabilidad
obtenida alta,
vemos que no hay
razones para
rechazar la
hiptesis de que no
existe diferencia
entre los grupos
(P= 0.7165),
aceptamos que las
medias son iguales,
lo que podemos
tambin comprobar
de forma grfica, si
representamos cada
serie de valores en
dos posiciones del
eje X, obteniendo
un grfico como el
representado en la
figura 1.
Ahora bien,
sabemos que dos
variables que
influyen en los
resultados de los
cuestionarios de
calidad de vida
percibida son la
edad y el sexo de
los pacientes. Al
asignar de forma
aleatoria los
pacientes a cada
grupo de
tratamiento
esperamos que las
variables que
puedan influir en el
resultado,
diferentes del
propio tratamiento
asignado, se
Estadistica Inferencial


2013
117
distribuyan en
ambos grupos de
forma parecida;
pero cuando de
antemano
conocemos que
algunas variables s
influyen en el
parmetro objeto
de estudio,
podemos
controlarlas en el
diseo para evitar
que puedan afectar
al resultado, sobre
todo cuando vamos
a trabajar con una
muestra pequea.
As en nuestro
ejemplo podemos
dividir los
pacientes dentro de
cada sexo en varios
grupos de edad y
buscar parejas de
pacientes con el
mismo sexo y con
edades similares.
Dentro de cada
pareja,
seleccionada con
ese criterio (igual
sexo y edad
similar), asignamos
de forma aleatoria
cada uno de los
tratamientos.
Esto es lo que
precisamente
habamos hecho en
el estudio de la
tabla 1: habamos
dividido la edad en
5 categoras y
Estadistica Inferencial


2013
118
seleccionado 5
parejas de hombres
y 5 de mujeres en
cada grupo de
edad. Dentro de
cada par hemos
asignado de forma
aleatoria el
tratamiento A o el
B a cada uno de
sus elementos.
En este caso hemos "diseado" un estudio, en el que mediante el emparejamiento estamos
controlando (o bloqueando) la influencia de las variables edad y sexo.
Ahora en el anlisis estadstico de los datos, para tener en cuenta el diseo, hay que
comparar cada pareja de valores entre s.
Pero antes de hacer
un anlisis
estadstico vamos a
representar
grficamente el
nuevo
planteamiento.
Si calculamos las
diferencias entre el
valor del elemento
B y el elemento A
y las representamos
grficamente
obtenemos la figura
2, donde hemos
dibujado una lnea
horizontal en el
valor 0, que
corresponde a la
igualdad entre los
tratamientos.

Figura 2
Vemos que el panorama cambia radicalmente con respecto a la figura 1, ya que ahora la
mayor parte de los puntos estn por encima de esa lnea de igualdad de efecto, reflejando
una mayor puntuacin por trmino medio en el tratamiento B que en el A dentro de las
parejas.
En la siguiente tabla vemos los resultados del anlisis estadstico, muy diferentes de los
obtenidos en la tabla 1 en la que no se tena en cuenta el tipo de diseo
Estadistica Inferencial


2013
119
Dif. B - A Resultado
Media 0,410
Desv.Tp. 0,387
Tamao 10
Err.est.dif. 0,122
t Student 3,349
gl 9
P 0,0085
Int. conf. 95% para la media 0,133 a 0,687
Ahora hemos calculado la media de las diferencias d, y su desviacin tpica s
d
en las n
parejas. El error estndar de la media de las diferencias es:

Por lo que el valor de t ser ahora

que en la hiptesis de igualdad -media de las diferencias igual a cero-, se distribuye como
una t de Student con n-1 grados de libertad.
Aunque perdemos grados de libertad, siendo por ese lado la prueba menos potente, sin
embargo al disminuir la variabilidad se aumenta la eficiencia de la prueba. No siempre ser
tan dramtica la diferencia entre ambos planteamientos, ya que en este caso se trata de
datos preparados y en la realidad las cosas no suelen salir tan redondas.
Cuando efectivamente influye en el resultado la variable que nos ha llevado a decidir
utilizar un diseo pareado, las medidas dentro de cada pareja estarn correlacionadas, por lo
que siempre podemos comprobar a posteriori si esto es as, calculando el coeficiente de
correlacin, que debiera ser positivo y de cierta entidad.
El concepto de prueba pareada se puede extender a comparaciones de ms de dos grupos y
hablaremos entonces de bloques de m elementos (tantos elementos por bloque como
grupos o tratamientos), siendo por tanto una pareja un caso particular de bloque de 2
elementos. Hablaremos de este tipo de diseos ms adelante, cuando dediquemos algn
artculo al anlisis de la varianza, que es la prueba que se utiliza para comparar ms de dos
grupos. En estas tcnicas de formacin de bloques el investigador deja de ser un mero
observador, para pasar a "disear" el estudio o experimento, y es una metodologa de gran
utilidad en muchos tipos de trabajos de investigacin en diversas reas, desde la agricultura
donde se inici, a la medicina, biologa, e ingeniera. El fundamento en el que se basan es
en suponer que el bloque es ms homogneo que el conjunto, por lo que restringiendo las
Estadistica Inferencial


2013
120
comparaciones entre tratamientos al interior de los bloques se espera obtener una mayor
precisin.
Hay que destacar que no siempre el diseo pareado es el ms efectivo, ya que como se
apunt anteriormente hay una disminucin en los grados de libertad que debe ser
compensada con la reduccin de varianza para que la prueba resulte ms efectiva. Hay
muchas situaciones en las que las observaciones "prximas" estn relacionadas
negativamente, de tal manera que las comparaciones entre parejas son entonces menos
parecidas que otras comparaciones.
En los estudios clnicos el emparejamiento se utiliza habitualmente ms que por razones de
eficiencia para "aumentar" la validez de las inferencias obtenidas, mediante el control de
posibles variables confusoras. Por ello se desaconseja, en el criterio para emparejar, la
utilizacin de variables sobre las que no estemos seguros de su influencia en el resultado de
inters.
Pruebas pareadas para variables cualitativas
El concepto de diseo pareado se puede aplicar tambin al anlisis de datos cuyo resultado
es una categora. Veamos la situacin ms sencilla, para el caso de que la variable
cualitativa sea dicotmica o binaria, con slo dos posibles repuestas. Este planteamiento es
habitual en algunos estudios de casos-controles, en los que cada caso se empareja con un
control de acuerdo con un criterio determinado, y en el que se trata de valorar la frecuencia
de la presencia de un factor de riesgo. Podemos representar los resultados en una tabla de la
siguiente forma:

Controles


Factor presente Factor ausente

Casos
Factor presente a b a+b
Factor ausente c d c+d

a+c b+d n
donde en cada celda se refleja el nmero de parejas; as a es el nmero de parejas en las que
el factor de riesgo est presente tanto en el caso como en el control, y d es el nmero de
parejas en las que ni en el caso ni el control se da el factor de riesgo. Es evidente que en
esas dos celdas hay concordancia entre lo observado en el caso y lo observado en el control,
dentro de la pareja, y que por tanto no afectarn al resultado en cuanto a diferencias entre
casos y controles, siendo slo los pares discrepantes b, c los que aportan informacin en ese
sentido.
La proporcin de controles que presentan el factor de riesgo es

Estadistica Inferencial


2013
121
y la proporcin de casos con el factor de riesgo

La diferencia de proporciones en cuanto a presencia del factor de riesgo entre casos y
controles es:

donde como ya anticipbamos las cantidades a y d no intervienen. El error estndar de esa
diferencia viene dado por:

El cuadrado del cociente entre la diferencia y su error estndar, se distribuye bajo la
hiptesis de igualdad como una chi con 1 grado de libertad, y el contraste se conoce como
prueba de McNemar:

Si se aplica la correccin de continuidad (recomendable sobre todo si el tamao de muestra
es pequeo o hay celdas con frecuencias pequeas), la frmula anterior se modifica
ligeramente:

Para estimar el odds ratio en este tipo de diseo se utiliza la frmula:

donde de nuevo solo intervienen los pares con desacuerdo.
El error estndar de este odds ratio se calcula como

Estadistica Inferencial


2013
122
En una primera impresin puede sorprendernos la frmula para el clculo del odds ratio,
pero su obtencin es sencilla si pensamos que en realidad cada pareja es un estrato con 2
elementos, y que no debemos combinar las tablas obtenidas en cada estrato juntndolas sin
ms. Si aplicamos para el clculo del odds ratio combinado el mtodo habitual conocido
como de Mantel-Haenszel obtendremos la frmula anterior.
Este planteamiento se puede extender tambin al caso de una variable con ms de dos
respuestas (prueba de Stuart-Maxwell) o tambin al caso de agrupaciones de ms de dos
elementos por bloque.
4.7.-Modelos totalmente aleatorio
Es un diseo en el cual los tratamientos son asignados completamente al azar a las unidades experimentales
o viceversa. Este diseo es usado ampliamente y aplicado a problemas tanto administrativos como
industriales

Caractersticas principales

1. Aplicable slo cuando las unidades experimentales son homogneas (verificar si existe tal
homogeneidad).
2. Los tratamientos pueden tener igual o diferente nmero de unidades experimentales.
3. La distribucin de los tratamientos es al azar en las unidades experimentales.
El nmero de tratamientos est en funcin del nmero de unidades experimentales que se dispone. Es
conveniente tener pocos tratamientos y ms unidades experimentales que muchos tratamientos con pocas
unidades experimentales.

DCA CON UNA OBSERVACIN POR UNIDAD EXPERIMENTAL.

Cada tratamiento (i=1,...,t), dispone de un nmero de unidades igual a ri, cada unidad experimental es una
repeticin y el valor observado en la u.e. es Yij .
Cada observacin es expresada en trminos de una ecuacin segn el modelo estadstico:

Corresponde al modelo del diseo experimental y es una expresin aditivo lineal del valor observado Yij como
la suma de tres elementos:
= Factor constante ( parmetro).
_ i = Efecto del tratamiento (parmetro) en la unidad experimental.
eij = Error, valor de la variable aleatoria Error experimental.

Cada observacin es expresado de la misma forma; el conjunto de ecuaciones constituye el modelo, son
"r." ecuaciones.

El modelo lineal general para el diseo completamente al azar es entonces:

La descripcin de este modelo se complementa con los supuestos de los efectos de tratamiento segn:

Cuando el Investigador fija los tratamientos en estudio y se interesa en los resultados de estos tratamientos, el
modelo se denomina de EFECTOS FIJOS, conocido como modelo I. Las hiptesis son:Nula y alternativa








Estadistica Inferencial


2013
123
4.8.-Seleccin del tamao de la muestra para estimar la diferencia de
dos medias

Determinacin del tamao de una muestra para medias, y Proporciones

TAMAO DE LA MUESTRA

A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta
varios factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la
varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos
sencillos de clculo del tamao muestral delimitemos estos factores.

Para calcular el tamao de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la
poblacin total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalizacin.
3. El nivel de variabilidad que se calcula para comprobar la hiptesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para
generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale
a decir que no existe ninguna duda para generalizar tales resultados, pero tambin implica
estudiar a la totalidad de los casos de la poblacin. Para evitar un costo muy alto para el
estudio o debido a que en ocasiones llega a ser prcticamente imposible el estudio de todos
los casos, entonces se busca un porcentaje de confianza menor. Comnmente en las
investigaciones sociales se busca un 95%.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hiptesis
que sea falsa como si fuera verdadera, o la inversa: rechazar a hiptesis verdadera por
considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del
error y considerarlo como 0%, entonces la muestra es del mismo tamao que la poblacin,
por lo que conviene correr un cierto riesgo de equivocarse.

Comnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son
complementarios la confianza y el error.
Estadistica Inferencial


2013
124

La variabilidad es la probabilidad (o porcentaje) con el que se acept y se rechaz la
hiptesis que se quiere investigar en alguna investigacin anterior o en un ensayo previo a
la investigacin actual. El porcentaje con que se acept tal hiptesis se denomina
variabilidad positiva y el porcentaje con el que se rechaz se la hiptesis es la variabilidad
negativa

El muestreo es el proceso de tomar una proporcin o parte de un universo de elementos,
con la finalidad de analizar en dichos elementos, caractersticas sujetas a estudio o
fenmenos factibles de observacin y en base al anlisis de la muestra o proporcin
tomada obtener conclusiones que se refieran no slo a la muestra sino a todo el universo.
Para fines estadsticos, el universo puede considerarse finito o infinito. Se considera finito
si el nmero de elementos que lo constituyen es menor a 500,000 e infinito si es igual o
mayor a este nmero. Siempre que hagamos la eleccin de una muestra, debemos tener
cuidado de que sta rena las siguientes caractersticas:
Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se
requiere para que el nivel de confiabilidad sea el que se ha establecido previamente.
Que sea representativa: esto quiere decir que los elementos seleccionados debern
presentar caractersticas similares a las de la poblacin o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las ms
importantes son:
El costo se reduce, pues los gastos sern nicamente los ocasionados por una parte del
universo (muestra tomada) y no por la totalidad de l.
Si la muestra es representativa, las deducciones resultantes sobre el universo sern
confiables.
Como solamente se estudia una parte del universo, la informacin obtenida se realiza en
menor tiempo.

Cmo obtener el tamao de la muestra a utilizar?

Una de las preguntas planteadas con mayor frecuencia al iniciar una investigacin y difcil
de contestar, sobre todo por falta de informacin del problema, es: cuntas observaciones
se deben obtener para que el tamao de la muestra sea realmente representativo del
Estadistica Inferencial


2013
125
universo estadstico? En este sentido -la decisin del tamao de la muestra de una
poblacin -, es necesario considerar que las muestras varan en su composicin de una a
otra. La magnitud de la variacin depende del tamao de la muestra y de la variabilidad
original de la poblacin. As, el tamao de la muestra queda determinada por el grado de
precisin que se desea obtener y por variabilidad inicial de la poblacin.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z
asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es
aceptable estadsticamente.
2. Evaluar la probabilidad a favor de que suceda un evento o situacin esperada (esta
probabilidad se le denomina p).
3. Evaluar la probabilidad en contra de que suceda en un evento o situacin esperada (a
esta probabilidad se le denomina q= 1 p).
4. Determinar el error (e) mximo para el nivel de precisin que vayamos a permitir en los
resultados (error mximo de estimacin), comnmente se trabaja con errores de estimacin
entre el 2% y el 6%, ya que la validez de la informacin se reduce demasiado para valores
mayores del 6%.
Determinamos el tamao de la poblacin o universo.
5.- Se elige la frmula a utilizar para calcular el tamao de la muestra; dependiendo de si la
poblacin o universo sujeto a estudio se va a considerar infinito infinito. (Una poblacin o
universo se considera infinito si el nmero de elementos de los que consta es igual o mayor
a 500,000 y es considerado finito si el nmero de elementos es menor a esta cantidad).

Diferentes niveles de confianza utilizados en la prctica

Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.6745

El tamao de la muestra:

Al realizar un muestreo probabilstica nos debemos preguntar Cul es el nmero mnimo de
unidades de anlisis ( personas, organizaciones, capitulo de telenovelas, etc), que se necesitan
Estadistica Inferencial


2013
126
para conformar una muestra ( ) n que me asegure un error estndar menor que 0.01 ( fijado por el
muestrista o investigador), dado que la poblacin N es aproximadamente de tantos elementos.

En el tamao de una muestra de una poblacin tenemos que tener presente adems si es
conocida o no la varianza poblacional.

Para determinar el tamao de muestra necesario para estimar con un error mximo permisible
d prefijado y conocida la varianza poblacional (
2
o ) podemos utilizar la formula:
2
1
2
|
|
.
|

\
|
=

d
Z
n
o o






(1)
que se obtiene de reconocer que d es el error estndar o error mximo prefijado y est dado por la
expresin
2
1
o
o

= Z
n
d para el nivel de confianza o 1 y constituye una medida de la
precisin de la estimacin, por lo que podemos inferir adems que { } o = < 1 d x P .

Ejemplo 1.2

Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en
una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable
aleatoria con distribucin normal. Si se supone que la desviacin tpica del peso es de 0,5 kg.
Determine el tamao de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95
de que el estimado y el parmetro se diferencien modularmente en menos de 0,1 kg.

Solucin:
96 , 1
975 , 0 1
95 , 0 1
5 , 0
1 , 0
2
1
2
=
=
=
=
=

o
o
o
o
Z
d

( )( )
4 , 96
1 , 0
96 , 1 5 , 0
2
2
1
2
= |
.
|

\
|
=
|
|
.
|

\
|
=

d
Z
n
o o


Evidentemente un tamao de muestra no puede ser fraccionario por lo que se debe aproximar por
exceso. El tamao de muestra sera de 97.

Si la varianza de la poblacin es desconocida, que es lo que mas frecuente se ve en la prctica el
tratamiento ser diferente, no es posible encontrar una frmula cuando la varianza poblacional es
desconocida por lo que para ello aconsejamos utilizar el siguiente procedimiento-

Primeramente, se toma una pequea muestra, que se le llama muestra piloto, con ella se estima la
varianza poblacional (
2
o ) y con este valor se evala en la formula (1), sustituyendo (
2
o ) por su
estimacin (
2
s ). El valor de n obtenido ser aproximadamente el valor necesario, nuevamente
con ese valor de n se extrae una muestra de este tamao de la poblacin se le determina la
Estadistica Inferencial


2013
127
varianza a esa muestra, como una segunda estimacin de (
2
o ) y se aplica de nuevo la formula
(1), tomando la muestra con el n obtenido como muestra piloto para la siguiente iteracin, se
llegar a cumplir con las restricciones prefijadas. Se puede plantear esta afirmacin ya que la
2
s
de
2
o tiende a estabilizarse a medida que aumenta n alrededor de la
2
o por lo que llegar el
momento en que se encuentre el tamao de muestra conveniente, sin embargo, en la prctica es
mucho ms sencillo pues, a lo sumo con tres iteraciones se obtiene el tamao de muestra
deseado, este procedimiento para obtener el tamao de muestra deseado se puede realizar
utilizando en Microsoft Excel en la opcin anlisis de datos las opciones estadstica descriptiva
para ir hallando la varianza de cada una de las muestras y la opcin muestra para ir determinado
las muestras pilotos. Para obtener el tamao de la muestra utilizando este mtodo recomendamos
la utilizacin de un paquete de computo como por ejemplo el Microsoft Excel, aplicando las
opciones muestra y estadstica descriptiva.

Para determinar el tamao de la muestra cuando los datos son cualitativos es decir para el anlisis
de fenmenos sociales o cuando se utilizan escalas nominales para verificar la ausencia o
presencia del fenmeno a estudiar, se recomienda la utilizacin de la siguiente formula:
N
n
n
n
'
1
'
+
=
(2)
siendo
2
2
'
o
s
n = sabiendo que:
2
o es la varianza de la poblacin respecto a determinadas variables.
2
s es la varianza de la muestra, la cual podr determinarse en trminos de probabilidad
como ) 1 (
2
p p s =
se es error estandar que est dado por la diferencia entre ( x ) la media poblacional y
la media muestral.
( )
2
se es el error estandar al cuadrado, que nos servir para determinar
2
o , por lo que
2
o =( )
2
se es la varianza poblacional.

Ejemplo 1.3

De una poblacin de 1 176 adolescentes de una ciudad X se desea conocer la aceptacin por los
programas humorsticos televisivos y para ello se desea tomar una muestra por lo que se necesita
saber la cantidad de adolescentes que deben entrevistar para tener una informacin adecuada con
error estandar menor de 0.015 al 90 % de confiabilidad.
Solucin:
N = 1 176
se = 0,015
000225 . 0 ) 015 , 0 ( ) (
2 2 2
= = = se o
09 , 0 ) 9 , 0 1 ( 9 , 0 ) 1 (
2
= = = p p s
Estadistica Inferencial


2013
128
por lo que 400
000225 , 0
09 , 0
'
2
2
= = =
o
s
n
298
1
400
1
'
1176
400 '
=
+
=
+
=
N
n
n
n
Es decir para realizar la investigacin se necesita una muestra de al menos 298 adolescentes.

Clculo del tamao de la muestra

A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios
factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la varianza
poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de clculo
del tamao muestral delimitemos estos factores.

Parmetro. Son las medidas o datos que se obtienen sobre la poblacin.

Estadstico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin
de los parmetros.

Error Muestral, de estimacin o standard. Es la diferencia entre un estadstico y su parmetro
correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en
torno al valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una
estimacin basada en una muestra se aleja del valor que se hubiera obtenido por medio de un
censo completo. Siempre se comete un error, pero la naturaleza de la investigacin nos indicar
hasta qu medida podemos cometerlo (los resultados se someten a error muestral e intervalos de
confianza que varan muestra a muestra). Vara segn se calcule al principio o al final. Un
estadstico ser ms preciso en cuanto y tanto su error es ms pequeo. Podramos decir que es la
desviacin de la distribucin muestral

de un estadstico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier
informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o
Student), as llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno
a un estadstico capte el verdadero valor del parmetro.

Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero
de entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser
ms pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de
estudios previos.
Tamao de muestra para estimar la media de la poblacin

Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo
aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de
confianza al que queremos trabajar; en segundo lugar, cual es el error mximo que estamos
dispuestos a admitir en nuestra estimacin. As pues los pasos a seguir son:
Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo
aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de
confianza al que queremos trabajar; en segundo lugar, cual es el error mximo que estamos
dispuestos a admitir en nuestra estimacin. As pues los pasos a seguir son:

1.- Obtener el tamao muestral imaginando que N>o
Estadistica Inferencial


2013
129


Donde:
: z correspondiente al nivel de confianza elegido
: varianza poblacional
e: error mximo

2.- Comprobar si se cumple


Si esta condicin se cumple el proceso termina aqu, y ese es el tamao adecuado que debemos
muestrear.
Si no se cumple, pasamos a una tercera fase:
3.- Obtener el tamao de la muestra segn la siguiente frmula:



Veamos un ejemplo: La Consejera de Trabajo planea un estudio con el inters de conocer el
promedio de horas semanales trabajadas por las mujeres del servicio domstico. La muestra ser
extrada de una poblacin de 10000 mujeres que figuran en los registros de la Seguridad Social y
de las cuales se conoce a travs de un estudio piloto que su varianza es de 9.648. Trabajando con
un nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo de 0,1, cul debe
ser el tamao muestral que Empleemos?.
Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de
confianza elegido: = 1.96 y seguimos los pasos propuestos arriba.
1.

2.- Comprobamos que no se cumple, pues en este caso
10000 < 3706 (3706 - 1); 10000 < 13730730
3.-

Tamao de muestra para estimar la proporcin de la poblacin

Estadistica Inferencial


2013
130
Para calcular el tamao de muestra para la estimacin de proporciones poblaciones hemos de
tener en cuenta los mismos factores que en el caso de la media. La frmula que nos permitir
determinar el tamao muestral es la siguiente:


donde
: z correspondiente al nivel de confianza elegido
P: proporcin de una categora de la variable
e: error mximo
N: tamao de la poblacin

Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la
proporcin de mujeres que trabajan diariamente 10 horas o ms. De un estudio piloto se dedujo
que P=0.30, fijamos el nivel de confianza en 0.95 y el error mximo 0.02.



4.9.-Aplicaciones
I.- Sobre la variedad de Mtodos de Estimacin en el contexto
multiecuacional

- Los modelos multiecuacionales se caracterizan por presentar un sistema
interconectado de variables y ecuaciones, es decir, un sistema en el que la
simultaneidad entre endgenas aparece en mayor o menor medida.

- Precisamente esa mayor o menor simultaneidad en las relaciones entre
endgenas es un factor decisivo para determinar las propiedades de los distintos
mtodos de estimacin. Esto no significa que sea la nica variable a considerar
(afectar tambin la identificabilidad del modelo o el deseo de una estimacin
asintticamente eficiente), pero s resulta el primero de los factores
ANALTICAMENTE claves para una primera aproximacin al mtodo de
estimacin correcto.

Estadistica Inferencial


2013
131
- En ese sentido, la primera de las clasificaciones de los distintos estimadores
disponibles responde en gran medida al criterio de la simultaneidad; cada uno de
los grandes grupos de mtodos se configura para ser aplicado a modelos con
mayor o menor simultaneidad.

- Mtodos de Estimacin de Enfoque Directo: Cada ecuacin se estima de forma
separada y sin atender en ninguna medida a la informacin del resto del
modelo. Por ni la presencia de otras endgenas y/o exgenas ni, por supuesto,
la configuracin concreta del resto de ecuaciones, son relevantes en los
resultados obtenidos en cada ecuacin. (MCO)

- Mtodos de Estimacin con Informacin Limitada: Cada ecuacin se estima
tambin de forma aislada pero, al menos, se requiere informacin sobre la
presencia de otras variables en el modelo (qu endgenas y qu exgenas
aparecen en el modelo); sigue sin ser imprescindible, eso si, la especificacin
concreta de cada ecuacin. As pues, algunos cambios en el modelo, por
ejemplo la inclusin de nuevas exgenas o endgenas, podran afectar a los
resultados de la estimacin obtenidos en cada ecuacin. (MCI, MC2E)

- Informacin Completa: No se estiman los parmetros de cada ecuacin por
separado, sino que se aborda la estimacin conjunta de todo el modelo. Es
imprescindible, por tanto, conocer la especificacin detallada, concreta, de
cada una de las ecuaciones del modelo. Del mismo modo, cualquier cambio,
por pequeo que sea, en las variables o especificacin de cada ecuacin
requerir una nueva estimacin de todos los parmetros del modelo.

- Visto lo anterior, parece evidente que, desde el punto de vista analtico, la forma
en la que el analista adecua el mtodo de estimacin al tipo de modelo
especificado, teniendo por tanto en cuenta esa mayor o menor presencia de
simultaneidad, influye en las propiedades de los estimadores obtenidos.

- Al contrario de lo que pudiera parecer, la utilizacin de mtodos de enfoque directo
no es siempre una simplificacin poco recomendable:

- Analticamente:


1. Cada situacin requiere la correcta seleccin del mtodo de estimacin
adecuado. La utilizacin de mtodos de informacin limitada o completa
en modelos no simultneos puede generar estimaciones con
indeseables propiedades analticas. Por ejemplo, la utilizacin de MC2E
en ausencia de simultaneidad genera estimaciones ineficientes.

2. Como se ver ms adelante, ningn mtodo de informacin limitada o
informacin completa genera, para muestras pequeas, estimaciones
insesgadas (cosa distinta ser para muestras grandes) por lo que, en
presencia de muestras pequeas, el hipottico beneficio derivado de su
aplicacin podra no compensar (1) ni el esfuerzo necesario para su
Estadistica Inferencial


2013
132
desarrollo ni (2) la prdida de eficiencia respecto al, eficiente en estos
casos, MCO.

- Operativamente

1. La utilizacin de MCO en cada ecuacin por separado resulta un test
muy valioso para evaluar, al menos preliminarmente, y an de de forma
aislada, la especificacin de cada ecuacin.

2. Los mtodos de estimacin con informacin limitada, y especialmente
los mtodos con informacin completa exigen completar al 100% la
tarea de especificacin del modelo antes de abordar su estimacin.
Esta cuestin complica la programacin y desarrollo de tareas en
cualquier proyecto de anlisis economtrico ya que, en realidad, los
procesos de especificacin, estimacin y contraste no se realizan de
forma lineal, sino que suelen abordarse como un todo, con frecuentes
vueltas atrs y replanteamientos en cada una de los etapas.

3. Los mtodos de estimacin con informacin completa o limitada son
complejos de desarrollar (generalmente implican mtodos de
estimacin no lineal) exigiendo amplios recursos para la obtencin de la
estimacin.

4. Por otro lado, estos mtodos exigen importantes recursos adicionales
de mantenimiento y uso (cualquier cambio en una parte exige la
actualizacin y revisin del modelo en su conjunto).

5. La utilizacin de mtodos de estimacin simultnea favorece el
contagio de todo el modelo ante problemas de especificacin aislados
en una ecuacin.

- Por todo lo anterior, puede entenderse que, en la prctica, los modelos
multiecuacionales se estiman en muchas ocasiones con mtodos de enfoque
directo aunque en puridad analtica puedan ser recomendables mtodos de
informacin limitada o completa. La rapidez, la sencillez y flexibilidad de
actualizacin, mantenimiento y uso de modelos estimados con enfoques directos
compensan en ocasiones unas imprecisiones analticas que, frecuentemente, y
para muestras pequeas, no son muy significativas.

II.- Mnimos Cuadrados Ordinarios

- La aplicacin de MCO en un sistema de ecuaciones sin simultaneidad genera (en
ausencia de otros problemas de especificacin individual de cada ecuacin)
estimaciones insesgadas, consistentes y eficientes en tanto que su utilizacin en
modelos con simultaneidad (y, por tanto, con riesgo de regresores estocsticos
correlacionados con las perturbaciones aleatorias) no garantiza la insesgadez
Estadistica Inferencial


2013
133
(riesgo de estimaciones sesgadas) ni la consistencia (el sesgo no slo se presenta
en muestras pequeas sino que se mantiene para muestras grandes).

- As pues, y ms all de los matices prcticos anteriormente sealados que
parecen apoyar las ventajas relativas de la utilizacin de estimadores directos, lo
cierto es que el estimador MCO slo es analticamente recomendable para
modelos sin simultaneidad o recursivos (tambin llamados triangulares
1
).

- Efectivamente, en este tipo de modelos las endgenas que actan como
explicativas en las ecuaciones no estarn relacionadas con las perturbaciones de
las mismas lo cual impide que se generen problemas de sesgo en la estimacin.
(Se recomienda estudiar el ejemplo mencionado a pie de pgina
2
)


III.- Mnimos Cuadrados Indirectos


- En presencia de simultaneidad, una primera estrategia para resolver los
indeseables efectos derivados de la aplicacin directa de MCO (sesgo e
inconsistencia) es la utilizacin de la estrategia de estimacin conocida como MCI.

- La utilizacin de MCI se realiza en dos pasos:

1. Se determina la forma reducida de cada ecuacin, y se estiman con
MCO los parmetros de la forma reducida (parmetros ) para cada
ecuacin en lugar de estimar los parmetros de su forma estructural.
(parmetros y ).

2. Una vez estimados estos parmetros , se determinan los parmetros
y de la forma estructural a partir de la solucin al sistema de
ecuaciones que determina la relacin aritmtica entre unos y otros.

*
1
*
HI = H = I

B B

- El mtodo de estimacin supone, efectivamente, un enfoque de informacin
limitada. Para la estimacin de cada ecuacin no resulta necesario conocer el
detalle de la especificacin del resto de las ecuaciones, si bien se requiere
disponer de la lista de variables endgenas y exgenas del modelo en su
conjunto (de otro modo resuelta imposible determinar la forma reducida de cada
ecuacin y su identificabilidad).

- Ventajas:


1
La denominacin de triangulares hace referencia a la forma necesariamente triangular de la matriz de
coeficientes gamma de este tipo de modelos.
2
Gujarati, N. (2003). Pg. 737
Estadistica Inferencial


2013
134
1. En la forma reducida de las ecuaciones todos los regresores (variables
del lado derecho) son exgenas, es decir, no existen regresores
estocsticos (o al menos, no existen regresores estocsticos
provocados por la simultaneidad del modelo)
3
.

2. Por tanto, la estimacin con MCO de los parmetros sera
analticamente adecuada. En concreto, las estimaciones MCO de estos
parmetros de la forma reducida seran siempre consistentes. Adems,
y aunque no entraremos en detalle, puede garantizarse la insesgadez y
la eficiencia asinttica de estas estimaciones en buena parte de las
situaciones analticas ms comunes.
4


3. Al abordarse por separado la estimacin de cada ecuacin se evitan los
inconvenientes ya comentados derivados de la aplicacin de mtodos
simultneos.


- Limitaciones:

1. Una primera de orden general se refiere al tamao muestral y al
nmero de regresores exgenos. Debe observarse que la aplicacin de
MCI requiere la estimacin de las ecuaciones en la forma reducida lo
cual slo es posible si el nmero de datos excede el de exgenas (n>k).
Esto no siempre sucede, en especial si los modelo son grandes
(muchas ecuaciones) y, por tanto, implican un nmero considerable de
variables exgenas que, con relativa facilidad, suele superar el tamao
muestral.

2. Conviene no perder de vista el objetivo final de la estimacin que,
evidentemente, consiste en obtener los parmetros de la forma
estructural, no los de la forma reducida. As pues, la aplicacin de este
mtodo para la estimacin de los parmetros de cada ecuacin implica
que las ecuaciones deben ser exactamente identificables ya que, de
otro modo, no puede obtenerse una solucin nica para los parmetros
y a partir de las estimaciones de los parmetros .

3. Los parmetros y se obtienen como funciones continuas de los
parmetros estimados . Si bien los parmetros estimados por
MCO presentan buenas propiedades, no se garantiza que los
parmetros de la forma estructural, generalmente funciones no lineales
de los primeros, hereden esas buenas propiedades. En concreto, se

3
No debe obviarse que, ms all de la cuestin de la simultaneidad del modelo multiecuacional, una
determinada ecuacin puede tener un problema de regresores estocsticos que nada tengan que ver con el
modelo multiecuacional. Por ejemplo, en una regresin puede aparecer como explicativa la endgena
retardada (que en trminos del modelo multiecuacional se considerara exgena) o una exgena puede
presentar claros problemas de sesgo de medida en estos dos casos, el modelo podra presentar problemas
derivados de la aparicin de regresores estocsticos que nada tendran que ver con la presencia o ausencia de
simultaneidad en el modelo.

4
En concreto, puede demostrarse que para que estas dos propiedades se cumplan resulta necesario evitar
endgenas desplazadas en la especificacin y garantizar, as mismo, una clara distribucin normal de las
perturbaciones aleatorias.
Estadistica Inferencial


2013
135
demuestra que estos parmetros heredan las propiedades asintticas
(consistencia y eficiencia asinttica) pero no las de las muestras
pequeas (eficiencia en muestras pequeas o insesgadez). As pues,
cuando se trabaja con muestras pequeas (lo cual resulta relativamente
habitual), debe saberse que las estimaciones con MCI seguirn siendo
sesgadas e ineficientes.

4. Al utilizar MCI no dispondremos, al menos fcilmente
5
, de la desviacin
tpica estimada de los parmetros, una informacin que, como
sabemos, resulta imprescindible para poner en marcha cualquier
contraste de hiptesis relativa a estos parmetros. Evidentemente,
podemos estimar la varianza de los parmetros , pero no as la de
los parmetros estructurales y ya que, en realidad, no estimamos
la ecuacin estructural sino la reducida y, por lo tanto, no contamos
con una estimacin de los residuos asociados a la perturbacin
aleatoria estructural U. Sin esos residuos y la correspondiente
varianza estimada de la perturbacin aleatoria no podemos computar
las varianzas de los parmetros.


IV.- Mnimos Cuadrados en dos Etapas (MC2E)


- En presencia de simultaneidad, una segunda estrategia para resolver los
indeseables efectos derivados de la aplicacin directa de MCO (sesgo e
inconsistencia) es la utilizacin de la estrategia de estimacin conocida como
MC2E.

- El procedimiento consiste en utilizar MCO sobre la forma estructural pero, antes de
ello, reemplazar los valores reales originales de las variables explicativas de cada
ecuacin (es decir, las endgenas que aparecen en el lado derecho de cada
ecuacin) por sus valores MCO estimados en la forma reducida (de otro modo, no
podramos plantear la estimacin de la forma reducida).

- Para ilustrar el procedimiento operativo de MC2E, supongamos el siguiente
modelo simultneo con 2 ecuaciones:

i i i i i
i i i i i
U Y X X Y
U Y X X Y
2 1 21 3 23 1 21 2
1 2 12 2 12 1 11 1
+ + + =
+ + + =
| |
| |



5
Gujarati (Econometra, 2003, 4 Edicin, pg. 743) seala que no resulta sencillo estimar estas desviaciones
tpicas a partir de las desviaciones obtenidas para los parmetros de la forma reducida y slo cabe una
determinacin aproximada para muestras grandes.
Estadistica Inferencial


2013
136
Para la primera ecuacin, antes de proceder a la estimacin directa con MCO,
reemplazamos los valores originales de la variable Y
2i
(un regresor estocstico
potencialmente relacionado con U
1i
) por una estimacin obtenida aplicando MCO
sobre su forma reducida, es decir:

i i i i i
i i i i
i i i i i
V X X X Y
X X X Y
V X X X Y
2 3 23 2 22 1 21 2
3 23 2 22 1 21 2
2 3 23 2 22 1 21 2

+ + + =
+ + =
+ + + =
t t t
t t t
t t t


As, pues, la ecuacin a estimar sera ahora:

( )
i i i i i i
U V Y X X Y
1 2 2 12 2 12 1 11 1

+ + + + = | |

o lo que es igual,

( )
i i i i i i
V U Y X X Y
2 12 1 2 12 2 12 1 11 1

| | + + + + =


- Como puede observarse, estamos nuevamente ante una estimacin con
informacin limitada ya que, nuevamente, no necesitamos conocer la
especificacin concreta de cada ecuacin pero s la lista de regresores (X) y
endgenas (Y) del modelo.

- Ventajas:

1. De nuevo, como ya ocurriera con MCI, se aborda la estimacin aislada
de cada ecuacin lo que, operativamente, supone una ventaja y evita el
contagio a todo el modelo de los errores presentes en una ecuacin.

2. La utilizacin de los valores estimados de las explicativas evita la
presencia de regresores estocsticos relacionados con la perturbacin
aleatoria; las variables explicativas originales son aleatorias pero sus
valores estimados procedentes de la forma reducida no lo son
6
.

3. As pues, en principio cabe pensar que la utilizacin de estimadores
MC2E en presencia de simultaneidad produce estimaciones

6
Esto es, en realidad, mentira. Es cierto que el valores estimado de las explicativas no depende de la
perturbacin aleatoria V sino exclusivamente de regresores deterministas X. Sin embargo, debe
observarse que esas estimaciones son, efectivamente, combinaciones lineales de las exgenas X pero
tambin de los parmetros estimados para . Los parmetros reales poblacionales no son variables
aleatorias pero sus estimaciones s lo son. As pues, en realidad la estimacin de las endgenas a partir de la
forma reducida es tambin aleatoria y probablemente correlacionada con la nueva perturbacin aleatoria
transformada de la ecuacin estructural. Sin embargo, puede demostrarse que esa relacin es ya indirecta y si
existe, muy leve y, por tanto, con escasos efectos (o nulos para muestras grandes) sobre las estimaciones
MCO de la nueva forma estructural.
Estadistica Inferencial


2013
137
consistentes (es decir, evita el problema de los regresores
estocsticos). No obstante, como ya ocurriera con MCI, la insesgadez y
la eficiencia slo se lograrn para muestras grandes, sin que pueda
garantizarse para estimaciones con conjuntos de datos reducidos.

4. Sin embargo, adems de compartir con MCI estas buenas propiedades
asintticas, la estimacin MC2E presenta ventajas adicionales:

a. Resulta ms sencillo de aplicar dado que no tenemos que
resolver el sistema de ecuaciones de la segunda etapa de MCI;
el mtodo slo requiere dos sencillas estimaciones sucesivas
por MCO.

b. No requiere que la ecuacin sea exactamente identificable;
puede utilizarse tambin por tanto para ecuaciones
superidentificables.

c. Es ms robusto que el mtodo MCI ante problemas de
especificacin o multicolinealidad en las ecuaciones.

d. Aunque en muestras pequeas las ventajas de ambos
estimadores se desvanecen, se ha demostrado que, en estos
casos, el comportamiento de MC2E es relativamente mejor que
el de MCI.

e. En contraste con MCI, la aplicacin de MC2E s permite
disponer de una estimacin de las varianzas de los parmetros.
Efectivamente, en la segunda etapa realizamos una estimacin
de los parmetros estructurales y y, por tanto,
disponemos de unos residuos
7
derivados de esta estimacin
que nos permiten calcular las desviaciones tpicas de los
parmetros estimados.

- Limitaciones:


1. Como ya ocurriera con MCI, el procedimiento de MC2E exige la
estimacin de la forma reducida de cada ecuacin lo cual slo es
posible si n>k.



7
En realidad, y continuando con el ejemplo utilizado previamente, debe observarse que, para la primera
ecuacin, contamos con una estimacin de la perturbacin transformada ( )
i i i
V U U
2 12 1
*
1

+ = que no
corresponde exactamente a la perturbacin original U
1i
. Un procedimiento que permite aproximar el residuo
correspondiente a la perturbacin original consiste en recalcular los residuos de cada ecuacin utilizando los
parmetros estimados en MC2E pero aplicados sobre los datos reales de Y
i
, no sobre sus estimaciones de la
forma reducida (es decir, usar las estimaciones de la forma reducida para el cmputo de los parmetros, pero
no para el clculo de los residuos).
Estadistica Inferencial


2013
138
V.- UN breve apunte sobre Mnimos Cuadrados en tres Etapas
(MC3E)



- Como ya se ha dicho anteriormente, en los modelos multiecuacionales puede
existir relacin entre perturbaciones aleatorias correspondientes a distintas
ecuaciones; de hecho, la presencia de simultaneidad entre las ecuaciones del
modelo se manifiesta, necesariamente, en la existencia de relaciones entre
perturbaciones. As, por ejemplo, considere el modelo utilizado previamente en un
ejemplo:

i i i i i
i i i i i
U Y X X Y
U Y X X Y
2 1 21 3 23 1 21 2
1 2 12 2 12 1 11 1
+ + + =
+ + + =
| |
| |


En este modelo, resulta clara la siguiente cadena causal:

0 ) , ( 0 ) , ( 0 ) , (
1 2 1 2 1 1
= = =
i i i i i i
U Y Cov Y Y Cov y U Y Cov

y dado que:
0 ) , (
2 2
=
i i
U Y Cov

entonces:

0 ) , (
2 1
=
i i
U U Cov

- Efectivamente, tal y como se indic en la introduccin y formulacin de los
modelos multiecuacionales, dado que la simultaneidad es una caracterstica casi
esencial de un sistema multiecuacional, debe considerarse analticamente la
posible existencia de relaciones entre perturbaciones aleatorias de distintas
ecuaciones. Esa relacin, en todo caso, deba ser contempornea y constante
para i; hablbamos as de homocedasticidad interecuacional.

- Precisamente denominbamos a la matriz que contena, en su diagonal
principal, las varianzas homocedsticas de la perturbacin de cada ecuacin y,
fuera de la diagonal principal, las covarianzas contemporneas y constantes entre
perturbaciones de distintas ecuaciones.

Estadistica Inferencial


2013
139
( ) | |
|
|
|
|
|
|
.
|

\
|





= = = E
gg
g
i i i
U U E U Cov
o
o o
o o o
22 21
1 12 11
'



- Aunque tanto MCI como MC2E consideran la existencia de simultaneidad en los
modelos multiecuacionales y tratan de evitar los potenciales efectos negativos de
una estimacin MCO directa, lo cierto es que ninguno de los dos mtodos
considera de forma explcita, en el clculo de los parmetros, la relacin entre las
perturbaciones aleatorias de las distintas ecuaciones. La caracterstica diferencial
del mtodo de estimacin MC3E es, precisamente, la de integrar explcitamente el
clculo de esa relacin en el proceso de estimacin de los parmetros.

- La aplicacin especfica del mtodo exige, como es lgico, disponer de una
estimacin previa de , una estimacin que se deriva de la estimacin previa del
modelo mediante MC2E. As pues, las dos primeras etapas del mtodo MC3E son,
en realidad, coincidentes con MC2E.

- Una vez estimadas las ecuaciones de forma individual con MC2E, se utilizan los
residuos de cada ecuacin para estimar varianzas y covarianzas de la matriz .

- En el ltimo de los pasos, y una vez que disponemos de esa matriz , la idea
consiste en aplicar MCG sobre el modelo en su forma estructural. Para ello, y dado
que debe abordarse la estimacin conjunta de todos los parmetros del modelo,
se redisean las matrices de datos, tanto en lo que se refiere al lado izquierdo
del modelo (los valores de las endgenas de todas las ecuaciones) como en lo
que se refiere al lado derecho (valores de las exgenas y de las endgenas
explicativas de cada ecuacin). Este rediseo de las matrices del modelo trata,
insistimos, de poder estimar los parmetros de forma simultnea, introduciendo en
ese clculo, la informacin contenida en la matriz de relaciones entre
perturbaciones . Dado que el objeto de este documento no es otro que situar de
forma muy general las caractersticas diferenciales del mtodo MC3E, no se
detalla la forma en que han de apilarse las matrices originales, pero puede
encontrarse una referencia detallada al procedimiento en el libro Modelos
Economtricos de Antonio Pulido (Ed. Pirmide), en cualquiera de sus versiones.

- Ventajas:

1. La estimacin con MC3E no supone claras diferencias en trminos de
sesgo y consistencia si bien mejora la eficiencia asinttica de los
estimadores respecto a MC2E siempre y cuando persistan relaciones
significativas entre las perturbaciones aleatorias.

- Limitaciones:

Estadistica Inferencial


2013
140
1. La primera y ms evidente es que el procedimiento es algo ms
engorroso que el necesario para la aplicacin de MCI y MC2E, es decir,
como ya se dijera en la introduccin, consume muchos ms recursos
que la aplicacin de los otros mtodos

2. El segundo inconveniente reside en la estimacin conjunta de todos los
parmetros. Esta estimacin conjunta requiere que la especificacin
est perfectamente determinada para todas las ecuaciones del modelo.

3. Por otro lado, si bien la matriz sirve como vnculo entre ecuaciones
para representar la simultaneidad de una forma bien elaborada,
tambin sirve de va de contagio e los errores presentes en cada
ecuacin. Es decir, los errores de especificacin o de medicin de
datos no slo afectan a la ecuacin en la que se localizan sino que, en
cierta medida, tambin al resto de parmetros del modelo. Por ese
motivo, este tipo de mtodo de estimacin simultneo resulta
especialmente indicado para modelos con escaso riesgo de
especificacin (ya contrastados por experiencias previas) y con datos
confiables.

4. Adems, puede comprobarse analticamente que la estimacin
mediante MC3E, en concreto la necesidad de invertir la matriz ,
requiere que el nmero de datos exceda al de ecuaciones (n>g) por lo
que no puede utilizarse en modelos con numerosas ecuaciones. ;por
otro lado, antes de llevar a cabo la ltima etapa de MC3E, la estimacin
previa MC2E exige que (n>k). En definitiva, y supuesta la limitacin
habitual de las muestras (n moderado o pequeo), el mtodo slo
puede aplicarse en modelos pequeos, es decir, con pocas
ecuaciones (g) y pocas exgenas (k).


5.1.-Prueba de Z para diferencia entre dos proporciones


Las pruebas de proporciones son adecuadas cuando los datos que se estn analizando constan de cuentas o frecuencias de elementos de dos
o ms clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporcin (o Porcentaje) de poblacin. Las
pruebas se basan en la premisa de que una proporcin muestral (es decir, x ocurrencias en n observaciones, o x/n) ser igual a la proporcin
verdadera de la poblacin si se toman mrgenes o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en
la diferencia entre un nmero esperado de ocurrencias, suponiendo que una afirmacin es verdadera, y el nmero observado realmente. La
diferencia se compara con la variabilidad prescrita mediante una distribucin de muestreo que tiene como base el supuesto de que es
realmente verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras,
los datos muestrales se consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones se
pueden utilizar para evaluar afirmaciones con respecto a:
1) Un parmetro de poblacin nico (prueba de una muestra)
2) La igualdad de parmetros de dos poblaciones (prueba de dos muestras), y
3) La igualdad de parmetros de ms de dos poblaciones (prueba de k muestras). Adems, para tamaos grandes de muestras, la
distribucin de muestreo adecuada para pruebas de proporciones de una y dos muestras es aproximadamente normal, justo como sucede en
el caso de pruebas de medias de una y dos muestras.
Prueba de proporciones de una muestra
Cuando el objetivo del muestreo es evaluar la validez de una afirmacin con respecto a la proporcin de una poblacin, es adecuado utilizar
una prueba de una muestra. La metodologa de prueba depende de si el nmero de observaciones de la muestra es grande o pequeo.
Estadistica Inferencial


2013
141
Como se habr observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De este
modo, los valores estadsticos de prueba miden la desviacin de un valor estadstico de muestra a partir de un valor propuesto. Y ambas
pruebas se basan en la distribucin normal estndar para valores crticos. Quiz la nica diferencia real entre las ambas radica en la forma
corno se obtiene la desviacin estndar de la distribucin de muestreo.
Esta prueba comprende el clculo del valor estadstico de prueba Z

Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significacin seleccionado.
Como ocurri con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.
Ejemplo ilustrativo
En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveracin, a un nivel de significacin de 0,025,
respecto a la alternativa de que la proporcin real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestra
aleatoria de 600 estudiantes universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.
Los datos son:
Estadistica Inferencial


2013
142

Como en los datos aparece el tamao de la poblacin, se debe verificar si el tamao de la nuestra es mayor que el 5%. Se remplaza valores
en la siguiente frmula:

Los clculos en Excel se muestran en la siguiente figura:
Estadistica Inferencial


2013
143

El grfico elaborado en Winstats y Paint se muestra a continuacin:

Decisin:

Prueba de proporciones de dos muestras
El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales
presentan la misma proporcin de elementos con determinada caracterstica. La prueba se concentra en la diferencia relativa (diferencia
dividida entre la desviacin estndar de la distribucin de muestreo) entre las dos proporciones muestrales. Diferencias pequeas denotan
nicamente la variacin casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0).
El valor estadstico de prueba (diferencia relativa) es comparado con un valor tabular de la distribucin normal, a fin de decidir si H0 es
aceptada o rechazada. Una vez ms, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.
La hiptesis nula en una prueba de dos muestras es
Estadistica Inferencial


2013
144



5.2.-Prueba de Z para la diferencia entre proporciones


Se ponen a prueba la enseanza de la Estadstica empleando Excel y Winstats. Para determinar si los estudiantes difieren en trminos de estar
a favor de la nueva enseanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 estn a favor, en tanto que del
paralelo B estn a favor 14. Es posible concluir con un nivel de significacin de 0,05 que los estudiantes que estn a favor de la nueva
enseanza de la Estadstica es la misma en los dos paralelos?.
Los datos son:

Las hiptesis son
Estadistica Inferencial


2013
145

Calculando la proporcin muestral se obtiene:

Los clculos en Excel se muestran en la siguiente figura:
Estadistica Inferencial


2013
146

El grfico elaborado en Winstats y Paint se muestra a continuacin:

Decisin:

Estadistica Inferencial


2013
147
Prueba de proporciones de k muestras
La finalidad de una prueba de k muestras es evaluar la aseveracin que establece que todas las k muestras independientes provienen de
poblaciones que presentan la misma proporcin de algn elemento. De acuerdo con esto, las hiptesis nula y alternativa son

En una muestra se puede dar un conjunto de sucesos, los cuales ocurren con frecuencias observadas "o"(las que se observa directamente) y
frecuencias esperadas o tericas "e" (las que se calculan de acuerdo a las leyes de probabilidad).

Por lo tanto el valor estadstico de prueba para este caso es la prueba ji cuadrado o conocida tambin como chi cuadrado
Como sucede con las distribuciones t y F, la distribucin ji cuadrado tiene una forma que depende del nmero de grados
de libertad asociados a un determinado problema.
Para obtener un valor crtico (valor que deja un determinado porcentaje de rea en la cola) a partir de una tabla de ji cuadrado, se debe
seleccionar un nivel de significacin y determinar los grados de libertad para el problema que se est resolviendo.
Estadistica Inferencial


2013
148

Ejemplos ilustrativos:

Determine el nmero de grados de libertad y obtenga el valores crtico en el niveles 0,05 se significacin.
Solucin:
Los grados de libertad se calculan aplicando la frmula:

Estadistica Inferencial


2013
149

Los clculos en Excel se muestran en la siguiente figura:

2) La siguiente tabla muestra las frecuencias observadas y las frecuencias esperadas al lanzar un dado 60 veces. Contrastar la hiptesis de
que el dado es bueno, con un nivel de significacin de 0,01.
Estadistica Inferencial


2013
150
Cara del dado 1 2 3 4 5 6
Frecuencia observada 6 8 9 15 14 8
Frecuencia esperada 10 10 10 10 10 10
Solucin:

Los clculos en Excel se muestran en la siguiente figura:
Estadistica Inferencial


2013
151

El grfico elaborado en Winstats y Paint se muestra a continuacin:

Decisin:
Estadistica Inferencial


2013
152


5.3.-Prueba para la diferencia de n proporciones


Pruebas de hiptesis de una y dos muestras

Al terminar la unidad usted podr:

Hiptesis estadsticas

Muchas veces, el problema al que se enfrenta un cientfico, ingeniero , o profesional, no es tanto la estimacin
de un parmetro poblacional, sino ms bien la formacin de un procedimiento de decisin que se base en la
informacin proporcionada por la muestra. El profesional o ingeniero postula o conjetura algo acerca del valor
que puede asumir cierto parmetro

Una hiptesis estadstica es una aseveracin o conjetura con respecto a una o ms poblaciones

La verdad o falsedad de una hiptesis estadstica, nunca se sabe con certeza, a menos que se examine toda
la poblacin. En su lugar, se toma una muestra aleatoria de esa poblacin de inters y se utiliza la informacin
de la muestra para proporcionar evidencias que apoyen o no la hiptesis.
La evidencia de la muestra que es consistente con la hiptesis conduce al no rechazo de la hiptesis,
mientras que si es inconsistente con la hiptesis conduce al rechazo de la misma.
Debe quedar claro que la aceptacin de una hiptesis implica que los datos de la muestra no dan la suficiente
evidencia para rechazarla
Generalmente el cientfico se interesa en apoyar con fuerza una opinin, por lo tanto desea llegar a la opinin
en forma de rechazo

Ejemplo 6.1 Si un investigador en medicina desea mostrar fuertes evidencias a favor de que el fumar
aumenta el riesgo de contraer cncer, la hiptesis a probar debe ser de la forma no hay aumento en el
riesgo de contraer cncer como producto de fumar Como resultado, seguramente la opinin se alcanza por
medio de un rechazo.

La estructura de la prueba de hiptesis se formula con el uso de una hiptesis nula, que se denota con Ho y
es la hiptesis a probar. El rechazo de Ho conduce a la aceptacin de la hiptesis alternativa H1
Una hiptesis nula siempre se establece de modo que el parmetro asuma un valor exacto


5.4.-Prueba de independencia

PRUEBA DE INDEPENDENCIA

En el anlisis de independencia se considera que la muestra, una vez escogida, se clasifica segn los criterios
de inters; por ello se supone que las muestras provienen de una poblacin.
En las aplicaciones estadsticas es frecuente interesarse en calcular si dos variables de clasificacin, ya sea
cuantitativa o cualitativa, son independientes o si estn relacionadas. En situaciones como las siguientes, se
puede estar interesado en determinar si dos variables estn relacionadas:

Estn relacionados los hbitos de lectura con el sexo del lector?
Estn relacionadas las calificaciones obtenidas con el nmero de faltas?
Es independiente la opinin sobre la poltica exterior de la poltica partidista?
Es independiente el sexo de una persona de su preferencia en colores?
Est relacionado el sexo con tener una educacin universitaria?
Estn relacionadas las enfermedades del corazn con el tabaquismo?
Estadistica Inferencial


2013
153
Son independientes el tamao de una familia y el nivel de educacin de los padres?
Est relacionado el desempleo con el incremento de la criminalidad?
El precio est asociado con la calidad de un producto electrodomstico?
El estado nutricional esta asociado con el desempeo acadmico?

Otra forma de expresar el hecho de que dos variables sean independientes, es diciendo, que no se afectan
entre si; esto es que no estn relacionadas o asociadas.

Ilustraremos esta tcnica con el estudio que realiz Cervecera Modelo, la cual fabrica y distribuye tres tipos
de cerveza: ligera, clara y oscura. En un anlisis de segmentacin de mercado para las tres cervezas, el grupo
de investigacin encargado ha planteado la duda de si la preferencia para las tres cervezas es diferente entre
los consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del gnero del
consumidor, se iniciara una campaa de publicidad para todas las cervezas Modelo. Sin embargo, si la
preferencia depende del gnero del consumidor, se ajustaran las promociones para tener en cuenta los
distintos mercados meta.
Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera, clara y oscura) es
independiente del genero del consumidor (hombre, mujer). Las hiptesis para esta prueba de independencia
son:

Ho: La preferencia de la cerveza es independiente del gnero del consumidor
Ha: La preferencia de la cerveza no es independiente del gnero del consumidor

Podemos usar una tabla como la 1 para describir el caso que se estudia. Despus de identificar a la poblacin,
consumidores hombres y mujeres, se puede tomar una muestra y preguntar a cada persona que diga su
preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificar en una de las seis celdas de la tabla. Por ejemplo una persona puede
ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer que prefiere la cerveza ligera [celda (2,1)], una
mujer que prefiere la cerveza oscura [celda (2,3)] y as sucesivamente. Como en la lista aparecen todas las
combinaciones posibles de predileccin de cerveza y gnero, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.





Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de cerveza. Despus de
saborear cada una, se les pide expresar su preferencia o primera alternativa. La tabulacin cruzada de la
siguiente tabla 2 resume las respuestas obtenidas. Observamos que, los datos para la prueba de independencia
se agrupan en trminos de cantidades o frecuencias para cada celda o categora. De las 150 personas de la
muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que prefirieron la cerveza
clara, 20 fueron hombres que prefirieron la cerveza oscura, y as sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o categoras.


Cerveza preferida

Gnero
Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150

Cerveza preferida
Ligera Clara Oscura
Gnero Hombre Celda (1,1) Celda (1,2) Celda (1,3)
Mujer Celda (2,1) Celda (2,2) Celda (2,3)
Estadistica Inferencial


2013
154
Si podemos determinar las frecuencias esperadas bajo la hiptesis de independencia entre la preferencia de
cerveza y el gnero del consumidor, podemos usar la distribucin ji cuadrada para determinar si existe una
diferencia significativa entre la frecuencia observada y la esperada.
Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el siguiente razonamiento.
Primero suponemos que es verdadera la hiptesis nula, de independencia entre la cerveza preferida y el
gnero del consumidor. A continuacin observamos que en toda la muestra de 150 consumidores, hay 50 que
prefieren la cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fraccin, la conclusin es
que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera; 70/150 = 7/15 la clara y 30/150 = 1/5
la oscura. Si es vlida la hiptesis de independencia, decimos que estas fracciones se deben de aplicar por
igual a los consumidores hombres y mujeres. As bajo la hiptesis de independencia, esperaramos que la
muestra de 80 consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 = 37.33
la clara y (1/5) 80 = 16 la oscura. La aplicacin de las mismas fracciones a las 70 consumidoras mujeres
produce las frecuencias esperadas que aparecen en la tabla.








Sea la frecuencia esperada en la categora del rengln i y la columna j de la tabla de contingencia. Con
esta notacin reconsideremos el clculo de la frecuencia esperada para los hombres (rengln i = 1) que
prefieren la cerveza clara (columna j = 2) esto es, la frecuencia esperada . Apegndonos al esquema
anterior para el clculo de las frecuencias esperadas, podemos demostrar que

= (7/15) 80 = 37.33
Esta ecuacin se puede escribir como sigue

= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del rengln 1), 70 es la cantidad total de individuos
(hombres y mujeres) que prefieren la cerveza clara (total de la columna 2) y 150 es el tamao de la muestra
total. En consecuencia vemos



Al generalizar la ecuacin vemos que la frmula siguiente determina las frecuencias esperadas de una tabla de
contingencias para la prueba de independencia.

Frecuencias esperadas en la tabla de contingencia suponiendo independencia




El procedimiento de prueba para comparar frecuencias observadas con las frecuencias esperadas, se parece a
los clculos de bondad de ajuste.
Especficamente, el valor de basados en
ij
e
2 , 1
e
2 , 1
e
2 , 1
e
muestra la de tamao
columna la de total rengln del total
e
) 2 ( ) 1 (
2 , 1
=
muestra la de tamao
j columna la de total i rengln del Total
e
ij
) ( ) (
=
2
_
Cerveza preferida

Gnero
Ligera Clara Oscura Total
Hombre 26.67 37.33 16.00 80
Mujer 23.33 32.67 14.00 70
Total 50.00 70.00 30.00 150
Estadistica Inferencial


2013
155
las frecuencias observadas y esperadas se calcula como sigue:





O
i
= Valor observado en la i-simo celda.
E
i
= Valor esperado en la i-simo celda.
K = Categoras o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadstico de prueba tiene una distribucin ji
cuadrada con (n 1) (m 1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o ms para
todas las categoras. En consecuencia proseguimos con el clculo de la estadstica de prueba ji cuadrada.

Los clculos necesarios para determinar el estadstica ji cuadrada y ver si la preferencia de cerveza es
independiente del gnero de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribucin ji cuadrada adecuada se determina multiplicando la
cantidad de renglones menos 1 por la cantidad de columnas menos 1. Como tenemos dos renglones y tres
columnas, entonces (2 1) (3 1) = (1) (2) = 2 grados de libertad para la prueba de independencia entre
cerveza y gnero del consumidor. Con = .05 como nivel de significanca de la prueba, buscamos en la
tabla de ji cuadrada y nos da un valor = 5.99. Observe que estamos usando el valor de la cola
superior, porque rechazaremos la hiptesis nula slo si las diferencias entre frecuencias observadas y
esperadas producen un valor grande de . En el ejemplo =6.13 es mayor que = 5.99. Por
consiguiente, rechazaremos la hiptesis nula de independencia y concluimos que la cerveza preferida no es
independiente del gnero del consumidor, es decir, la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres y por lo tanto la Cervecera Modelo deber estratificar a los consumidores
para ajustar las promociones y la publicidad, teniendo en cuenta estas diferencias.











o
2
05 .
_
2
_
2
_
2
_
Gnero Cerveza

Hombre ligera 20 26.67 -6.67 44.4889 1.66812523
Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
Mujer ligera 30 23.33 6.67 44.4889 1.90693956
Mujer clara 30 32.67 -2.67 7.1289 0.21820937
Mujer Oscura 10 14 -4 16 1.14285714


6.12710104
o
f
e
f ) (
e o
f f
2
) (
e o
f f
ij e o
e f f / ) (
2

2
_
| |

=
k
i e
e o
i
i i
f
f f
1
2
2
_
Estadistica Inferencial


2013
156
5.5.-Prueba de contingencia



PRUEBAS NO PARAMTRICAS

Distribucin chi-cuadrada ( _
2
)

La distribucin chi cuadrada es toda una familia de distribuciones. Existe una distribucin chi-cuadrada para
cada grado de libertad. La Figura 1 muestra que a medida que se incrementan los grados de libertad la
distribucin se vuelve menos sesgada. Las aplicaciones ms comunes de la distribucin chi-cuadrada son (1)
pruebas de bondad de ajuste y (2) pruebas de independencia.

A. Pruebas de bondad de ajuste

Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma de distribucin particular
planteada como hiptesis. Si el ajuste es razonablemente cercano, puede concluirse que si existe la forma de
distribucin planteada como hiptesis.

Prueba chi-cuadrada
( )

=
k
1 i
i
2
i i
2
E
E O
_ (1.1)
donde k: Nmero de categoras o clases
k-m-1: grados de libertad donde m es el nmero de parmetros a estimar.



1.Prueba para un ajuste uniforme. Juan Prez, director de Mercadeo de Alden de Jurez, tiene la
responsabilidad de controlar el nivel de existencias para cuatro tipos de automvil vendidos por la firma. En
el pasado, ha ordenado nuevos automviles bajo la premisa de que los cuatro tipos son igualmente populares
y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto ms difciles
de controlar, y Juan considera que debera probar su hiptesis respecto a una demanda uniforme. Sus hiptesis
son:

H
0
: La demanda es uniforme para los cuatro tipos de autos.
H
1
: La demanda no es uniforme para los cuatro tipos de autos.

La Tabla 1.1 muestra la expectativa uniforme para una muestra de 48 autos vendidos durante el ltimo mes

Tabla 1.1 Registro de Ventas de Alden de Jurez
Tipo de auto Ventas observadas Ventas esperadas
Ka 15 12
Fiesta 11 12
Focus 10 12
Clio 12 12



( ) ( ) ( ) ( )
17 . 1
12
12 12
12
12 10
12
12 11
12
12 15
2 2 2 2
2
=

= _
Estadistica Inferencial


2013
157
Debido a que no hay parmetros que estimarse el nmero de grados de libertad es k-1 = 3 grados de libertad.
Si Juan deseara probar al nivel del 5%, se encontrara, como lo muestra la Figura 1.2, que
815 . 7
2
3 , 05 . 0
= _

Regla de decisin: " 815 . 7
2
. 815 . 7
2
" > s _ _ si Rechazar si rechazar No

Como 1.17 < 7.815, la hiptesis de que la demanda no es uniforme no se rechaza.

B.Tablas de contingencia. Una prueba de independencia

La distribucin chi-cuadrada tambin permite la comparacin de dos atributos para determinar si existe una
relacin entre ellas.

Ejemplo. Paty Alvarado es la directora de investigacin de Plaguicidas de Jurez. En su proyecto actual Paty
debe determinar si existe alguna relacin entre la clasificacin de efectividad que los consumidores asignan a
un nuevo insecticida y el sitio (urbano o rural) en el cual se utiliza. De los 100 consumidores a quienes se le
aplic la encuesta, 75 vivan en zonas urbanas y 25 en zonas rurales. La Tabla 1.2 resume las clasificaciones
hechas por los consumidores.

Tabla 1.2 Tabla de contingencia de Plaguicidas de Jurez
Clasificacin Urbano Rural Total
Arriba del promedio 20
23.3
11
7.75
31
Promedio 40
36
8
12
48
Debajo del promedio 15
15.8
6
5.25
21
Total 75 25 100

H
0
: La clasificacin y la ubicacin son independientes.
H
1
: La clasificacin y la ubicacin no son independientes.
( ) ( ) ( ) ( ) ( ) ( )
76 . 3
25 . 5
2
25 . 5 6
8 . 15
2
8 . 15 15
12
2
12 8
36
2
36 40
75 . 7
2
75 . 7 11
3 . 23
2
3 . 23 20
2
=

=

_

La prueba tiene (r 1)(c 1) = (3 -1)(2 1) = 2 grados de libertad. Si Paty fija o = 10%,
605 . 4
2
2 , 10 . 0
= _ , la hiptesis nula no se rechaza.

Prueba del signo

Una prueba no paramtrica utilizada comnmente para tomar decisiones en relacin a diferencias entre
poblaciones como contraparte de la distribucin t, la cual requiere el supuesto de normalidad de ambas
poblaciones. La prueba de signos es til cuando no se cumple este supuesto.

Se supone que se tienen datos antes y despus para una muestra y se desean comparar estos conjuntos de
datos correspondientes. Se hace restando las observaciones por pares, y se anota el signo algebraico
resultante. No es importante la magnitud de la diferencia, sino solo si resulta un signo ms o un signo menos.

Estadistica Inferencial


2013
158
La hiptesis nula establece que no existe diferencia en los conjuntos de datos. Si esto es cierto, entonces un
signo ms y un signo menos son igualmente probables. La probabilidad de que ocurra cualquiera es de 0.50.
Una prueba de dos extremos es:
H
0
: m = p
H
1
: m = p
en donde m y p son los nmeros de signos menos y de signos ms, respectivamente. Una prueba de un solo
extremo es:
H
0
: m = p
H
1
: m > p
o

H
0
: m = p
H
1
: m < p
Ejemplo. Un analista de mercado desea medir la efectividad de una campaa promocional del producto de su
empresa. Antes de la campaa, selecciona 12 tiendas minoristas y registra las ventas del mes. Durante el
segundo mes se termina la campaa promocional y se registran de nuevo las ventas. La Tabla 1.3 muestra los
niveles de ventas, junto con el signo algebraico que resulta cuando las ventas del segundo mes se restan de las
del primer mes.
Tabla 1.3 Ventas para doce tiendas minoristas
Tienda Antes Despus Signo
1 $4200 $4000 +
2 $5700 $6000 -
3 $3800 $3800 0
4 $4900 $4700 +
5 $6300 $6500 -
6 $3600 $3900 -
7 $4800 $4900 -
8 $5800 $5000 -
9 $4700 $4700 0
10 $5100 $5200 -
11 $8300 $7200 +
12 $2700 $3300 -

Se desea probar la hiptesis de que la promocin increment las ventas con un nivel de significancia del 5%.
Esta es una prueba de extremo derecho, como se muestra enseguida:

H
0
: m s p
H
1
: m > p
Pregunta: Qu hara que se rechazara la hiptesis nula?
1) un nmero significativamente grande de signos menos
2) un nmero significativamente pequeo de signos ms

Nmero de signos menos = 6
Nmero de signos ms = 4
Los valores que resultan en una diferencia de cero se eliminan.
La Tabla de Distribucin Binomial establece que la probabilidad de seis o ms signos menos es:

3770 . 0
6230 . 0 1
) 5 X ( P 1 ) 5 . 0 , 10 n | 6 m ( p
=
=
s = = = >


t

Este valor de 0.3770 es la probabilidad de obtener seis o ms signos menos ( o cuatro o menos signos ms)
si la probabilidad de ocurrencia de cualquier signo es de t = 0.5. Se nota que si el nmero de signos menos
fuera inusitadamente grande, se rechazara la hiptesis nula. Sin embargo, 6 no es un nmero grande. La
probabilidad de su ocurrencia es mayor que un o de 0.5%, el evento de 6 signos menos no se considera
Estadistica Inferencial


2013
159
grande, y la hiptesis nula de que H
0
: m s p no se rechaza, por lo tanto no se puede considerar que la
promocin haya sido exitosa.

Valor de Z para prueba del signo con muestras grandes (n > 30)


n 5 . 0
n 5 . 0 5 . 0 k
Z

=

La prueba de rachas

Cuando no existe aleatoriedad, muchas de las herramientas estadsticas en las cuales se confa son de poco
uso o de ningn uso. Para comprobar la aleatoriedad se utiliza una prueba de rachas.

Prueba de rachas. Prueba no paramtrica de aleatoriedad en el proceso de muestreo.

Racha. Una serie continua de uno o ms smbolos.

Ejemplo. Suponga que se seleccionan los empleados para un programa de entrenamiento. Si la seleccin no
depende de si el empleado es de sexo masculino (m) o femenino (f), se esperara que el gnero fuera un evento
aleatorio. Sin embargo, si se detecta algn patrn en el gnero, se puede asumir que la aleatoriedad est
ausente y que la seleccin se hizo, por lo menos en parte, con base en el gnero de un trabajador. Si existe un
nmero inusualmente grande o inusualmente pequeo de rachas, se sugiere un patrn. As, por ejemplo
_____________________________________________
mmm ffffff mmm
_____________________________________________
1 2 3
_____________________________________________
Tres rachas existen en esta muestra. Tres hombres , seguidos de seis mujeres y luego tres hombres.
Aparentemente existe ausencia de aleatoriedad. Consideremos ahora que el orden de seleccin es
_______________________________________
m f m f m f m f m f m f m f m f
_______________________________________
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
_______________________________________
De nuevo, parece existir un patrn que produce un nmero inusualmente grande de 16 rachas independientes.

Deteccin de un patrn. Si se presentan muy pocas o demasiadas rachas, puede estar ausente la aleatoriedad.
Un conjunto de hiptesis para probar es:

H
0
: Existe aleatoriedad en la muestra.
H
1
: No existe aleatoriedad en la muestra.

Para probar la hiptesis se debe determinar si el nmero de rachas r es demasiado grande o demasiado
pequeo. Las Tablas de valores crticos de r en la prueba de rachas muestran el nmero de rachas si o es 5%.
Supongamos ahora que las selecciones fueron:
__________________________________________
m fff mmm ff mmm
1 2 3 4 5
__________________________________________

Las selecciones parecen ms aleatorias porque no existe patrn evidente. Se nota que n
1
= 7 es el nmero de
hombres y n
2
= 5 es el nmero de mujeres.
La tabla M1 muestra el nmero crtico mnimo de rachas para un valor de o de 5%.. Si el nmero de
rachas es igual o menor que el valor mostrado en la tabla M1, se sugiere que al nivel del 5% hay muy pocas
rachas como para confirmar la hiptesis nula de aleatoriedad. Debido a que n
1
= 7 y n
2
= 5, se halla el valor
Estadistica Inferencial


2013
160
crticamente bajo que es 3. Debido a que el nmero de rachas excede este mnimo, entonces no hay un
nmero significativamente bajo de rachas como para garantizar el rechazo de la hiptesis nula. La tabla M2
proporciona valores crticamente altos para r. si el nmero de rachas en una muestra es igual o mayor que
estos valores, se puede concluir que existe un nmero extremadamente grande de rachas, lo que sugiere la
ausencia de aleatoriedad. Para n
1
= 7 y n
2
= 5, la tabla M2 revela que el nmero mximo de rachas es 11. Si el
nmero de rachas es superior a 11, existen demasiadas como para sustentar la hiptesis de aleatoriedad.
Debido a que el nmero de rachas es menor que 11, no es significativamente alto y no se rechaza la hiptesis
nula al nivel del 5%.

Uso de la mediana como medida para bifurcar los datos

Ejemplo. Se asumen niveles de produccin diarios en una mina de carbn seleccionada para un estudio
estadstico, y stos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32, 40, 37, y 60 toneladas. La mediana de 37
puede utilizarse como valor de referencia. Las observaciones caen o por arriba (A) o por abajo (B) de 37,
produciendo 8 rachas de:
___________________________________________________
31 57 52 22 24 59 25 29 27 44 43 32 40 60
___________________________________________________
B A A B B A B B B A A B A A
1 2 3 4 5 6 7 8
___________________________________________________
Con n
1
=7 para B y n
2
= 7 para A, la tabla M revela valores crticos de 3 y 13 rachas. Debido a que hay 8
rachas, se asume que hay aleatoriedad y no se rechaza la hiptesis nula.

Prueba U de Mann-Whitney

Es la contraparte no paramtrica de la prueba t para muestras independientes. No requiere del supuesto de que
las diferencias entre las dos muestras estn distribuidas normalmente.

Ejemplo. Suponga que una fbrica de cermicas desea comparar el tiempo que toma a las piezas de barro
enfriarse despus de haber ardido en el horno mediante dos mtodos diferentes.
Los alfareros queman 12 piezas utilizando el mtodo 1, y 10 utilizando el mtodo 2. El nmero de minutos
necesarios para que cada pieza se enfre es el siguiente:
Mtodo1 27 31 28 29 39 40 35 33 32 36 37 43
Mtodo 2 34 24 38 28 30 34 37 42 41 44

Tabla 1.4 Rangos de tiempos de enfriamiento
Mtodo 1 Rango Mtodo 2 Rango
24 1
27 2
28 3.5 28 3.5
29 5
30 6
31 7
32 8
33 9
34 10.5
34 10.5
35 12
36 13
37 14.5 37 14.5
38 16
39 17
40 18
41 19
Estadistica Inferencial


2013
161
42 20
43 21
44 22
ER
1
=130 ER
2
=123

Se calcula el estadstico de Mann-Whitney para cada muestra de la ecuacin, as:


52 123
2
) 1 10 ( 10
) 10 )( 12 ( U
68 130
2
) 1 12 ( 12
) 10 )( 12 ( U
R
2
1 n ( n
n n U
R
2
) 1 n ( n
n n U
2
1
2
1 1
2 1 2
1
1 1
2 1 1
=
+
+ =
=
+
+ =

+
+ =

+
+ =

Se nota que U
1
+ U
2
= n
1
n
2
proporciona un chequeo rpido de su aritmtica.
Media y Desviacin estndar de la distribucin muestral para la Prueba U de Mann-Whitney

17 . 15
12
) 1 10 12 )( 10 )( 12 (
12
) 1 n n ( n n
60
2
) 10 )( 12 (
2
n n
2 1 2 1
u
2 1
u
=
+ +
=
+ +
=
= = =
o


Valor de Z para normalizar la prueba U de Mann-Whitney

u
u 1
U
Z
o

=
Prueba de dos extremos: Probar la hiptesis de que los tiempos promedio de enfriamiento de enfriamiento del
mtodo 1 y del mtodo 2 son los mismos

2 1 1
2 1 0
: H
: H


=
=

Utilizando arbitrariamente U
2
, se tiene que
053 . 0
17 . 15
60 52
Z =

=
Si o = 10%, la regla de decisin es No rechazar si -1.65 s Z s 1.65. Rechazar si Z < -1.65 o Z > 1.65.
Como Z = -0.53 se puede concluir al nivel de significancia del 10% que los tiempos promedio de
enfriamiento son los mismos para ambos mtodos de coccin.

Prueba de Kruskall-Wallis

Es una prueba que compara tres o ms poblaciones para determinar si existe una diferencia en la distribucin
de las poblaciones. Es anloga a la prueba F utilizada en las pruebas ANOVA. No importa la restriccin de
que las poblaciones tienen que estar distribuidas normalmente.

Las hiptesis son:
H
0
: Todas las k poblaciones tienen la misma distribucin.
H
1
: No todas las k poblaciones tienen la misma distribucin.

Ejemplo. Un nuevo gerente de Avon debe comparar el tiempo que les toma a tres clientes pagar los envos
del nuevo producto New-Face Cream, ofrecido por la empresa. Se seleccionan aleatoriamente varias compras
Estadistica Inferencial


2013
162
de cada cliente, junto con el nmero de das que cada uno se tom en liquidar su cuenta. Los resultados
aparecen en la Tabla 1.5.

Tabla 1.5 Nmero de das para pagar a Avon la entrega recibida.

Cliente
Compra 1 2 3
1 28 26 37
2 19 20 28
3 13 11 26
4 28 14 35
5 29 22 31
6 22 21
7 21

Estadstico Kruskal- Wallis:

) 1 n ( 3
n
R
) 1 n ( n
12
K
i
2
i
+
(

+
=
donde n
i
es el nmero de observaciones en la i-sima muestra
n es el nmero total de observaciones en todas las muestras.
R
i
es la suma de los rangos de la i-sima muestra.
Tabla 1.6 Rangos en la prueba de Kruskall-Wallis.
Das Rango Das Rango Das Rango
11 1
13 2
14 3
19 4
20 5
21 6.5 21 6.5
22 8.5 22 8.5
26 10.5 26 10.5
28 13
28 13 28 13
29 15
31 16
35 17
37 18
ER
1
=62 ER
2
=34.5 ER
3
=74.5

Calculando el estadstico K se tiene:


( ) ( ) ( )
( ) 18 . 8 1 18 3
5
5 . 74
6
5 . 34
7
62
) 1 18 ( 18
12
K
2 2 2
= +
(

+ +
+
=
Enseguida comparamos K con un valor crtico. La distribucin de K es aproximada por una distribucin chi-
cuadrada con k 1 grados de libertad. Si K excede el valor crtico de chi-cuadrada, se rechaza la hiptesis
nula. En caso de seleccionar un valor de o de 5% en la prueba de Avon, el valor crtico de chi-cuadrado dados
3-1 = 2 grados de libertad es 99 . 5
2
2 , 05 . 0
= _ .
Regla de decisin: No rechazar si ks 5.99. rechazar si k >5.99
Como k = 18.8 > 5.99, se rechaza la hiptesis nula de que no hay diferencia en el tiempo que toma a tres
clientes pagar sus cuentas con Avon.
Estadistica Inferencial


2013
163

En el caso de que se rechace la hiptesis nula, el siguiente paso lgico es determinar cules diferencias son
estadsticamente significativas y cuales se deben a un error de muestreo. Esto involucra una comparacin de
todos los pares posibles. Los pasos para la comparacin son los siguientes:
1. Calcular el rango promedio para cada muestra.


9 . 14
5
5 . 74
R
75 . 5
6
5 . 34
R
86 . 8
7
62
R
3
2
1
= =
= =
= =


2. Calcular diferencias absolutas


15 . 9 | 9 . 14 75 . 5 | | R R |
04 . 6 | 9 . 14 86 . 8 | | R R |
11 . 3 | 75 . 5 86 . 8 | | R R |
3 2
3 1
2 1
= =
= =
= =


3. Comparacin con el valor crtico C
k
:

( )
( )( )
( )( )
( )( )
3 el con 2 cliente del n Comparacio
3 el con 1 cliente del n Comparacio
2 el con 1 cliente del n Comparacio
91 . 7
5
1
6
1
12
19 18
99 . 5 C
65 . 7
5
1
7
1
12
19 18
99 . 5 C
27 . 7
6
1
7
1
12
19 18
99 . 5
n
1
n
1
12
1 n n
C
k
k
j i
2
1 k , k
=
(

+
(

=
=
(

+
(

=
=
(

+
(

=
(
(

+
(


=
o
_

4. Comparacin de las diferencias contra los valores crticos


diferencia existe si 3 y 2 entre y
difieren no 3 y 1 Por tanto
difieren no 2 y 1 Por tanto
91 . 7 15 . 9 | 9 . 14 75 . 5 | | R R |
65 . 7 04 . 6 | 9 . 14 86 . 8 | | R R |
27 . 7 11 . 3 | 75 . 5 86 . 8 | | R R |
3 2
3 1
2 1
> = =
< = =
< = =


Correlacin de rangos de Spearman







Estadistica Inferencial


2013
164

5.6.-Pruebas de bondad de ajuste

PRUEBA DE BONDAD Y AJUSTE

Con mucha frecuencia no se conoce la distribucin de probabilidad de la variable
aleatoria en estudio, digamos X, y se desea probar la hiptesis de que X sigue una
distribucin de probabilidad particular. Por ejemplo, podra ser de inters probar la
hiptesis de que X sigue una distribucin normal, una exponencial, etc.
Existen dos procedimientos para realizar pruebas de bondad de ajuste que son los ms
conocidos. El primero se basa en una tcnica grfica muy til llamada grfica de
probabilidad y el segundo procedimiento se basa en la distribucin Chi-cuadrada.
Estadistica Inferencial


2013
165
1. GRAFICA DE PROBABILIDAD

La grfica de la probabilidad es un mtodo grfico para determinar s los datos se
ajustan a una distribucin hipottica basada en un examen visual subjetivo de los datos; el
procedimiento general es muy simple y puede efectuarse con rapidez.

El procedimiento es el siguiente:
i. Se grafica la probabilidad de los datos en estudio, usando Minitab-13 se
procede a ingresar los datos requeridos en la hoja de trabajo (worksheet) luego
se selecciona: Graph>Probability Plot:



ii. Luego en la ventana de dilogo que aparece, se especifica dnde se
encuentran los datos a graficar, haciendo doble clic en la variable de inters,
se establece luego el tipo de distribucin que se desea probar, y luego se va a
Options, para poder especificar en la prxima ventana el nivel de confianza, e
identificar la grfica con un ttulo. Se da OK y luego se ejecuta una grfica de
probabilidad.
Estadistica Inferencial


2013
166


iii. Luego de tener desarrollada la grfica de probabilidad, segn el tipo de
distribucin que se desea probar, se analiza la misma bajo el siguiente criterio:
s todos los puntos graficados caen aproximadamente sobre la lnea de
probabilidad de la grfica, entonces el modelo hipottico es apropiado, s
los puntos graficados se desvan de modo significativo entonces el
modelo hipottico no es apropiado, y posteriormente se sigue probando con
los dems grficos de probabilidad.

iv. A continuacin dos grficos de probabilidad para poder establecer la prueba de
bondad y ajuste en el ejemplo.



Estadistica Inferencial


2013
167


Respuesta: Los datos siguen una distribucin Normal


Respuesta: Los datos analizados no siguen una distribucin Exponencial

Estadistica Inferencial


2013
168
1. PRUEBA DE BONDAD Y AJUSTE DE LA CHI CUADRADA

El procedimiento de prueba de la Chi-cuadrada es un mtodo analtico, requiere
una muestra aleatoria de tamao n de la variable aleatoria x. Estas n observaciones se
arreglan en histogramas de frecuencias, teniendo k intervalos de clase (donde n k = ).
Sea O
i
la frecuencia observada en el i-simo intervalo de clase. De la distribucin de
probabilidad hipottica, se calcula la frecuencia esperada en el i-simo intervalo de clase,
identificada como E
i
, La estadstica de prueba es la siguiente:

=
k
i i
i i
E
E O
1
2
2
0
) (
_

Puede demostrarse que
2
0
_ sigue aproximadamente una distribucin Chi cuadrada con k-
p-1 grados de libertad, donde k es el nmero de intervalos, p representa el nmero de
parmetros de la distribucin hipottica, estimados por medio de estadsticas de la
muestra. Esta aproximacin se mejora cuando n aumenta. Se rechaza la hiptesis de que
x se ajusta a la distribucin hipottica, si
2
1 ,
2
0
>
p k o
_ _ .

El procedimiento para establecer la prueba utilizando Minitab -13 es el siguiente:

1. Ingreso de datos y clculos de media y desviacin estndar: del mismo modo
que en el caso anterior, se ingresan los datos en la hoja de trabajo (worksheet),
de estos datos que viene a ser la muestra de la variable aleatoria x, se calcula la
media y la desviacin estndar siguiendo las siguientes secuencias: calc >column
statistic> mean y calc>column>standard desviation, respectivamente, tal como
se puede apreciar en la ventana que se muestra a continuacin.
Estadistica Inferencial


2013
169


2. Histogramas de frecuencia: Para realizar un histograma de frecuencia se sigues
la siguiente secuencia: graph > histogram >options >frecuency >cutpoint >#
intervals 10. Para mostrar las frecuencias en la grfica, ingresar a <Annotation>
<Data labels> y activar <show data labels> Ademas en < <Annotation> ingresar
a <Title..> para colocar un ttulo.





De este modo se obtiene la siguiente grfica.
Estadistica Inferencial


2013
170



3. El siguiente paso es ingresar los valores de frecuencia observada y los
intervalos. Como se puede apreciar de la figura anterior, Minitab -13 muestra
estos valores en el histograma de frecuencia, pero es necesario ingresarlos
manualmente a la hoja de trabajo.

4. Clculo de probabilidad para los lmites superior e inferior de los intervalos.
Para esto se sigue la siguiente secuencia: calc>probability distribution>
<Normal> se especifica la media y desviacin estndar halladas anteriormente en
los espacios que correspondan as como la columna en donde se requiere que se
almacenen los resultados, previamente se elige la distribucin a la cual se ajustan
los datos. En el ejemplo se escogi la distribucin normal. Este procedimiento se
muestra en la siguiente pantalla.
Estadistica Inferencial


2013
171


5. Clculo de los valores esperados: para esto se escoge el men de
calc>calculator; y se ingresa la frmula segn se muestra en la siguiente
pantalla.



Es importante notar que si los valores esperados tienen valores numricos menores
que 5.0, entonces debemos hacer una nueva agrupacin, para lo cual se tomarn
aquellos valores menores que 5 y se suman. En el ejemplo de 10 intervalos se reduce
a 7. Los tres primeros se reducen a uno y los dos ltimos tambin se agrupan. Luego el
primer intervalo va desde 7.25 hasta 8.75 y el sptimo va desde 11.25 hasta 12.25.
Con estos nuevos intervalos se repite el procedimiento anterior y se obtienen nuevos
valores esperados. Adems se estiman dos 2 parmetros (la media y la desviacin
Estadistica Inferencial


2013
172
estndar). Por tanto los grados de libertad para calcular el valor Chi crtico es de 4, (g.l
= 7-2-1 = 4)

6. Clculo de la estadstica Chi-cuadrada: Luego se sigue la secuencia siguiente:
Calc>Calculator; y se define los parmetros que aparecen a continuacin. El valor
obtenido es de 4.187.



7. Clculo del valor Ch-crtico: Este valor tambin se puede obtener de las tablas
de distribucin Chi-cuadrada que se encuentran en los libros, pero Minitab-13 lo
provee de la siguiente manera: Calc>Probability distribution>Chi
square>Inverse cumulative probability >imput constant: 0.95>OK, el resultado
correspondiente aparece en la ventana de Session, y es igual a: 4877 . 9
2
95 . 0
= _



Estadistica Inferencial


2013
173


8. Clculo del valor p: En primer lugar se establece el valor de k, para tal efecto se
realiza lo siguiente: Calc>Probability Distributions> Chi-square; se selecciona
Cumulative Probability >. En Degrees of freedom se establece
(# grados de libertad) <Input column> y se establece el lugar a almacenar el valor
en la celda que contendr k en Optional storage tal como se puede apreciar en la
siguiente grfica.



9. Finalmente se calcula el valor p: Para esto se sigue la siguiente secuencia:
Calc> Calculator> storage result, se establece donde se desea almacenar el
Estadistica Inferencial


2013
174
resultado, y se escribe la ecuacin siguiente en Expression: (1-k), como se puede
apreciar en el siguiente diagrama.



10. Resultados:
Como en el resultado de la prueba de Chi-cuadrada 4877 . 9 187 . 4
2 2
= < =
crtico cal
x x , o
como se estableci en la parte terica
2
1 ,
2
0
<
p k o
_ _ , entonces se acepta la hiptesis
nula H
0.

Por otro lado, como el p-value=0.38 > 0.05, no hay evidencia suficiente para rechazar
H
0
.

5.7.-Aplicaciones


A) Aplicasion de Pruebas de Hipotesis.

DEFINICIN DE HIPTESIS
Es una proposicin que establece relaciones, entre los hechos; para otros es una posible solucin
al problema; otros mas sustentan que la hiptesis no es mas otra cosa que una relacin entre las
variables, y por ltimo, hay quienes afirman que es un mtodo de comprobacin.
La hiptesis como proposicin que establece relacin entre los hechos: una hiptesis es el
establecimiento de un vnculo entre los hechos que el investigador va aclarando en la medida en
que pueda generar explicaciones lgicas del porqu se produce este vnculo.
Tamayo (1989 75): afirma que:
"La hiptesis es una proposicin que nos permite establecer relaciones entre los hechos. Su valor
reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que se
Estadistica Inferencial


2013
175
producen".
La hiptesis como una posible solucin del problema: la hiptesis no es solamente la explicacin o
comprensin del vnculo que se establece entre los elementos inmersos en un problema, es
tambin el planteamiento de una posible solucin al mismo.
Pardinas (1974 132):
"La hiptesis es una proposicin anunciada para responder tentativamente a un problema".
Hiptesis como relacin entre variables: Kerlinger (1985 : 12) expresa; una expresin de las
relaciones existentes entre dos o mas variables, la hiptesis se formula en trminos de oracin
aseverativa por lo tanto:
"Es una expresin conjetural de la relacin que existe entre dos o ms variables. Siempre aparece
en forma de oracin aseverativa y relaciona de manera general o especfica, una variable con otra.
Hiptesis como mtodo de comprobacin: para otros investigadores, la hiptesis es algo mas que
el establecimiento de relaciones entre elementos, o la posible solucin a un problema; por lo tanto;
afirman que es fundamentalmente y ante todo, una herramienta de comprobacin de los supuestos
con la realidad.
Abouhamad (1965:74) sostiene:


.
DEFINICIN DE HIPTESIS
Es una proposicin que establece relaciones, entre los hechos; para otros es una posible solucin
al problema; otros mas sustentan que la hiptesis no es mas otra cosa que una relacin entre las
variables, y por ltimo, hay quienes afirman que es un mtodo de comprobacin.
La hiptesis como proposicin que establece relacin entre los hechos: una hiptesis es el
establecimiento de un vnculo entre los hechos que el investigador va aclarando en la medida en
que pueda generar explicaciones lgicas del porqu se produce este vnculo.
Tamayo (1989 75): afirma que:
"La hiptesis es una proposicin que nos permite establecer relaciones entre los hechos. Su valor
reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que se
producen".
La hiptesis como una posible solucin del problema: la hiptesis no es solamente la explicacin o
comprensin del vnculo que se establece entre los elementos inmersos en un problema, es
tambin el planteamiento de una posible solucin al mismo.
Pardinas (1974 132):
"La hiptesis es una proposicin anunciada para responder tentativamente a un problema".
Hiptesis como relacin entre variables: Kerlinger (1985 : 12) expresa; una expresin de las
relaciones existentes entre dos o mas variables, la hiptesis se formula en trminos de oracin
aseverativa por lo tanto:
"Es una expresin conjetural de la relacin que existe entre dos o ms variables. Siempre aparece
en forma de oracin aseverativa y relaciona de manera general o especfica, una variable con otra.
Hiptesis como mtodo de comprobacin: para otros investigadores, la hiptesis es algo mas que
el establecimiento de relaciones entre elementos, o la posible solucin a un problema; por lo tanto;
afirman que es fundamentalmente y ante todo, una herramienta de comprobacin de los supuestos
con la realidad.
Abouhamad (1965:74) sostiene:










Estadistica Inferencial


2013
176
BIBLIOGRAFA

1.-MURRAY R. SPIEGEL, JOHN SCHILLER, R. ALU SRINIVASAN PROBABILIDAD Y
ESTADISTICA , SEGUNDA EDICIN EDITORIAL MC GRAW HILL.

2. Levin I. Richard Estadistica para administadores. Editorial: Prentice-Hall.
3. Kazmier. Estadistica aplicada apara la administracion y economia. Editorial:
McGraw Hill.
4. Walphole. Probabilidad y estadistica. Editorial McGraw Hill.
5. John E. Freund A. Simon. Estadistica elemental. Editorial: Prentice-Hall.
6. Hoel, Paul G., Sidney C. Port & Charles J. Stone, Introduction to Statistical
Theory, Houghton Mifflin Company.
7. Dixon, Wilfrid J., & Frank J. Massey, Jr., Introduction to Statistical Analysis,
McGraw-Hill Book Company.
8. Montgomery, Douglas C., Lynwood A. Johnson & John S. Gardiner, Forecasting
& Time Series Analysis, McGraw-Hill International Editions.
9. Mendenhall, William, Richard L. Scheaffer & Dennis D. Wackerly, Estadstica

You might also like