You are on page 1of 133

Escuela Superior de Física y Matemáticas

Instituto Politécnico Nacional

Tesis Memoria:
Inferencia Estadística

TESIS
que presenta:

Rey Gaspar Hernández Noyola

Para obtener el título de:


Licenciado en Física y Matemáticas

México, D. F., Mayo de 2004.


AGRADECIMIENTOS

A mi madre María de la Luz Noyola Gómez


A la memoria de mi padre Pedro Hernández Ríos

Que por su valioso y decidido apoyo han logrado que siga avanzando paso a paso
por los senderos de la vida hasta lograr la victoria, siempre la victoria.

2
INSTITUTO NACIONAL DE ESTADÍSTICA,
GEOGRAFÍA E INFORMÁTICA

PROGRAMA INTEGRAL DE CAPACITACIÓN, FORMACIÓN


E INVESTIGACIÓN

INFERENCIA ESTADÍSTICA

REY GASPAR HERNÁNDEZ NOYOLA


Mayo de 2004

ESTE MATERIAL FORMA PARTE DEL ACERVO DE LA DIRECCIÓN DE PLANEACIÓN Y CAPACITACION DEL INSTITUTO
NACIONAL DE ESTADISTICA, GEOGRAFIA E INFORMATICA. ES UTILIZADO EN LOS CURSOS DE ESTADISTICA
INFERENCIAL Y BIOESTADISTICA QUE SE IMPARTEN EN ESTE INSTITUTO.

3
INDICE

PAG.
PRESENTACIÓN 3
OBJETIVOS DEL CURSO 3

INTRODUCCIÓN 4

ESTIMACIÓN 7
PROPIEDADES DE LOS ESTIMADORES PUNTUALES 9
ESTIMADORES INSESGADOS
EFICIENCIA RELATIVA DE UN ESTIMADOR 11
CONSISTENCIA DE UN ESTIMADOR 12
ESTIMADORES SUFICIENTES 13
BONDAD DE UN ESTIMADOR PUNTUAL 15

INTERVALOS DE CONFIANZA 20
INTERVALOS DE CONFIANZA CON MUESTRAS GRANDES 24
INTERVALOS DE CONFIANZA CON MUESTRAS PEQUEÑAS PARA:
µ 30
µ1 − µ 2 34
INTERVALOS DE CONFIANZA PARA σ 2 38

PRUEBAS DE HIPÓTESIS 45
CÁLCULO DE LAS PROBABILIDADES DEL ERROR TIPO II 58
PRUEBA PARA µ CON MUESTRAS PEQUEÑAS 65

PRUEBAS DE BONDAD DE AJUSTE 73

TABLAS DE CONTINGENCIA 82

MODELOS DETERMINÍSTICOS Y PROBABILÍSTICOS 89

REGRESIÓN Y CORRELACIÓN 92
REGRESIÓN LINEAL SIMPLE 92
COEFICIENTE DE CORRELACIÓN 97

APÉNDICE 105

BIBLIOGRAFÍA 131

4
PRESENTACIÓN:

Desde hace muchos años, podríamos decir que desde que se fundó el Instituto
Nacional de Estadística, Geografía e Informática, y más aún, desde su antecesor,
Dirección General de Estadística, se percibió la necesidad de formar cuadros
nuevos que con el correr de los años ocuparían puestos claves dentro del Instituto,
técnicos y directivos.

Se observaba que los directivos no tenían tiempo o no querían transmitir sus


conocimientos a los nuevos elementos, es así que surge, producto de esta
necesidad el “Programa Integral de Capacitación, Formación e Investigación” del
INEGI a principios de los 90´s, y con él, la Dirección de Planeación y Capacitación.
Con este programa como base, se diseñan Diplomados, Talleres Internacionales y
cursos especiales.

Estos apuntes pretenden ser una guía para los profesores que imparten esta
asignatura y lectura obligada para todos los trabajadores del Instituto Nacional de
Estadística, Geografía e Informática, que por sus cargas de trabajo no les es
posible asistir a un aula a tomar clases y mucho menos en un horario fijo, pero que
desean profundizar en el estudio de las herramientas estadísticas necesarias para
estimar el comportamiento de fenómenos poblacionales a partir del estudio de una
muestra. Así también, para aquellas personas que estén interesadas en
incursionar en cursos más avanzados y cuyos conocimientos de Inferencia
Estadística no son los más afortunados.

OBJETIVOS DEL CURSO

• Los participantes conocerán las bases metodológicas de la estadística y sus


aplicaciones.

• Podrán seleccionar y aplicar los procedimientos más adecuados para el análisis


inferencial de sus datos.

5
INTRODUCCIÓN
Las técnicas estadísticas se utilizan en casi todos los aspectos de la vida, algunas
veces de forma inconciente pero guiados por nuestra experiencia. Así por ejemplo,
los médicos investigadores, realizan experimentos para determinar el efecto de
ciertos medicamentos. Se diseñan encuestas para medir el nivel de drogadicción
de la sociedad, grado de marginación y pobreza, concentración del ingreso en los
habitantes de nuestro país, estados y municipios, etc. Las técnicas estadísticas
desempeñan una función importante en el logro del objetivo de cada uno de estos
problemas prácticos. Estos apuntes consideran la teoría en la cual se fundamenta
esta metodología.

La estadística es un campo de estudio que está relacionado con la recopilación,


organización, resumen de los datos y la obtención de inferencias acerca de una
población cuando sólo se observa una parte de ella.

Muchas veces nuestro objetivo, estadísticamente hablando, es hacer inferencias


con respecto a parámetros poblacionales desconocidos a partir de una muestra.
Estas inferencias se pueden expresar de dos maneras: como estimaciones de los
parámetros respectivos o como pruebas de hipótesis referentes a sus valores.

En muchos aspectos el procedimiento formal para la prueba de hipótesis es similar


al método científico. El investigador observa la naturaleza, establece una teoría y
después prueba su teoría respecto de la observación. En este contexto el
investigador propone una teoría relativa a los valores específicos de uno o más
parámetros poblacionales. Luego obtiene una muestra de la población y compara
la observación con la teoría. Si las observaciones se contraponen a la teoría, el
investigador rechaza la hipótesis. En caso contrario concluye que la teoría es
válida o bien que la muestra no detectó la diferencia entre los valores reales y los
valores de la hipótesis respecto de los parámetros poblacionales. Se someten
todas estas hipótesis a una verificación estadística comparando las hipótesis con
los datos muéstrales observados. ¿Cuál es el papel de la estadística en las
pruebas de hipótesis? i,e. ¿cuál es el valor de la estadística en este procedimiento
de prueba de hipótesis? Nótese que probar una hipótesis implica tomar una
decisión al comparar la muestra observada con respecto a la teoría.

¿Cómo se decide si una muestra no concuerda con la hipótesis del investigador?


¿Cuándo debe rechazarse la hipótesis, cuándo debe aceptarse y, cuando no debe
emitirse decisión alguna? ¿Cuál es la probabilidad de tomar una decisión
equivocada y en consecuencia sufrir una pérdida? y, en particular, ¿qué función
de las mediciones muestrales debe utilizarse para obtener una decisión? Las
respuestas a estas preguntas las obtendremos del estudio de las pruebas de
hipótesis estadísticas.
Las herramientas estadísticas se emplean en muchos campos: negocios,
educación, psicología, agricultura y economía por mencionar sólo algunos.
Cuando los datos que se están analizando se obtienen de las ciencias biológicas y

6
de la medicina, se utiliza el término Bioestadística para diferenciar a esta
aplicación particular. En forma similar tenemos la Optometría, Econometría, etc.

Una medida descriptiva calculada a partir de los datos de una muestra se conoce
como estadístico.

Una medida descriptiva calculada a partir de los datos de una población se conoce
como parámetro.

La inferencia estadística toma como base las relaciones que existen entre una
población y sus muestras, para inferir acerca de la población.

La inferencia estadística pretende resolver dos problemas fundamentales: la


estimación de parámetros poblacionales a partir de los estadísticos muéstrales
conocidos, y la decisión estadística acerca de hipótesis establecidas sobre una
población, claro, también con base en el conocimiento de sus muestras.

Un estimador es un valor aproximado de un parámetro poblacional. Los


estimadores pueden ser puntuales o por intervalos de confianza. Si la
estimación de un parámetro se hace a través de un número simple, se tendrá un
estimador puntual. Por el contrario, si la estimación del parámetro se hace por
medio de dos números entre los que se considera está ese parámetro, se tendrá
una estimación por intervalo de confianza.

PROCEDIMIENTO DEL DISEÑO DE UN EXPERIMENTO

Los objetos sobre los cuales se hacen mediciones se denominan unidades


experimentales. Si un investigador somete a 10 ratas a un estímulo y mide la
respuesta de cada una de ella, cada rata es una unidad experimental. La
colección de las 10 mediciones es una muestra (de la población formada por todas
las posibles respuestas al estímulo por parte de las ratas de la misma especie,
raza, tipo y edad). De manera similar, si seleccionamos 100 alumnos de una
institución educativa de nivel medio superior para medir la drogadicción en dicha
escuela, cada alumno seleccionado es una unidad experimental.

Regularmente nos interesa conocer alguna característica bajo ciertas condiciones,


más aún, en ocasiones podemos someter a distintos tratamientos a diferentes
grupos de unidades experimentales y en consecuencia obtener diferentes
poblaciones (tantos como tratamientos diferentes). Por ejemplo, podría desearse
estudiar la densidad de un tipo específico de pastel cuando se le hornea a
x = 350 o F, x = 400 o F y x = 450 o F en cierto horno. Una unidad experimental
sería una sola mezcla de pasta en el horno en cierto momento. Las tres
temperaturas, representarían tres tratamientos diferentes. Los millones y millones
de pasteles que podrían hornearse teóricamente a 350 o F generarían una
población de densidades, y se podrían generar similarmente poblaciones

7
correspondientes a 400 y 450 o F . El objetivo del experimento sería comparar la
densidad “y” de los pasteles para las tres poblaciones. O podríamos querer
estudiar el efecto de hornear a diferentes temperaturas sobre la densidad de los
pasteles ajustando un modelo lineal o curvilíneo a los datos.

Las variables que el experimentador controla completamente, tales como la


temperatura del horno, se llaman variables independientes.

Las variables experimentales independientes se denominan factores. Los factores


pueden ser cuantitativos o cualitativos. Un factor cuantitativo es aquel que puede
tomar valores correspondientes a los puntos de una recta real. Los factores que
no son cuantitativos se denominan cualitativos.

Al grado de intensidad de un factor se le llama nivel. En consecuencia, un


tratamiento es una combinación específica de niveles de uno o varios factores.

Uno de los primeros pasos en el diseño de un experimento es la selección de los


factores que se desean estudiar y una decisión acerca de las combinaciones de
los niveles (tratamientos) que se pretenden utilizar en el experimento. Después de
seleccionar las combinaciones de los factores (tratamientos) a utilizar en el
experimento, debe decidirse como asignar los tratamientos a las unidades
experimentales. ¿Habría que asignar aleatoriamente los tratamientos a las
unidades experimentales?

Lo anterior sugiere que el diseño de un experimento implica cuatro pasos.

1.- Se seleccionan los factores que deben incluirse en el experimento y se


especifica el (los) parámetro (s) poblacional (es) de interés.
2.- Se decide cuánta información conviene utilizar para estimar el (los) parámetro
(s) de interés.

3.- Se seleccionan los tratamientos que deben utilizarse en el experimento y se


decide el número de unidades experimentales que deben asignarse a cada uno
de ellos.

4.- Se decide cómo deben aplicarse los tratamientos a las unidades


experimentales.

8
ESTIMACIÓN
Los temas que aquí se tratan, permitirán al lector resolver una gran variedad de
problemas de decisión que se presentan en la investigación científica, la
tecnología, los negocios y aún en la vida diaria.

Con objeto de motivar al lector hacia el estudio de estos temas y darle una idea
sobre lo que trata la inferencia estadística, se comenzará con un ejemplo.

Ejemplo:

Para poder tomar decisiones adecuadas en los sistemas educativos, es necesario


tener bastante información sobre los estudiantes. Esta información muchas veces
no es posible captar de toda la población estudiantil, por falta de recursos
económicos o por la prontitud con que se requiere tal información. Por ejemplo, es
necesario conocer el porcentaje de alumnos del sistema educativo medio superior
del país, cuyos padres se divorciaron durante el año escolar. Para conocer este
porcentaje en un plantel grande (15,000 alumnos), se puede tomar una muestra
de algunos cientos de estudiantes con la esperanza de que el porcentaje
observado en dicha muestra, sea muy parecido al porcentaje existente en toda la
población estudiantil. Esto es, que sea una buena estimación del porcentaje
existente en el estudiantado total del plantel.

Este es un ejemplo típico de inferencia estadística o inducción estadística: se


infiere una característica de una población desconocida, a partir de observar la
misma característica en una muestra.

Con este procedimiento, se espera que el porcentaje poblacional no diste mucho


del porcentaje muestral. Así pues, se puede estimar el porcentaje de la población
p con el porcentaje de la muestra p$ como sigue:

p = p$ ± un pequeño error

Siendo las preguntas claves: "¿qué tan pequeño es el error? y "¿con qué
seguridad tenemos el resultado?". Lo esencial de la inferencia estadística está
aquí.

En consecuencia, el objetivo de la estadística inferencial es precisamente hacer


inferencias acerca de una población basándonos en la información contenida en
una muestra. Como las poblaciones se “identifican” mediante medidas numéricas
denominadas parámetros, el objetivo de la mayoría de las investigaciones
estadísticas es hacer una inferencia con respecto a uno o más parámetros de la
población. La generalidad de los procedimientos de la inferencia estadística
involucran ya sea la estimación o bien la prueba de hipótesis.

9
La estimación tiene muchas aplicaciones prácticas. Por ejemplo, podríamos
desear estimar la cantidad promedio de mercurio µ , que se puede extraer
mediante un proceso particular de una onza de mineral que se extrajo en una
localidad en particular. Podríamos presentar la estimación de dos maneras
diferentes: Se podría dar un solo número, por ejemplo, 0.06 onzas. La intención
es que este número esté cerca de µ , la media desconocida de la población. Este
tipo de estimación se denomina estimación puntual, ya que se da un solo valor, o
punto, como la estimación para µ . Por otra parte, se podría decir que µ se
encuentra entre dos números, por ejemplo entre 0.04 y 0.09 onzas. En este último
tipo de estimación damos dos valores que se pueden utilizar para construir un
intervalo (0.04, 0.09), que se supone incluirá a el parámetro de estudio. Este
segundo tipo de estimación, en donde especificamos un intervalo de valores
posibles de µ , se denomina estimación por intervalo.

El procedimiento de la estimación puntual utiliza la información de la muestra para


obtener un solo dato que estima el parámetro de estudio. El procedimiento de
estimación por intervalos hace uso de la información de la muestra para obtener
dos números que se supone incluirán el parámetro de estudio. En cada caso la
estimación real se hace mediante un estimador, que es una regla que establece
cómo utilizar los datos de la muestra para determinar el valor (o valores) que
utilizaremos como la estimación puntual (o por intervalo).

DEFINICIÓN: Un estimador es una regla que establece como calcular un dato a


partir de las mediciones de una muestra.

Comúnmente un estimador se expresa mediante una fórmula. Por ejemplo, la


media de la muestra:

1 n
y= ∑y
n i =1 i

es un posible estimador puntual para la media de la población µ . La expresión


para y es evidentemente una regla y una fórmula al mismo tiempo. Nos indica
que deben sumarse las observaciones de la muestra y dividirse entre el tamaño de
la muestra n.

Un estudiante que desee obtener una estimación de un parámetro por intervalo de


confianza, tiene que utilizar los datos de la muestra para calcular dos puntos. Se
prevé que el intervalo formado por los dos puntos tenga una alta probabilidad de
incluir el parámetro de estudio.
Es posible obtener muchos estimadores diferentes para un mismo parámetro
poblacional, lo cual no debe sorprendernos. Si cada uno de 10 ingenieros fuesen
asignados para estimar el costo de una gran obra de construcción, obtendrían casi
con certeza distintas estimaciones del costo total. Tales ingenieros, llamados
estimadores en la industria de la construcción, utilizan ciertos lineamientos
establecidos además de su intuición para obtener sus estimaciones. Cada cual

10
representa una sola regla humana subjetiva para obtener una sola estimación.
Esto nos lleva a un aspecto sumamente importante: algunos estimadores se
consideran buenos, otros no. ¿Cómo definiría la gerencia de una empresa
constructora "bueno" y "malo" en relación con la estimación del costo de un
trabajo? y ¿cómo establecería un criterio de bondad para comparar un estimador
con otro?

PROPIEDADES DE LOS ESTIMADORES PUNTUALES


El análisis del razonamiento aplicado para calcular la bondad de un estimador
puntual se facilita al considerar una analogía. La estimación puntual es similar en
muchos aspectos al proceso de disparar con una pistola a un blanco. El
estimador, que genera estimaciones, es semejante a la pistola; una estimación
particular, a la bala, y el parámetro de interés al centro del blanco. Sacar una
muestra de la población y estimar el valor del parámetro es equivalente a disparar
un solo tiro al blanco.

Suponga que una persona dispara un solo tiro al blanco y que el tiro da en el
centro. ¿Podríamos concluir que es un excelente tirador? ¿Querría usted sostener
el blanco mientras se dispara el segundo tiro? Evidentemente, no decidiríamos
que el hombre es un tirador experto basados en tan escasa evidencia.

Sin embargo, si un millón de tiros sucesivos dan en el centro del blanco,


podríamos tener suficiente confianza en el tirador para sostener el blanco en el
siguiente tiro, si la indemnización fuera adecuada. El hecho que deseamos
enfatizar es bastante claro. No podemos evaluar la bondad de un procedimiento
de estimación puntual solamente basándonos en una sola estimación, más bien
debemos observar los resultados y utilizar el procedimiento de estimación, muchas
veces. Puesto que las estimaciones son cifras, evaluaríamos la bondad de un
estimador puntual construyendo una distribución de frecuencias de las
estimaciones obtenidas en un muestreo repetitivo y observaríamos qué tan cerca
se agrupa la distribución alrededor del parámetro de estudio.

Supongamos que se desea hacer una estimación puntual para un parámetro


poblacional que llamaremos θ . Denotaremos el estimador de θ por el símbolo θ$ ,
donde el símbolo circunflejo indica que se estima el parámetro que se encuentra
inmediatamente abajo. Desearíamos que la distribución de las estimaciones, o
más propiamente, la distribución muestral del estimador, se centre alrededor del
parámetro-objetivo como se muestra en la fig. 1. En otras palabras nos gustaría
que la media o valor esperado de la distribución de las estimaciones fuera igual al
parámetro estimado, es decir Ε( θ$) = θ . Los estimadores puntuales que satisfacen
esta propiedad se denominan insesgados.

11
Fig. 1 Una distribución de estimaciones

La distribución muestral para un estimador puntual sesgado positivamente, para la


()
cual Ε θ$ > θ , se representa en la figura 2.

Fig. 2.- Distribución muestral para un estimador sesgado positivamente.

$
DEF.- Sea θ un estimador puntual del parámetro θ . θ$ es un estimador
()
insesgado si Ε θ$ = θ . De lo contrario, se dice que es sesgado.

$
DEF.- Sea θ un estimador puntual sesgado del parámetro θ , definimos el sesgo
$
B del estimador θ por Β = Ε θ$ − θ ()
Sin embargo, además de lo insesgado que se le “exige” a un estimador, se espera
que la dispersión de la distribución de las estimaciones sea lo más pequeña

posible. Es decir, se desea que la


( ) sea mínima. Dados dos estimadores
Var θ$

insesgados de un parámetro θ , elegiremos el estimador con la menor varianza.

12
Por lo tanto, podemos utilizar el sesgo y la varianza para describir la bondad de un
estimador.

(θ$ − θ )
2

También se emplea el valor esperado de para determinar la bondad de un


$
estimador, es decir, el cuadrado de la distancia entre θ y su parámetro-objetivo.

DEF.- La media del cuadrado del error de un estimador puntual θ$ se define como
( ) ()
2
el valor esperado de θ$ − θ y se denota por MCE θ$ , es decir:

() ( )
2
MCE θ$ = E θ$ − θ

y se puede demostrar que

() ()
MCE θ$ = Var θ$ + B2

EFICIENCIA RELATIVA DE UN ESTIMADOR

Normalmente es posible obtener más de un estimador insesgado para el mismo


parámetro objetivo θ .

Si θ$ 1 y θ$ 2 denotan a dos estimadores insesgados para el mismo parámetro θ , se


optaría por utilizar el estimador con la menor varianza. Es decir, si ambos
estimadores son insesgados, θ$ 1 es relativamente más eficiente que θ$ 2 si

( ) ( ) ( )
Var θ$ 2 > Var θ$ 1 . Realmente se utiliza la razón Var θ$ 2 / Var θ$ 1 ( ) para definir la
eficiencia relativa de dos estimadores insesgados.

DEF.- Dados dos estimadores insesgados, θ$ 1 y θ$ , de un parámetro θ , con


2

( ) ( )
varianzas V θ$ 1 y V θ$ 2 , respectivamente, entonces la eficiencia relativa de
θ$ con respecto a θ$ se define como la razón
1 2

Eficiencia =
( )
V θ$ 2
V (θ$ )
1

13
Si

Eficiencia =
( ) >1
V θ$ 2
entonces θ$ 1 es mejor estimador insesgado que θ$ 2 .
V (θ$ )
1

Por ejemplo, si la eficiencia relativa de θ$ 1 con respecto a θ$ 2 es 1.8, entonces la

[ ( )]
magnitud de variabilidad asociada con θ$ 2 V θ$ 2 es 1.8 veces la magnitud de

variabilidad asociada con θ$ 1 . De manera similar, si la eficiencia relativa de θ$1 con


respecto a θ$ es menor que uno, digamos 0.73, entonces la magnitud de variabilidad
2

asociada con θ$ 2 es solamente 0.73 veces la variabilidad asociada con θ$1 . En este
caso se optaría por utilizar θ$ .
2

CONSISTENCIA DE UN ESTIMADOR

Supongamos que se lanza n veces una moneda que tiene la probabilidad p de


resultar sol. Si los lanzamientos son independientes, entonces y, el número de soles
en n lanzamientos, tiene una distribución binomial. Si se desconoce el verdadero
valor de p, la proporción muestral y n es un estimador de p. Como veremos más
adelante, cuando el número de lanzamientos se incrementa, y n está cada vez más
cerca del valor real de p. Es decir, nuestro estimador tiende a aproximarse a la
cantidad que se pretende estimar conforme aumenta la cantidad de información en la
muestra.

Como y n es una variable aleatoria, puede expresarse esta “cercanía” con respecto a
p en términos probabilísticos. En particular, considérese la probabilidad de que la
y
distancia entre el estimador y el parámetro-objetivo: − p es menor que un número
n
real positivo ε arbitrario.

Es decir:

 y 
pr  − p ≤ ε 
n 

Debería estar cerca de la unidad para valores grandes de n, si el razonamiento es


correcto. Si la probabilidad antes mencionada realmente tiende a la unidad cuando
y
n → ∞ , entonces se dice que es un estimador consistente de p o que y n
n
“converge en probabilidad a p”.

14
DEF. El estimador θ$ n es un estimador consistente de θ si para cualquier número
positivo ε .
(
lim pr θˆn − θ ≤ ε = 1
n→∞
)
o equivalentemente

(
lim pr θˆn − θ > ε = 0
n→∞
)
TEOREMA.- Decimos que un estimador insesgado θ$ n de θ es un estimador
consistente para θ si

( )
lim V θ$ n = 0
n →∞

Sea y1 ,..., yn una muestra aleatoria de una distribución con media µ y varianza
σ 2 < ∞ . Entonces y es un estimador consistente de µ . A esta última afirmación se
le conoce como ley de los grandes números.

TEOREMA.- Supongamos que θ$ n converge en probabilidad a θ y que θ$ n ’


converge en probabilidad a θ ’. Entonces

a) θ$ n + θ$ n ’ converge en probabilidad a θ + θ ’

b) θ$ n θ$ n ’ converge en probabilidad a θ θ ’
θ$
c) n $ converge en probabilidad a θ θ ' siempre que θ ' ≠ 0 .
θ n'

d) θ$ n converge en probabilidad a θ si pr (θˆn ≥ ο ) = 1

ESTIMADORES SUFICIENTES

Aquellos estadísticos que en cierto sentido, resumen toda la información contenida


en una muestra con respecto a un parámetro -objetivo tienen la propiedad de la
suficiencia estos son llamados estadísticos suficientes. Por lo tanto podemos
utilizar los estadísticos suficientes para desarrollar estimadores que presenten la
menor varianza entre todos los estimadores insesgados.

15
DEF.- Sea y1 , y2 ,..., yn una muestra aleatoria de una distribución de probabilidad
con un parámetro desconocido θ . Se dice que el estadístico
U = g( y 1 , y 2 ,..., y n ) es suficiente para θ , si la distribución condicional de
y1 ,..., yn dado U no depende de θ .

En el cuadro siguiente presentamos cuatro estimadores puntuales insesgados con


sus respectivas varianzas para cuando se utiliza muestreo aleatorio. Para facilitar
la comunicación utilizaremos la notación σ θ2$ para denotar la varianza de la
distribución muestral del estimador θ$ .

Valores esperados y varianzas para algunos estimadores puntuales comunes.

Parámetro Tamaño de la(s) Estimador E ( θ$) σ θ2$


objetivo θ muestra(s) puntual θ$
µ n y µ σ2
n
p n p$ =
y
n
p pq
n
µ1 − µ 2 n1 y n2 y1 − y2 µ1 − µ 2 σ12 σ2 2 *

+
n1 n2
p1 − p2 n1 y n2 p$1 − p$ 2 p1 − p2
p1 q1 p2 q2
+
n1 n2
* σ 12 y σ 22 son las varianzas de las poblaciones 1 y 2, respectivamente.

Sean (
Y1 = ( y 1 , y 2 ,..., y n ) y Y2 = y 11 , y 2 1 ,..., y n 1 ) dos muestras aleatorias
independientes, entonces es fácil ver que:

E( Y1 − Y2 ) = E( Y1 ) − E( Y2 ) = µ 1 − µ 2
σ 12 σ 2 2
V( Y1 − Y2 ) = V( Y1 ) + V( Y2 ) = +
n1 n2

El valor esperado y varianza de p$1 − p$ 2 , se obtienen de manera similar. Así


mismo, los valores esperados y varianzas dados en la tabla anterior son válidos
independientemente de la forma de las funciones de densidad de probabilidad de
las poblaciones. Los cuatro estimadores tendrán distribuciones de probabilidad
que son aproximadamente normales para muestras grandes ( El teorema del límite
central justifica esta afirmación para y y p$ . Algunos teoremas similares para
funciones de medias muestrales justifican la afirmación para ( y1 − y2 ) y ( p$1 − p$ 2 )
). Para “muchas” poblaciones, las distribuciones de probabilidad de y tendrán
forma acampanada para muestras relativamente pequeñas, tan pequeñas como n
= 5, y tenderán rápidamente a la normalidad cuando el tamaño de la muestra se

16
aproxime a 30 o más. Sin embargo a veces se requiere seleccionar muestras
mayores de las poblaciones binomiales porque el tamaño de muestra requerido
depende de p. La distribución de probabilidad binomial es perfectamente simétrica
con respecto a su media cuando p=1/2 y se hace cada vez más asimétrica cuando
p tiende a cero o a uno.

Veamos ahora como utilizar los estimadores puntuales para resolver cuestiones
prácticas. Si utilizamos un estimador una vez y obtenemos una sola estimación,
¿qué tan buena será esta estimación? ¿cuánta confianza podremos tener en la
validez de nuestra inferencia?

BONDAD DE UN ESTIMADOR PUNTUAL

Una manera de evaluar la bondad de cualquier procedimiento de estimación


puntual estriba en términos de la distancia entre las estimaciones generadas y el
parámetro objetivo. Esta cantidad, que varía de una manera aleatoria en un
muestreo repetitivo, se denomina error de estimación. Naturalmente nos gustaría
que el error de estimación fuera lo más pequeño posible.

DEFINICIÓN.- El error de estimación ε es la distancia entre un estimador y


su parámetro-objetivo. Es decir, ε = θ$ − θ .

Ya que el error de estimación es una cantidad aleatoria, no podemos afirmar que


tan grande o tan pequeño será para una estimación en particular, sin embargo
podemos involucrar la probabilidad. Por ejemplo, supongamos que θ$ es un
estimador insesgado de θ , con una distribución muestral como en la figura
siguiente.

Distribución muestral del estimador puntual θ$

17
Si se eligen dos puntos, ( θ − b) y ( θ + b) , localizados cerca de las colas de la
distribución de probabilidad, la probabilidad de que el error de estimación ε sea
menor que b es el área sombreada en la figura anterior, es decir,

( )
Pr θˆ − θ < b = Pr[− b < θˆ − θ < b]
= Pr[θ − b < θˆ < θ + b]

Podemos considerar a b como una cota del error de estimación. Así, no hay
certeza absoluta de que un error dado sea menor que b, pero es posible saber que
la probabilidad de tal evento es alta. Si se puede considerar a b muy pequeño,
desde un punto de vista práctico, entonces Pr (ε < b ) proporciona una medida de la
bondad de una sola estimación. Esta probabilidad indica la fracción de las veces
que el estimador θ$ toma un valor que se aleja a lo más en b unidades de θ , en
un muestreo repetitivo. Es fácil encontrar el valor de b para un problema dado de
estimación si se conoce la distribución de probabilidad de θ$ . Supongamos que se
desea que ε sea menor que b con una probabilidad de 0.90. Entonces buscamos
el valor de b tal que

θ +b

∫θ f (θˆ)dθˆ
−b
= 0.90

Si se conoce o no la distribución de probabilidad de θ$ se puede encontrar un límite


aproximado de ε para estimadores insesgados expresando a b como un múltiplo
de la desviación estándar de θ$ . Por ejemplo, si b = kσ θ$ , k ≥ 1, entonces por el
teorema de Tchebysheff ε será menor que kσ θ$ con una probabilidad de por lo
1
menos 1 − . Un valor de k conveniente y que se utiliza mucho es k = 2 . Así,
k2
sabemos que ε será menor que 2σθ$ con una probabilidad de por lo menos 0.75.

La mayoría de las variables aleatorias observadas en la naturaleza caen en un


intervalo de dos desviaciones estándar alrededor de su media, con una
probabilidad alrededor de 0.95. La probabilidad de que Y tome un valor dentro del
intervalo ( µ ± 2σ ) está dada en la tabla siguiente para las distribuciones de
probabilidad normal, uniforme y exponencial. Lo que queremos decir naturalmente
es que b = 2 σ θˆ es un buen límite aproximado del error de estimación en una
situación práctica. La probabilidad de que el error de estimación sea menor que
este límite estará cerca de 0.95.

18
Probabilidad de que ( µ − 2σ ) <Y < ( µ + 2σ ) .

Distribución Probabilidad
normal 0.9544
uniforme 1.0000
exponencial 0.9502

Ejemplo 1. Una muestra aleatoria de 1000 pacientes del Hospital General de


Nueva Miranda, seleccionados al azar durante el mes que acaba de
concluir, mostró que 560 pacientes llegaron antes de 30 minutos de
su consulta. Estime la proporción p de pacientes del Hospital General
que llegan con una anticipación mayor a 30 minutos a su consulta.
Solución.-
y
Utilizaremos el estimador p$ =para estimar p. Por lo tanto, la fracción de
n
pacientes que llegan con mucha anticipación a su consulta es:

y 560
p$ =
= = 0.56
n 1000
Además, como la muestra es grande, con toda seguridad su distribución
de probabilidad es normal. Por lo tanto, cuando b = 2σ p$ , la probabilidad de
que el error de estimación ε sea menor que b es aproximadamente 0.95.

Como sabemos que:

pq
Var ( p$ ) =
n
entonces
pq
σ p$ =
n
y
pq
b = 2σ p$ = 2
n

por lo tanto

(0.56)(0.44)
b=2 = 0.03
1000

Es decir, estamos bastante confiados en que la estimación de 0.56 difiera a lo más


en 0.03 del parámetro poblacional.

19
EJERCICIOS
1.- Los geólogos están interesados en los cambios y los movimientos de la
superficie de la tierra que se manifiestan por rupturas (fracturas) en la
corteza de la tierra. Una de las rupturas más conocidas es la falla de San
Andrés (una fractura en movimiento) en California. Un geólogo que
pretendía estudiar el movimiento de los cambios relativos en la corteza de
la tierra en un sitio particular encontró muchas fracturas en la estructura
rocosa local. En un intento por determinar el ángulo medio de las
fracturas, eligió n=50 fracturas y encontró que la media muestral y la
desviación estándar eran 39.80º y 17,2º, respectivamente. Estimar la
media de la dirección angular de las fracturas y establecer un límite para el
error de estimación.

2.- La Agencia para la Protección Ambiental y la Universidad de Florida,


cooperaron recientemente en cierto estudio de los posibles efectos de
oligoelementos en agua potable con respecto a la formación de cálculos
renales. Enseguida se indican datos respecto a la edad, la concentración
de calcio en el agua potable para consumo casero (medida en partes por
millón), y el hábito de fumar. Se obtuvieron estos datos de individuos con
problemas recurrentes de cálculos renales que viven en los estados de
ambas Carolinas y en los estados de las Montañas Rocallosas.

Carolinas Rocallosas
Tamaño de la muestra 467 191
Edad promedio 45.1 46.4
Desviación estándar 10.2 9.8
de la edad
Concentración promedio 11.3 40.1
de calcio (ppm)
Desviación estándar 16.6 28.4
para el calcio
Proporción de 0.78 0.61
Fumadores

a) Estimar la concentración media de calcio en el agua potable para los


pacientes con cálculo en las Carolinas. Establecer un límite para el error
de estimación.

b) Estimar la diferencia en el promedio de las edades de los pacientes con


cálculos renales en las Carolinas y en las Rocallosas. Establecer un límite
para el error de estimación.

20
c) Estimar y establecer un límite de dos desviaciones estándar para la
diferencia en las proporciones de los pacientes con cálculos renales en las
Carolinas y en las Rocallosas que eran fumadores al momento del estudio.

3.- En aluminio policristalino, el número de centros de granulación por unidad


de volumen presenta un modelo de distribución de Poisson con media λ .
Cincuenta especímenes de volumen unitario sometido a pruebas de
recocido según el método A revelaron un promedio de 20 centros por
unidad de volumen. Cincuenta especímenes de volumen unitario en las
pruebas de recocido según el método B revelaron un promedio de 23
centros por unidad de volumen.

a) Estimar el número medio, λ A , de los centros de granulación para el


método A, y establecer un límite de dos desviaciones estándar para el
error de estimación.

b) Estimar la diferencia en la cantidad promedio de los centros de


granulación λA − λB , para los métodos A y B. Establecer un límite de dos
desviaciones estándar para el error de estimación.
¿Considera usted que el método B tiende a producir una mayor cantidad
promedio de centros de granulación? ¿Por qué?

21
INTERVALOS DE CONFIANZA
Como vimos anteriormente, un estimador por intervalo es una regla que especifica
el método que utiliza las mediciones de la muestra para calcular dos números que
forman los extremos del intervalo. En el caso ideal sería conveniente que el
intervalo tuviera dos propiedades. Primero, que el intervalo contenga al parámetro-
objetivo θ . Segundo, que el intervalo sea relativamente estrecho. Uno o ambos
extremos del intervalo variarán de manera aleatoria de una muestra a otra, porque
son funciones de las mediciones de la muestra. Así, la longitud y la localización del
intervalo son cantidades aleatorias, y no podemos estar seguros de que el
parámetro objetivo (fijo) θ se localice realmente entre los extremos de cualquier
intervalo calculado a partir de una sola muestra. Dada esta situación, el objetivo es
encontrar un estimador por intervalo que genere intervalos angostos que
contengan a θ con una alta probabilidad.

Los estimadores por intervalo se denominan comúnmente intervalos de


confianza. Los extremos superior e inferior de un intervalo de confianza se llaman
límites de confianza superior e inferior, respectivamente, la probabilidad de que un
intervalo de confianza contenga a θ se conoce como coeficiente de confianza.
En la práctica, el coeficiente de confianza indica la fracción de veces, en un
muestreo repetitivo, de que los intervalos construidos contengan al parámetro-
objetivo θ .

Si se sabe que el coeficiente de confianza asociado a nuestro estimador es alto,


estaremos bastante confiados de que un intervalo de confianza particular,
construido a partir de una sola muestra, contenga θ .

Supongamos que θ$ i y θ$ s son los límites de confianza inferior y superior,


respectivamente, para un parámetro θ . Si

Pr (θˆi < θ < θˆs ) = 1 − α

La probabilidad 1 − α es el coeficiente de confianza. El intervalo aleatorio


resultante, definido por θ$ i , hasta θ$ s , se denomina intervalo de confianza
bilateral.

También es posible construir un intervalo de confianza unilateral tal que

Pr (θˆi < θ ) = 1 − α .

Aunque solamente un punto es aleatorio en este caso, el intervalo de confianza es


(θ$ i , ∞) . De manera similar, podríamos tener un intervalo de confianza unilateral
superior tal que

22
Pr (θ < θˆs ) = 1 − α .
(
En cuyo caso, el intervalo de confianza correspondiente es −∞ , θ$ s . )
Un método muy útil para obtener los intervalos de confianza se denomina método
del pivote. Este método depende de la determinación de una expresión pivote
que posee dos características:

1.- Es una función de las mediciones de la muestra y el parámetro


desconocido θ , en donde θ es la única cantidad desconocida.

2.- Tiene una distribución de probabilidad que no depende del parámetro θ .

Si se conoce la distribución de probabilidad de la cantidad pivote, entonces se


puede utilizar la lógica siguiente para obtener el intervalo deseado de estimación.
Si Y es una variable aleatoria, C una constante (c > o) y

Pr (a ≤ Y ≤ b ) = 0.7
entonces
Pr (ac ≤ Yc ≤ bc ) = 0.7

de manera similar, para cualquier constante d;

Pr (a + d ≤ Y + d ≤ b + d ) = 0.7 .

Es decir, la probabilidad del evento ( a < Y < b ) no se altera por ningún cambio de
escala o traslación de Y. Por lo tanto, si conocemos la distribución de probabilidad
de una cantidad pivote, es posible aplicar las operaciones descritas anteriormente
para obtener el estimador por intervalo deseado. Explicaremos este método en los
siguientes ejemplos:

Ejemplo 2.- Supóngase que se obtiene una sola observación Y de una


distribución exponencial con media θ . Utilice Y para construir un
intervalo de confianza para θ con coeficiente de confianza de 0.90.

23
Solución.-

La función de densidad de probabilidad para Y está dada por

( θ1 )e −
y
θ
para y ≥ 0
f ( y) = 
0 en cualquier otro punto

Y
Por lo tanto U = tiene la función de densidad exponencial dada por
θ

e − u para u > 0
f u ( u) = 
0 en cualquier otro punto

La función de densidad para U se representa gráficamente a continuación .


Y
podemos ver que U = es una función de Y (la medición de la muestra) y θ , y
θ
Y
que la distribución de U no depende de θ . Por lo tanto podemos utilizar U =
θ
como una expresión pivote. Dado que se desea un estimador por intervalo con un
coeficiente de confianza igual a 0.90, encontramos los números a y b, tales que

Pr (a ≤ U ≤ b ) = 0.90 .

Por lo tanto:
a
Pr (U ≤ a ) = ∫ e −u du = 0.05
o

Pr (U > b ) = ∫ e −u du = 0.05
b

entonces:

1 − e − a = 0.05 y e − b = 0.05

de donde:

a= 0.051
b= 2.996

24
f(u)

Función de densidad para U

Por lo tanto

0.90 = Pr (0.051 ≤ U ≤ 2.996 )

 y 
= Pr  0.051 ≤ ≤ 2.996 
 θ 

como Pr ( y > 0) = 1 entonces

 0.051 1 2.996 
0.90 = Pr  ≤ ≤ 
 y θ y 

 y y 
= Pr  ≥θ ≥ 
 0.051 2.996 

 y y 
= Pr  ≤θ ≤ 
 2.996 0.051 

25
por lo tanto
y
θ$ i =
2.996

y
θ$ s =
0.051

Para obtener los valores numéricos de estos límites, se debe observar un


valor real de Y y sustituir ese valor en las fórmulas dadas para los límites
Y Y 
de confianza. Sabemos que los intervalos de la forma  , 
 2.996 0.051
incluirán el verdadero(desconocido) valor de θ para el 90% de los valores
de Y que se obtengan a partir de un muestreo repetitivo de esa
distribución exponencial.

INTERVALOS DE CONFIANZA CON MUESTRAS GRANDES


Ya vimos algunos estimadores puntuales insesgados para los parámetros
µ , p, µ 1 − µ 2 , p 1 − p 2 . Estos estimadores puntuales tienen aproximadamente
distribuciones muéstrales normales para muestras grandes. Es decir, si el
parámetro objetivo θ es µ , p, µ 1 − µ 2 , p 1 − p 2 entonces
θ$ − θ
Z=
σ θ$
( )
tiene aproximadamente una distribución normal estándar. Es decir, Z = θ$ − θ σ θ$
representa una expresión pivote, y por lo tanto, se pueden desarrollar estimadores
por intervalos para el parámetro-objetivo θ .

Ejemplo 3.- Sea θ$ un estadístico que tiene una distribución normal con valor
esperado θ y varianza σ θ$ 2 . Encuentre un intervalo de confianza para
θ que tenga un coeficiente de confianza de (1 − α ) .

Solución.-
θ$ − θ
La expresión Z=
σ θ$

tiene una distribución normal estándar. Ahora seleccionamos dos valores en los
extremos de esta distribución, Z α y − Z α , tales que
2 2

Pr  − Z α < Z < Z α  = 1 − α
 2 2 

26
Sustituyendo Z:

 θˆ − θ 
Pr  − Z α < < Z α  = 1 − α
 2 σ θˆ 2

Pr  − Z α σ θˆ < θˆ − θ < Z α σ θˆ  = 1 − α
 2 2 
Pr  − θˆ − Z α σ θˆ < −θ < −θˆ + Z α σ θˆ  = 1 − α
 2 2 
Pr θˆ + Z α σ θˆ > θ > θˆ − Z α σ θˆ  = 1 − α
 2 2 
Pr θˆ − Z α σ θˆ < θ < θˆ + Z α σ θˆ  = 1 − α
 2 2 

Por lo tanto, los límites de confianza son:

Límite de confianza inferior ( LCI ) = θ$ − Zα σ θ$


2

Límite de confianza superior ( LCS) = θ$ + Z α σ θ$


2

El ejemplo anterior se puede utilizar para encontrar los intervalos de


confianza con muestras grandes para µ , p , ( µ 1 − µ 2 ) y ( p1 − p 2 )
parámetros que deseamos estimar.

Ejemplo 4.- Se registraron los tiempos utilizados por consulta para 64 pacientes
del Hospital General de Nueva Miranda seleccionados al azar. La
media y la varianza de los 64 tiempos por consulta fueron 33 minutos
y 256, respectivamente. Estime el promedio real µ del tiempo
utilizado con cada paciente, con un coeficiente de confianza de
1 − α = 0.90 .

27
Solución.-

El parámetro de interés es θ = µ , por lo tanto θ$ = y = 33 y S 2 = 256 en una


muestra de 64 pacientes. La varianza poblacional σ 2 se desconoce, por lo
tanto, utilizamos S2 como su valor estimado. En consecuencia, el intervalo
de confianza

θ$ ± Zα σ θ$
2
tendrá la forma
 σ   S 
y ± Zα   ≅ y ± Zα  
2 n 2 n

De la tabla 4 del apéndice I

Z α = Z 0.05 = 1.645
2

por lo tanto

 S   16 
y − Zα   = 33 − 1645
.   = 29.71
2 n  8

 S   16 
y + Zα   = 33 + 1645
.   = 36.29
2 n  8

De donde, el intervalo de confianza para µ , es (29.71 , 36.29) . Es muy


probable que este intervalo incluya µ , ya que, en un muestreo repetitivo,
aproximadamente el 90% de todos los intervalos de la forma
 σ 
y ± 1.645  incluye µ , el promedio real del tiempo utilizado con cada
 n
paciente.

Ejemplo 5.- Dos marcas diferentes A y B de un mismo medicamento, tienen


(ambas) una garantía de un año. En una muestra aleatoria de 50
medicamentos de la marca A, 12 se descompusieron antes de
terminar el periodo de garantía. Una muestra aleatoria de 60
medicamentos de la marca B reveló también 12 descompuestos
durante el periodo de garantía. Estime la diferencia real entre las
proporciones de fallas ( p1 − p 2 ) durante el periodo de garantía con un
coeficiente de confianza de 0.98.

28
Solución.-

El intervalo de confianza

θ$ ± Z α σ θ$
2

tendrá la forma

p1q1 p 2 q 2
( p$ 1 − p$ 2 ) ± Zα 2 +
n1 n2

como se desconocen p1 , q1 , p 2 , q 2 . Podemos estimarlos con


p$ 1 , q$ 1 , p$ 2 , q$ 2 logrando con ello una buena aproximación de σ $ θ

Por lo tanto

12
p$ 1 = = 0.24 , q$ 1 = 0.76
50
12
p$ 2 = = 0.20 , q$ 2 = 0.80
60

como 1 − α =.98
entonces α = 0.02
por lo tanto ( de la tabla 4, apéndice I):

Z α = Z 0.01 = 2.33
2

y el intervalo de confianza es:

( 0.24)( 0.76) ( 0.20)( 0.80)


( 0.24 − 0.20) ± 2.33 +
50 60

= 0.04 ± 0.1852 , es decir

(- 0.1452 , 0.2252)

Podemos ver que el intervalo de confianza contiene al cero, entonces la


verdadera diferencia ( p1 − p 2 ) , podría ser positiva o negativa.

29
EJERCICIOS

1. La dirección médica de una clínica deseaba estimar el número promedio


de días necesarios para el tratamiento de pacientes entre 25 y 34 años.
Una muestra aleatoria de 500 pacientes de la clínica con esas edades
proporcionó una media y una desviación estándar de 5.4 y 3.1 días,
respectivamente. Obtener un intervalo de confianza de 95% para el
promedio del tiempo de estancia de la población de pacientes de la cual se
obtuvo la muestra. Utilizar un coeficiente de confianza de 0.95.

2. Según el Environment News (septiembre de 1975), la “lluvia ácida”


causada por la reacción de ciertos contaminantes en el aire con el agua de
lluvia parece ser un problema creciente en la parte noroeste de Estados
Unidos. (La lluvia ácida afecta el suelo y corroe las superficies metálicas
expuestas). La lluvia pura que se precipita a través del aire limpio tiene un
pH de 5.7 (el pH es una medida para el acidez; 0 es ácido, 14 es alcalino).
Supóngase que se analizan muestras de agua de 40 lluvias con respecto a
su pH y que x y s son iguales a 3.7 y 0.5, respectivamente. Determinar un
intervalo de confianza de 99% para la media de los pH en las lluvias e
interpretar el intervalo. ¿Qué supuesto debe establecerse para que sea
válido el intervalo de confianza?

3. Según Environment News (abril de 1975), “el análisis continuo de los


niveles de plomo en el agua potable de varias comunidades de Boston
reveló niveles elevados de plomo en los suministros de agua de
Somerville, Brighton y Beacon Hill...” Los resultados preliminares de un
estudio efectuado en 1974 indicaron que “el 20% de 248 hogares que se
analizaron en estas comunidades reveló niveles elevados que exceden el
estándar de la Agencia de Salud Pública de EE.UU. de 50 partes por
millón”. Al contrario, en Cambridge, que añade anticorrosivos al agua,
“solamente el 5% de los 110 hogares analizados mostró niveles de plomo
mayores que el estándar”. Obtener un intervalo de confianza de 95% para
la diferencia de las proporciones de hogares que tienen niveles de plomo
que exceden el estándar entre las comunidades de Somerville, Brighton y
Beacon Hill, y la comunidad de Cambridge.

4. Para comparar las proporciones de artículos defectuosos producidos por


dos líneas de producción, se seleccionan muestras aleatorias
independientes de 100 artículos de cada línea . La línea A produjo 18
defectuosos en la muestra y la línea B produjo 12 defectuosos. Obtener un
intervalo de confianza de 98% para la diferencia real entre las

30
proporciones de defectuosos para las dos líneas (¿Existe evidencia
suficiente para sugerir que una línea produce una proporción más alta de
defectuosos que la otra?)

5. La Research Quarterly de mayo de 1979 publica los resultados de un


estudio sobre la relación entre la participación en los deportes y la
destreza manual. De una muestra aleatoria de 37 alumnos de segundo
grado que participaron en los deportes, se obtuvo una calificación media
de destreza manual de 32.19 y una desviación estándar de 4.34. De una
muestra aleatoria independiente de 37 alumnos de segundo grado que no
participaron en los deportes, se calculó una calificación media de destreza
manual de 31.68 y una desviación estándar de 4.56. Estime la diferencia
en los promedios reales de los resultados para los dos grupos con un
intervalo de confianza de 90%. ¿Le parece que la calificación promedio de
destreza manual para quienes participan en los deportes difiere de la
calificación promedio de quienes no participan en los deportes?.

6. En un estudio de la relación entre el orden de nacimiento en la familia y el


grado de aprendizaje en la universidad, un investigador encontró que 126
de una muestra de 180 graduados universitarios son primogénitos o hijos
únicos; en una muestra de 100 no graduados de una edad y situación
socioeconómica comparable, el número de primogénitos o hijos únicos era
54. Estime la diferencia en las proporciones de primogénitos o hijos únicos
para las dos poblaciones de las cuales se obtuvieron estas muestras.
Utilice un intervalo de confianza de 90%.

31
INTERVALOS DE CONFIANZA PARA µ . CON MUESTRAS
PEQUEÑAS
El intervalo de confianza que se tratará en esta sección se basa en el supuesto de
que la muestra se ha seleccionado aleatoriamente de una población normal. Es
apropiado para muestras de cualquier tamaño y funciona satisfactoriamente aun
cuando la población no es normal, mientras que la desviación de la normalidad no
sea excesiva. Es decir, rara vez conocemos la forma de la distribución de
frecuencias de la población antes del muestreo. Por lo que, si un intervalo de
confianza debe ser útil, tiene que funcionar bien aun cuando la población no sea
normal. Funcionar “bien” quiere decir que el coeficiente de confianza no debe ser
afectado por desviaciones pequeñas de la normalidad. Este intervalo de confianza
mantendrá un coeficiente de confianza cerca del valor especificado por el
investigador para la mayoría de las distribuciones de probabilidad con forma
acampanada.

Sea Y1 , Y2 ,..., Yn una muestra aleatoria seleccionada de una población normal,


Y y S2 la media y la varianza de la muestra, respectivamente. se desea
construir un intervalo de confianza para la media poblacional cuando se
desconoce Var( Yi ) = σ 2 y cuando el tamaño de la muestra es demasiado pequeño
para aplicar las técnicas para muestras grandes vistas en el apartado anterior.

Recordemos algunos resultados antes de continuar

TEOREMA 1.-

Sea Y1 , Y2 ,..., Yn una muestra aleatoria de tamaño n de una distribución normal con
media µ y varianza σ 2 . Entonces

n
1
Y=
n
∑Y
i =1
i

tiene una distribución normal con media µ y varianza σ n


2

TEOREMA 2.-

Sea Y1 , Y2 ,..., Yn una muestra aleatoria de una distribución normal con media µ y
varianza σ 2 . Entonces

(Yi − Y )2 = (n − 12)S
n 2
1
2∑
σ i =1 σ

32
tiene una distribución χ 2 con (n-1) grados de libertad . Y y S2 son también
variables aleatorias independientes.

DEF.- Sea Z una variable aleatoria normal estándar y sea χ 2 una variable
ji − cuadrada con ν grados de libertad. Entonces si Z y χ 2 son
independientes,
Z
T= ≈ tν
χ2
ν

tiene una distribución t con ν grados de libertad .

Dado que Y1 , Y2 ,..., Yn es una muestra aleatoria de una población normal con
media µ y varianza σ 2 .

Y−µ n (Y − µ)
Z= =
σ σ
n

tiene una distribución normal estándar. Y por el teorema 2,

χ =
2 (n − 1)S 2
≈ χ n2−1
2
σ

tiene una distribución χ 2 con (n-1) grados de libertad. Además Z y χ 2 son


independientes pues Y y S2 lo son. Por lo que al aplicar la última definición

n (Y − µ)
Z σ
T= =
χ 2
( n − 1)s 2
υ σ 2 ( n − 1)
 Y − µ Y − µ
T = n = s
 s 
n

tiene una distribución t con (n-1) grados de libertad. Esta variable T servirá de
expresión pivote para construir un intervalo de confianza para µ . De la tabla 5
apéndice I, podemos encontrar los valores de t α y − t α tales que
2 2

33
Pr (−tα ≤ T ≤ tα ) = 1 − α
2 2

La distribución t tiene una distribución de densidad muy similar a la normal


estándar, pero los extremos de la t son más gruesos (colas más pesadas).
Recuérdese que los valores de t α depende de los grados de libertad (n-1), así
2

como del coeficiente de confianza (1 − α ) .

El intervalo de confianza para µ se desarrolla tal como en el ejemplo 2. En este


caso el intervalo de confianza resultante para µ tiene la forma.

 S 
Y ± tα  
2 n

De donde:

 S 
Limite inferior de confianza: Y − tα  
2 n
 S 
Límite superior de confianza: Y + tα  
2 n

Ejemplo 6.- Se hicieron determinaciones de amilasa en suero de una muestra de


15 personas aparentemente normales. Dicha muestra proporcionó
una media de 96 unidades /100 ml. y una desviación estándar de 35
unidades /100 ml. Encuentre un intervalo de confianza para el
promedio real de amilasa en suero de la población aparentemente
normal, con un coeficiente de confianza de 0.95. Suponga que las
mediciones tienen aproximadamente una distribución normal.

34
Solución.-

El intervalo de confianza para µ es

 S 
Y ± tα  
2 n
Donde:

Y = 96

S = 35

De la tabla 5 del apéndice, y dado que:

1 − α = 0.95
α = 0.05

t α = t 0.025 = 2.145 ya que hay (n-1)= 14 grados de libertad asociados con


2
esta muestra.

Por lo tanto tenemos:

 35 
96 ± (2.145) =
 15 
96 ± (2.145)(5.9161) =
96 ± 12.68999

entonces:

(83.31 , 108.69) es el intervalo de confianza observado para µ . Es decir,


el promedio real de la amilasa en suero de las personas normales se
encuentra entre 83.31 y 108.69 unidades/100 ml, con un nivel de
confianza del 95%.

35
INTERVALOS DE CONFIANZA PARA µ1 − µ2 CON MUESTRAS
PEQUEÑAS
Supongamos que nos interesa comparar las medias de dos poblaciones normales,
una con media µ 1 y varianza σ 12 y la otra con media µ 2 y varianza σ 2 2 . Un
intervalo de confianza para µ 1 − µ 2 basado en una variable aleatoria T se puede
construir si suponemos que σ 12 = σ 22 = σ 2 .

Si Y1 y Y2 son las medias muestrales respectivas, obtenidas de muestras


aleatorias independientes, el intervalo de confianza con muestras grandes para
( µ 1 − µ 2 ) se desarrolla a partir de la variable aleatoria

Z=
(Y1 − Y2 ) − ( µ 1 − µ 2 )
σ 12 σ 22
+
n1 n2

que tiene aproximadamente una distribución normal estándar

Como: σ 12 = σ 2 2 = σ 2

Z=
(Y − Y ) − (µ
1 2 1 − µ2 )
1 1
σ +
n1 n 2

Ahora necesitamos un estimador para la varianza común σ 2 para poder construir


una expresión con una distribución t.

Sea Y11 , Y12 ,..., Y1n1 la muestra aleatoria de tamaño n1 de la primera población, y sea
Y21 , Y22 ,..., Y2 n 2 una muestra aleatoria independiente de la segunda población.
Entonces:

1 n1
Y1 = ∑ Y1i
n 1 i =1
n2
1
Y2 =
n2
∑Y
i =1
2i

El estimador insesgado acostumbrado de la varianza común σ 2 se obtiene al


ponderar los datos de las muestras para obtener

36
n1 n2

∑ (Y1i − Y1 ) + ∑ (Y2 i − Y2 )
2 2

S2 = i =1 i =1
n1 + n 2 − 2

S2 =
( n1 − 1)S12 + ( n 2 − 1)S2 2
n1 + n 2 − 2

en donde S2i es la varianza muestral de la i-ésima muestra, i=1,2. Note que:

n1 n2

∑ (Y − Y1 ) ∑ (Y − Y2 )
2 2

( n1 + n 2 − 2)S 2

= i =1
1i
+ i =1
2i

σ2 σ2 σ2

es la suma de dos variables χ 2 independientes con ( n1 − 1) y ( n 2 − 1) grados de


libertad, respectivamente.

Por lo tanto:
(n1 + n2 − 2)S 2
σ2

tiene una distribución χ 2 con ν = ( n1 + n 2 − 2) grados de libertad(ver teoremas 1 y


2). Ahora utilizamos esta variable χ 2 y la Z anterior para formar una expresión
pivote. Es decir

Z
T=
χ2
ν

  
  
 ( Y1 − Y2 ) − (µ 1 − µ 2 )   1 
= 
  2 
1 1 ( n 1 + n 2 − 2)S 
 σ + 
 n1 n 2   σ 2 ( n 1 + n 2 − 2) 

=
(Y − Y ) − (µ
1 2 1 − µ2 )
1 1
S +
n1 n 2

tiene una distribución t con ( n1 + n 2 − 2) grados de libertad.

37
El intervalo de confianza para ( µ 1 − µ 2 ) tiene entonces la forma

1 1
(Y − Y ) ± t
1 2 α
2
S +
n1 n 2

en donde tα se obtiene de la distribución t con ( n1 + n 2 − 2) grados de libertad.


2

Si σ1 2 ≠ σ 2 2

T′ =
( Y − Y ) − (µ
1 2 1 − µ2 )
S12 S2 2
+
n1 n 2

no sigue una distribución t con n1 + n2 − 2 grados de libertad. Una forma de


solucionar el problema es utilizar un valor modificado para los grados de libertad.
Una fórmula conveniente para hacerlo es la dada por Dixon y Massey como sigue:

2
 s1 2 s 2 2 
 + 
 n1 n 2 
gl ' = 2 2
... (1)
 s1 2   s2 2 
 n 1   n 2 
 
+
n1 n2

si se verifican las hipótesis de normalidad, T ' está distribuida aproximadamente


como t con los grados de libertad calculados mediante la ec. anterior. El intervalo
de confianza para ( µ1 − µ 2 ) está dado entonces por la expresión:

S12 S2 2
Y1 − Y2 ± t α +
2 n1 n2

El valor numérico de los grados de libertad calculados a partir de la ecuación (1)


puede no ser un entero. En este caso, por lo general resulta conveniente utilizar el
valor más próximo de gl ' dado en la tabla de la distribución t.

El intervalo obtenido mediante este método se interpreta en la forma habitual, pero


debe tenerse presente que dicho intervalo es solo aproximado.

38
Ejemplo 7.- Se estudió la actividad total del complemento serológico (C H 50 ) en 20
personas aparentemente sanas y 10 personas enfermas. Se
obtuvieron los siguientes resultados:

Personas n x s

Enfermas 10 62.5 33.8

Normales 20 47.2 10.1

Los investigadores tenían razón al pensar que las poblaciones


muestreadas estaban distribuidas en forma aproximadamente
normal, pero se rehusaban a suponer que las varianzas de las dos
poblaciones desconocidas eran iguales. Encuentre el intervalo de
confianza del 95% para µ1 − µ 2 .

Solución.-

El valor modificado de los grados de libertad está dado por:


2
 338 . 2
. 2 101
 + 
 10 20 
g. l ' = = 10.9
( ) ( )
2 2
. 2
338 .2
101
10 20
+
10 20

El valor de t que corresponde a un coeficiente de confianza de 0.95 y 11 grados de


libertad es de 2.201, y el intervalo de confianza aproximado del 95% para µ1 − µ 2
es

. 2 101
338 .2
(62.5 − 47.2) ± (2.201) +
10 20
15.4 ± (2.201)(10.92)
15.4 ± 24.0
(−8.6 , 39.4)
Cuando el tamaño de la muestra n se vuelve grande, el número de grados de
libertad para la distribución t se puede aproximar muy bien por la distribución
normal estándar. Los intervalos son casi equivalentes cuando los grados de
libertad son mayores que 30.

39
INTERVALO DE CONFIANZA PARA σ 2

Recordemos que la varianza de la población σ 2 cuantifica la variabilidad de los


datos poblacionales. Regularmente se desconoce el valor real de σ 2 y requerirá
estimarlo. Sabemos que:

1
∑ ( Yi − Y )
2
S2 =
n −1

es un estimador insesgado de σ 2 . Al construir intervalos de confianza para µ ,


utilizamos S2 para estimar σ 2 cuando esta se desconoce.

Con el fin de obtener más información con respecto a σ 2 para calcular intervalos
de confianza para µ y µ1 − µ 2 , es de utilidad construir un intervalo de confianza
para σ 2 . Por ejemplo, si se hiciera un cuidadoso análisis químico de las tabletas
de cierto medicamento, estaríamos interesados en la cantidad media de
ingrediente activo por tableta y la cantidad de variabilidad entre las tabletas
cuantificada por σ 2 . Naturalmente, para un medicamento se desearía tener una
variación pequeña entre tableta y tableta y por lo tanto un valor pequeño de σ 2 .

Para proceder con nuestro método de la estimación por intervalo, necesitamos


disponer de una expresión pivote. Una vez más supongamos que tenemos una
muestra aleatoria Y1 , Y2 ,..., Yn de una distribución normal con media µ y varianza
σ 2 , ambas desconocidas. Del teorema 2 tenemos que:
n

∑ (Y − Y )
2

i =1
i
=
( n − 1) s 2
σ2 σ2

tiene una distribución χ 2 con (n-1) grados de libertad. Entonces podemos proceder,
por el método del pivote, a encontrar dos números χ 2i y χ s2 tales que


Pr  χ i2 ≤
(n − 1)S 2 ≤ χ 2  = 1 − α
s 
 σ2 

para cualquier coeficiente de confianza 1− α . (Los símbolos i y s corresponde a


“inferior” y “superior”, respectivamente). La función de densidad χ 2 no es
simétrica, y por esto hay cierta libertad en la elección de χ 2i y χ s2 . Nos interesa
encontrar el intervalo más estrecho que corresponda a una probabilidad de ( 1− α ) ,

40
pero esto generalmente es difícil. Escogemos arbitrariamente los puntos que
limitan áreas iguales en las colas, como se indica en la fig. siguiente.

Un reordenamiento de la desigualdad en el enunciado probabilístico antes


mencionado nos permite obtener:

 (n − 1)S 2 (n − 1)S 2  = 1 − α
Pr  ≤ σ 2
≤ 
 χs χ i2 
2

y por lo tanto el intervalo de confianza para σ 2 es

 ( n − 1)S 2 ( n − 1)S 2 

 χ2 ,  ... ( g)
 s χ i2 

Donde

χ 2i = χ α2
2

χ =χ2
s
2
1− α 2

Si se saca la raíz cuadrada de cada término de la expresión (g) se tiene el


intervalo de confianza para σ con un coeficiente de confianza de 1− α . Es decir

( n − 1)s2 ( n − 1)s2
<σ <
χ 2s χ i2

41
EJERCICIOS
1. En un experimento diseñado para estimar el número promedio de latidos
por minuto del corazón para cierta población, en las condiciones del
experimento, se encontró que el número promedio de latidos por minuto
para 49 personas era de 90. Si resulta lógico suponer que esos 49
pacientes constituyen una muestra aleatoria y que la población está
distribuida normalmente, con una desviación estándar de 10, encuentre:

a) El intervalo de confianza del 90 por ciento para µ .


b) El intervalo de confianza del 95 por ciento para µ .
c) El intervalo de confianza del 99 por ciento para µ .

2. Se encontró que el nivel indirecto medio de bilirrubinas en el suero de 16


niños de cuatro días de nacidos era de 5.98 mg/100 cc. Suponiendo que
los niveles de bilirrubinas en los niños de cuatro días de nacidos presentan
una distribución aproximadamente normal con una desviación estándar de
3.5 mg/100 cc., encuentre:

a) El intervalo de confianza del 90 por ciento para µ .


b) El intervalo de confianza del 95 por ciento para µ .
c) El intervalo de confianza del 99 por ciento para µ .

3. En un estudio de la duración de hospitalización realizado por varios


hospitales en cooperación, se extrajo al azar una muestra de 64 pacientes
con úlcera péptica de una lista de todos los pacientes con esta
enfermedad admitidos alguna vez en los hospitales y se determinó, para
cada uno, su duración de hospitalización por admisión. Se encontró que la
duración media de hospitalización fue de 8.25 días. Si se sabe que la
desviación estándar de la población es de 3 días, encuentre:

a) El intervalo de confianza del 90 por ciento para µ .


b) El intervalo de confianza del 95 por ciento para µ .
c) El intervalo de confianza del 99 por ciento para µ .

4. Una muestra de 100 hombres adultos aparentemente normales, de 25


años de edad, mostró una presión sistólica sanguínea media de 125. Si se
tiene la sensación de que la desviación estándar de la población es de 15,
encuentre:

a) El intervalo de confianza del 90 por ciento para µ .


b) el intervalo de confianza del 95 por ciento para µ .

5. En un estudio en el que se utilizaron niños retrasados educables, 11 niños


y 10 niñas, después de un año de enseñanza académica combinada con

42
terapias, se les calificó en relación con sus logros. La calificación media
para los niños fue de x1 = 67.0 y para las niñas x2 = 615 . . Si es lógico
suponer que las calificaciones para niños semejantes bajo circunstancias
similares muestran una distribución normal con desviaciones estándar de
σ 1 = 11 y σ 2 = 10, encuentre:

a) El intervalo de confianza del 90 por ciento para µ1 − µ 2 .


b) El intervalo de confianza del 95 por ciento para µ1 − µ 2 .
c) El intervalo de confianza del 99 por ciento para µ1 − µ 2 .

6. Una muestra de 10 niñas de doce años de edad y una muestra de 10


niños de doce años también proporcionaron la estaturas medias de
x1 = 1519
. centímetros y x2 = 148.6 centímetros, respectivamente.
Suponiendo distribuciones normales de las estaturas con σ 1 = 51
.
centímetros y σ 2 = 7.6 centímetros, encuentre:

a) El intervalo de confianza del 90 por ciento para µ1 − µ 2 .


b) El intervalo de confianza del 95 por ciento para µ 1 − µ 2 .
c) El intervalo de confianza del 99 por ciento para µ1 − µ 2 .

7. Una muestra de 100 pacientes con la enfermedad A, admitidos a un


hospital de enfermedades crónicas, permanecieron en el hospital, en
promedio, 35 días. Otra muestra de 100 pacientes con la enfermedad B
permanecieron, en promedio, 28 días. si las variancias de ambas
poblaciones son, respectivamente, de 100 y 225, encuentre:

a) El intervalo de confianza del 90 por ciento para µ A − µ B .


b) El intervalo de confianza del 95 por ciento para µ A − µ B .
c) El intervalo de confianza del 99 por ciento para µ A − µ B .

8. Un encargado del archivo de expedientes médicos extrajo al azar una


muestra de 100 expedientes de pacientes y encontró que en el 8 por
ciento de ellos, la carátula tenía, al menos, un detalle de información que
contradecía a la demás información que aparecía en el expediente.
Construya los intervalos de confianza del 90,95 y 99 por ciento para la
proporción verdadera de los expedientes que contienen dichas
discrepancias.

9. Una encuesta, que condujo a una muestra aleatoria de 150 familias en


cierta comunidad urbana, reveló que en el 87 por ciento de los
casos, por lo menos uno de los miembros de la familia tenía alguna forma
de seguro relacionado con la salud.
Construya los intervalos de confianza del 90, 95 y 99 por ciento para p, la
proporción verdadera de familias en la comunidad con la característica de
interés.

43
10. En un estudio diseñado para conocer la relación entre cierto medicamento
y cierta anomalía en los embriones de pollo, se inyectaron con el
medicamento 50 huevos fecundados al cuarto día de incubación. En el
vigésimo día de incubación se examinaron los embriones y se observó la
presencia de la anomalía en 12 de ellos. Encuentre los intervalos de
confianza del 90, 95 y 99 por ciento para p.

11. De una muestra de 150 personas, seleccionada de los pacientes que se


admitieron en un hospital grande durante un periodo de dos años, 129 de
ellos tenía algún tipo de seguro de hospitalización. En una muestra de 160
pacientes seleccionados en forma similar, de un segundo hospital, 144 de
ellos tuvieron algún tipo de seguro de hospitalización. Encuentre los
intervalos de confianza del 90,95 y 99 por ciento para la diferencia real en
las proporciones de las poblaciones.

12 En una encuesta conducida en dos secciones de un área metropolitana


grande, se obtuvieron los siguientes resultados respecto a la presión
sanguínea anormal.

Área Número de personas Número de anormales


seleccionadas en la selección

1 200 20
2 250 38

Construya los intervalos de confianza del 90, 95 y 99 por ciento para la


diferencia entre las proporciones de las dos poblaciones.

13. En un estudio diseñado para conocer los efectos secundarios de dos


medicamentos, a 50 animales se les dio el medicamento A y a otros 50 se
les dio el medicamento B. De los 50 que recibieron el medicamento A, 11
de ellos mostraron efectos secundarios no deseables, mientras que 8 de
los que recibieron el medicamento B reaccionaron en forma similar.
Encuentre los intervalos de confianza del 90, 95 y 99 por ciento para
PA − PB .

14. A nueve pacientes que sufren la misma incapacidad física, pero de otra
manera comparable, se les pidió que llevaran a cabo cierta tarea como
parte de un experimento. El tiempo promedio requerido para realizar la
tarea fue de siete minutos con una desviación estándar de dos minutos.
Suponiendo que existe normalidad, construya los intervalos de
confianza del 90,95 y 99 por ciento para el tiempo medio verdadero
requerido para que este tipo de pacientes efectuara la tarea.

15. El administrador de un hospital tomó una muestra de 25 cuentas vencidas,


a partir de las cuales calculó una media de $250 y una desviación

44
estándar de $75. Suponiendo que las cantidades de todas las cuentas
vencidas presentan una distribución normal, encuentre los intervalos de
confianza del 90, 95 y 99 por ciento para µ .

16. Una muestra de 25 niños de diez años de edad proporcionó un peso


medio y una desviación estándar de 36.5 y 5 kg., respectivamente.
Suponiendo una población con distribución normal, encuentre los
intervalos de confianza del 90, 95 y 99 por ciento para la media de la
población a partir de la cual se obtuvo la muestra.

17. Una muestra de 16 niñas de diez años de edad proporcionó un peso


medio de 35.8 kg. y una desviación estándar de 6 kg., respectivamente.
Suponiendo que existe normalidad, encuentre los intervalos de confianza
del 90, 95 y 99 por ciento para µ

18. Con referencia a los ejercicios 16 y 17, supóngase que las variancias de
las poblaciones son iguales. Construya los intervalos de confianza del 90,
95 y 99 por ciento para la diferencia ente las medias de las dos
poblaciones.

19. Las mediciones del diámetro transversal del corazón de hombres y


mujeres adultos dieron los siguientes resultados:

Grupo Tamaño de la x (Centímetros) s (Centímetros)


muestra
Hombres 12 13.21 1.05
Mujeres 9 11.00 1.01

Suponiendo poblaciones con distribución normal y con variancias iguales,


construya los intervalos de confianza del 90, 95 y 99 por ciento para
µ1 − µ 2 .

20. Veinticuatro animales de laboratorio con deficiencia de vitamina D se


dividieron en dos grupos iguales. El grupo 1 recibió un tratamiento
consistente en una dieta que proporcionaba la vitamina D. El segundo
grupo no fue tratado. Al término del período experimental, se hicieron las
determinaciones del calcio en suero, obteniéndose los siguientes
resultados:

Grupo tratado: x = 11.1mg / 100ml , s = 1.5


Grupo no tratado: x = 7.8mg / 100ml , s = 2.0

Suponiendo poblaciones con distribución normal y con variancias iguales,


construya los intervalos de confianza del 90, 95 y 99 por ciento para la
diferencia entre las medias de las poblaciones.

45
21. A dos grupos de niños se les hicieron pruebas de agudeza visual. El grupo
1 estaba formado por 11 niños que recibieron cuidados de salud por parte
de médicos privados. La calificación media para este grupo fue de 26 con
una desviación estándar de 5. El segundo grupo, que incluía 14 niños,
recibieron cuidados de salud por parte del departamento de salud pública,
tuvo una calificación promedio de 21 con una desviación estándar de 6.
Suponiendo poblaciones con distribución normal y con variancias iguales,
encuentre los intervalos de confianza del 90, 95 y 99 por ciento para
µ1 − µ 2 .

22. La duración promedio de internación de una muestra de 20 pacientes


dados de alta de un hospital general fue de siete días con una desviación
estándar de dos días. Una muestra de 24 pacientes dados de alta de un
hospital de enfermedades crónicas tuvo una duración promedio de
internación de 36 días con una desviación estándar de 10 días.
Suponiendo poblaciones con distribución normal y con variancias distintas,
encuentre el intervalo de confianza del 95 por ciento para la diferencia
entre las medias de ambas poblaciones.

23. A cada uno de los miembros de una muestra de 51 estudiantes de


enfermería se le hizo una prueba estandarizada para medir su nivel de
responsabilidad. Se obtuvo un valor de s 2 = 12 . Construya los intervalos de
confianza del 95 por ciento para σ 2 y σ .

24. El recuento de leucocitos de una muestra de 10 hombres adultos con


algún tipo de leucemia dio una variancia de 25,000,000. Construya los
intervalos de confianza del 95 por ciento para σ 2 y σ

25. Se hicieron determinaciones de la capacidad vital forzada en 20 hombres


adultos sanos. La variancia de la muestra fue de 1,000,000. Construya los
intervalos de confianza del 90 por ciento para σ 2 y σ .

26 En un estudio de los tiempos de conducción del miocardio, se obtuvieron


los tiempos de conducción en una muestra de 30 paciente con
enfermedad de la arteria coronaria. Se encontró que la variancia de la
muestra era de 1.03. Construya los intervalos de confianza del 99 por
ciento para σ 2 y σ

27. Se hicieron determinaciones de hemoglobina en 16 animales expuestos a


un compuesto químico nocivo. Se registraron los siguientes valores, 15.6,
14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 17.4, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9,
14.8, 17.5. Construya los intervalos de confianza del 95 por ciento para
σ2 y σ
PRUEBAS DE HIPÓTESIS

46
Recordemos que muchas veces el objetivo de la estadística es hacer inferencias
con respecto a parámetros poblacionales desconocidos, basados en la
información obtenida de datos muéstrales. Estas inferencias se expresan como
estimaciones de los parámetros respectivos o como pruebas de hipótesis
referentes a sus valores.

En muchos aspectos el procedimiento formal para la prueba de hipótesis es similar


al método científico. El investigador observa la naturaleza, establece una hipótesis
o teoría y después la comprueba observando nuevamente la naturaleza. En este
contexto el investigador propone una teoría relativa a los valores específicos de
uno o más parámetros poblacionales. Luego obtiene una muestra de la población
y compara la observación con la teoría. Si las observaciones se contraponen a la
teoría, el investigador rechaza la hipótesis. En caso contrario concluye que la
teoría es válida o bien que la muestra no detectó la diferencia entre los valores
reales y los de la hipótesis respecto de los parámetros poblaciones.

Por ejemplo, un investigador en medicina puede proponer la hipótesis de que un


nuevo medicamento es más efectivo que otro para curar cierta enfermedad. Para
probar su hipótesis, selecciona al azar algunos pacientes afectados por la
enfermedad y los divide aleatoriamente en dos grupos. Se aplica entonces el
nuevo medicamento A al primer grupo de pacientes y el otro medicamento B al
segundo grupo. Posteriormente el investigador debe decidir, basándose en el
número de pacientes curados en cada grupo, si el nuevo medicamento es más
eficaz o no que el anterior. Las pruebas de hipótesis se realizan en todos los
ámbitos en los cuales puede contrastarse la teoría frente a la observación. Es
decir, se somete la hipótesis a una verificación estadística, comparándola con los
datos muéstrales observados.

El propósito de las pruebas de hipótesis es ayudar al médico, investigador o


administrador a tomar una decisión en torno a una población, examinando una
muestra de ella.

Una hipótesis se define simplemente como una afirmación acerca de una o más
poblaciones. En general, la hipótesis se refiere a los parámetros de las
poblaciones acerca de las cuales se hace la afirmación. Un médico puede suponer
que cierto medicamento será eficaz en el 90% de los casos en los que se utilice.
Por medio de las pruebas de hipótesis, se determina si tales proposiciones son
compatibles o no con los datos de que se dispone.

47
Los investigadores tratan con dos tipos de hipótesis: las hipótesis de investigación
y las hipótesis estadísticas: la hipótesis de investigación es la conjetura o
suposición que motiva la investigación. Puede ser el resultado de años de
observación por parte del investigador. Los proyectos de investigación suelen
resultar del deseo de profesionales de la salud (entre otros) por determinar si sus
teorías o sospechas pueden ser apoyadas o no cuando se someten a los rigores
de la investigación científica.

Las hipótesis de investigación conducen directamente a hipótesis estadísticas.


Las hipótesis estadísticas se establecen en tal forma que pueden ser evaluadas a
través de técnicas estadísticas.

Por conveniencia metodológica, las pruebas de hipótesis se presentarán mediante


un procedimiento de nueve pasos.

1.- Debe comprenderse la naturaleza de los datos, esto es, el tipo de variable,
el tipo de medición, que forma la base de los procedimientos de prueba, ya
que esto determinará la prueba particular que debe utilizarse.

2.- Las mismas suposiciones que tienen importancia en la estimación son


también importantes en las pruebas de hipótesis. Estas incluyen,
suposiciones acerca de la normalidad de la distribución de la población,
igualdad de las varianzas e independencia de las muestras.

3.- En las pruebas de hipótesis se trabaja con dos hipótesis estadísticas que
deben enunciarse explícitamente. La primera es la hipótesis que debe
probarse, conocida como hipótesis nula, y que se denota por H o . Esta
hipótesis a veces se conoce como hipótesis de no diferencia. En el
proceso de prueba, la hipótesis nula se rechaza, o bien, no se rechaza. Si
la hipótesis nula no se rechaza, se dirá que los datos sobre los cuales se
basa la prueba no proporcionan evidencia suficiente que provoque el
rechazo. Si el procedimiento de prueba conduce al rechazo, se concluirá
que los datos disponibles no son compatibles con la hipótesis nula, pero
son apoyo de alguna otra hipótesis. Esta otra hipótesis se conoce como
hipótesis alternativa y se denota por H a .

4.- El estadístico de prueba es alguno que puede calcularse a partir de los


datos de la muestra. Sirve como un productor de decisiones, ya que la
decisión de rechazar o no la hipótesis nula depende de la magnitud del
estadístico de prueba. Un ejemplo de estadístico de prueba es:

X − µo
Z=
σ
n

48
Donde. µ o es un valor supuesto de la media poblacional. Este estadístico
de prueba esta relacionado con:

X −µ
Z=
σ
n

La siguiente es una fórmula para generar un estadístico de prueba que se


aplicará en muchas de las pruebas de hipótesis.

Estadístico relevante - parámetro supuesto


Estadístico de prueba =
error estándar del estadístico relevante.

5.- Distribución del estadístico de prueba.

6.- Regla de decisión. Todos los valores posibles que el estadístico de prueba
puede tener son puntos sobre el eje horizontal de la gráfica de la
distribución del estadístico y se dividen en dos grupos; uno constituye lo
que se conoce como región de rechazo y el otro forma la región de no
“aceptación”. Los valores del estadístico que comprenden la región de
rechazo son aquellos que tienen la menor probabilidad de suceder si la
hipótesis nula es verdadera, mientras que los valores que forman la región
de “aceptación” son los que tienen mayor probabilidad de ocurrir si la
hipótesis nula es verdadera. La regla de decisión señala que se rechace la
hipótesis nula si el valor del estadístico de prueba que se calcule a partir
de la muestra es uno de los valores de la región de rechazo, y que no se
rechace (o “acepte”) la hipótesis nula si el valor calculado del estadístico
de prueba es uno de los valores de la región de “aceptación”.

Para decidir que valores van hacia la región de rechazo y cuales a la de


aceptación, se toma de base el nivel de significación deseado, que se
denota por α . Es por esto que, algunas veces, las pruebas de hipótesis
reciben el nombre de pruebas de significación y un valor calculado del
estadístico de prueba que cae en la región de rechazo se dice que es
significativo. El nivel de significación, α , especifica el área bajo la curva de
la distribución del estadístico de prueba que está por arriba de los valores
sobre el eje horizontal que constituyen la región de rechazo. Podemos ver
entonces que α es la probabilidad de rechazar una hipótesis nula
verdadera. Por lo tanto, es de esperar valores pequeños de α , los más
frecuentes son 0.01, 0.05 y 0.10.

El error que se comete cuando se rechaza una hipótesis nula verdadera se


conoce como error tipo I . El error tipo II se comete cuando se acepta una
hipótesis nula falsa. La probabilidad de cometer un error tipo II se denota
por β .

49
Siempre que se rechaza una hipótesis nula se tiene el riesgo de cometer
un error del tipo I . Siempre que se “acepta” una hipótesis nula, existe el
riesgo de que esta sea falsa. Se puede hacer pequeño α , pero en
general no se ejerce control sobre β .

Nunca se sabe si se ha cometido o no uno de estos errores cuando se


rechaza o se deja de rechazar una hipótesis nula, ya que se desconoce el
enunciado verdadero de los asuntos. Es importante elegir a α pequeña,
de manera que si rechazamos una hipótesis nula verdadera esto sea con
la menor probabilidad. Si se acepta una hipótesis nula falsa, no se sabe el
riesgo, ya que por lo general se desconoce β .

7. Estadístico de prueba calculado. A partir de los datos muéstrales se


calcula el estadístico de prueba y se compara con las regiones de
aceptación y de rechazo (para ver en que región cae).

8. Decisión estadística. Esta se toma al rechazar o no la hipótesis nula. Se


rechaza si el valor del estadístico cae en la región de rechazo y no se
rechaza si cae en la región de aceptación.

9. Conclusión.- Si H o se rechaza, se concluye que H a es verdadera. Si no se


rechaza H o , se concluye que H o puede ser verdadera.

Si no se rechaza la hipótesis nula, podría aceptarse, sin embargo es


necesario cuantificar la gravedad del error.

Cualquier prueba estadística de hipótesis funciona exactamente de la


misma manera y se compone de los mismos elementos esenciales

1.- La hipótesis nula, H o


2.- La hipótesis alternativa, H a
3.- El estadístico de la prueba
4.- La región de rechazo

Las partes funcionales de una prueba estadística son el estadístico de la


prueba y la región de rechazo asociada. El estadístico de la prueba (como
un estimador) es una función de las mediciones muéstrales en el cual se
fundamenta la decisión estadística. La región de rechazo, que se
denotará de aquí en adelante por RR, especifica los valores del
estadístico de la prueba para los cuales se rechaza la hipótesis nula. Si
en una muestra particular el valor calculado del estadístico de la prueba se
localiza en la región de rechazo, se rechaza la hipótesis nula H o y se
acepta la hipótesis alternativa H a . Si el valor del estadístico de la prueba
no cae en la región de rechazo RR, aceptamos H o .

50
Debemos notar que para cualquier región de rechazo fija, se pueden
cometer dos tipos de errores al llegar a una decisión. Podemos decidir a
favor de H a siendo H o verdadera (llamado error tipo I), o podemos decidir
a favor de H o siendo verdadera H a (llamado error tipo II).

DEF.- El error tipo I se comete cuando se rechaza H o siendo verdadera. La


probabilidad de un error tipo I se denota por α .
El error tipo II se comete si se acepta H o cuando es verdadera H a . La
probabilidad de un error tipo II se denota por β .

En la mayoría de las situaciones reales las decisiones incorrectas cuestan dinero,


prestigio y en consecuencia implican una pérdida. Por lo tanto α y β , las
probabilidades de cometer estos dos tipos de errores, miden el riesgo asociado
con las dos posibles decisiones equivocadas que podrían resultar de una prueba
estadística. Como tal, proporcionan una manera muy práctica para medir la
bondad de una prueba.

Para mejorar nuestra prueba debemos equilibrar α y β cambiando la región de


rechazo. Si se amplia RR a una nueva región de rechazo RR*
(es decir RR ⊂ RR * ), entonces la prueba que implica RR* rechazará H o con
mayor frecuencia. Si α * y α denotan las probabilidades de los errores tipo I
cuando utilizamos RR* y RR como regiones de rechazo, respectivamente,
entonces

 dequeel estadistico   dequeel estadistico 


   
α * = Pr  dela prueba se  ≥Pr  dela prueba se  =α
 ubiqueen RR *   localiceen RR 
   

Asimismo, si utilizamos la región de rechazo mayor RR* , el procedimiento de la


prueba aceptará H o con menor frecuencia.

Si β * y β denotan las probabilidades de los errores tipo II para la prueba que


utiliza RR* y RR, respectivamente, entonces β * ≤ β . Por lo tanto, si se cambia la
región de rechazo para incrementar α , entonces β decrecerá. De manera
similar, si el cambio en la región de rechazo resulta en un decremento de α ,
entonces β aumentará. Por lo tanto α y β se relacionan inversamente. Si
después de hacer estos “ajustes” α y β aún son inconvenientemente grandes y
quisiéramos reducir α y β al mismo tiempo, debemos incrementar la información.
Ya que para la mayoría de las pruebas estadísticas α y β decrecen al aumentar
el tamaño de muestra.

51
Ejemplo 8. Un investigador ha preparado el nivel de dosificación de un fármaco
que afirma provocará sueño en por lo menos 80% de las personas
que padecen insomnio. Después de examinar la dosificación, se
considera que su afirmación acerca de la efectividad del fármaco es
exagerada. En un intento por refutar su afirmación se administra la
dosificación prescrita a 20 personas que padecen insomnio, y se
observa Y, el número de personas que se adormecen debido al
fármaco. Se desea probar la hipótesis H o : p = 0.8 frente a la
alternativa H a : p < 0.8 . Suponga que se utiliza la región de rechazo
{y ≤ 12}

a) Encuentre α
b) Encuentre β para p = 0.6
c) encuentre β para p = 0.4

Solución.-
H o : p = 0.8
H a : p < 0.8

a) α = Pr (error tipo I)

= Pr (de rechazar H o cuando es verdadera H o )

= Pr (de que el estadístico de la prueba se localice en RR cuando es


verdadera H o )

= Pr { y ≤ 12  p = 0.8 }

considerando que Y es una variable aleatoria binomial con n = 20 y p = 0.8 , se


tiene
12
α=∑
y=0
( ) (0.8)
20
y
y
(0.2) 20− y = 0.032

b) β = Pr (error tipo II) = Pr (de aceptar H o cuando es verdadera H a )

β = Pr (de que el valor del estadístico de la prueba no esté en RR siendo


verdadera H a )

β = Pr (y > 12 cuando p=0.6) = 1 - Pr (y ≤ 12 cuando p=0.6)


=1 - 0.584 = 0.416

52
20

∑ ( ) (.6) (.4)
y 20− y

β= 20
y = 0.416
y =13

c) β = Pr (y > 12 cuando p=0.4) = 1 - Pr (y ≤ 12 cuando p = 0.4)


=1 - 0.979 = 0.021
20

∑ ( ) (.4) (.6)
y 20 − y

β= 20
y
y =13

β = 0.021

Supongamos que se desea probar una hipótesis referente al parámetro θ , basado


en una muestra aleatoria y1 ,..., y n desarrollaremos un procedimiento para la
prueba de hipótesis basada en el estimador θ$ , que tiene (aproximadamente) una
distribución muestral normal con media θ y varianza σ θ2$ . Los estimadores ŷ y
p̂ con muestras grandes utilizados para estimar una media poblacional µ
y proporción poblacional p, respectivamente, satisfacen estos requerimientos.
También lo hacen los estimadores de µ 1 − µ 2 y p1 − p 2 .

Si θ o es un valor específico de θ , podemos probar H o :θ = θ o contra H a :θ > θ o . Si

θ$ está cerca de θ o , parece razonable aceptar H o . Sin embargo, si θˆ > θo


favorece el rechazo de H o :θ = θ o y la aceptación de H a :θ > θ o . Es decir:

H o :θ = θ o

H a :θ > θ o

Estadístico de la prueba: θ$

Región de rechazo: RR = {θ$ > k} para algún valor seleccionado de k.

53
Fig. 12.- Región de rechazo para H o :θ = θ o frente a H a :θ > θ o con
muestras grandes.

El valor real de k en RR se determina al fijar α , la probabilidad del error tipo I,


eligiendo k de acuerdo a este valor (véase la fig. 12). Si H o es verdadera, θ$ tiene
aproximadamente una distribución normal con media θ o y varianza σ θ2$ . Por lo
tanto, si queremos que Pr(error tipo I)= α , entonces

k = θ o + Z α σ θ$

es la elección adecuada para k [en donde Z α es el valor tal que Pr( Z > Z α ) = α
cuando Z tiene una distribución normal estándar]. Ya que

 θ$ − θ 0 
RR = {θ$ θ$ > θ 0 + Z α σ θ$ } = θ$ > Zα 
 σ θ$ 
θ$ − θ o
si se utiliza Z = como estadístico de la prueba, la región de rechazo puede
σ θ$
escribirse también como RR = {Z > Z α } . Nótese que Z mide el número de
desviaciones estándar entre θ$ y θ o . Por lo tanto una forma equivalente de la
prueba de hipótesis, con α = Pr(error tipo I), es:

H o :θ = θ o
H a :θ > θ o

54
θ$ − θ o
Estadístico de la prueba: Z =
σ θ$

Región de rechazo: Z > Zα .

Debemos observar que se rechaza H o si Z cae “muy alejado”, en la cola superior


de la distribución normal estándar. La hipótesis alternativa H a :θ > θ o se denomina
alternativa de cola superior, y a RR = {Z > Z α } se le llama región de rechazo de
cola superior (o derecha).

Una prueba del tipo H o :θ = θ o frente a H a :θ < θ o se efectuará de manera análoga


pero ahora rechazamos H para valores de θ$ mucho menores que θ . El
o o

estadístico de prueba sigue siendo

θ$ − θ o
Z=
σ θ$

pero para un valor de α dado rechazamos la hipótesis nula cuando Z < − Z α .


Como rechazamos H o en favor de H a cuando Z cae suficientemente alejado en
la cola inferior de una distribución normal estándar, se denomina a H a :θ < θ o una
alternativa de cola inferior y RR:{Z < − Z α } una región de rechazo de cola inferior
(o izquierda).

Si se desea probar H o :θ = θ o frente a H a :θ ≠ θ o , rechazaríamos H o si θ$ es


mucho menor o mucho mayor que θ o . El estadístico de la prueba sigue siendo Z
(anterior), pero la región de rechazo se localiza simétricamente en las dos colas de
la distribución de probabilidad para Z. Por lo tanto rechazamos
H o si Z < − Zα o Z > Z α . Es decir, rechazamos H o si Z > Z α . Esta
2 2 2
prueba se denomina prueba de dos colas (ver figura 13).

55
Fig. 13. Regiones de rechazo para las pruebas:

H o :θ = θ o frente a

a) H a :θ < θ o y
b) H a :θ ≠ θ o

basada en

θ$ − θ o
Z=
σ θ$

56
En resumen, hemos visto las siguientes pruebas de hipótesis para muestras
grandes

Ho : θ = θo

θ > θ o (alternativa de cola sup erior ).



H a :θ < θ o (alternativa de cola inf erior ).
θ ≠ θ (alternativa de dos colas).
 o

Estadístico de la prueba:

θ$ − θ o
Z=
σ θ$

Z > Z ( RR de cola sup erior ).


 α

Re gión de rechazo :Z < − Z α ( RR de cola inf erior).


 Z > Z ( RR de dos colas).
 α
2

Debemos observar que en cualquier prueba particular solamente una de las


hipótesis alternativas H a antes indicadas será apropiada, con su región de
rechazo correspondiente.

Ejemplo 9. Se realizó un estudio psicológico para comparar los tiempos de


reacción de hombres y mujeres con respecto a cierto estímulo. Se
utilizaron en el experimento muestras aleatorias independientes de
50 hombres y 50 mujeres. Los resultados se muestran en la tabla
siguiente. ¿Presentan los datos suficiente evidencia para sugerir una
diferencia entre los promedios verdaderos de los tiempos de reacción
para hombres y mujeres? Utilice α = 0.05

Hombres Mujeres

n1 = 50 n 2 = 50

y1 = 3.6 segundos y 2 = 38
. segundos

S12 = 0.18 S22 = 0.14

57
Solución:

Sean µ 1 y µ 2 los promedios reales de los tiempos de reacción para hombres y


mujeres respectivamente. Se desea probar si las medias son iguales, es decir,

H o : (µ1 − µ 2 ) = 0 frente a

Ha : (µ1 − µ 2 ) ≠ 0

El estimador puntual de ( µ 1 − µ 2 ) es ( Y1 − Y2 ) y satisface los supuestos de la


prueba para muestras grandes. En general, si deseamos probar
H o : ( µ 1 − µ 2 ) = D o (D o fijo) contra cualquier alternativa, el estadístico de la prueba
está dado por:

( Y1 − Y2 ) − D o
Z=
σ 12 σ 22
+
n1 n2

Para α = 0.05 , H o se rechaza si

Z > Z α = Z 0.025 = 1.96


2

Y como las varianzas muestrales son buenos estimadores de las varianzas


poblacionales:

( Y1 − Y2 ) − 0 3.6 − 3.8
Z= = = −2.5
σ 2
σ 2 0.18 0.14
+
1
+ 2
n1 n2 50 50

de donde Z = 2.5 > 1.96 y por lo tanto cae en la región de rechazo, en


consecuencia, rechazamos la hipótesis de que no hay diferencia en los promedios
de tiempos de reacción para hombres y mujeres.

58
EJERCICIOS

1.- En una encuesta sanitaria se entrevistaron 150 personas para obtener


información sobre la compra de pastillas psicotrópicas consumidas en un
año. El promedio consumido fue de 5.8 con una desviación estándar de
3.1. De encuestas anteriores se sabe que el consumo promedio es de 5 y
el ministerio de salud desea saber si la evidencia observada es suficiente
para afirmar que se ha incrementado el consumo con ∝= 0.05 probar
H o : µ = 5 vs H a : µ > 5 .

2.- En un hospital psiquiátrico para personas que han sido afectadas por las
drogas y el alcohol, se desea realizar un estudio para comprobar si la
concentración media de ácido úrico en el suero, es diferente a la que se
encuentra en personas normales de la misma edad y sexo. Se toma una
muestra de 12 pacientes obteniéndose X 1 = 4.5 mg/100 ml con σ 2 1 = 1 .
Una muestra de 15 personas normales generó los siguientes resultados
X 2 = 3.4 , σ 2 2 = 1 probar al 5%

H o : µ1 − µ 2 = 0 vs H a : µ1 − µ 2 ≠ 0

Utilizar:

Z=
(X 1 − X 2 ) − (µ 1 − µ 2 )
σ 12 σ 22
+
n1 n 2

59
CÁLCULO DE LAS PROBABILIDADES DEL ERROR TIPO II
El cálculo de β puede ser muy difícil en ciertas pruebas estadísticas. En nuestro
caso podemos utilizar la prueba Z para mostrar tanto el cálculo de β como la
lógica empleada para seleccionar el tamaño de la muestra en una prueba.

Para la prueba de H o : θ = θ o frente a H a : θ > θ o , solamente es posible calcular


las probabilidades de un error tipo II para puntos específicos en H a . Supóngase
que el experimentador dispone de una alternativa específica, digamos
θ = θ a (con θ a > θ o ) . Dado que la región de rechazo es de la forma

RR = {θ$ θ$ > k}

la probabilidad de un error tipo II, β , es

β = Pr (θˆ no se localice en RR cuando H a es verdadera)

β = Pr (θˆ≤ k cuando θ = θ a )

 θˆ−θ a k − θ a 
= Pr  ≤ cuando θ =θ a 
 σ θˆ σ θˆ 

θ$ − θ a
Si θ a es el valor verdadero de θ , entonces tiene aproximadamente la
σ θ$
distribución normal estándar, y la probabilidad β puede determinarse
(aproximadamente) calculando un área bajo la curva normal estándar.

Para un tamaño de muestra n el valor de β dependerá de la distancia entre


θ a y θ o . Si θ a está cerca de θ o , la probabilidad de aceptar H o cuando es
verdadera H a tenderá a ser grande. Si θ a está lejos de θ o , β será
considerablemente menor. Como vimos anteriormente, se puede reducir tanto α
como β al escoger tamaños de muestras grandes.

A continuación determinamos el tamaño de muestra para un experimento.


Supongamos que queremos probar H o : µ = µ o frente a H a : µ > µ o . Si se
específica el valor deseado de α y β (en donde β se evalúa para un valor
particular de µ , µ a > µ o ), la prueba depende de dos cantidades adicionales que
deben determinarse. Se trata del tamaño de muestra n, y de k, el punto donde
empieza la región de rechazo. Como α y β pueden escribirse como

60
probabilidades que involucran n y k, tenemos dos ecuaciones con dos incógnitas,
que se pueden resolver simultáneamente para n. Por lo tanto

α = Pr (Y > k cuando µ = µ o )

 
 Y − µo k − µo 
= Pr > cuando µ= µo 
 σ σ 
 n n 

= Pr ( Z > Z α )

β = Pr (Y ≤ k cuando µ = µ a )

 
 Y − µa k − µa 
= Pr  ≤ cuando µ= µa 
 σ σ 
 n n 

= Pr ( Z ≤ − Z β )

de la ecuación para α tenemos

k − µo
Zα =
σ
n

⇒ k = Zα σ + µo ... (1)
n

61
de la ecuación para β tenemos

k − µa
−Zβ =
σ
n

⇒ k = − Zβ σ + µa ... (2)
n

igualando las ecuaciones (1) y (2)

µ o + Zα σ = µa − Zβ σ
n n

[Z α + Z β ] σ

=µ −µ

n a o

( Z α + Z β )σ
⇒ n=
(µ a − µ o )

2
( Z α + Z β ) 2σ
⇒ n=
(µ a − µ o ) 2

fórmula para calcular el tamaño de muestra para una hipótesis alternativa de cola
superior.

COLA INFERIOR

62
α = Pr (Y ≤ k cuando µ= µo )

 
 Y − µo k − µo 
= Pr  ≤ cuando µ= µo 
 σ σ 
 n n 

= Pr ( Z ≤− Z α )

β = Pr (Y > k cuando µ= µa )

 
 Y − µa k − µa 
= Pr  > cuando µ= µa 
 σ σ 
 n n 

= Pr ( Z > Z β )

de la ecuación para α , obtenemos

k − µo
− Zα = ⇒ k =  − Z α σ  + µ o
σ  n
n

de la ecuación para β :

k − µa
Zβ = ⇒ k =  Z β σ  + µ a
σ  n
n

Por lo tanto:

 − Z σ  + µ =  Z σ  + µ
 α n o
 β n a

[ ]
⇒  σ  Z α + Z β = µ o − µ a
 n

( Z α + Z β )σ
⇒ n=
(µ o − µ a )

63
2
( Z α + Z β ) 2σ
⇒ n=
(µ o − µ a ) 2

2
(Zα + Z β ) 2σ
⇒ n=
(µ a − µ o ) 2

Ejemplo 10. Se cree que la media del coeficiente de inteligencia de los niños de
Nueva Miranda es 104. Para comprobar tal creencia, se tomó una
muestra aleatoria de 36 estudiantes para medir su coeficiente de
inteligencia. Se obtuvo una media muestral de x = 102 con una
desviación típica S = 8. Pruebe la hipótesis de que la media es
diferente de 104, usando un nivel de significación de 5%.

Solución.-

H o : µ = 104

H a : µ ≠ 104

X −µ X −µ
Z= =
σx σ
n

102 − 104 − 2 − 12
⇒ Z= = = = −1.5
8 8 8
36 6

por otro lado, como se trata de una prueba de dos colas

Z α = Z 0.025 = ± 1.96
2

64
Es decir:

Z = 1.5 < Zα = 1.96


2

Por lo tanto, la diferencia entre X y µ no es significativa, es decir, la media


muestral no es diferente a la media poblacional. Por lo tanto, no rechazamos que
la inteligencia media de los niños de Nueva Miranda es 104.

Por otro lado, si quisiéramos probar H o : µ = 104 contra H a : µ = 102 con


α = β = 0.05 tendríamos que incrementar el tamaño de muestra que garantice
esta exactitud (estaríamos en el caso de una cola inferior). En consecuencia
2
( Z α + Z β ) 2σ
n=
(µ a − µ o ) 2

(1.645 + 1.645) 2 (64)


= = 17319
.
(102 − 104) 2

Por lo tanto se tendría que utilizar n = 174 observaciones para garantizar que
α = β = 0.05 para esta prueba.

La probabilidad de un error tipo I, α , suele denominarse nivel de significación


asociada con una prueba. Pero, ¿cómo determinar el valor “óptimo” de α ? Es
muy importante considerar de manera cuidadosa las consecuencias de cometer
un error de tipo I. Una vez elegido el estadístico de la prueba que se va a utilizar,
muchas veces es posible determinar el valor p, nivel de significación alcanzado de
una prueba. Esta cantidad es un estadístico que representa el valor mínimo de
α para el cual se rechaza la hipótesis nula.

65
DEF .- Si w es un estadístico de una prueba, el valor p o nivel de significación
alcanzado es el mínimo nivel de significación α , para el cual los datos
observados indican que se tendría que rechazar la hipótesis nula.

Si la selección de α en un experimento es mayor que o igual al valor p, se


rechaza la hipótesis nula. De otra manera, si α es menor que el valor p, no se
puede rechazar la hipótesis nula. Por esta razón en la mayoría de las
investigaciones se publican los valores p asociados a las pruebas estadísticas,
porque estos valores proporcionan al lector más información que tan solo la
afirmación de que se rechaza o no la hipótesis nula para algún valor de
α escogido por el autor del informe. En cierto modo, el valor p permite al lector
evaluar el grado de incongruencia de los datos observados con la hipótesis nula.
En particular, el valor p permite a cada lector utilizar su propio valor para α y así
decidir si los datos observados conducen al rechazo o no de la hipótesis nula.

Ejemplo 11. Encontrar el valor p para la prueba estadística del ejemplo 9.

Solución.-

En el ejemplo 9 tenemos la hipótesis nula

Ho : µ1 − µ 2 = 0 contra

Ha : µ1 − µ 2 ≠ 0

El valor del estadístico de la prueba, calculado a partir de los datos observados,


fue Z = −2.5 . Como esta prueba es de dos colas, el valor p es la probabilidad de
que Z ≤ −2.5 o Z ≥ 2.5

De la tabla 4 del apéndice

Pr ( Z ≤ −2.5) = Pr ( Z ≥ 2.5) = 0.0062

66
por lo tanto

p = 2(0.0062) = 0.0124

En consecuencia, como α = 0.05 > p rechazamos H o en favor de H a , es decir,


existe diferencia en los tiempos promedio de reacción entre hombres y mujeres.
De otro modo, si hubiéramos seleccionado α = 0.01 < p , no podríamos afirmar que
exista una diferencia en el tiempo promedio de reacción para los dos sexos.

En particular, determinar el valor de p es bastante útil cuando el estadístico de la


prueba tiene una distribución discreta. En donde muchas veces no se puede
encontrar una región de rechazo que dé un valor de α de una magnitud particular.

Para algunas pruebas estadísticas no será posible calcular el valor exacto de p,


quizás por no contar con las tablas adecuadas, sin embargo podremos referirnos a
una región de valores, en la cual sabemos que debe caer el valor p. Por ejemplo,
si el resultado de una prueba es estadísticamente significativa para α = 0.05 pero
no para α = 0.025 , indicaremos que 0.025 ≤ valor p ≤ 0.05 . Por lo tanto para
cualquier valor α > 0.05 rechazamos la hipótesis nula, y para α < 0.025 no
rechazamos la hipótesis nula. Para valores de α entre 0.025 y 0.05
tendríamos que buscar tablas más completas de la distribución apropiada antes de
llegar a una conclusión. Sin embargo, tenemos información muy útil con respecto
al valor p.

PRUEBA PARA µ CON MUESTRAS PEQUEÑAS

En lo que va de este capítulo, hemos trabajado con muestras grandes, ahora


desarrollaremos los procedimientos formales para probar las hipótesis acerca
de µ y µ 1 − µ 2 , procedimientos que son apropiados para muestras pequeñas de
poblaciones normales.

Sea Y1 ,..., Yn una muestra aleatoria de tamaño n de una distribución normal con
media µ y varianza σ 2 desconocidas. Si Y y S son la media y desviación
estándar muestral, respectivamente, y si

Ho : µ = µ o
entonces:

Y − µo
T=
S
n

tiene una distribución t con n-1 grados de libertad.

67
Como la distribución t es simétrica y con forma monticular, la región de rechazo
para una prueba de muestras pequeñas con la hipótesis H o : µ = µ o se localizará
en los extremos de la distribución t y se determinará exactamente de la misma
manera que con el estadístico Z para muestras grandes. Por analogía con la
prueba Z, la región de rechazo indicada en una alternativa de cola
superior H a : µ > µ o está dada por

RR = {t > t α }

en donde t α corresponde a Pr {T > tα } = α para una distribución t con n-1 grados


de libertad (ver tabla 5 del apéndice).

En resumen. Sea Y1 ,..., Yn una muestra aleatoria de una distribución normal con
Ε(Yi ) = µ

Ho : µ = µ o

µ > µ o (alternativ a de cola superior ).



H a : µ <µ o (alternativ a de cola inferior ).
µ ≠ µ (alternativ a de dos colas).
 o

Estadístico de la prueba:
Y − µo
T=
S
n
t > t ( RR de cola superior ).
 α

Región de rechazo: t < − t α ( RR de cola inferior ).


t > t ( RR de dos colas ).
 α
2

Ejemplo 12. La Casa Bayer, que fabrica pastillas multivitamínicas, asegura que
cada una contiene en promedio 2.48 mg de vitamina B-12. El
departamento de Salud de Nueva Miranda analizó una muestra
aleatoria de 28 pastillas y encontró un contenido medio de 2.45 mg,
con una desviación típica S = 0.15 mg. A la luz de estos resultados,
¿rechazaría la afirmación de la Casa Bayer? Use un nivel de
significación de 0.05.

68
Solución.-

H o : µ = 2.48 mg
H a : µ < 2.48 mg

2.45 − 2.48
T= = − 1.058
0.15
28

por otro lado, t 0.05 = -1.703 para 27 grados de libertad, como T > t 0.05 siendo de
cola inferior, aceptamos la hipótesis nula, es decir, es cierto que cada pastilla
multivitamínica contiene en promedio 2.48 mg de vitamina B-12.

Si planeáramos reportar los resultados de la prueba estadística, debemos calcular


el valor de p asociado. Como se tendría que aceptar la hipótesis nula si T es
“grande”, el valor más pequeño de α para el cual se acepta la hipótesis nula es el
valor

Pr (T >− 1.058)

en donde T tiene una distribución t con n-1=27 grados de libertad.


Observando la tabla 5 del apéndice, buscamos la fila con 27 grados de libertad y
encontramos que -1.058 se encuentra entre − t 0.20 = − 0.855 y − t 0.10 = − 1.31 . Se
“muestran” estos valores en la fig. siguiente

Determinación del valor p para el ejemplo 12.

Como el valor observado de T = − 1.058 es menor que − t 0.20 = − 0.855 pero no


menor que − t 0.10 = − 1.31 , rechazamos H o para α = 0.20 pero no para α = 0.10 .
Por lo tanto, el valor p para la prueba satisface 0.10 < p < 0.20

69
PROBLEMA.-

Se desea acelerar el tiempo que tarda una droga en entrar en el torrente


sanguíneo; para ello, un farmacéutico agregó otro ingrediente a la fórmula normal.
La fórmula original tardaba en promedio µ = 32 min. . En 20 observaciones de la
nueva mezcla se obtuvo un tiempo medio X = 30 min. , con una desviación típica
S = 2.5 min. ¿Cuál es su respuesta en relación con la eficacia del nuevo
ingrediente, si se asume un error alfa de 0.01?

Solución:

µ = 32 min.
n = 20
X = 30 min.
S = 2.5 min.
α = 0.01

H o : µ = 32
H a : µ < 32
Estadístico
X − µo
T=
S
n

30 − 32 −2
T= = = −3.5777
2.5 0.559
20

t ( 0.01,19 gl ) = −2.539 siendo de cola inferior y dado que T < t (0.01,19 gl ) rechazamos la
hipótesis nula H o , es decir, disminuye el tiempo con el nuevo ingrediente

p( t > −3.5777)

como −3.5777 < t ( .005,19 )

entonces, para todo α ≥ 0.005 rechazamos la hipótesis nula

Una segunda aplicación de la distribución t es la construcción de una prueba para


muestras pequeñas que compara las medias de dos poblaciones normales que
tienen varianzas iguales

70
Sean y11 , y12 ,..., y1n1 y y 21 , y 22 ,...., y 2n2 dos muestras aleatorias independientes
de dos poblaciones normales, con medias y varianzas µ i y σ 2 para i = 1 , 2
respectivamente. Además Yi y S2i , i = 1 , 2 son las medias y varianzas
muestrales correspondientes. Como vimos en el capítulo anterior, cuando se
satisfacen estas condiciones

( n1 − 1)S12 + ( n 2 − 1)S22
S2 =
n1 + n 2 − 2

es un estimador ponderado para σ 2 , entonces

( Y1 − Y2 ) − ( µ 1 − µ 2 )
T=
1 1
S +
n1 n 2

tiene una distribución t de Student con n1 + n 2 − 2 grados de libertad. Las pruebas


de la hipótesis H o : µ 1 − µ 2 = D o frente a alternativas de cola superior, cola inferior y
de dos colas, se manejan de la misma manera como en la prueba para muestras
grandes, solamente que se aplica el estadístico t. Por lo tanto, los procedimientos
de pruebas con muestras pequeñas para µ 1 − µ 2 están dados por

SUPUESTOS: Muestras independientes de poblaciones normales con


σ 12 = σ 2 2

H o : µ 1 − µ 2 = D o para cierto valor fijo D o

µ 1 − µ 2 > D o ( alternativa de cola superior ).



H a : µ 1 − µ 2 < D o ( alternativa de cola inferior ).
µ − µ ≠ D ( alternativa de dos colas ).
 1 2 o

Estadístico de la prueba:

Y1 − Y2 − D o
T= , en donde
1 1
S +
n1 n 2

( n1 − 1)S12 + ( n 2 − 1)S22
S=
n1 + n 2 − 2

71
t > t ( RR de cola superior ).
 α

Región de rechazo: t < − t α ( RR de cola inferior ).


t > t ( RR de dos colas ).
 α
2

En donde Pr (T > tα ) = α

Ejemplo 13. Se efectuó un estudio por parte de la Comisión de Caza y Pesca del
estado de Florida para estimar las cantidades de residuos químicos
encontrados en los tejidos cerebrales de pelícanos cafés. En una
prueba sobre DDT, muestras aleatorias de n1 = 10 pelícanos jóvenes
y n 2 = 13 polluelos dieron los resultados indicados en la tabla
siguiente (las mediciones están dadas en partes por millón). Pruebe
la hipótesis de que no existe diferencia en las cantidades promedio
de DDT encontradas en pelícanos jóvenes y polluelos, contra la
alternativa de que los pelícanos jóvenes presentan un promedio
mayor.Utilice α = 0.05 . (Esta prueba tiene implicaciones importantes
con respecto a la acumulación de DDT a través del tiempo).

Jóvenes Polluelos
n1 = 10 n 2 = 13
y1 = 0.041 y 2 = 0.026
S1 = 0.017 S2 = 0.006

Solución.-

H o : µ1 − µ 2 = 0
Ha : µ1 − µ 2 > 0

Por lo tanto, requerimos una prueba de cola superior. El estadístico de la prueba


es
(y − y2 ) − Do
T= 1
1 1
S +
n1 n 2

Con D o = 0 , y la región de rechazo para α = 0.05 es t > t 0.05 , en donde

Pr (T > tα ) = 0.05

en este caso t 0.05 = 1.721 ya que t tiene ( n1 + n 2 − 2) = 21 grados de libertad

72
( n1 − 1)S12 + ( n 2 − 1)S22
S =
2

n1 + n 2 − 2

9(0.017)2 + 12(0.006)2
S2 = = 0.00014443
10 + 13 − 2

y1 − y 2 0.041 − 0.026
t= =
1 1 1 1
S + (0.00014443) +
n1 n 2 10 13
t = 2.967

Como t > t 0.05 , se rechaza la hipótesis nula, es decir, los pelícanos jóvenes
presentan un promedio mayor de DDT que los polluelos.

Encontremos el valor p para la prueba estadística. El valor observado del


estadístico para esta prueba de cola superior es t = 2.967 , el valor de p para esta
prueba es entonces la probabilidad de que T > 2.967 (área sombreada en la fig.
siguiente)

Dado que este estadístico de prueba tiene ( n1 + n 2 − 2) = 21 g.l., consultamos la


tabla 5 del apéndice para encontrar t 0.005 = 2.83 . Por lo tanto, la probabilidad de
que T > 2.967 cae después de 0.005, es decir, 0.005 < valor p. En consecuencia,
para valores mayores a α = 0.005 podemos rechazar la hipótesis nula. Por lo
tanto, nuestra decisión anterior es correcta.

73
PROBLEMA.-

Refiérase al ejemplo 13. ¿Existe evidencia de que el promedio


para pelícanos jóvenes sea mayor que para los polluelos en más de
0.01 partes por millón? Establezca el valor p.

Solución:

H o : µ1 − µ 2 = 0.01
H a : µ1 − µ 2 > 0.01

Estadístico de prueba:

T=
( y1 − y 2 ) − 0.01 = 0.041 − 0.026 − 0.01
1 1 1 1
S + (0.00014443) +
n1 n 2 10 13

= 0.98912

Como t 0.05 = 1.721 ⇒ T < t 0.05

⇒ no se rechaza H o

de hecho:

t 0.10 = 1.323 > T

⇒ Incluso con un nivel de significancia del 0.10 no es posible rechazar H o

74
PRUEBAS DE BONDAD DE AJUSTE
Muchos experimentos producen datos enumerativos (o de conteo). Por ejemplo al
estudiar la reacción de un ratón a un estímulo particular en un experimento
psicológico. Si un ratón reaccionara de una de tres formas cuando se le aplica el
estímulo y si se sometiera un gran número de ratones al estímulo, el experimento
produciría tres conteos que indicarían el número de ratones que resulta en cada
tipo de reacción. Asimismo, muchas observaciones en las ciencias físicas no se
pueden medir en una escala continua y por lo tanto producen datos enumerativos
o de clasificación. Dichos ejemplos, tienen con cierta aproximación, las siguientes
características, que definen un experimento multinomial:

1.- El experimento consta de n pruebas idénticas

2.- El resultado de cada prueba cae en una de k clases o celdas.

3.- La probabilidad de que el resultado de una prueba caiga en una celda en


particular, digamos en la i-ésima celda, es pi (i = 1,2,..., k ) y permanece
constante de prueba a prueba. Obsérvese que

p1 + p 2 + p 3 +...+ p k = 1

4.- Las pruebas son independientes

5.- Estamos interesados en los valores n1 , n 2 ,..., n k , en donde ni (i = 1 , 2 ,..., K )


es el número de pruebas cuyo resultado cae en la i-ésima celda. Nótese
que

n1 + n 2 +...+ n k = n

Obsérvese la similitud entre los experimentos binomial y multinomial, y en


particular, que el experimento binomial representa el caso especial del
experimento multinomial cuando k = 2. Las dos probabilidades de las celdas p y q
del experimento binomial se reemplazan por las k probabilidades, p1 , p 2 ,..., p k , de
las celdas en un experimento multinomial. Nuestro objetivo es hacer inferencias
acerca de las probabilidades p1 , p 2 ,..., p k de las celdas. Las inferencias se
expresarán en términos de la prueba estadística de una hipótesis acerca de sus
valores numéricos específicos o acerca de su interrelación.

Como el cálculo de las probabilidades multinomiales es algo laborioso, sería difícil


calcular las probabilidades exactas asociadas con los errores tipo I para las
hipótesis acerca de p1 , p 2 ,..., p k . Afortunadamente, el estadístico inglés Karl
Pearson, propuso un estadístico de prueba muy útil para probar hipótesis respecto
a p1 , p 2 ,..., p k y estableció su distribución de probabilidad aproximada en un
muestreo repetitivo. Este es

75
[ n − E (n )] [ n − np ]
2 2
k k
X2 = ∑ =∑
i i i i

i =1 E (ni ) i =1 npi

en donde:

X2 tendrá aproximadamente una distribución de probabilidad ji-cuadrada en un


muestreo repetitivo, para n grande.

Necesitamos saber que distribución χ 2 utilizar, - es decir, el número de grados de


libertad - al aproximar la distribución de X 2 , y debemos saber si hay que utilizar
una prueba de una o de dos colas para localizar la región de rechazo.

La determinación del número adecuado de grados de libertad para la prueba


puede ser difícil. El principio establece que el número apropiado de grados de
libertad es igual al número de celdas, k, menos un grado de libertad por cada
restricción lineal independiente impuesta sobre los conteos observados de las
celdas. Por ejemplo, una restricción lineal siempre está presente porque la suma
total de los conteos de las celdas tiene que ser igual a n ; es decir,

n1 + n2 +...+ nk = n

Se introducirán otras restricciones en algunas aplicaciones debido a la necesidad


de estimar parámetros desconocidos que se requieren para calcular las
frecuencias esperadas en cada celda o debido al método de recolección de la
muestra. Cuando hay que estimar parámetros desconocidos para calcular X 2 ,
debe emplearse un estimador de máxima verosimilitud. Los grados de libertad
para la aproximación por una distribución ji-cuadrada se reducirán en uno por cada
parámetro que hay que estimar.

Se puede utilizar también el estadístico χ 2 para verificar si los datos de una


muestra indican que un modelo particular para una distribución de la población no
ajusta a los datos. Este hecho es llamado prueba de bondad de ajuste.

Ejemplo 14. La teoría mendeliana establece que el número de chícharos de cierto


tipo que caen en las clasificaciones redondos y amarillos, rugosos y
amarillos, redondos y verdes, y rugosos y verdes tendría que ser
proporcional a 9:3:3:1. Suponga que de 100 chícharos, 56, 19, 17 y 8
cayeron en las respectivas clases. ¿Son estos datos congruentes
con el modelo? Utilice α = 0.05 . (La expresión 9:3:3:1 quiere decir
que 9/16 de los chícharos serían redondos y amarillos, 3/16 rugosos
y amarillos, etc.).

76
Solución

Ho : Los datos son congruentes con la teoría mendeliana

Ha : Los datos no son congruentes con la teoría mendeliana

La hipótesis nula H o establece que los datos son consistentes con la teoría
mendeliana

clasificación : 1 2 3 4

pi- mendeliana(pio) : 0.5625 0.1875 0.1875 0.0625 1


pi- observada : 0.5600 0.1900 0.1700 0.0800 1

ni-observados( ni ) : n1 n2 n3 n4 n
56 19 17 8 100

n(pio) 56.25 18.75 18.75 6.25 100


(ni-n(pio))2 0.0625 0.0625 3.0625 3.0625
((ni-n(pio))2 )/(n(pio)) 0.00111111 0.00333333 0.16333333 0.49 0.65777778

DE DONDE : χ 2estimada = 0.6578

ASI TAMBIEN :
ji-cuadrada( con α =0.05 y 3 grados de libertad ) = 7.8147

Por lo tanto, no podemos rechazar Ho; es decir, los datos no proporcionan


evidencia suficiente para rechazar el modelo mendeliano.

Supongamos que un genetista ha realizado un experimento de cruzamiento entre


dos híbridos F1 y obtiene una progenie F2 de 90 crías, de las cuales 80 son de tipo
salvaje y 10 son mutantes. El genetista supone dominancia y espera una
proporción de fenotipos 3:1 . Sin embargo, cuando calculamos las proporciones
reales, observamos que los datos están en una proporción 8:1.

Los valores esperados de p y q son p$ = 0.75 y q$ = 0.25 para el tipo salvaje y


mutante respectivamente. Sin embargo, las proporciones observadas de estos
dos tipos son p = 0.89 y q = 011
. respectivamente.

Otra forma más de observar el contraste entre lo observado y lo esperado es


exponerlo en frecuencias:

77
Las frecuencias observadas son 80 y 10 para los dos fenotipos.

Las frecuencias esperadas serían

f$1 = p$ n = 0.75( 90) = 67.5 y


f$ = q$ n = 0.25( 90) = 22.5
2

respectivamente, en donde n se refiere al tamaño muestral de la descendencia del


cruzamiento.

Nuestra primer pregunta es si la desviación de la hipótesis 3:1 observada en


nuestra muestra es de tal magnitud como para resultar improbable. Es decir,
¿difieren los datos observados de los esperados lo suficiente como para hacer que
rechacemos la hipótesis nula? Naturalmente, este problema se puede resolver
tomando una decisión sobre la hipótesis nula. Ya que se trata de una distribución
binomial en la que p es la probabilidad de que sea un tipo salvaje y q es la
probabilidad de que sea mutante. Es posible hallar la probabilidad de obtener un
resultado de 80 tipo salvaje y 10 mutantes así como todos los casos “peores” para
p$ = 0.75 y q$ = 0.25 , y una muestra de n=90 descendientes.

Sin embargo, vamos a resolver el problema mediante una prueba de bondad de


ajuste. La tabla 1 muestra como podemos proceder.

Tabla 1.-

Desarrollo de la prueba ji-cuadrada para bondad de ajuste. Frecuencias


observadas y esperadas del resultado de un cruzamiento genético, suponiendo
una proporción 3:1 de fenotipos entre la descendencia.

Fenotipos (1) (2) (3) (4) (5)


Frecuencias Frecuencias Desviaciones Cuadrado
observadas esperadas de lo de las
f f$ esperado desviaciones
(f − f$ )
2

f − f$ (f − f$ )
2

f$
Tipo Salvaje 80 p$ n = 67.5 12.5 156.25 2.315
Mutante 10 q$ n = 22.5 -12.5 156.25 6.944
Suma 90 90 0 X 2 =9.259

¿Cómo podemos desarrollar un estadístico para probar en qué medida difieren las
frecuencias observadas de la columna (1) de las frecuencias esperadas en la
columna (2)? La siguiente prueba estadística es fácil de comprender y su
estructura tiene un sentido lógico. Primero medimos f − f$ , la desviación de las
frecuencias observadas respecto a las esperadas. Observemos que la suma de
estas desviaciones es igual a cero, por razones muy similares a las que hacen que

78
la suma de las desviaciones de una media sumen cero. Siguiendo nuestro
método previo de elevar al cuadrado todas las desviaciones para hacerlas
positivas, elevamos al cuadrado f − f$ en la columna (4) para dar una medida de la
magnitud de la desviación de lo que se espera. Esta cantidad debe expresarse
como una proporción de la frecuencia esperada. El próximo paso es sumar estos
cocientes, dando un valor de 9.259

El estadístico obtenido es “conocido” por muchas personas como ji-cuadrada y


debido principalmente porque la suma de la columna (5) tiene una distribución de
muestreo muy próxima a una distribución ji-cuadrada con un grado de libertad. No
obstante, como el estadístico de muestreo no es un ji-cuadrado, hemos seguido la
costumbre, crecientemente en boga, de designar al estadístico de muestreo
como X 2 en lugar de χ 2 . El valor X 2 = 9.259 de la tabla 1, cuando se compara
con el valor crítico de χ 2 ( ver tabla 6 de apéndice ), es altamente significativo
( p < 0.005). (La prueba ji-cuadrado es siempre de una cola, como las
desviaciones están elevadas al cuadrado, tanto las positivas como las negativas
conducen a valores positivos de X 2 ). Es decir

H o : 31
:
H a : 8:1

Clasificación Salvajes Mutantes Total


p io : 3 1 1
= 0.75 = 0.25
4 4

p i obs: 80 10 1
= 0.89 = 0.11
90 90

n i obs: 80 10 90 Frecuencia Obs.

np i o : 67.5 22.5 90 Frec. esperada

(n − np ) 156.25 156.25
2
i io

(n − np ) 2.3148 6.9444 9.259=X2


2
i io

np i o

χ 2(0 . 005 ,1 gl )
= 7.87944

7.87944 = χ α2 = 0.005 < X 2 = 9.259

79
Por lo tanto, rechazamos la hipótesis nula 3:1 y concluimos que la proporción de
tipo salvaje es mayor que 0.75. En consecuencia, el genetista debe buscar un
mecanismo que explique esta desviación de lo esperado.

La prueba de bondad de ajuste puede aplicarse a una distribución con más de dos
clases.

Ejemplo 15. En un experimento genético que incluye un cruzamiento entre dos


variedades de la judia phaseolus vulgaris, Smith (1933) obtuvo los
siguientes resultados

Fenotipos Frecuencias Frecuencias


(a = 8) observadas esperadas
f f$
Púrpura/ante 63 67.8
Púrpura/testáceo 31 22.6
Rojo/ante 28 22.6
Rojo/testáceo 12 7.5
Púrpura 39 45.2
Rojo, sangre de toro 16 15.1
Ante 40 45.2
Testáceo 12 15.1
Total 241 241.1

Sin embargo, de acuerdo a la teoría se esperaba una proporción de


18:6:6:2:12:4:12:4.

Realice una prueba de bondad de ajuste para determinar si las frecuencias


observadas son compatibles con las proporciones postuladas.

Solución.-

Debemos calcular

(f )
2
a − f$ i

2 i
X = K (1)
i =1 f$i

o equivalentemente

a 2
fi
X2 = ∑i =1 f$ i
−n K (2)

80
Si por el momento suponemos que X 2 en este caso también se distribuye
aproximadamente como χ 2 , necesitamos saber cuantos grados de libertad existen
en este ejemplo para poder compararlo con la distribución χ 2 apropiada. En
general (para esta prueba), cuando tenemos a clases, existen a - 1 grados de
libertad

Fenotipos Frecuencias Proporción p Frecuencias


(fi − f$i )2 f 
(a=8) observadas esperada
p total
esperadas fi * ln i 
f p f$ f$i  f$i 

Púrpura/ante 63 18 0.2813 67.78 0.34 -4.6085


púrpura/testáceo 31 6 0.0938 22.59 3.13 9.8057
Rojo/ante 28 6 0.0938 22.59 1.29 6.0069
Rojo/testáceo 12 2 0.0313 7.53 2.65 5.5901
Púrpura 39 12 0.1875 45.19 0.85 -5.7431
Rojo,sangre de toro 16 4 0.0625 15.06 0.06 0.9661
Ante 40 12 0.1875 45.19 0.60 -4.8776
Testáceo 12 4 0.0625 15.06 0.62 -2.7276

Total 241 64 241.00 9.53 4.4120

G = 8.8240
DE DONDE X2 = 9.53

POR OTRO LADO: JI-CUADRADA ( α =0.05 y 7 g.l.) = 14.0671273

y dado que X 2 < ji-cuadrada, concluimos que las frecuencias observadas son
compatibles con las proporciones postuladas. Más aun, χ (20.10,7 gl .) = 12.017
entonces, para todo α < 010
. no podemos rechazar la hipótesis nula.

Recientemente se ha introducido una nueva prueba de bondad de ajuste. Se trata


de la prueba G, basada en el estadístico de razón de verosimilitudes. Tiene varias
ventajas sobre la más antigua ji-cuadrada. Si la proporción observada p es igual a
la proporción p̂ postulada según la hipótesis nula, las dos probabilidades serán
iguales y su razón, L, será igual a 1.0. Cuando mayor sea la diferencia entre
p y p$ , mayor será la razón.

Esto indica que la razón de estas dos probabilidades o verosimilitudes puede


utilizarse como un estadístico para medir el grado de ajuste entre frecuencias
observadas y esperadas. Una prueba basada en esta razón se denomina prueba
de razón de verosimilitudes. La distribución teórica de esta razón es en general
compleja y escasamente conocida. No obstante, se ha demostrado que la
distribución de

G = 2 ln L = 2(ln 10) log L K (3)

81
puede ser aproximada para la distribución χ 2 cuando los tamaños de muestra son
grandes. Los grados de libertad apropiados para una determinada prueba son los
mismos que para las pruebas ji-cuadrado discutidas anteriormente. En general, G
será numéricamente muy similar a X 2 . A veces se utiliza para G el símbolo 2I.
Algunas fórmulas equivalentes a (3) son las siguientes

a f 
G = 2 ∑ fi * ln i  K ( 4)
i =1  f$i 

 a a

G = 2 ∑ fi * ln fi − ∑ fi * ln f$i 
 i =1 i =1 

 a a 

= 2  f i *ln f i − (2.30259)
 i =1
∑f
i =1
i * log f$ i 

K (5)

 n n 
G=2 ∑
 i =1
f i * ln f i − ∑f
i =1
i * ln p$ i − n * ln n 

K (6)

Ejemplo.

Apliquemos esta prueba de bondad de ajuste a los datos del ejemplo 15.

Solución.-

De la última columna del cuadrado de la solución del ejemplo 15, tenemos que

G = 8.8240 < χ 20.05[ 7] = 14.067

Por lo tanto, también con esta prueba, concluimos que las frecuencias observadas
son compatibles con las proporciones postuladas.

82
En las pruebas de bondad de ajuste que incluyen solamente dos clases, el valor
de G mostrará un sesgo que puede modificarse aplicando una corrección de
continuidad, aproximando más estrictamente el valor de G a la distribución χ 2 .
Esta corrección consiste en sumar o restar 0.5 de las frecuencias observadas, de
tal manera que se haga mínimo el valor de G. Simplemente se ajustan las fi
transformándolas para reducir la diferencia entre éstas y las frecuencias
esperadas correspondientes en un medio. La corrección de continuidad se aplica
siempre que n < 200. Cuando n < 25 incluso esta corrección es insuficiente para
rectificar el sesgo. En tal caso es conveniente un cálculo exacto de las
probabilidades binomiales.

La prueba G para probar la bondad del ajuste de una serie de datos a una
distribución de frecuencias esperada, puede aplicarse no solamente a la de
Poisson sino también a la normal, binomial y otras distribuciones. Para una
distribución normal, ordinariamente estimamos dos parámetros de los datos
muestreados µ y σ . De aquí que los grados de libertad correspondientes sean
a - 3. En la binomial solamente debe estimarse un parámetro p$ ; los grados de
libertad correspondientes son a - 2.

83
TABLAS DE CONTINGENCIA
Un problema común en el análisis de datos enumerativos se refiere a la
independencia de dos métodos de clasificación de eventos observados. Por
ejemplo, podríamos clasificar una muestra de individuos según el sexo y según su
opinión con respecto a una cuestión política para probar la hipótesis de que las
opiniones con respecto a esta cuestión son independientes del sexo, o podríamos
clasificar a los pacientes que padecen cierta enfermedad según el tipo de
medicamento y según el porcentaje de recuperación para ver si el porcentaje de
recuperación depende del tipo de medicamento.

En cada uno de estos ejemplos queremos investigar la dependencia (o


contingencia) entre dos criterios de clasificación.

Ejemplo

Se realizó una encuesta para evaluar la eficacia de una nueva vacuna contra la
gripe que había sido aplicada en una pequeña comunidad. La vacuna se
proporcionó sin costo alguno en una secuencia de dos inyecciones en un periodo
de dos semanas a quienes desearan aprovecharla. Algunas personas recibieron
las dos inyecciones, otras se presentaron solamente para la primera inyección y
otras ninguna inyección recibieron. Una encuesta de 1000 habitantes locales, en
la primavera siguiente, proporcionó la información que se muestra en la tabla
siguiente. ¿Presentan los datos suficiente evidencia para indicar una dependencia
entre la clasificación según la vacunación y la ocurrencia o no de la gripe?

Ninguna Una Dos Total


Inyección inyección Inyecciones
Gripe 24 (14.4) 9 (5.0) 13 (26.6) 46

No gripe 289 (298.6) 100 (104.0) 565 (551.4) 954

Total 313 109 578 1000

Solución.-

Analizamos los datos como una tabla de contingencia. Las estimaciones de las
frecuencias esperadas de las celdas pueden calcularse al utilizar los totales
apropiados de los renglones y de las columnas.

ri c j
Ε$ ( n ij ) =
n

84
entonces:

r c ( 46) (313)
Ε$ ( n11 ) = 1 1 = = 14.4
n 1000

r c ( 46) (109)
Ε$ ( n12 ) = 1 2 = = 5.0
n 1000
M

r c (954) (578)
Ε$ ( n 23 ) = 2 3 = = 515.4
n 1000

estos valores se muestran entre paréntesis en la tabla anterior.

El valor del estadístico de la prueba X 2 se calcula enseguida y se compara con el


valor crítico de χ 2 con (r-1) (c-1) = (1) (2) = 2 grados de libertad. Entonces, para
α = 0.05 tenemos:

χ 20.05 = 5.991 con 2 g. l.

y por otro lado

(24 − 14.4) 2 (289 − 298.6)2 (565 − 551.4)2


X2 = + +...+
14.4 298.6 551.4

X 2 = 17.35

Como X 2 = 17.35 > χ 20.05 = 5.991

rechazamos la hipótesis nula de la independencia de las dos clasificaciones. Por


otro lado, el valor p asociado se da por

p = Pr ( χ 2 > 17.35)

comprobando con las tablas del apéndice obtenemos que p < 0.005 . Así para
cualquier valor de α mayor que o igual a 0.005 los datos presentan evidencia
suficiente para indicar una dependencia entre la clasificación según la vacunación
y la ocurrencia o no de la gripe.

85
La que sigue es una simple regla general para el cálculo de la prueba G de
independencia:

[
G = 2 ( ∑ f * ln f para las frecuencias de casillas)
− ( ∑ f * ln f para las sumas de fila y columna)
+ n * ln n]

Los grados de libertad para pruebas de independencia son siempre los mismos y
pueden calcularse utilizando las reglas dadas anteriormente. Hay k casillas en la
tabla pero debemos restar un grado de libertad por cada parámetro independiente
que hayamos estimado de los datos. Naturalmente debemos restar un grado de
libertad para el tamaño de muestreo total observado n. Hemos estimado además
r-1 probabilidades de fila y c-1 probabilidades de columna, donde r y c son el
número de filas y columnas de la tabla, respectivamente. Así, hay

k-(r-1)-(c-1)-1=k-r+1-c+1-1=k-r-c+1

grados de libertad para la prueba. Pero k = r x c, entonces

k-r-c+1=rc-r-c+1=r(c-1)-(c-1) = (r-1)(c-1)

es la expresión convencional para determinar los grados de libertad en una prueba


de independencia de doble entrada.

Otro nombre para la prueba de independencia es prueba de asociación. Si dos


propiedades no son independientes entre si, están asociadas. Asociación es pues
similar a correlación, pero es un término más general que se aplica tanto a los
atributos como a las variables continuas

Ejemplo.-

Apliquemos la prueba G al ejemplo anterior

Solución.-

Calcularemos las sumas siguientes

a) Suma de transformaciones de las frecuencias en el cuerpo de la tabla de


contingencia

∑∑f ij * ln fij =
= 24 ln 24 + 289 ln 289+...+13 ln 13 + 565 ln 565
= 5807.81

86
b) Suma de transformaciones de los totales de fila
46 ln 46 + 954 ln 954 = 6 721.19

c) Suma de transformaciones de los totales de columna


313 ln 313 + 109 ln 109 + 578 ln 578 = 5 985.75

d) Transformación de la suma total

n ln n = 1000 ln 1000 = 6 907.76

Por lo tanto:

G = 2[a − b − c + d ]

G = 2[5807.81 − 672119
. − 5985.75 + 6907.76]

G = 17.2519

Este valor es para compararlo con una distribución χ 2 con (r-1) (c-1) grados de
libertad. En este caso (2-1) (3-1) = 2 g.l

Como χ 2( 0.005) [ 2 ] = 10.5965

G > χ 2( 0.005) [ 2 ]

Por lo tanto, los datos presentan evidencia suficiente para indicar una dependencia
entre la clasificación según la vacunación y la ocurrencia o no de la gripe.

87
EJERCICIOS

En los siguientes ejercicios, lleve a cabo la prueba al nivel de significación indicado


y determine el valor de p.

1.- Se clasificó en forma cruzada una muestra de 250 médicos en base a su


especialidad y a la zona de la comunidad en que estaban trabajando. Los
resultados fueron los siguientes:

Especialidad

Zona de la comunidad A B C D Total

Norte 20 18 12 17 67
Sur 6 22 15 13 56
Este 4 6 14 11 35
Oeste 10 19 23 40 92

Total 40 65 64 81 250

¿Proporcionan estos datos la evidencia suficiente que indique una falta de


independencia entre los dos criterios de clasificación? Sea α =.01

2.- Quinientos empleados de una empresa que fabrica cierto producto, que se
suponía estaba asociado con alteraciones respiratorias, se clasificaron en
forma cruzada en base a su nivel de exposición al producto y si tenían o
no los síntomas de tales alteraciones respiratorias. Los resultados se
presentan en la siguiente tabla.

Nivel de exposición

Presencia de síntomas Alto Limitado Sin exposición conocida Total

Si 185 33 17 235
No 120 73 72 265

Total 305 106 89 500

¿Proporcionan estos datos la evidencia suficiente que indique, al nivel de


significación de .01, una relación entre el nivel de exposición y la presencia
de los síntomas de las alteraciones respiratorias?

88
3.- Quinientos niños de escuela primaria se clasificaron en forma cruzada de
acuerdo con el grupo socioeconómico y la presencia o ausencia de cierto
defecto en la pronunciación. Los resultados fueron los siguientes.

Grupo socioeconómico

Defecto en la Medio Medio


pronunciación Superior superior inferior Inferior Total

Presente 8 24 32 27 91
Ausente 42 121 138 108 409

Total 50 145 170 135 500

¿Son compatibles estos datos con la hipótesis de que el defecto en la


pronunciación no está relacionado con el estado socioeconómico?

4.- A un grupo de 350 adultos, quienes participaron en una encuesta de salud,


se les preguntó si llevaban o no una dieta. Las respuestas por sexos
fueron las siguientes.

Sexo

Masculino Femenino Total

A dieta 14 25 39
Sin dieta 159 152 331

Total 173 177 350

¿Sugieren estos datos que el estar a dieta depende del sexo?


Sea α =.05

5.- Una muestra de 500 estudiantes de bachillerato participó en un estudio


diseñado con el fin de evaluar el grado de conocimiento respecto a un
cierto grupo de enfermedades comunes de los estudiantes de este nivel.
La tabla siguiente indica los estudiantes clasificados de acuerdo a su
principal campo de estudio y al nivel de conocimiento del grupo de
enfermedades.

89
Conocimiento de las enfermedades

Principal campo
de estudio Bueno Deficiente Total

Orientación
premédica 31 91 122

Otras 19 359 378

Total 50 450 500

¿Sugieren estos datos que existe una relación entre el conocimiento del
grupo de enfermedades y el principal campo de estudio de los estudiantes
de bachillerato de los cuales se extrajo la presente muestra?

6.- En un experimento para determinar el modo de herencia de un mutante


verde, se obtuvieron 146 descendientes tipo salvaje y 30 mutantes cuando
se cruzaron las moscas de la generación F1. Probar si los datos
concuerdan con la hipótesis de que la razón de tipo salvaje a mutantes es
3:1, SOLUCIÓN. G = 6.4624.

7.- En un estudio de polimorfismo de inversiones cromosómicas en la


langosta Morada Scurra, Lewontin y White (1960) dieron los siguientes
resultados para la composición de una población en Royalla “B” en 1958.

Cromosoma CD
St/St St/B1 B1/B1

Cromosoma EF Td/Td 22 96 75
St/Td 8 56 64
St/St 0 6 6

¿Son las frecuencias de las tres combinaciones diferentes del cromosoma


EF independientes de las frecuencias de las tres combinaciones del
cromosoma CD? SOLUCIÓN. G=7.396.

8.- Comprobar si el porcentaje de ninfas del áfido Myzus persicae que se ha


desarrollado en formas aladas depende del tipo de dieta suministrada. A
las hembras apomícticas se les han puesto las dietas un día antes del
nacimiento de las ninfas (dato de Mittler y Dadd, 1966).

Tipo de dieta % formas aladas n

Dieta sintética 100 216


“Sandwich” cotiledón 92 230
Cotiledón libre 36 75

90
MODELOS DETERMINÍSTICOS Y PROBABILÍSTICOS
En este capitulo estudiaremos los procedimientos inferenciales que pueden
utilizarse cuando una variable y , denominada variable dependiente, tiene una
media que es una función de una o más variables no aleatorias, x 1 , x 2 ,... , x k
llamadas variables independientes. (En este contexto los términos “independiente”
y “dependiente” se utilizan en su sentido matemático. No existe ninguna relación
con el concepto probabilístico de variables aleatorias independientes).

Se pueden utilizar muchos tipos diferentes de funciones matemáticas para


representar el modelo de una respuesta que sea función de una o más variables
independientes.

Es posible clasificar estos modelos probabilísticos. Por ejemplo, supongamos que


interesa relacionar una respuesta y con una variable x , y que el conocimiento del
campo científico establece que y y x están relacionadas según la ecuación

y = β 0 + β1x

(en donde β 0 y β 1 son parámetros desconocidos). Este modelo se denomina


modelo matemático determinístico porque no permite algún error en la predicción
de y como función de x . Es decir, y siempre toma el valor β 0 + β 1 (20) cuando
x = 20

Supongamos que se obtiene una muestra de n valores de y que corresponden a n


diferentes valores de la variable independiente x , y que la representación gráfica
de los datos es como se indica en la figura 1. Podemos observar que el valor
esperado de y puede aumentar como una función lineal de x , pero que un modelo
determinístico queda lejos de ser una descripción adecuada de la realidad.

Al repetir el experimento para x = 20 , y fluctúa de manera aleatoria. Esto nos


indica que el modelo determinístico no es una representación exacta de la relación
entre las dos variables. Además, si se utiliza el modelo para predecir y cuando
x = 20 , la predicción tendrá un error desconocido. Esto naturalmente, nos conduce
a la aplicación de los métodos estadísticos. La predicción de y para un valor dado
de x es un proceso inferencial y se requiere conocer las propiedades del error de
la predicción si ésta va a ser de utilidad en la realidad.

En contraste con los modelos determinísticos, los estadísticos utilizan modelos


probabilísticos. Por ejemplo, podríamos representar las respuestas de la figura 1.
mediante el modelo

Ε ( y) = β 0 + β 1 ( x)

91
lo que equivale a

Y = β 0 + β1 x + ε

en donde ε es una variable aleatoria con una distribución de probabilidad


específica con media cero. Considérese a y como una variable que tiene un
componente determinístico, Ε ( y) , más un componente aleatorio ε . Este modelo
toma en cuenta el comportamiento aleatorio de y representado en la fig. 1 y
representa una descripción más adecuada de la realidad que el modelo
determinístico. Además, se pueden obtener las propiedades del error de
predicción para y en muchos de los modelos probabilísticos.

Figura 1

Aunque haya un sinfín de funciones diferentes que se pueden utilizar como


modelo del valor medio de la variable respuesta y como una función de una o
más variables independientes, nos concentraremos en el conjunto de modelos
denominados modelos estadísticos lineales. Observe que en:

Ε ( y) = β 0 + β 1 x : Ε( y)es una función lineal de x (para β 0 y β 1 dados) y


también es una función lineal de β 0 y β 1

Ε ( y) = β 0 + β 1 x 2 : Ε ( y)no es una función lineal de x , pero si es una función


lineal de β 0 y β 1 (ya que Ε ( y) = cβ 0 + dβ 1 con c = 1 y d = x 2 ) .

92
Cuando se afirma tener una modelo estadístico lineal para y , se denota que Ε( y)
es una función lineal de los parámetros desconocidos β 0 y β 1 y no
necesariamente una función lineal de x . Por lo tanto y = β 0 + β 1 (ln x) + ε es un
modelo lineal (suponiendo que ln x es una constante conocida).

Si el modelo expresa a Ε( y) como una función lineal de β 0 y β 1 solamente, el


modelo se denomina modelo de regresión lineal simple. Si hay más de una
variable independiente de interés, digamos x1 , x 2 ,..., x k , y si el modelo de Ε( y) es

Ε ( y) = β 0 + β1x1 +...+β k x k

el modelo se conoce como modelo lineal de regresión múltiple. Ya que se


consideran x1 , x 2 ,..., x k como constantes conocidas, supuestamente son medidas
sin error en un experimento.

93
REGRESIÓN Y CORRELACIÓN
Al analizar información con frecuencia resulta conveniente saber algo acerca de la
relación que existe entre dos o más variables involucradas. Por ejemplo,
interesará estudiar la relación que existe entre la presión sanguínea y la edad, la
estatura y el peso, la concentración de un medicamento inyectado a la frecuencia
cardiaca, el nivel de consumo de algún nutriente y la ganancia de peso, la
intensidad de un estímulo y el tiempo de reacción. La naturaleza e intensidad de
las relaciones entre variables como éstas pueden estudiarse por medio del análisis
de regresión y correlación, dos técnicas estadísticas que, aunque relacionadas,
tienen finalidades distintas.

El análisis de regresión es útil para averiguar la forma probable de la relación entre


las variables y cuando se utiliza este método de análisis, el objetivo final es por lo
general predecir o estimar el valor de una variable que corresponde a un valor
determinado de otra variable.

Por otra parte, el análisis de correlación se refiere a la medición de la intensidad


de la relación entre las variables. Por el momento nos limitaremos a dos variables,
por lo tanto, la regresión y correlación son llamadas simples.

Con la regresión podemos expresar funcionalmente, mediante una ecuación, la


relación entre las variables y podemos, por ejemplo, estimar en promedio el
rendimiento en función del coeficiente intelectual; la dilatación de un cuerpo en
función de la temperatura, etc. Este procedimiento se llama estimación por
asociación. Convencionalmente, la variable base de la predicción (variable de
entrada) se llama variable independiente y la variable que se va a predecir
(variable de salida) es la variable dependiente.

REGRESIÓN LINEAL SIMPLE

El objetivo principal del análisis de regresión lineal es establecer una relación


funcional entre dos variables relacionadas, tomando datos muestrales (aleatorios),
que constituyan buenos estimadores de la correspondiente relación poblacional.
Una vez que se ha establecido cuantitativamente esta relación (mediante la
correspondiente ecuación), es posible predecir o estimar el valor de una de las
variables (la dependiente) en función de la otra (la independiente),

Una vez recolectada la información (serie bidimensional), que son pares de datos
bivariados, éstos se llevan a un sistema de ejes coordenados; la variable
independiente X se escribe en el eje de las abscisas, y la variable dependiente Y
en el eje de las ordenadas. Al conjunto de puntos (X , Y) que aparecen en la
gráfica se le llama diagrama de dispersión. De acuerdo con la forma que tome
dicho diagrama, así será la función (ecuación) que se utilizará, de tal forma que

94
describa adecuadamente la relación entre las variables. A continuación
mostramos las formas generales de diversas relaciones, denominadas funciones o
ecuaciones de predicción:

Ec. de la línea recta y = a + bx


Ec. de 2 o grado o cuadrática y = a + bx + cx 2
Ec. exponencial y = ab x
Ec. potencial y = ax b

Un procedimiento para estimar los parámetros de cualquier modelo lineal es el


método de los mínimos cuadrados, que ilustraremos aplicándolo para ajustar una
línea recta a un conjunto de puntos. Supongamos que se desea ajustar el modelo

Ε ( y) = β 0 + β1 x

al conjunto de puntos mostrados en la fig. sig. (Debemos notar que la variable


independiente x podría ser ω 2 , ω 2 o ln ω , etc, para alguna otra variable
1

independiente ω ). Es decir, postulamos que y = β 0 + β1 x + ε , en donde ε tiene


una distribución de probabilidad con Ε(ε ) = 0 . Si β$ y β$ son estimadores de
0 1

los parámetros β 0 y β 1 , entonces y$ = β$ 0 + β$ 1x es un estimador de Ε (y) .

El procedimiento de los mínimos cuadrados para ajustar una recta a través de un


conjunto de n puntos es similar al método que podríamos utilizar para ajustar una
recta a simple vista; es decir, se pretende que las desviaciones sean “pequeñas”
en cierto sentido. Una manera conveniente para lograr esto, y que nos aporta
estimadores con propiedades adecuadas, es minimizar la suma de los cuadrados
de las desviaciones verticales de la recta ajustada. Por lo tanto si

y$ i = β$ 0 + β$ 1x i

es el valor estimado del i-ésimo valor de y (cuando x = x i ), entonces la desviación


del valor observado de y a partir de la recta y$ (llamada a veces el error) es

y i − y$ i

y la suma de los cuadrados que debe minimizarse es


n n
SCE = ∑ ( y i − y$ i )2 = ∑ (y i − β$ 0 − β$ 1x i )2
i =1 i =1

SCE es también llamada suma de los cuadrados de los errores.

95
xi x

Ajuste de una línea recta a través de un conjunto de puntos.

Para satisfacer la condición de minimizar las desviaciones de los valores reales de


y i con respecto a la línea teórica, basta con derivar con respecto a β$ 0 y con
respecto a β$ e igualar a cero las derivadas; las ecuaciones que resulten, al
1

resolverlas, definirán los valores de β$ 0 y β$ 1 que minimizarán dichas


desviaciones.

∂ SCE n
= 2∑ ( y i − β$ 0 − β$ 1x i ) ( −1)
∂ β$ 0 i =1

 n n

= −2 ∑ y i − nβ$ 0 − β$ 1 ∑ x i  = 0
 i =1 i =1 

n n
⇒ ∑
i =1
y i − nβ$ 0 − β$ 1 ∑ x i = 0
i =1

⇒ n y − nβ$ 0 − nβ$ 1 x = 0

⇒ β$ 0 = y − β$ 1 x ... (1)

96
∂ SCE n
= 2∑ ( y i − β$ 0 − β$ 1 x i ) ( − x i ) = 0
∂ β$ i =1
1

n n n
⇒ ∑x
i =1
i y i − β$ 0 ∑ x i − β$ 1 ∑ x 2i = 0
i =1 i =1

n n n
⇒ ∑ x i y i − ( y − β$ 1 x ) ∑ x i − β$ 1 ∑ x 2i = 0
i =1 i =1 i =1

n n n n

∑ x i y i − y ∑ x i + β$ 1x ∑ x i − β$ 1 ∑ x 2i = 0
i =1 i =1 i =1 i =1

$  nx 2 − x 2  = 0
n n


i =1
x i y i − nyx + β1


i =1
i

n n
nyx − ∑ x i y i ∑x y − nyx i i
⇒ β$ 1 = i =1
= i =1

nx 2 − ∑ x i 2
n
∑ x − nx 2
i
2

i =1

n n n
n ∑ xi yi − ∑ xi ∑y i
⇒ β$ 1 = i =1 i =1 i =1
... (2)
n ∑ x 2i ( ∑ xi )
2

Las ecuaciones (1) y (2) minimizan SCE y son conocidos como coeficientes de
regresión.

97
Ejemplo.-

A continuación se dan los índices correspondientes a la producción de arroz


(base: 1980 =100)

Año Índice
1982 103.5
1983 127.7
1984 149.9
1985 155.3
1986 121.1
a) Calcule la ecuación de la tendencia que siguieron los índices de
producción de arroz, con origen en 1984 (Ajuste una función lineal).

b) Estime la producción de arroz para 1987, si en 1980 fue de 20 toneladas.


Sugerencia. Con la ecuación encontrada, estime el índice para 1987;
luego multiplique el índice encontrado por las 20 ton. y divida entre 100.

Solución:

x y Producción xy x2
Estimada
año Índice de arroz

1980 100.00 20.00


1981 -3 112.66 22.53
1982 -2 103.50 20.70 -207 4
1983 -1 127.70 25.54 -127.7 1
1984 0 149.90 29.98 0 0
1985 1 155.30 31.06 155.3 1
1986 2 121.10 24.22 242.2 4
1987 3 150.34 30.07

SUMA = 0 657.5 62.8 10


PROMEDIO= 0 131.5
n= 5
B0 = 131.5
B1 = 6.28

Y = B0 + ( B1 ) X

Por lo tanto:

a) y = 131.5 + 6.28x
b) La producción estimada de arroz para 1987 es de 30.07 toneladas

98
COEFICIENTE DE CORRELACIÓN

La correlación mide la intensidad o fuerza con que están relacionadas las


variables, y será medida por el coeficiente r de correlación.

Según el número de variables estudiadas, la correlación puede ser:

• Simple: cuando se estudia el grado de asociación o dependencia entre dos


variables.

• Múltiple: Cuando se estudia el grado de asociación que puede existir entre


tres o más variables; una de ellas dependiente y el resto
independiente.

• Parcial: En el caso de correlación múltiple, es la cuantificación del grado de


asociación neta entre dos variables, una vez eliminada
estadísticamente la influencia de las otras variables independientes.

Respecto a la naturaleza de la función y según el tipo de ecuación de regresión, la


correlación puede ser rectilínea, parabólica, exponencial, potencial, etc.

Respecto a la relación de las variables:

• Correlación directa o positiva: Cuando al aumentar (disminuir) el valor de la


variable independiente, aumenta (disminuye) también el valor de la variable
dependiente.

• Correlación inversa o negativa: Cuando al aumentar (disminuye) el valor


de la variable independiente, disminuye (aumenta) el valor de la variable
dependiente.

Por el momento estudiaremos la correlación simple, positiva y negativa. El


coeficiente r de correlación toma valores entre 0 y 1 para la positiva, y para la
inversa o negativa entre 0 y -1.

Si r=1 o r = -1 existe correlación perfecta entre las variables, en forma


positiva o negativa respectivamente. Si r = 0 , no existe ninguna relación entre las
variables.

99
Existe intima relación entre regresión y correlación, ya que entre mayor sea el
valor del coeficiente de correlación r, mayor será la utilidad de la ecuación de
regresión para hacer estimaciones de la variable dependiente Y en función de la
variable independiente X; y viceversa, entre menor sea el valor de r (en valor
absoluto), menos útil será la ecuación de regresión para efectos de estimaciones
de la variable dependiente. Por lo tanto, podríamos recomendar que antes de
calcular la ecuación de regresión entre dos variables se calcule primero el
coeficiente de correlación entre éstas, y si el valor de r es del orden de 0.70 o más,
recomendamos el cálculo de la ecuación.

Sea ( x1 , y1 ) , ( x 2 , y 2 ) ,..., ( x n , x n ) una muestra aleatoria de una distribución normal


bivariable. El coeficiente de correlación muestral está dado por:
n

∑ (x i − x) (y i − y)
r = n
i =1
n

∑ (x i − x ) ∑ (y
2 2

i − y)
i =1 i =1

o, equivalentemente
n n n
n ∑ xi yi − ∑ xi ∑ yi
r = i =1 i =1 i =1

 n 2  n  2
 n 2  n 2 
n ∑ x i −  ∑ x i   n ∑ y i −  ∑ y i  
 i =1  i =1    i =1  i =1  

Parece lógico utilizar r como un estadístico de prueba para probar la hipótesis


acerca de ρ (coeficiente de correlación poblacional), pero se presentan
dificultades ya que es difícil obtener la distribución de probabilidad para r . Sin
embargo se puede superar esta dificultad en muestras bastante grandes al utilizar
el hecho de que ( 1 2 ) ln [(1 + r ) / (1 − r )] tiene aproximadamente una distribución
normal con media ( 1 2 ) ln [(1 + ρ ) / (1 − ρ )] y varianza 1/(n - 3). Por lo tanto, para
probar la hipótesis H o : ρ = ρ o , podemos utilizar una prueba Z en la cual

1+ r 1  1 + ρo 
( 1 2 ) ln   − ( 2 ) ln  
1− r  1 − ρo 
Z=
1
n−3

La forma de la región de rechazo depende de la hipótesis alternativa, si α es la


probabilidad deseada de un error tipo I. Las diferentes alternativas de mayor
interés y las regiones de rechazo correspondientes son:

100
Ha : ρ > ρ o RR : Z > Z α
Ha : ρ < ρ o RR : Z < − Zα
Ha : ρ ≠ ρ o RR : Z > Z α 2

Ejemplo:

1.- Los experimentos diseñados para medir valores de CL50 en la


investigación de los efectos de cierto producto tóxico en peces se efectúan
con dos métodos diferentes. En un método el agua fluye continuamente a
través de los tanques del laboratorio dinámico y el otro método tiene
condiciones de agua en reposo. A fin de establecer los criterios para
sustancias tóxicas, la Agencia para la Protección Ambiental (APA)
pretende ajustar todos los resultados a la condición dinámica. Por lo que
se requiere de un modelo para relacionar los dos tipos de observaciones.
Las observaciones acerca de ciertos productos tóxicos en ambas
condiciones, estática y dinámica, dieron los siguientes resultados (las
mediciones están dadas en partes por millón).

Producto tóxico CL50 dinámico CL50 estático


y x

1 23.00 39.00
2 22.30 37.50
3 9.40 22.20
4 9.70 17.50
5 0.15 0.64
6 0.28 0.45
7 0.75 2.62
8 0.51 2.36
9 28.00 32.00
10 0.39 0.77

Ajuste el modelo y = β o + β1x + ε . ¿Qué interpretación puede dar a los


resultados? Estime el valor dinámico para un producto tóxico con un valor
estático de CL50 de x = 12 partes por millón.

101
Solución:

Producto tóxico CL50 estático CL50 dinámico


x y xy x2 y2
1 39.00 23.00 897.00 1,521.00 529.00
2 37.50 22.30 836.25 1,406.25 497.29
3 22.20 9.40 208.68 492.84 88.36
4 17.50 9.70 169.75 306.25 94.09
5 0.64 0.15 0.10 0.41 0.02
6 0.45 0.28 0.13 0.20 0.08
7 2.62 0.75 1.97 6.86 0.56
8 2.36 0.51 1.20 5.57 0.26
9 32.00 28.00 896.00 1,024.00 784.00
10 0.77 0.39 0.30 0.59 0.15
12.00 7.15

SUMA = 155.04 94.48 3,011.37 4,763.98 1,993.82


PROMEDIO = 15.50 9.45
n= 10

B0 = -0.7110
B1 = 0.6553

POR LO TANTO : Y = - 0.7110 + 0.6553X

Y EL VALOR DINÁMICO ESTIMADO PARA UN PRODUCTO TÓXICO


CON UN VALOR ESTÁTICO DE CL50 DE x = 12 PARTES POR MILLÓN
ES DE 7.15 PARTES POR MILLÓN

COEFICIENTE DE CORRELACIÓN = 0.9593

α = 0.05 Z 0.05 = 1.644853


H0 : ρ = 0.7
Ha : ρ > 0.7

Z = 2.8307

como Z > Z 0.05 , se rechaza Ho y además se acepta Ha


es decir, si existe bastante correlación entre el método estático y el dinámico

102
EJERCICIOS

1. La siguiente información corresponde a la temperatura (°F)* y a la


dilatación de un determinado material:

Temperatura 87 50 75 90 55 54 68 85 82 80 45 58 66
Dilatación 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1

* Un grado Fahrenheit = 0.556 centígrados. Para convertir °F a °C, reste


32 y multiplique por 5/9.

a) Determine la ecuación de regresión; utilice como variable dependiente la


que usted estime conveniente.

b) Calcule el coeficiente de correlación.

2. En la siguiente información, X corresponde al número de litros de bebidas


alcohólicas consumidas por cada 100 personas, y la variable Y
corresponde al número de accidentes automovilísticos por cada 100
personas que ingieren bebidas alcohólicas:

X 2 3 4 5 6 7 8 9 10
Y 8 10 12 18 20 22 25 28 30

a) Calcule la ecuación de regresión de Y sobre X.

b) Calcule el coeficiente de correlación.

3. Se realizó una investigación sobre los gastos en educación en familias con


tres hijos, cuyos ingresos familiares oscilan entre $6 000 y $12 000. Con
la información estadística se calculó la ecuación de regresión y el
coeficiente de correlación:

Yc = − 125 + 0.85 X; r = 0.82

El valor de r = 0.82 indica que puede haber bastante relación entre las
variables gastos en educación e ingresos.

a) Utilice la ecuación de regresión para estimar los gastos en educación de


familias con ingresos de $10 000.

b) Determine si la ecuación de regresión establecida puede servir para estimar


los gastos en educación de familias con ingresos de $4 000. Justifique su
respuesta.

103
c) Determine si la ecuación de regresión calculada puede ser útil para estimar
los gastos en educación de familias con dos hijos. Justifique su respuesta.

4. Se sabe que las producciones de bálsamo de un país, expresadas en


miles de tonelada, fueron:

Año 69 70 71 72 73 74 75 76 77
Producción 8 10 12 15 15 18 19 23 30

a) Calcule la ecuación de la tendencia que siguió la producción de bálsamo,


con origen en el año 1973

b) Calcule la ecuación de la tendencia, con origen en el inicio del periodo


(1969).

c) Estime la producción de bálsamo para 1980 con las dos ecuaciones


calculadas en a) y b).

5. A continuación se suministran los datos sobre índices de comercio exterior


de un país (base: 1970 = 100):

Año C70 V70

1976 95 105
1977 105 115
1978 115 120
1979 120 145
1980 130 160

Como puede observarse, a ambos tipos de índices se les puede ajustar


una función lineal.

a) Estimar la capacidad de importación para 1983, sabiendo que C70 = 1 200


kg.

b) Estimar el índice de valores unitarios de las importaciones para 1983, con


base en 1970.

Sugerencias

- Calcule las ecuaciones con origen en 1978.

104
- Para calcular el índice de valores unitarios de las importaciones divida el
índice de las exportaciones V70 entre el índice de capacidad para importar
C70 multiplicado por 100, para dicho año.

6. Los siguientes son datos sobre índices de comercio exterior salvadoreño,


con base en 1970.

Año C70 V70

1978 90 110
1979 110 120
1980 120 130
1981 130 140
1982 150 160

a) Calcule la ecuación de la tendencia para ambas series; tome como origen


1980.

b) Estime el índice de valores unitarios de las importaciones para 1984.

Sugerencias. Con las ecuaciones encontradas, calcule tanto el índice de la


capacidad para importar, C70, como el índice de las exportaciones, V70;
luego, para calcular el índice de valores unitarios de las importaciones,
divida V70 entre C70, y multiplique este resultado por 100.

105
SOLUCION AL PROBLEMA 5 ANTERIOR

C70 Capacidad V70 Índice de


de valores uni-
importación
(Kg) tarios de las
x y y' importaciones xy x2 XY’
1970 -7 100 1200 -700 49 0
1971 -6 0 36 0
1972 -5 0 25 0
1973 -4 0 16 0
1974 -3 0 9 0
1976 -2 95 105 110.526 -190 4 -210
1977 -1 105 115 109.524 -105 1 -115
1978 0 115 120 104.348 0 0 0
1979 1 120 145 120.833 120 1 145
1980 2 130 160 123.077 260 4 320
1981 3 0 9 0
1982 4 0 16 0
1983 5 155.5 1866 199 127.974 777.5 25 995

suma 0 565 645 568.308 85 10 140


promedio 0 113 129 113.662 17 2 28
n=5 5
primera ecuación BO 113.000 y=113 + 8.5 x
B1 8.500

segunda ecuación BO 129.000 y' = 129 + 14 x'


B1 14.000

a) Por lo tanto, la capacidad de importación para 1983 es de 1866 Kg


b) El índice de valores unitarios de las importaciones para 1983, con base 1970 es de 127.974

106
APÉNDICE

107
Tabla 1 Probabilidades Binomiales
a
Los valores tabulados son P(Y ≤ a ) = ∑ p( y)
y=0
(los cálculos se redondean a tres

cifras decimales.)

(a) n = 5

0 .951 .774 .590 .328 .168 .078 .031 .010 .002 .000 .000 .000 .000 0
1 .999 .977 .919 .737 .528 .337 .188 .087 .031 .007 .000 .000 .000 1
2 1.000 .999 .991 .942 .837 .683 .500 .317 .163 .058 .009 .001 .000 2
3 1.000 1.000 1.000 .993 .969 .913 .812 .663 .472 .263 .081 .023 .001 3
4 1.000 1.000 1.000 1.000 .998 .990 .969 .922 .832 .672 .410 .226 .049 4
α 0.01 0.05 0.10 0.20 0.30 0.40 0.5 0.60 0.70 0.80 0.90 0.95 0.99 α

(b) n=10

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α
0 .904 .599 .349 .107 .028 .006 .001 .000 .000 .000 .000 .000 .000 0
1 .996 .914 .736 .376 .149 .046 .011 .002 .000 .000 .000 .000 .000 1
2 1.000 .988 .930 .678 .383 .167 .055 .012 .002 .000 .000 .000 .000 2
3 1.000 .999 .987 .879 .650 .382 .172 .055 .011 .001 .000 .000 .000 3
4 1.000 1.000 .998 .967 .850 .633 .377 .166 .047 .006 .000 .000 .000 4
5 1.000 1.000 1.000 .994 .953 .834 .623 .367 .150 .033 .002 .000 .000 5
6 1.000 1.000 1.000 .999 .989 .945 .828 .618 .350 .121 .013 .001 .000 6
7 1.000 1.000 1.000 1.000 .998 .988 .945 .833 .617 .322 .070 .012 .000 7
8 1.000 1.000 1.000 1.000 1.000 .998 .989 .954 .851 .624 .264 .086 .004 8
9 1.000 1.000 1.000 1.000 1.000 1.000 .999 .994 .972 .893 .651 .401 .096 9

108
Tabla 1 (continuación)

(c) n = 15

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α
0 .860 .463 .206 .035 .005 .000 .000 .000 .000 .000 .000 .000 .000 0
1 .990 .829 .549 .167 .035 .005 .000 .000 .000 .000 .000 .000 .000 1
2 1.000 .964 .816 .398 .127 .027 .004 .000 .000 .000 .000 .000 .000 2
3 1.000 .995 .944 .648 .297 .091 .018 .002 .000 .000 .000 .000 .000 3
4 1.000 .999 .987 .836 .515 .217 .059 .009 .001 .000 .000 .000 .000 4
5 1.000 1.000 .998 .939 .722 .403 .151 .034 .004 .000 .000 .000 .000 5
6 1.000 1.000 1.000 .982 .869 .610 .304 .095 .015 .001 .000 .000 .000 6
7 1.000 1.000 1.000 .996 .950 .787 .500 .213 .050 .004 .000 .000 .000 7
8 1.000 1.000 1.000 .999 .985 .905 .696 .390 .131 .018 .000 .000 .000 8
9 1.000 1.000 1.000 1.000 .996 .966 .849 .597 .278 .061 .002 .000 .000 9
10 1.000 1.000 1.000 1.000 .999 .991 .941 .783 .485 .164 .013 .001 .000 10
11 1.000 1.000 1.000 1.000 1.000 .998 .982 .909 .703 .352 .056 .005 .000 11
12 1.000 1.000 1.000 1.000 1.000 1.000 .996 .973 .873 .602 .184 .036 .000 12
13 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .995 .965 .833 .451 .171 .010 13
14 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .995 .965 .794 .537 .140 14

109
Tabla 1 (Continuación)

(d) n = 20

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α
0 .818 .358 .122 .012 .001 .000 .000 .000 .000 .000 .000 .000 .000 0
1 .983 .736 .392 .069 .008 .001 .000 .000 .000 .000 .000 .000 .000 1
2 .999 .925 .677 .206 .035 .004 .000 .000 .000 .000 .000 .000 .000 2
3 1.000 .984 .867 .411 .107 .016 .001 .000 .000 .000 .000 .000 .000 3
4 1.000 .997 .957 .630 .238 .051 .006 .000 .000 .000 .000 .000 .000 4
5 1.000 1.000 .989 .804 .416 .126 .021 .002 .000 .000 .000 .000 .000 5
6 1.000 1.000 .998 .913 .608 .250 .058 .006 .000 .000 .000 .000 .000 6
7 1.000 1.000 1.000 .968 .772 .416 .132 .021 .001 .000 .000 .000 .000 7
8 1.000 1.000 1.000 .990 .887 .596 .252 .057 .005 .000 .000 .000 .000 8
9 1.000 1.000 1.000 .997 .952 .755 .412 .128 .017 .001 .000 .000 .000 9
10 1.000 1.000 1.000 .999 .983 .872 .588 .254 .048 .003 .000 .000 .000 10
11 1.000 1.000 1.000 1.000 .995 .943 .748 .404 .113 .010 .000 .000 .000 11
12 1.000 1.000 1.000 1.000 .999 .979 .868 .584 .228 .032 .000 .000 .000 12
13 1.000 1.000 1.000 1.000 1.000 .994 .942 .750 .392 .087 .002 .000 .000 13
14 1.000 1.000 1.000 1.000 1.000 .998 .979 .874 .584 .196 .011 .000 .000 14
15 1.000 1.000 1.000 1.000 1.000 1.000 .994 .949 .762 .370 .043 .003 .000 15
16 1.000 1.000 1.000 1.000 1.000 1.000 .999 .984 .893 .589 .133 .016 .000 16
17 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .996 .965 .794 .323 .075 .001 17
18 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .992 .931 .608 .264 .017 18
19 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .988 .878 .642 .182 19

110
Tabla 1 (Continuación)

(e) n=25

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α
0 .778 .277 .072 .004 .000 .000 .000 .000 .000 .000 .000 0 0 0
1 .974 .642 .271 .027 .002 .000 .000 .000 .000 .000 .000 0 0 1
2 .998 .873 .537 .098 .009 .000 .000 .000 .000 .000 .000 0 0 2
3 1.000 .966 .764 .234 .033 .002 .000 .000 .000 .000 .000 .000 .000 3
4 1.000 .993 .902 .421 .090 .009 .000 .000 .000 .000 .000 .000 .000 4
5 1.000 .999 .967 .617 .193 .029 .002 .000 .000 .000 .000 .000 .000 5
6 1.000 1.000 .991 .780 .341 .074 .007 .000 .000 .000 .000 .000 .000 6
7 1.000 1.000 .998 .891 .512 .154 .022 .001 .000 .000 .000 .000 .000 7
8 1.000 1.000 1.000 .953 .677 .274 .054 .004 .000 .000 .000 .000 .000 8
9 1.000 1.000 1.000 .983 .811 .425 .115 .013 .000 .000 .000 .000 .000 9
10 1.000 1.000 1.000 .994 .902 .586 .212 .034 .002 .000 .000 .000 .000 10
11 1.000 1.000 1.000 .998 .956 .732 .345 .078 .006 .000 .000 .000 .000 11
12 1.000 1.000 1.000 1.000 .983 .846 .500 .154 .017 .000 .000 .000 .000 12
13 1.000 1.000 1.000 1.000 .994 .922 .655 .268 .044 .002 .000 .000 .000 13
14 1.000 1.000 1.000 1.000 .998 .966 .788 .414 .098 .006 .000 .000 .000 14
15 1.000 1.000 1.000 1.000 1.000 .987 .885 .575 .189 .017 .000 .000 .000 15
16 1.000 1.000 1.000 1.000 1.000 .996 .946 .726 .323 .047 .000 .000 .000 16
17 1.000 1.000 1.000 1.000 1.000 .999 .978 .846 .488 .109 .002 .000 .000 17
18 1.000 1.000 1.000 1.000 1.000 1.000 .993 .926 .659 .220 .009 .000 .000 18
19 1.000 1.000 1.000 1.000 1.000 1.000 .998 .971 .807 .383 .033 .001 .000 19
20 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .991 .910 .579 .098 .007 .000 20
21 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .998 .967 .766 .236 .034 .000 21
22 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .991 .902 .463 .127 .002 22
23 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .998 .973 .729 .358 .026 23
24 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .996 .928 .723 .222 24

111
TABLA 2 Tabla de e − x

x e− x x e− x x e− x x e− x

0.00 1.000000 2.60 .074274 5.10 .006097 7.60 .000501


0.10 .904837 2.70 .067206 5.20 .005517 7.70 .000453
0.20 .818731 2.80 .060810 5.30 .004992 7.80 .000410
0.30 .740818 2.90 .055023 5.40 .004517 7.90 .000371
0.40 .670320 3.00 .049787 5.50 .004087 8.00 .000336
0.50 .606531 3.10 .045049 5.60 .003698 8.10 .000304
0.60 .548812 3.20 .040762 5.70 .003346 8.20 .000275
0.70 .496585 3.30 .036883 5.80 .003028 8.30 .000249
0.80 .449329 3.40 .033373 5.90 .002739 8.40 .000225
0.90 .406570 3.50 .030197 6.00 .002479 8.50 .000204
1.00 .367879 3.60 .027324 6.10 .002243 8.60 .000184
1.10 .332871 3.70 .024724 6.20 .002029 8.70 .000167
1.20 .301194 3.80 .022371 6.30 .001836 8.80 .000151
1.30 .272532 3.90 .020242 6.40 .001661 8.90 .000136
1.40 .246597 4.00 .018316 6.50 .001503 9.00 .000123
1.50 .223130 4.10 .016573 6.60 .001360 9.10 .000112
1.60 .201897 4.20 .014996 6.70 .001231 9.20 .000101
1.70 .182684 4.30 .013569 6.80 .001114 9.30 .000091
1.80 .165299 4.40 .012277 6.90 .001008 9.40 .000083
1.90 .149569 4.50 .011109 7.00 .000912 9.50 .000075
2.00 .135335 4.60 .010052 7.10 .000825 9.60 .000068
2.10 .122456 4.70 .009095 7.20 .000747 9.70 .000061
2.20 .110803 4.80 .008230 7.30 .000676 9.80 .000056
2.30 .100259 4.90 .007447 7.40 .000611 9.90 .000050
2.40 .090718 5.00 .006738 7.50 .000553 10.00 .000045
2.50 .082085

112
Tabla 3. Probabilidades de Poisson
a
λy
P(Y ≤ a ) = ∑ e − λ
y=0 y!

a
λ 0 1 2 3 4 5 6 7 8 9

0.02 0.980 1.000


0.04 0.961 0.999 1.000
0.06 0.942 0.998 1.000
0.08 0.923 0.997 1.000
0.10 0.905 0.995 1.000

0.15 0.861 0.990 0.999 1.000


0.20 0.819 0.982 0.999 1.000
0.25 0.779 0.974 0.998 1.000
0.30 0.741 0.963 0.996 1.000

0.35 0.705 0.951 0.994 1.000


0.40 0.670 0.938 0.992 0.999 1.000
0.45 0.638 0.925 0.989 0.999 1.000
0.50 0.607 0.910 0.986 0.998 1.000

0.55 0.577 0.894 0.982 0.998 1.000


0.60 0.549 0.878 0.977 0.997 1.000
0.65 0.522 0.861 0.972 0.996 0.999 1.000
0.70 0.497 0.844 0.966 0.994 0.999 1.000
0.75 0.472 0.827 0.959 0.993 0.999 1.000

0.80 0.449 0.809 0.953 0.991 0.999 1.000


0.85 0.427 0.791 0.945 0.989 0.998 1.000
0.90 0.407 0.772 0.937 0.987 0.998 1.000
0.95 0.387 0.754 0.929 0.981 0.997 1.000
1.00 0.368 0.736 0.920 0.981 0.996 0.999 1.000

1.1 0.333 0.699 0.900 0.974 0.995 0.999 1.000


1.2 0.301 0.663 0.879 0.966 0.992 0.998 1.000
1.3 0.273 0.627 0.857 0.957 0.989 0.998 1.000
1.4 0.247 0.592 0.833 0.946 0.986 0.997 0.999 1.000
1.5 0.223 0.558 0.809 0.934 0.981 0.996 0.999 1.000

1.6 0.202 0.525 0.783 0.921 0.976 0.994 0.999 1.000


1.7 0.183 0.493 0.757 0.907 0.970 0.992 0.998 1.000
1.8 0.165 0.463 0.731 0.891 0.964 0.990 0.997 0.999 1.000
1.9 0.150 0.434 0.704 0.875 0.956 0.987 0.997 0.999 1.000
2.0 0.135 0.406 0.677 0.857 0.947 0.983 0.995 0.999 1.000

Reimpresión con permiso de E.C. molina, Poisson’s Exponential Binomial Limit, D. Van Nostrand Company, Inc.,
Princetoon, H. J., 1947

113
Tabla 3. (Continuación)

a
λ 0 1 2 3 4 5 6 7 8 9

2.2 0.111 0.355 0623 0.819 0.928 0.975 0.993 0.998 1.000
2.4 0.091 0.308 0.570 0.779 0.904 0.964 0.988 0.997 0.999 1.000
2.6 0.074 0.267 0.518 0.736 0.877 0.951 0.983 0.995 0.999 1.000
2.8 0.061 0.231 0.469 0.692 0.848 0.935 0.976 0.992 0.998 0.999
3.0 0.050 0.199 0.423 0.647 0.815 0.916 0.966 0.988 0.996 0.999

3.2 0.041 1.171 0.380 0.603 0.781 0.895 0.955 0.983 0.994 0.998
3.4 0.033 0.147 0.340 0.558 0.744 0.871 0.942 0.977 0.992 0.997
3.6 0.027 0.126 0.303 0.515 0.706 0.844 0.927 0.969 0.988 0.996
3.8 0.022 0.107 0.269 0.473 0.668 0.816 0.909 0.960 0.984 0.994
4.0 0.018 0.092 0.238 0.433 0.629 0.785 0.889 0.949 0.979 0.992

4.2 0.015 0.078 0.210 0.395 0.590 0.753 0.867 0.936 0.972 0.989
4.4 0.012 0.066 0.185 0.359 0.551 0.720 0.844 0.921 0.964 0.985
4.6 0.0.10 0.056 0.163 0.326 0.513 0.686 0.818 0.905 0.955 0.980
4.8 0.008 0.048 0.143 0.294 0.476 0.651 0.791 0.887 0.944 0.975
5.0 0.007 0.040 0.125 0.265 0.440 0.616 0.762 0.867 0.932 0.968

5.2 0.006 0.034 0.109 0.238 0.406 0.581 0.732 0.845 0.918 0.960
5.4 0.005 0.029 0.095 0.213 0.373 0.546 0.702 0.822 0.903 0.951
5.6 0.004 0.024 0.082 0.191 0.342 0.512 0.670 0.797 0.886 0.941
5.8 0.003 0.021 0.072 0.170 0.313 0.478 0.6338 0.771 0.867 0.929
6.0 0.002 0.017 0.062 0.151 0.285 0.446 0.606 0.744 0.847 0.916

10 11 12 13 14 15 16

2.8 1.000
3.0 1.000
3.2 1.000
3.4 0.999 1.000
3.6 0.999 1.000
3.8 0.998 0.999 1.000
4.0 0.997 0.999 1.000

4.2 0.996 0.999 1.000


4.4 0.994 0.998 0.999 1.000
4.6 0.992 0.997 0.999 1.000
4.8 0.990 0.996 0.999 1.000
5.0 0.986 0.995 0.998 0.999 1.000

5.2 0.9982 0.993 0.997 0.999 1.000


5.4 0.977 0.990 0.996 0.999 1.000
5.6 0.927 0.988 0.995 0.998 0.999 1.000
5.8 0.965 0.984 0.993 0.997 0.999 1.000
6.0 0.957 0.980 0.991 0.996 0.999 0.999 1.000

114
Tabla 3 (Continuación)

a
λ 0 1 2 3 4 5 6 7 8 9
6.2 0.002 0.015 0.054 0.134 0.259 0.414 0.574 0.716 0.826 0.902
6.4 0.002 0.12 0.046 0.119 0.235 0.384 0.542 0.687 0.803 0.886
6.6 0.001 0.010 0.040 0.105 0.213 0.355 0.511 0.658 0.780 0.869
6.8 0.001 0.009 0.034 0.093 0.192 0.327 0.480 0.628 0.755 0.850
7.0 0.001 0.007 0.030 0.082 0.173 0.301 0.450 0.599 0.729 0.830

7.2 0.001 0.006 0.025 0.072 0.156 0.276 0.420 0.569 0.703 0.810
7.4 0.001 0.005 0.022 0.063 0.140 0.253 0.392 0.539 0.676 0.788
7.6 0.001 0.004 0.019 0.055 0.125 0.231 0.365 0.510 0.648 0.765
7.8 0.000 0.004 0.016 0.048 0.112 0.210 0.338 0.481 0.620 0.741

8.0 0.000 0.003 0.014 0.042 0.100 0.191 0.313 0.453 0.593 0.717
8.5 0.000 0.002 0.009 0.030 0.074 0.150 0.256 0.386 0.523 0.653
9.0 0.000 0.001 0.006 0.021 0.055 0.116 0.207 0.324 0.456 0.587
9.5 0.000 0.001 0.004 0.015 0.040 0.089 0.165 0.269 0.392 0.522
10.0 0.000 0.000 0.003 0.010 0.029 0.067 0.130 0.220 0.333 0.458

10 11 12 13 14 15 16 17 18 19

6.2 0.949 0.975 0.989 0.995 0.998 0.999 1.000


6.4 0.939 0.969 0.986 0.994 0.997 0.999 1.000
6.6 0.927 0.963 0.982 0.992 0.997 0.999 0.999 1.000
6.8 0.915 0.955 0.978 0.990 0.996 0.998 0.999 1.000
7.0 0.901 0.947 0.973 0.987 0.994 0.998 0.999 1.000

7.2 0.887 0.937 0.967 0.984 0.993 0.997 0.999 0.999 1.000
7.4 0.871 0.626 0.961 0.980 0.991 0.996 0.998 0.999 1.000
7.6 0.854 0.915 0.954 0.976 0.989 0.995 0.998 0.999 1.000
7.8 0.835 0.902 0.945 0.971 0.986 0.993 0.997 0.999 1.000

8.0 0.816 0.888 0.936 0.966 0.983 0.992 0.996 0.998 0.999 1.000
8.5 0.763 0.849 0.909 0.949 0.973 0.986 0.993 0.997 0.999 0.999
9.0 0.706 0.803 0.876 0.926 0.959 0.978 0.989 0.995 0.998 0.999
9.5 0.645 0.752 0.836 0.898 0.94 0.967 0.982 0.991 0.996 0.998
10.0 0.583 0.697 0.792 0.864 0.917 0.951 0.973 0.986 0.993 0.997

20 21 22

8.5 1.000
9.0 1.000
9.5 0.999 1.000
10.0 0.998 0.999 1.000

115
Tabla 3 (continuación)

a
λ 0 1 2 3 4 5 6 7 8 9

10.5 0.000 0.000 0.002 0.007 0.021 0.050 0.102 0.179 0.279 0.397
11.0 0.000 0.000 0.001 0.005 0.015 0.038 0.079 0.143 0.232 0.341
11.5 0.000 0.000 0.001 0.003 0.011 0.028 0.060 0.114 0.191 0.298
12.0 0.000 0.000 0.001 0.002 0.008 0.020 0.046 0.090 0.155 0.242
12.5 0.000 0.000 0.000 0.002 0.005 0.015 0.035 0.070 0.125 0.201

13.0 0.000 0.000 0.000 0.001 0.004 0.011 0.026 0.054 0.100 0.166
13.5 0.000 0.000 0.000 0.001 0.003 0.008 0.019 0.041 0.079 0.135
14.0 0.000 0.000 0.000 0.000 0.002 0.006 0.014 0.032 0.062 0.109
14.5 0.000 0.000 0.000 0.000 0.001 0.004 0.010 0.024 0.048 0.088
15.0 0.000 0.000 0.000 0.000 0.001 0.003 0.008 0.018 0.037 0.070

10 11 12 13 14 15 16 17 18 19

10.5 0.521 0.639 0.742 0.825 0.888 0.932 0.960 0.978 0.988 0.994
11.0 0.460 0.579 0.689 0.781 0.854 0.907 0.944 0.968 0.982 0.991
11.5 0.402 0.520 0.633 0.733 0.815 0.878 0.924 0.954 0.974 0.986
12.0 0.347 0.462 0.576 0.682 0.772 0.844 0.899 0.937 0.963 0.979
12.5 0.297 0.406 0.519 0.628 0.725 0.806 0.869 0.916 0.948 0.969

13.0 0.252 0.353 0.463 0.573 0.675 0.764 0.835 0.890 0.930 0.957
13.5 0.211 0.304 0.409 0.518 0.623 0.718 0.798 0.861 0.908 0.942
14.0 0.176 0.206 0.358 0.464 0.570 0.669 0.756 0.827 0.883 0.923
14.5 0.145 0.220 0.311 0.413 0.518 0.619 0.711 0.790 0.853 0.901
15.0 0.118 0.185 0.268 0.363 0.466 0.568 0.664 0.749 0.819 0.875

20 21 22 23 24 25 26 27 28 29

10.5 0.997 0.999 0.999 1.000


11.0 1 0.998 0.999 1.000
11.5 0.992 0.996 0.998 0.999 1.000
12.0 0.988 0.994 0.997 0.999 0.999 1.000
12.5 0.983 0.991 0.995 0.998 0.999 0.999 1.000

13.0 0.975 0.986 0.992 0.996 0.998 0.999 1.000


13.5 0.965 0.980 0.989 0.994 0.997 0.998 0.999 1.000
14.0 0.952 0.971 0.983 0.991 0.995 0.997 0.999 0.999 1.000
14.5 0.936 0.960 0.976 0.986 0.992 0.996 0.998 0.999 0.999 1.000
15.0 0.917 0.947 0.967 0.981 0.989 0.994 0.997 0.998 0.999 1.000

116
Tabla 3 (continuación)

a
λ 4 5 6 7 8 9 10 11 12 13

16 0.000 0.001 0.004 0.010 0.022 0.043 0.077 0.127 0.193 0.275
17 0.000 0.001 0.002 0.005 0.013 0.026 0.049 0.085 0.135 0.201
18 0.000 0.000 0.001 0.003 0.007 0.015 0.030 0.055 0.092 0.143
19 0.000 0.000 0.001 0.002 0.004 0.009 0.018 0.035 0.061 0.098
20 0.000 0.000 0.000 0.001 0.002 0.005 0.011 0.021 0.039 0.066
21 0.000 0.000 0.000 0.000 0.001 0.003 0.006 0.013 0.025 0.043
22 0.000 0.000 0.000 0.000 0.001 0.002 0.004 0.008 0.015 0.028
23 0.000 0.000 0.000 0.000 0.000 0.001 0.002 0.004 0.009 0.017
24 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.003 0.005 0.011
25 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.003 0.006

14 15 16 17 18 19 20 21 22 23

16 0.368 0.467 0.566 0.659 0.742 0.812 0.868 0.911 0.942 0.963
17 0.281 0.371 0.468 0.564 0.655 0.736 0.805 0.861 0.905 0.937
18 0.208 0.287 0.375 0.469 0.562 0.651 0.731 0.799 0.855 0.899
19 0.150 0.215 0.292 0.378 0.469 0.561 0.647 0.725 0.793 0.849
20 0.105 0.157 0.221 0.297 0.381 0.470 0.559 0.644 0.721 0.787
21 0.072 0.111 0.163 0.227 0.302 0.384 0.471 0.558 0.640 0.716
22 0.048 0.077 0.117 0.169 0.232 0.306 0.387 0.472 0.556 0.637
23 0.031 0.052 0.082 0.123 0.175 0.238 0.310 0.389 0.472 0.555
24 0.020 0.034 0.056 0.087 0.128 0.180 0.243 0.314 0.392 0.473
25 0.012 0.022 0.038 0.060 0.092 0.134 0.185 0.247 0.318 0.394

117
Tabla 3 (Continuación)

a
λ 24 25 26 27 28 29 30 31 32 33

16 0.978 0.987 0.993 0.996 0.998 0.999 0.999 1.000


17 0.959 0.975 0.985 0.991 0.995 0.997 0.999 0.999 1.000
18 0.932 0.955 0.972 0.983 0.990 0.994 0.997 0.998 0.999 1.000
19 0.893 0.927 0.951 0.969 0.980 0.988 0.993 0.996 0.998 0.999
20 0.843 0.888 0.922 0.948 0.966 0.978 0.987 0.992 0.995 0.997
21 0.782 0.838 0.883 0.917 0.944 0.963 0.976 0.985 0.991 0.994
22 0.712 0.777 0.832 0.877 0.913 0.940 0.959 0.973 0.983 0.989
23 0.635 0.708 0.772 0.827 0.873 0.908 0.936 0.956 0.971 0.981
24 0.554 0.632 0.704 0.768 0.823 0.868 0.904 0.932 0.953 0.969
25 0.473 0.553 0.629 0.700 0.763 0.818 0.863 0.900 0.929 0.950

34 35 36 37 38 39 40 41 42 43

19 0.999 1.000
20 0.999 0.999 1.000
21 0.997 0.998 0.999 0.999 1.000
22 0.994 0.996 0.998 0.999 0.999 1.000
23 0.988 0.993 0.996 0.997 0.999 0.999 1.000
24 0.979 0.987 0.992 0.995 0.997 0.998 0.999 0.999 1.000
25 0.966 0.978 0.985 0.991 0.991 0.997 0.998 0.999 0.999 1.000

118
Tabla 4. Áreas bajo la curva normal.
Probabilidad normal estándar de cola superior
(para valores negativos de z. las áreas se obtienen por simetría).

Segundo decimal de z

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121

0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611

1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0722 0.0708 0.0694 0.0681

1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0352 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233

2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064

2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0017 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014

3.0 .00135
3.5 .000 233
4.0 .000 031 7
4.5 .000 003 40
5.0 .000 000 287
De: R. E. Walpole, Introduction to Statistics (New York: Macmillan, 1968).

119
Tabla 5 Puntos porcentuales de las distribuciones t.

t .100 t .050 t .025 t .010 t .005 g.l.

3.078 6.314 12.706 31.821 63.657 1


1.886 2.920 4.303 6.965 9.925 2
1.638 2.353 3.182 4.541 5.841 3
1.533 2.132 2.776 3.747 4.604 4

1.476 2.015 2.571 3.365 4.032 5


1.440 1.943 2.447 3.143 3.707 6
1.415 1.895 2.365 2.998 3.499 7
1.397 1.860 2.306 2.896 3.355 8
1.383 1,833 2.262 2.821 3.250 9

1.372 1.812 2.228 2.764 3.169 10


1.363 1.796 2.201 2.718 3.106 11
1.356 1.782 2.179 2.681 3.055 12
1.350 1.771 2.160 2.650 3.012 13
1.345 1.761 2.145 2.624 2.977 14
1.341 1.753 2.131 2.602 2.947 15

1.337 1.746 2.120 2.583 2.921 16


1.333 1.740 2.110 2.567 2.898 17
1.330 1.734 2.101 2.552 2.878 18
1.328 1.729 2.093 2.539 2.861 19
1.325 1.725 2.086 2.528 2.845 20

1.323 1.721 2.080 2.518 2.831 21


1.321 1.717 2.074 2.508 2.819 22
1.319 1.714 2.069 2.500 2.807 23
1.318 1.711 2.064 2.492 2.797 24
1.316 1.708 2.060 2.485 2.787 25

1.315 1.706 2.056 2.479 2.779 26


1.314 1.703 2.052 2.473 2.771 27
1.313 1.701 2.048 2.467 2.763 28
1.311 1.699 2.045 2.462 2.756 29
1.282 1.645 1.960 2.326 2.576 inf.
De: “Table of Percentage Points of the t-Distribution”. Calculado por Maxine
Merrington, Biometrika, Vol. 32 (1941), p. 300. Reproducido con la autorización
del profesor E.S. Pearson.

120
Tabla 6. Puntos porcentuales delas distribuciones χ 2

g.l. χ 20.995 χ 20.990 χ 20.975 χ 20.950 χ 20.900

1 0.0000393 0.0001571 0.0009821 0.0039321 0.0157908


2 0.0100251 0.0201007 0.0506356 0.102587 0.210720
3 0.0717212 0.114832 0.215795 0.351846 0.584375
4 0.206990 0.297110 0.484419 0.710721 1.063623

5 0.411740 0.554300 0.831211 1.145476 1.61031


6 0.675727 0.872085 1.237347 1.63539 2.20413
7 0.989265 1.239043 1.68987 2.16735 2.83311
8 1.344419 1.646482 2.17973 2.73264 3.48954
9 1.734926 2.087912 2.70039 3.32511 4.16816

10 2.15585 2.55821 3.24697 3.94030 4.86518


11 2.60321 3.05347 3.81575 4.57481 5.57779
12 3.07382 3.57056 4.40379 5.22603 6.30380
13 3.56503 4.10691 5.00874 5.89186 7.04150
14 4.07468 4.66043 5.62872 6.57063 7.78953

15 4.60094 5.22935 6.26214 7.26094 8.54675


16 5.14224 5.81221 6.90766 7.96164 9.31223
17 5.69724 6.40776 7.56418 8.67176 10.0852
18 6.26481 7.01491 8.23075 9.39046 10.8649
19 6.84398 7.63273 8.90655 10.1170 11.6509

20 7.43386 8.26040 9.59083 10.8508 12.4426


21 8.03366 8.89720 10.28293 11.5913 13.2396
22 8.64272 9.54249 10.9823 12.3380 14.0415
23 9.26042 10.19567 11.6885 13.0905 14.8479
24 9.88623 10.8564 12.4011 13.8484 15.6587

25 10.5197 11.5240 13.1197 14.6114 16.4734


26 11.1603 12.1981 13.8439 15.3791 17.2919
27 11.8076 12.8786 14.5733 16.1513 18.1138
28 12.4613 13.5648 15.3079 16.9279 18.9392
29 13.1211 14.2565 16.0471 17.7083 19.7677

30 13.7867 14.9535 16.7908 18.4926 20.5992


40 20.7065 22.1643 24.4331 26.5093 29.0505
50 27.9907 29.7067 32.3574 34.7642 37.6886
60 35.5346 37.4848 40.4817 43.1879 46.4589

70 43.2752 45.4418 48.7576 51.7393 55.3290


80 51.1720 53.5400 57.1532 60.3915 64.2778
90 59.1963 61.7541 65.6466 69.1260 73.2912
100 67.3276 70.0648 74.2219 77.9295 82.3581

121
Tabla 6 (Continuación)

χ 20.100 χ 20.050 χ 20.025 χ 20.010 χ 20.005 g.l.

2.70554 3.84146 5.02389 6.63490 7.87944 1


4.60517 5.99147 7.37776 9.21034 10.5966 2
6.25139 7.81473 9.34840 11.3449 12.8381 3
7.77944 9.48773 11.1433 13.2767 14.8602 4

9.23635 11.0705 12.8325 15.0863 16.7496 5


10.6446 12.5916 14.4494 16.8119 18.5476 6
12.0170 14.0671 16.0128 18.4753 20.2777 7
13.3616 15.5073 17.5346 20.0902 21.9550 8
14.6837 16.9190 19.0228 21.6660 23.5893 9

15.9871 18.3070 20.4831 23.2093 25.1882 10


17.2750 19.6751 21.9200 24.7250 26.7569 11
18.5494 21.0261 23.3367 26.2170 28.2995 12
19.8119 22.3621 24.7356 27.6883 29.8194 13
21.0642 23.6848 26.1190 29.1413 31.3193 14

22.3072 24.9958 27.4884 30.5779 32.8013 15


23.5418 26.2962 28.8454 31.9999 34.2672 16
24.7690 27.5871 30.1910 33.4087 35.7185 17
25.9894 28.8693 31.5264 34.8053 37.1564 18
27.2036 30.1435 32.8523 36.1908 38.5822 19

28.4120 31.4104 34.1696 37.5662 39.9968 20


29.6151 32.6705 35.4789 38.9321 41.4010 21
30.8133 33.9244 36.7807 40.2894 42.7956 22
32.0069 35.1725 38.0757 41.6384 44.1813 23
33.1963 36.4151 39.3641 42.9798 45.5585 24

34.3816 37.6525 40.6465 44.3141 46.9278 25


35.5631 38.8852 41.9232 45.6417 48.2899 26
36.7412 40.1133 43.1944 46.9630 49.6449 27
37.9159 41.3372 44.4607 48.2782 50.9933 28
39.0875 42.5569 45.7222 49.5879 52.3356 29

40.2560 43.7729 46.9297 50.8922 53.6720 30


51.8050 55.7585 59.3417 63.6907 66.7659 40
63.1671 67.5048 71.4202 76.1539 79.4900 50
74.3970 79.0819 83.2976 88.3794 91.9517 60

85.5271 90.5312 95.0231 100.425 104.215 70


96.5782 101.879 106.629 112.329 116.321 80
107.565 113.145 118.136 124.116 128.299 90
118.498 124.342 129.561 135.807 140.169 100

De: “Table of Percentage Points of the t-Distribution”. Calculado por Maxine Merrington, Biometrika, Vol. 32 (1941), pp. 188-
189, por Catherine M. Thompson. Reproducido con la autorización del profesor E.S. Pearson.

122
TABLA 7
Puntos porcentuales de las distribuciones F

g.l. g.l. del numerador


del α 1 2 3 4 5 6 7 8 9
deno-
nimador
1 .100 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86
.050 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5
.025 647.8 799.5 864.2 899.6 921.8 937.1 948.2 956.7 963.3
.010 4052 4999.5 5403 5625 5764 5859 5928 5982 6022
.005 16211 20000 21615 22500 23056 23437 23715 23925 24091

2 .100 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38
.050 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38
.025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39
.010 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39
.005 198.5 199.00 199.2 199.2 199.3 199.3 199.4 199.4 199.4

3 .100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24
.050 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81
.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47
.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35
.005 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88

4 .100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94
.050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00
.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90
.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66
.005 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14

5 0.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32
0.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77

6 0.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96
0.050 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10
0.025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52
0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98
0.005 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39

7 0.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72
0.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68
0.025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82
0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72
0.005 16.24 12.4 10.88 10.05 9.52 9.16 8.89 8.68 8.51

123
TABLA 7 (Continuación)

g.l. del numerador g.l. del


10 12 15 20 24 30 40 60 120 ∞ α deno-
minador
60.19 60.71 61.22 61.74 62.00 62.26 62.53 62.79 63.06 63.33 .100 1
241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 .050
968.6 976.7 984.9 993.10 997.2 1001 1006 1010 1014 1018 .025
6056 6106 6157 6209 6235 6261 6287 6313 6339 6366 .010
24224 24426 24630 24836 24940 25044 25148 25253 25359 25465 .005

9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49 .100 2
19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 .050
39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50 .025
99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50 .010
199.4 199.4 199.4 199.4 199.5 199.5 199.5 199.5 199.5 199.5 .005

5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13 .100 3
8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 .050
14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90 .025
27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13 .010
43.69 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83 .005

3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76 .100 4
5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 .050
8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26 .025
14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46 .010
20.97 20.70 20.44 20.17 20.02 19.89 19.75 19.61 19.47 19.32 .005

3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.10 .100 5
4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36 .050
6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02 .025
10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02 .010
13.62 13.38 13.15 12.90 12.78 12.66 12.53 12.40 12.27 12.14 .005

2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72 .100 6
4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67 .050
5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85 .025
7.78 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88 .010
10.25 10.03 9.81 9.59 9.47 9.36 9.24 9.12 9.00 8.88 .005

2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47 .100 7
3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23 .050
4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14 .025
6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65 .010
8.38 8.18 7.97 7.75 7.65 7.53 7.42 7.31 7.19 7.08 .005

124
TABLA 7 (Continuación)

g.l. g.l. del numerador


del deno- α 1 2 3 4 5 6 7 8 9
nominador
8 0.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56
0.050 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39
0.025 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36
0.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91
0.005 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34

9 0.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44
0.050 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18
0.025 8.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03
0.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35
0.005 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54

10 0.100 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35
0.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02
0.025 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78
0.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94
0.005 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97

11 0.100 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27
0.050 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90
0.025 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59
0.010 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63
0.005 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54

12 0.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21
0.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80
0.025 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44
0.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39
0.005 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20

13 0.100 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16
0.050 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71
0.025 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31
0.010 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19
0.005 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94

14 0.100 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12
0.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
0.025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21
0.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03
0.005 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72

125
TABLA 7 (Continuación)

g.l. del numerador


g.l. del
10 12 15 20 24 30 40 60 120 ∞ α deno-
minad
or
2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29 .100 8
3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93 .050
4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67 .025
5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86 .010
7.21 7.01 6.81 6.61 6.50 6.40 6.29 6.18 6.06 5.95 .005

2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16 .100 9
3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71 .050
3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33 .025
5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31 .010
6.42 6.23 6.03 5.83 5.73 5.62 5.52 5.41 5.30 5.19 .005

2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06 .100 10
2.98 2.91 2.85 2.74 2.77 2.70 2.66 2.62 2.58 2.54 .050
3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08 .025
4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91 .010
5.85 5.66 5.47 5.27 5.17 5.07 4.97 4.86 4.75 4.64 .005

2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97 .100 11
2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40 .050
3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88 .025
4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60 .010
5.42 5.24 5.05 4.86 4.76 4.65 4.55 4.44 4.34 4.23 .005

2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90 .100 12
2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30 .050
3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72 .025
4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36 .010
5.09 4.91 4.72 4.53 4.43 4.33 4.23 4.12 4.01 3.90 .005

2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85 .100 13
2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21 .050
3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60 .025
4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17 .010
4.82 4.64 4.46 4.27 4.17 4.07 3.97 3.87 3.76 3.65 .005

2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80 .100 14
2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13 .050
3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49 .025
3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00 .010
4.60 4.43 4.25 4.06 3.96 3.86 3.76 3.66 3.55 3.44 .005

126
TABLA 7 (Continuación)

g.l. g.l. del numerador


del α 1 2 3 4 5 6 7 8 9
deno-
nominad
or
15 .100 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09
.050 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59
.025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12
.010 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89
.005 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54

16 .100 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06
.050 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54
.025 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05
.010 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78
.005 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38

17 .100 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03
.050 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49
.025 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98
.010 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68
.005 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.39 4.25

18 .100 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00
.050 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46
.025 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93
.010 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60
.005 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14

19 .100 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98
.050 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42
.025 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88
.010 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52
.005 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04

20 .100 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96
.050 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39
.025 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84
.010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46
.005 9.94 6.90 5.82 5.17 4.76 4.47 4.26 4.09 3.96

21 .100 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95
.050 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37
.025 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80
.010 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40
.005 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88

127
TABLA 7 (Continuación)

g.l. del numerador g.l. del


10 12 15 20 24 30 40 60 120 ∞ α deno-
minador
2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76 .100 15
2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07 .050
3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40 .025
3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87 .010
4.42 4.25 4.07 3.88 3.79 3.69 3.58 3.48 3.37 3.26 .005

2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72 .100 16
2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 .050
2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32 .025
3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75 .010
4.27 4.10 3.92 3.73 3.64 3.54 3.44 3.33 3.22 3.11 .005

2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69 .100 17
2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96 .050
2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25 .025
3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65 .010
4.14 3.97 3.79 3.61 3.51 3.41 3.31 3.21 3.10 2.98 .005

1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66 .100 18
2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92 .050
2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19 .025
3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57 .010
4.03 3.86 3.68 3.50 3.40 3.30 3.20 3.10 2.99 2.87 .005

1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63 .100 19
2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 .050
2.82 3.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13 .025
3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49 .010
3.93 3.76 3.59 3.40 3.31 3.21 3.11 3.00 2.89 2.78 .005

1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61 .100 20
2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84 .050
2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09 .025
3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42 .010
3.85 3.68 3.50 3.32 3.22 3.12 3.02 2.92 2.81 2.69 .005

1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59 .100 21
2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81 .050
2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04 .025
3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36 .010
3.77 3.60 3.43 3.24 3.15 3.05 2.95 2.84 2.73 2.61 .005

128
TABLA 7 (Continuación)

g.l. g.l. del numerador


del deno- α 1 2 3 4 5 6 7 8 9
nominador
22 .100 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93
.050 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34
.025 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76
.010 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35
.005 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81

23 .100 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92
.050 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32
.025 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73
.010 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30
.005 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75

24 .100 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91
.050 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30
.025 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70
.010 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26
.005 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69

25 .100 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89
.050 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28
.025 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68
.010 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22
.005 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64

26 .100 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88
.050 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27
.025 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65
.010 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18
.005 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60

27 .100 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87
.050 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25
.025 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63
.010 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15
.005 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56

28 .100 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87
.050 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24
.025 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61
.010 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12
.005 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52

129
TABLA 7 (Continuación)

g.l. del numerador


g.l. del
10 12 15 20 24 30 40 60 120 ∞ α deno-
minador
1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57 .100 22
2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78 .050
2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00 .025
3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31 .010
3.70 3.54 3.36 3.18 3.08 2.98 2.88 2.77 2.66 2.55 .005

1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55 .100 23
2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76 .050
2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97 .025
3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26 .010
3.64 3.47 3.30 3.12 3.02 2.92 2.82 2.71 2.60 2.48 .005

1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53 .100 24
2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73 .050
2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94 .025
3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21 .010
3.59 3.42 3.25 3.06 2.97 2.87 2.77 2.66 2.55 2.43 .005

1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52 .100 25
2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71 .050
2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91 .025
3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17 .010
3.54 3.37 3.20 3.01 2.92 2.82 2.72 2.61 2.50 2.38 .005

1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50 .100 26
2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69 .050
2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88 .025
3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13 .010
3.49 3.33 3.15 2.97 2.87 2.77 2.67 2.56 2.45 2.33 .005

1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49 .100 27
2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67 .050
2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85 .025
3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10 .010
3.45 3.28 3.11 2.93 2.83 2.73 2.63 2.52 2.41 2.29 .005

1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48 .100 28
2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65 .050
2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83 .025
3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06 .010
3.41 3.25 3.07 2.89 2.79 2.69 2.59 2.48 2.37 2.25 .005

130
TABLA 7 (Continuación)

g.l g.l. del numerador


del deno- α 1 2 3 4 5 6 7 8 9
nominador
29 .100 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86
.050 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22
.025 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59
.010 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09
.005 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48

30 .100 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85
.050 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21
.025 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57
.010 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07
.005 9.18 6.35 5.24 4.62 4.23 3.95 3.74 2.58 3.45

40 .100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79
.050 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12
.025 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45
.010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89
.005 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22

60 .100 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74
.050 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04
.025 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33
.010 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72
.005 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01

120 .100 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68
.050 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96
.025 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22
.010 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56
.005 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81

∞ .100 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63
.050 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88
.025 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11
.010 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41
.005 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62

131
TABLA 7 (Continuación)

g.l. del numerador


g.l. del
10 12 15 20 24 30 40 60 120 ∞ α deno-
minador
1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47 .100 29
2.18 2.10 2.03 1.94 1.9 1.85 1.81 1.75 1.70 1.64 .050
2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81 .025
3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03 .010
3.38 3.21 3.04 2.86 2.76 2.66 2.56 2.45 2.33 2.21 .005

1.85 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46 .100 30
2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62 .050
2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79 .025
2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01 .010
3.34 3.18 3.01 2.82 2.73 2.63 2.52 2.42 2.30 2.18 .005

1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38 .100 40
2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51 .050
2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64 .025
2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80 .010
3.12 2.95 2.78 2.60 2.50 2.40 2.30 2.18 2.06 1.93 .005

1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29 .100 60
1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39 .050
2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48 .025
2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60 .010
2.90 2.74 2.57 2.39 2.29 2.19 2.08 1.96 1.83 1.69 .005

1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19 .100 120
1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25 .050
2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31 .025
2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38 .010
2.71 2.54 2.37 2.19 2.09 1.98 1.87 1.75 1.61 1.43 .005

1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00 .100 ∞
1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00 .050
2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00 .025
2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00 .010
2.52 2.36 2.19 2.00 1.90 1.79 1.67 1.53 1.36 1.00 .005

132
BIBLIOGRAFÍA

1. Bioestadística. Base para el análisis de las ciencias sociales


Wayne W. Daniel
Limusa noriega
6ª edición

2. Serie de Biología Fundamental. Introducción a la Bioestadística


Robert R. Sokal
F. James Rohlf
Editorial Reverte S.A.

3. Fundamentos de Estadística en la Investigación Social


Jack Levin
Editorial Harla

4. Eestadística Matemática con Aplicaciones


Mendenhall
Scheaffer
Wackerly

5. Estadística Inferencial Básica


Juana Castillo Padilla
Jorge Gómez Arias
Grupo Editorial Iberoamérica

133

You might also like