Professional Documents
Culture Documents
JUÁREZ
AGOSTO DE 2006
Copyright © 2006. Métodos Estadísticos para la Ingeniería Ambiental y la Ciencia.
Héctor Adolfo Quevedo Urías
Advertencia
Prohibida la reproducción de este libro, además de los esquemas e ideas originales del
autor que se hallan en este texto, ya sea por medios electrónicos, mecánicos,
fotocopiado o de cualquier otra forma, puesto que todo esto pertenece al dominio de
la propiedad intelectual y está protegido por la ley.
Este libro fue publicado en el Internet en Enero de 2006 por la Biblioteca Virtual de la
Universidad Autónoma de Cd. Juárez.
http://bivir.uacj.mx/LibrosElectronicosLibres/UACJ/ua00001.pdf
Apéndices
iii
CAPITULO 1
Estadística Descriptiva
1-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
n
Ejemplo #1. Σ Xj = X1 + X2 + X3 + ... + Xn
j=1
1-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
n
Ejemplo #2. Σ XjYj = X1Y1 + X2Y2 + X3Y3 + ...+ XNYn
j=1
n
Ejemplo #3. Σ aXj = aX1 + aX2 +...+ aXn
j=1
n
= a(X1 + X2 +,..,+ Xn) = a Σ Xj
j=1
= ΣX 2 - (ΣX)2/n
El promedio aritmético
El promedio aritmético es un valor el cual es típico o representativo de un conjunto de
datos de distribuciones continuas. Existen diferentes tipos de promedios. Los más
comunes son el promedio aritmético, la mediana, la moda, el promedio geométrico, el
promedio harmónico, etc. Cada uno tiene sus ventajas y desventajas dependiendo de
los datos y el propósito a seguir. El promedio aritmético no se debe usar como
sinónimo de promedio o media, porque hay otros tipos de promedios.
El promedio aritmético es un valor que representa un conjunto de datos; es una
medición de tendencia central. El promedio aritmético es el estimador del parámetro
1-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Si los números X1, X2, X3,…,Xk ocurren f1, f2,…,fk veces, es decir, con datos
agrupados, entonces:
X = fXi / n (1-3)
Ejemplo #5. Calcular X , de una muestra de 5, 8, 6, y 2 casos que ocurren con una
frecuencia de de 3, 2, 4, y 1.
X = [(3)(5) + (2)(8) + (4)(6) + (1)(2)]/(3+2+4+1) = 5.7
La mediana
~
La mediana, X es el valor de en medio de un grupo de números u observaciones
(puestas en forma ascendente) o el promedio aritmético de los dos valores de en
medio. Geométricamente hablando, la mediana es el valor de X (abscisa)
correspondiente a esa línea vertical que divide a un histograma en dos partes teniendo
áreas iguales. La mediana es una posición de promedio, mientras que el promedio
aritmético es un promedio calculado.
1-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
La moda es una estadística que demuestra el valor que ocurre con más frecuencia en
una muestra (poniendo los datos en forma ascendente). Una distribución puede tener
una moda, puede ser bimodal, etc. Este valor se denota por X̂ . Sin embargo, algunas
ocasiones la moda no existe.
Ejemplo #8. La muestra de observaciones 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene
una moda de X̂ = 9, es decir, el valor que ocurre con más frecuencia.
Ejemplo #9. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda.
Ejemplo #10. La muestra de observaciones 2 ,3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos
modas, 4 y 7 y es bimodal, es decir, X̂ = 2.
1-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #12. Encontrar el promedio, la mediana y la moda de los casos 48.7, 48.8,
1-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
El promedio geométrico
El promedio geométrico se usa como un disfraz de transformación logarítmica. Es útil
para promediar tasas de crecimiento (aumento o decremento) de una muestra
estadística. La fórmula es:
G= n
x x x ... x
1 2 3 n
(1-4)
1-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
La varianza
La varianza, s2 es una medida de dispersión y nos dice, qué tanta variación existe de
una observación a otra (o del promedio) o de una muestra a otra. Una s2 grande tiene
más casos diversificados, que una con una varianza pequeña. La varianza s2 de una
muestra estadística (o de varias muestras) es el estimador del parámetro de la
varianza, σ2 de una población o poblaciones. La fórmula de la varianza es:
n
s2 = Σ (X - X )2/(n-1) = [ΣX 2 – (ΣX)2/n]/(n - 1) (1-5)
i=1
= SS/(n – 1)
1-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
estadística se da como:
s = √ [ΣX 2 – (ΣX)2/n] / (n – 1) (1-5a)
Para datos agrupados, la desviación estándar es:
s = √ [fj ΣX 2 – (ΣX)2/n] / (n – 1) (1-5b)
Ejemplo #15. Para el ejemplo de arriba, calcular la desviación estándar.
Solución:
Si la varianza, s2 = 4, por lo tanto, la desviación estándar, s es:
s = s2 = 4 = 2
Ejemplo #16. Encontrar X , s, s2, la mediana, el error estándar del promedio, el sesgo
y la kurtosis de una muestra al azar de 36 análisis de fosfatos (PO4-3), en mg/L. ¿Qué
tanta fidelidad hay en los datos? La tabla de abajo da la información.
__________________________________________________________________
Valores de X | 61 64 67 70 73 69 68 70
Frecuencia | 5 8 4 5 5 4 3 2
Solución:
Usando un paquete de computadora da: X = 67.27, s = 3.78, s2 = 14.31, mediana =
68, sesgo = -0.22 y kurtosis = -0.95. Al juzgar por los resultados, hay una buena
aproximación a la distribución normal, puesto que X y la mediana son parecidos.
Además el valor del sesgo no difiere mucho de 0. Se le pide al lector usar la fórmula
(15-b) para corroborar los resultados computarizados obtenidos.
1-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
( X + 2s), esto es entre z = ±2. Además, en el 99.73% de todos los casos se incluyen
entre ( X - 3s) y ( X + 3s), esto es, entre z = ±3.
Figura 1.2. Distribución normal mostrando las áreas para diferentes percentiles de la
variable estandarizada z (Spiegel, 1961).
Variable aleatoria estandarizada z
Esta variable aleatoria estandarizada z mide las desviaciones del promedio en
unidades de desviación estándar y se da como:
z = (X - X ) / s. (1-6)
Su parámetro respectivo es:
Z = (X - µ)/σ (1-7)
Ejemplo #16. Calcular las siguientes probabilidades:
(a) P(z ≤ 1.25)
(b) P(z > 1.25)
(c) P(z ≤ -1.25)
(d) P(-.38 ≤ z ≤ 1.25)
Solución:
(a) Para esto, buscamos en la tabla de la distribución normal del renglón marcado con
1-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Así, de esta manera, los errores estándares del promedio, de las proporciones o
la mediana es, respectivamente:
σX = σ √ N (1-9)
σp = pq/N (1-9a)
Π
σmed.= σ (para n ≥ 30) (1-9c)
2N
Términos importantes
Parámetros. Se refieren a valores poblacionales. Se usan los símbolos griegos para
denotarlos.
Estadística. Se refiere a una muestra tomada de una población. Es un estimador de los
parámetros de población.
Promedio aritmético. Si se conoce toda la población se usa la variable µ. Si se refiere
a una muestra estadística, se usa la variable X . De cualquier manera el promedio
aritmético es la sumatoria de un grupo de observaciones dividido entre el total de los
casos.
Promedio. En general un promedio se refiere a una medida de tendencia central.
Ejemplos son el promedio aritmético, la mediana y la moda. Hay también promedios
geométricos, armónicos, etc.
Mediana. Es el valor del ítem central cuando los datos son agrupados por tamaño
~
( X ).
Moda. Es el valor que ocurre con más frecuencia ( X̂ ).
Distribución bimodal. Se refiere a una distribución con dos modas.
1-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
la curva normal.
2. Curva asimétrica u oblicua cuyos extremos de la curva están al lado derecho o al
izquierdo del máximo central.
3. Curva de frecuencia en forma de J.
4. Curva de frecuencia en forma de U.
5. Curva de frecuencia bimodal que tiene dos máximos.
6. La curva de frecuencia multimodal que tiene más de dos máximos.
Figura 1.3 Gráficas mostrando los tipos de curvas de frecuencia (Spiegel, 1961).
1-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #20. Hacer una tabla de distribución con intervalos de clase y la frecuencia
relativa para las alturas de 100 estudiantes de una universidad.
TABLA 1.0. Alturas de los estudiantes. (Spiegel, 1961).
___________________________________________________________________
Distribución de las alturas Frecuencia relativa
por intervalos de clase de estudiantes (%)
___________________________________________________________________
60 - 62 pulgadas 5%
63 - 65 18 %
66 - 68 42 %
69 - 71 27 %
72 - 74 8%
_________________________________________________________
Total 100 %
1-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
o marca de clase.
(c) Para ambos casos construir un histograma y un polígono de frecuencia y también,
en función de frecuencia relativa.
(d) Para ambos casos, construir una gráfica de frecuencia acumulada y frecuencia
relativa acumulada.
(e) Usar papel de probabilidad para estimar el promedio aritmético y la desviación
estándar. Comparar estos resultados con el cálculo del promedio y la desviación
estándar usando las fórmulas estadísticas.
TABLA 1.3. Tabla mostrando las concentraciones de calcio de 40 análisis de agua.
(Elaboración propia)
Solución:
Si se usan intervalos de clase de tamaño 5, los intervalos de clase son 57/5 = 12,
aproximadamente. Sin embargo, si se usan intervalos de clase de tamaño 9, los
intervalos de clase son 57/9 = 6, aproximadamente. Las tablas de abajo muestran estas
estimaciones.
1-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Procedimiento:
Para formar el diagrama de tallo y hoja, se separa cada observación en dos partes
1-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
consistentes de un tallo y una hoja. Siendo así, el tallo representa el dígito que
precede al punto decimal y, la hoja, corresponde al dígito a la derecha del punto
decimal. Por ejemplo, con el número 3.7, el dígito 3 representa el tallo y el dígito 7
representa la hoja. De acuerdo a los datos de la TABLA 1.8 hay cuatro tallos, es
decir, 1, 2, 3, 4. Una vez hecho esto, se identifican los números a la derecha del
punto decimal correspondientes a cada tallo. Por ejemplo, para el tallo 1 hay dos
hojas, 6 y 9; para el tallo 2 hay 5 hojas, es decir, 2, 5, 6, 9 y 5, etc. La TABLA 1.8
de abajo representa la gráfica de tallo y hojas para este problema.
No obstante, para poder construir la TABLA 1.8 se puede usar el Minitab de
acuerdo a las siguientes indicaciones:
Graph → Stem-and-leaf
En el recuadro que aparece poner las variables de la columna C1 en la ventanilla de
“Stem-and-leaf” y en la ventanilla de “Increments” poner 1. Esto produce los datos
de la TABLA 1.8 mostrada abajo.
TABLA 1.8. Tabla mostrando los resultados de tallo y hoja correspondientes a las
observaciones de la TABLA 1.7.
__________________________________________________________________
Stem-and-Leaf Display: Mediciones de 40 objetos
2 1 69
7 2 25669
(25) 3 0011112223334445567778899
8 4 11234577
__________________________________________________________________
1-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Las tablas de las distribuciones de tallo y hoja se pueden usar para estimar los
intervalos de clase cuando se hacen distribuciones de frecuencia. El procedimiento
es como sigue:
1. Primero se saca el rango de los datos. Por ejemplo, de la TABLA 1.7 el valor
máximo es 4.7 y el valor mínimo es 1.6, o sea: rango = 4.7 – 1.6 = 3.1.
2. Enseguida se estima el ancho del intervalo dividiendo el rango entre el número
de tallos (7 en este caso), es decir, 3.1 / 7 = .4.
3. Ahora, para estimar el primer intervalo de clase empezamos con 1.5 y le
1-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
sumamos .4 para dar 1.9. El siguiente intervalo de clase es 2.0 más .4 para dar 2.4.
El siguiente intervalo de clase es 2.5 más .4 para dar 2.9 y así sucesivamente, como
se muestra en la TABLA 1.10 de abajo.
TABLA 1.10. Tabla mostrando los intervalos de clase, el punto medio, la
frecuencia, la frecuencia relativa y la frecuencia relativa acumulada.
Intervalo de Punto Frecuencia Frecuencia Frecuencia relativa
clase medio (f) relativa (f.r.) acumulada (f.r.a.)
1.5 – 1.9 1.7 2 0.050 0.050
2.0 – 2.4 2.2 1 0.025 0.075
2.5 – 2.9 2.7 4 0.100 0.175
3.0 – 3.4 3.2 15 0.375 0.550
3.5 – 3.9 3.7 10 0.250 0.800
4.0 – 4.4 4.2 5 0.125 0.925
4.5 – 4.9 4.7 3 0.075 1.000
Por otro lado, con los datos de la TABLA 1.10 se pueden hacer histogramas
de frecuencia relativa, con curvas normales sobrepuestas y curvas de frecuencia
relativa acumulada para calcular medidas de localización como cuartiles o
percentiles. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro partes
iguales. Siendo así, el primer cuartil o .25 fractil (Q1) separa la cuarta parte inferior
de las tres cuartas partes superiores, esto es, el 25% de las mediciones de abajo. El
segundo cuartil o .50 fractil (Q2) es idéntico a la mediana o sea que la mitad de las
observaciones están debajo de este valor. Las observaciones arriba del tercer cuartil
o .75 fractil (Q3) son la cuarta parte superior del conjunto de datos. Finalmente, los
1-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
__________________________________________________________________
1-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10
Frequency
6
0
1.6 2.4 3.2 4.0 4.8
Mediciones de 40 objetos
1-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
0.8 0.8
Distribucion de f.r.a.
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
7 19 12 5 17 29 8 19 4 27 30 1 4 10 21
__________________________________________________________________
Solución:
1-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 1
1.1. Calcular el promedio, la varianza y la desviación estándar de las observaciones de
la muestra: 12, 6, 7, 3, 15, 10, 18, 5. (9.5, 27.1, 5.2)
1.2. Encontrar la desviación estándar y el promedio de los valores: 3, 6, 2, 1, 7, 5. De
acuerdo a la relación de los valores obtenidos del promedio y la desviación estándar o
varianza. ¿Qué conclusiones se pueden sacar?
1.3. Escribir los siguientes términos usando anotación de sumatoria.
10
2 2 2 2
(a) X 1 +X 2 +X 3 + ...+ X 10 (Σ Xi)
x=0
5
(b) (X1 + Y1) + (X2 + Y2) + .... + (X5 + Y5) (Σ Xi+Yi)
x=0
1-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4
(b) Σ (y1 - 3) 2
j=1
5
(c) Σ fkxk
k=1
Frecuencia f| 4 9 16 28 45 66 85 72 54 38 27 18 115
_______________________________________________________________________________
1-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1.16. Los siguientes datos están relacionados con las temperaturas, en oC, de 10
regiones de México. La tabla de abajo muestra esta situación:
Tabla mostrando los datos del problema. (Elaboración propia)
__________________________________________________________________
Temp. Frecuencia Frecuencia Frecuencia Frecuencia relativa
o
( C) acumulada relativa (%) acumulada
__________________________________________________________________
20 3 3 30% 30%
21
22 2 9 20% 90%
23 1
Total 10
1-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
50.00 - 59.99 8
60.00 - 69.99 10
70.00 - 79.99 16
80.00 - 89.99 14
90.00 - 99.99 10
100.00 - 109.99 5
10.00 - 119.99 2
1.19. Una organización caritativa que ayuda a damnificados por huracanes ha hecho
una lista de donaciones recibidas durante el presente año, en miles de pesos. El
propósito de este ejemplo es el de hacer una tabla de distribución de frecuencia
encontrando los intervalos de clase más apropiados usando la técnica de diagramas de
tallo y hoja. La tabla de abajo muestra los datos. Para esto hacer lo siguiente:
(a) Calcular el promedio y la mediana. (139, 135)
(b) Hacer una tabla de distribución de frecuencia usando un diagrama de tallo y hoja.
Encontrar los puntos intermedios, la frecuencia, la f. r. y la frecuencia relativa
acumulada y construir un histograma y una gráfica de f. r. a. contra valores de X.
Tabla mostrando los datos del problema (Elaboración propia).
___________________________________________________________________
253.0 173.4 117.0 191.2 151.4
182.0 132.0 162.0 212.9 155.9
221.0 158.0 135.0 124.4 68.9
89.7 95.6 84.1 135.1 123.2
101.0 126.5 142.8 20.2 119.0
___________________________________________________________________
1-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
60 - 62 61 5 5 x 61 = 305
63 - 65 64 18 64 x 18 = 1152
66 - 68 67 42 67 x 42 = 2814
69 - 71 70 27 70 x 27 = 1890
72 - 74 73 8 73 x 8 = 584
__________________________________________________________________
(a) Calcular el promedio aritmético. Sugerencia: usar la función del promedio igual a
Σf X/Σf
1-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(h) Encontrar el % de los tubos cuyas vidas sean < 600 horas. (29.5%)
(i) Graficar los datos en papel de probabilidad y leer el promedio aritmético y la
desviación estándar de la gráfica.
(j) Hacer una grafica de frecuencia relativa acumulada versus puntos medios y
calcular los percentiles Q1, Q2 y Q3.
Tabla mostrando los datos del problema. (Elaboración propia)
___________________________________________________________________
Vida de los No. de (f) f.r. f.a. f.r.a. Punto
tubos tubos medio
___________________________________________________________________
300 - 399 14
400 - 499 46
500 - 599 58
600 - 699 76
700 - 799 68
800 - 899 62
900 - 999 48
1000 - 1099 22
1100 - 1199 6
__________________________________________________________________
1-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Para los problemas de abajo encontrar las siguientes sumatorias usando la tabla de
arriba.
1-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2 1
(b) Σ p(x) – Σ p(x)
x=0 x=0
1
(c) Σ p(x) (0.9928)
x=0
3
(c) Σ p(x) (1.000)
x=0
1-44
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 2
Probabilidad
p = Pr{E} = h / n (2-0a.)
Donde:
Por lo tanto, p + q = 1
Ejemplo #1. Si una moneda tiene dos caras denotadas por águilas o sellos, calcular la
probabilidad de que salga un sello.
Solución:
Usando la función (2-0) y dejando que A sea el evento sello y B el evento águila,
entonces, la probabilidad de sellos es:
P(A) = 1 / (1 + 1) = 0.5.
2-2
2-3
1. Para cualquier evento A, P(A) ≥ 0. Además, la probabilidad no puede ser mayor que
1, ni tampoco negativa.
2. La probabilidad de un espacio muestral es: P(S) = 1
3. Si A1, A2,...., Ak es una colección finita de eventos mutuos excluyentes (que no
puede ocurrir a la misma vez), entonces:
k
P(A1 ∪ A2 ∪....∪ Ak) = Σ P(Ai) (2-3)
i=1
Si A1, A2, A3,... es una colección infinita de eventos mutuos excluyentes, entonces:
k
P(A1 ∪ A2 ∪ A3 ∪...) = Σ P(Ai) (2-4)
i=1
Ejemplo #6. Este es un ejemplo adaptado del libro de Richard A. Jonson, intitulado
Probabilidad y Estadística para Ingenieros de Miller y Freund (1994). Las
probabilidades de que un consumidor que prueba el servicio de un nuevo dispositivo
anticontaminante para autos, lo clasifique como muy deficiente, deficiente, suficiente,
bueno, muy bueno o excelente son: 0.07, 0.12, 0.17, 0.21, y 0.011. ¿Cuáles son las
probabilidades de que las clasificaciones del dispositivo sean?:
(a) ¿Muy deficientes?
(b) ¿Deficientes?
(c) Suficientes o buenas?
(d) ¿Buenos, muy buenos o excelentes?
Solución:
Puesto que las posibilidades son mutuamente excluyentes (que no pueden ocurrir a la
vez), la sustitución directa de cada una de las cinco clasificaciones, en la función (2-3)
da como resultado:
(a)-(c) es: 0.07 + 0.12 + 0.17 + 0.32 = 0.68
2-6
Ejemplo #14. Si M = {x|3 < x < 9} y N = {y|5 < y < 12}, entonces, encontrar la unión
de M ∪ N. (Walpole 1993, p. 14)
Solución:
M ∪ N = {z}3 < z < 12}
Intersección de los eventos. La intersección de dos eventos A y B, se denota por el
símbolo A ∩ B, que se lee "A y B". La intersección A ∩ B es el grupo de puntos en el
evento del espacio A y en el evento del espacio B. Por lo tanto, el evento A ∩ B
ocurre, solamente, si ambos eventos A y B ocurren. Aquí, la palabra clave “y” se
refiere al evento conteniendo todos los elementos que son comunes o que están en
ambos, A y B.
Ejemplo #15. Si S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, A = {0, 2, 4, 6, 8}, B = {1, 3, 5, 7, 9},
C = {2, 3, 4, 5} y D = {1, 6, 7}, encontrar:
(a) A ∩ B.
(b) A ∩ C
Solución:
(a) Debido a que en A ∩ B no hay ningún elemento en común, por lo tanto, A ∩ B = ф
y no pueden ocurrir a la misma vez.
(b) Debido a que, solamente el 2 y el 4 son comunes en ambos eventos A y C, por lo
tanto, A ∩ C = {2, 4}
Ejemplo #16. Si dejamos que M = {a, e, i, o, u} y N = {r, s, t}, por lo tanto, M ∩ N =
Φ, lo cual dice que M y N no tienen elementos en común y que no pueden ocurrir a la
misma vez.
Complemento.- El complemento de un evento A, denotado por A', es el conjunto de
todos los resultados en el espacio muestral S, que no están contenidos en A.
Ejemplo #17. Si A = {0, 1, 2, 3, 4}, B = {3, 4, 5, 6} y C = {1, 3, 5}, entonces,
2-10
encontrar:
(a) A ∪ B
(b) A ∪ C
(c) A ∩ B
(d) A ∩ C
(e) A'
(f) {A ∪ C}'
Solución:
(a) A ∪ B = {0, 1, 2, 3, 4, 5, 6} = S
(b) A ∪ C = {0, 1, 2, 3, 4, 5}
(c) A ∩ B = {3,4}
(d) A ∩ C = {1,3}
(e) A' = {5,6}
(f) (A ∪ C)' = {6}
2-11
Figura 2.0. Diagrama mostrando los espacios muestrales y los eventos. (Johnson,
1997).
Ejemplo #18. Refiriéndose al problema anterior representar con símbolos de Venn las
siguientes regiones:
(a) 4, 6, 7
(b) 1,4
(c) 1, 2, 5, 7
(d) 1, 2
(e) 1, 3, 4
Solución:
(a) (A U C)
(b) (A ∩ C)
(c) (A U B)
(d) (A ∩ B)
(e) (A U B) ∩ C)
Ejemplo #19. Si S = {libro, catalizador, cigarrillo, químico, ingeniero, remache} y, si
dejamos que A = {catalizador, remache, libro, cigarrillo}, entonces A' = {químico,
2-12
ingeniero}
Ejemplo #20. El espacio muestral de un experimento aleatorio se da como S = {AA,
AN, NA, NN}. Si E1 = {AA, AN, NA} y E2 = {AN, NA, NN}, entonces, encontrar:
(a) E1 ∪ E2
(b) E1 ∩ E2
(c) E1'
(d) E2'
Solución:
(a) E1 ∪ E2 = {AA, AN, NA, NN}
(b) E1 ∩ E2 = {AN, NA}
(c) E1' = {NN}
(d) E2' = {AA}
Eventos mutuos excluyentes.- Dos o más eventos se dice que son mutuos excluyentes
o desunidos, cuando no hay elementos comunes entre si. Para esto se usa la
simbología de intersecciones, es decir, A ∩ B = Φ, esto dice que A y B no tienen
elementos en común. Esto nos dice qué, cuando uno de los resultados ocurre, los otros
no pueden ocurrir al mismo tiempo. Por ejemplo, cuando se lanza un dado, la sacada
de un 1 y un 2 son eventos mutuos excluyentes, debido a que, si el sale el 1, no puede
salir el 2, a la misma vez. Igualmente, con los naipes si sale un rey no puede salir un as
o cualquier otra carta del mazo de cartas.
Si E1 y E2 son eventos mutuos excluyentes, entonces:
Pr{E1E2} = 0.
Si E1 + E2 denotan los eventos de que, ya sea que E1 o E2 o ambos ocurran, entonces:
Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2}
En general para eventos mutuos excluyentes:
2-13
vez y viceversa. Por lo tanto, los dos eventos A y B son mutuos excluyentes.
Probabilidad condicional.- Se define como la probabilidad de que un evento A ocurra,
cuando se sabe que el evento B ha ocurrido y se denota como P (A|B). También la
probabilidad de que un evento B ocurra, cuando se sabe que el evento A ha ocurrido,
se denota por P (B|A). Las funciones usadas para tales fines son:
P (A ∩ B) P(A ∩ B)
P (B|A) = ——————; P (A|B) = ————— (2-6)
P(A) P(B)
Ejemplo #24. Si P(D) = 0.83, P(A) = 0.82 y P(D ∩ A) = 0.78, encontrar los siguientes
enunciados:
(a) P(A|D)
(b) P(D|A)
Solución:
(a) P(A|D) = P(D ∩ A)/P(D)
= 0.78/0.83
= 0.94
(b) P(D|A) = P(D ∩ A)/P(A)
= 0.78/0.82
= 0.95
Ejemplo #25. Los resultados obtenidos de 266 muestras de aire se clasifican de
acuerdo a la presencia de dos moléculas raras. Sean A: el evento formado por todas las
muestras de aire en la que se encuentra la molécula rara 1, y B: el evento formado por
todas las muestras de aire donde está presente la molécula rara 2. Si se calculó que la
probabilidad P(A ∩ B) = 12/66 y P(A) = 36/266, entonces, calcular la probabilidad del
evento formado por todas las muestras de aire con la molécula 2, dado el evento
2-15
formado por todas las muestras de aire con la molécula 1. (Montgomery et al. 1996)
Solución:
P(B|A) = P(A ∩ B) / P(A)
= (12/266) / (36/266)
= 12/36
Ejemplo #26. Refiriéndose al problema anterior, encontrar P(A|B), si P(B) es igual a
30/266.
Solución:
P(A|B) = P(A ∩ B) / P(B) = 12/266/(30/266) = 12/30
Eventos independientes y dependientes.- En este caso, sin embargo, cuando hablamos
de probabilidad condicional se incluyen lo que se llaman eventos independientes y
eventos dependientes. Por ejemplo, si la ocurrencia de un evento, no cambia la
probabilidad de la ocurrencia del otro evento, entonces, se dice que los dos eventos
son independientes. Sin embargo, si cualquiera de estas condiciones no se satisfacen,
los dos eventos se dicen que son dependientes, es decir, P(A|B) ≠ P(A).
En el caso especial de que A y B sean independientes, es decir, de manera que,
P(A|B) = P(A), esto conduce a la regla especial de multiplicación:
P(A ∩ B) = P(A) · P(B) (2-7)
Ejemplo #27. Encontrar la probabilidad de sacar dos caras en dos lanzamientos de una
moneda honesta.
Solución:
Puesto que la probabilidad de las caras es de 0.5 por cada lanzamiento y los dos
lanzamientos son independientes, la probabilidad es (1/2)(1/2) = ¼
Ejemplo #28. Se sacan dos cartas, aleatoriamente, de un mazo de 52 naipes. ¿Qué
probabilidad hay de obtener dos ases si?
2-16
Las reglas de las tres operaciones básicas del álgebra de conjuntos para formar
uniones, intersecciones y complementos de eventos se describen en la TABLA 2.1.
TABLA 2.1. Tabla mostrando las leyes del álgebra de conjuntos. (Elaboración
propia)
___________________________________________________________________
Ley asociativa: (A ∪ B) ∪ C = A ∪ (B ∪ C)
(A ∩ B) ∩ C = A ∩ (B ∩ (B ∩ C)
Ley conmutativa: A∪B=B∪A
A∩B=B∩A
Ley distributiva: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Leyes de Morgan: (A ∪ B)' = A' ∩ B'
(A ∩ B)' = A' ∪ B'
Leyes complementarias: A ∪ A' = S
A ∩ A' = Φ
(A')' = A
S' = Φ, Φ' = S
Leyes idénticas: A∪Φ=A
A∩S=A
A∪S=S
A∩Φ=Φ
Leyes con la misma potencia: A∪A=A
A∩A=A
__________________________________________________________________
2-19
Figura 2.2. Los esquemas de abajo muestran algunos diagramas de Venn. (Elaboración
propia)
Técnicas de conteo
Numerosas reglas de conteo han sido usadas para contar el número de puntos en
muestreos. Cuando los diversos resultados de un experimento son igualmente
probables, la tarea de calcular probabilidades se reduce a contar. Estas técnicas de
conteo son útiles para contar el número de eventos que componen el numerador y/o el
denominador de una probabilidad.
Ejemplos de técnicas de conteo son:
1. La regla del producto para pares ordenados
2. La regla del producto más general
2-20
3. Factoriales
4. Uso de diagramas de árbol
5. Permutaciones
6. Combinaciones
La regla del producto para pares ordenados
La forma más básica de conteo es la regla del producto mn. Por ejemplo, si el primer
elemento u objeto de un par ordenado se puede seleccionar en n1 formas, y por cada
una de estas n1 formas se puede seleccionar un segundo elemento del par en n2 formas,
entonces, siendo así, esto es una regla del producto.
Ejemplo #31. ¿Cuántos puntos muestrales hay en un espacio muestral S, cuando un
par de dados se lanzan una vez?
Solución:
El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el
segundo dado puede también caer en n2 maneras. Por lo tanto, el par de dados pueden
caer en n1n2 = (6) (6) = 36. El espacio muestral es:
S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-
6, 4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6}
Ejemplo #32. En un estudio médico los pacientes se clasifican en ocho maneras de
acuerdo a que tengan tipo de sangre, es decir, AB+, AB-, A+, A-, B+. B- o O+, O- y
también de acuerdo a, aquéllos que tengan presión alta, baja o normal. Encontrar el
número de maneras en las cuales un paciente se pueda clasificar.
Solución:
n1 = 8 tipos de sangre y n2 = 3 presiones arteriales. Por lo tanto, n1 n2 = (8) (3) = 24
maneras.
2-21
enfermo, esto no quiere decir qué, solamente, ese órgano en particular está enfermo,
sino que toda la química del cuerpo está alterada, como resultado de vida antinatural.
Este razonamiento está relacionado con la tesis de Hipócrates conspiratio una).
Solución:
n1n2n3 = (4)(3)(2) = 24
Regla factorial
Dado un íntegro positivo n, el producto de todos los números enteros desde n hasta 1
se llama factorial n y se escribe n!. En general, n! = n(n – 1)(n – 2)(n – 3)….1. Por
definición 0! = 1. Aquí nótese que 10! = 10·9!; 5! = 4·4!, y n! = n(n – 1)!
Más adelante, cuando se discuta el tema de permutaciones se verá que, la
diferencia entre la regla factorial y la regla de permutaciones, es la siguiente: la regla
factorial dice cuántos arreglos son posibles, cuando se usan todos los diferentes
objetos de n. Sin embargo, cuando se habla de permutaciones, se seleccionan
solamente algunos de los objetos n, no todos, como en el caso de la regla factorial.
Ejemplo #35. Calcular los siguientes factoriales:
(a) 10!
(b) 5!
(c) 9!/0!
Solución:
(a) 10! = 3,628,800
(b) 5! = 120
(c) 9!/0! = 362,880/1 = 362,880
Ejemplo #36. Un candidato presidencial planea visitar cada uno de 28 estados de un
país. ¿Cuántas rutas diferentes son posibles?
Solución:
2-23
Las capitales de los diferentes 28 estados se pueden arreglar en 28! maneras, de tal
forma el número de diferentes rutas es 28! = 3.049x1029.
Ejemplo #37. En la facultad de ingeniería, en cierta oficina, los escritorios de 4
becarias se ponen en línea contra una pared. Cada becaria se puede sentar en cualquier
escritorio. ¿Cuántos arreglos para sentar a las becarias son posibles?
Solución:
Usando n! = 4! = (4)(3)(2)(1) = 24
Diagramas de árbol
En las reglas de producto o regla de multiplicación se puede usar una configuración
llamada diagrama de árbol, para representar esquemáticamente, todas las posibilidades
y calcular cualquier probabilidad en los resultados obtenidos del diagrama de árbol.
De esta manera, los espacios muestrales pueden describirse gráficamente en términos
de un diagrama de árbol.
Ejemplo #38. Supóngase que una computadora pueda seleccionar, aleatoriamente, uno
de dos factores, Rh (positivo y negativo) y uno de tres tipos de sangre. Calcular la
probabilidad de sacar un factor Rh positivo con tipo de sangre A.
Solución:
Usando la regla de multiplicación n1 n2 = (2) (3) = 6 se hace este cálculo. Sin embargo,
aquí es difícil visualizar las combinaciones calculadas en la probabilidad. No obstante,
el uso de un diagrama de árbol simplifica esta tarea.
Ejemplo #39. Con relación al problema anterior hacer un diagrama de árbol para
relacionar el factor Rh y el tipo de sangre.
Solución:
2-24
A -A
- O -O
B -B
Del diagrama de árbol de arriba podemos ver que el espacio muestral es:
S = {+A, +O, +B, -A, -O, -B)
Examinando esta situación vemos qué, una sola rama corresponde a: +A. Por lo tanto,
la probabilidad de sacar este arreglo es de 1/6.
Ejemplo #40. Supóngase que se quiera encontrar la probabilidad de un infante, que sea
una hembra con ojos azules. Asumir que la probabilidad de varones y hembras es
igual y que puedan salir con colores de ojos cafés, verdes, azules o castaños.
Solución:
Usando la regla de productos da: n1 n2 = (2) (4) = 8. La probabilidad de una hembra
con ojos azules es 1/8.
Pero, haciendo un diagrama de árbol simplificamos el cálculo de la probabilidad de
sacar una hembra con ojos azules.
2-25
2-26
Figura 2.5. Diagrama de árbol del experimento de lanzar las tres monedas
simultáneamente, donde S = soles y A = águilas. (Elaboración propia)
Con este diagrama de árbol vemos que hay 8 resultados al lanzar una moneda tres
veces consecutivas o tres monedas simultáneamente. El espacio muestral es:
S = {(SSS), (SSA), (SAS), (SAA), (ASS), (ASA), (AAS), (AAA)}
(b) La probabilidad de caigan exactamente 3 soles es:
P(soles = 3) = 1/8
(c) La probabilidad de que caigan cuando menos 2 soles es:
P(soles ≥ 2) = 4/8 = 1/2
(d) La probabilidad de caigan a lo más dos águilas es:
P(águilas ≤ 2) = resolverse por el lector
(e) La probabilidad de todo el conjunto muestral es: P(S) = 1 o sea:
= P(SSS)+P(SSA)+P(SAS)+P(SAA)+P(ASS)+P(ASA)+P(ASS)+P(AAA)
= 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 = 1
2-27
Ejemplo #46. ¿De cuántas maneras puede la Sociedad Química Mexicana seleccionar
a 3 conferencistas para 3 conferencias diferentes, si hay únicamente 5 fechas
disponibles?
Solución:
Aquí n = 5 y r = 3 usando nPr = n! / (n - r)! y sustituyendo los valores da:
nPr = n! / (n - r)! = 5P3 = 5! / 2! = 60. En resumen, aquí vemos qué, si queremos todas
las permutaciones posibles o todo el espacio muestral, entonces, usamos n! Pero, si
queremos, únicamente, una parte, usamos nPr = n!/(n - r)!
Ejemplo #47. ¿Cuál es el número de permutaciones de las letras a, b, c tomadas todas
a un tiempo?
Solución:
Seis, v.g., ab, ba, ac, ca, bc, cb
Ejemplo #48. Considérese una carrera de 10 caballos y un premio de exacta para
cualquiera que pueda escoger el orden exacto del primero hasta el décimo lugar.
Asumiendo que todos los caballos tienen la misma oportunidad de ganar, ¿Cuántos
arreglos hay?
Solución:
10P10 = 3,628,800 permutaciones
Ejemplo #49. Bajo las condiciones del problema #7, ¿Cuál es la probabilidad de ganar
si se compra un solo boleto?
Solución:
P(Con un solo boleto) = 1 / 10P10 = 1/3,628,800
= 2.76x10-7
Ejemplo #50. Supóngase que hay 6 partes diferentes para ser almacenadas, pero
solamente, hay 4 cajas disponibles. ¿Cuántas permutaciones son posibles?
2-30
Solución:
Aquí, n = 6 y r = 4, es decir: 6P4 = 360
Teorema 3. El número de diferentes permutaciones de n objetos, de los cuales n1 son
de una clase, n2 son de una segunda clase,...nk son de una k-ésima clase se da como:
n! / (n1! n2!..nk!) (2-10)
Donde: n! es el total de los objetos
Ejemplo #51. ¿De cuántas maneras pueden arreglarse en un cordón eléctrico 3 focos
rojos, 4 amarillos y 2 azules en 9 portalámparas?
Solución:
Usando la regla de partición n!/(n1!n2!..nk!)
Donde, n! = 9, n1 = 3, n2 = 4 y n3 = 2, da:
9! / (3! 4! 2!) = 1260
Ejemplo #52. Un colegio juega 12 juegos durante la temporada. De cuantas maneras
puede el equipo terminar la temporada con 7 juegos ganados, 3 perdidos y 2 empates?
Solución:
Usando la función (2-9) con n! = 12, n1 = 7, n2 = 3 y n3 = 2 y sustituyendo da:
12!/[(7!)(3!)(2!) = 7920
Otra forma de ver las permutaciones es cuando estamos interesados en el
número de maneras de partir un conjunto de n objetos en r subconjuntos llamadas
celdas.
Teorema 4. El número de maneras de partir un conjunto de n objetos en r celdas con n1
elementos en la primera celda, n2 elementos en la segunda y, así sucesivamente, es:
2-31
n
= C = n! / n1! n2!...nr! (2-11)
n n1,n2..nr
n1,n2..nr
Donde:
n1 + n2 + nr = n
Ejemplo #53. En cuántas maneras pueden 7 científicos ser asignados a un cuarto triple
y a 2 cuartos dobles en un hotel.
Solución:
7
= 7! / (3!2!2!) = 210
3, 2 , 2
2-35
4/52 y P(B) = 13/52. Esto se debe a que hay 4 ases y 13 cartas de corazones.
Ejemplo #2. Considerar el espacio muestral S = {A, B, C, D), donde P(A) = P(D) = .3
y P(B) = P(C) = .2. (Keller et al. 1990)
(a) Siendo así, definir los eventos:
1 = {A, B}
2 = {B, C}
3 = {C, D}
(b) ¿Cuál de los siguientes pares de eventos son independientes o dependientes?
(b) 1 y 2
(c) 2 y 3
(d) 1 y 3
Solución:
(a) 1 = {A, B} = .3, .2
2 = {B, C} = .2, .2
3 = {C, D} = .2, .3
(b) Los eventos 1 y 2 son independientes
(c) Los eventos 2 y 3 son independientes
(d) Los eventos 1 y 3 son dependientes
2-36
probabilidad de sacar la suma de 7 es de 6, es decir, (2+5, 5+2, 3+4, 4+3, 1+6, 6+1).
Usando la regla multiplicativa para eventos independientes da:
P(A ∩ B) = P(A) · P(B)
= (6/36)(6/36) = 1/36
Ejemplo #65. ¿Cuántos puntos muestrales hay en un espacio muestral, cuando un par
de dados se lanzan una vez?
Solución:
El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el
segundo dado puede caer en n2 maneras. Por lo tanto:
n1 n2 = (6)(6) = 36 maneras posibles
El espacio muestral es:
S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-6,
4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6}
Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes
En muchas aplicaciones de la teoría de probabilidad, estamos interesados en combinar
probabilidades de eventos que están relacionados de alguna manera. En este caso se usa
la regla aditiva. Así, la regla aditiva se usa para computar la probabilidad de la unión de
dos eventos. Esta regla aplica para eventos no mutuos excluyentes y, también, para
eventos mutuos excluyentes.
Por ejemplo si A y B son eventos mutuos excluyentes el modelo aditivo es:
P(A ∩ B) = P(A) + P(B) (2-23)
Que también se puede escribir como:
P(A o B) = P(A) + P(B) (2-23a)
Nota. El símbolo P(A o B) se refiere a la probabilidad de cualquiera de los eventos A o
B ocurran o, bien, que ambos ocurran.
2-40
Dejar que A = 2/3 sea el evento de pasar matemáticas y B = 4/9 el evento de pasar
inglés y P(A y B) = 1/4 el evento de pasar matemáticas e inglés, entonces por la regla
aditiva:
P(A o B) = P(A) + P(B) - P(A y B)
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
P(2/3 o 1/4) = P(2/3) + P(1/4) - P(2/3 y 1/4)
= 2/3 + 4/9 - 1/4 = 31/36
Ejemplo #68. ¿Cuál es la probabilidad de que una carta seleccionada, aleatoriamente, de
un mazo de 52 cartas sea un rey o un corazón?
Solución:
Debido a que hay un traslapado, se usa la regla aditiva para eventos no mutuos
excluyentes P(A o B) = P(A) + P(B) - P(A y B). Siendo así, dejemos que A = un rey
cualquiera y B = precisamente un corazón cualquiera. Por lo tanto, P(A) = 4/52, P(B) =
13/52, P(A y B) rey o corazones = 1/52. Aquí, es lógico que la probabilidad conjunta
(Una probabilidad que mide la verisimilitud de que puedan ocurrir dos a más eventos a
la misma vez), de un rey y un corazón deba de restarse una vez. De no ser así se
incluiría dos veces en encontrar la probabilidad de que una carta seleccionada
aleatoriamente fuera, ya sea un rey o un corazón. Existe un traslapado de resultados, lo
cual quiere decir que existe la probabilidad de que el rey (A) y un corazón (B) ocurran
al mismo tiempo. Por lo tanto:
P(A o B) = P(A) + P(B) - P(A y B)
= 4/52 + 13/52 – 1/52 = 16/52
Ejemplo #69. Este es un problema sacado del libro Statistical Analysis for Decisión
Making de Morris Hamburg (1989), el cual está relacionado con la probabilidad de
obtener un 6 en el primero o segundo lanzamiento de un dado o en ambos lanzamientos.
2-42
Esto es lo mismo que calcular la probabilidad de obtener un 6, cuando menos una vez
en dos lanzamientos de un dado.
Solución:
Dejar que A1 denote la salida de un 6 en el primer lanzamiento del dado y A2 represente
la salida de un 6 en el segundo lanzamiento. Queremos encontrar el valor de P(A1 o A2).
Para esto analicemos los resultados posibles del primero y segundo lanzamiento.
2-43
Figura 2.6. Las Figuras (a), (b) y (c) muestran el uso de diagramas de Venn para la regla
aditiva, para eventos mutuos excluyentes y no mutuos excluyentes. (Elaboración propia)
Entonces, por lo tanto, debido a que ambos el as y el rey no pueden ser sacados de un
solo tiro, por lo tanto, son eventos mutuos excluyentes y se usa la función (2-23).
Ejemplo #72. Si E1 es el evento de sacar un as y E2 es el evento de sacar una espada,
entonces, E1 y E2 no son eventos mutuos excluyentes debido a que el as de espadas
puede ser sacado. Siendo así, se usa la función (2-25) para eventos no mutuos
excluyentes. Por lo tanto, la probabilidad de sacar ya sea un as o una espada o ambos es:
Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2} = 4/52 + 13/52 - 1/52 = 4/13
Ejemplo #73. ¿Cual es la probabilidad de obtener un seis en el primero o segundo
lanzamiento de un dado o, en ambos lanzamientos de un dado honesto?
Solución:
Aquí, usamos la regla aditiva para eventos no mutuos excluyentes, es decir, la función
(2-25). Para esto dejemos que A1 denote el evento de un seis en el primer lanzamiento y
A2 denote el evento de un seis en el segundo lanzamiento. Queremos encontrar la
probabilidad de P(A1 o A2), lo cual dice que estamos buscando que el número seis
aparezca, ya sea en el primer lanzamiento o en el segundo lanzamiento o en ambos
lanzamientos. Entonces:
P(A1) = 1/6, P(A2) = 1/6 y P(A1 y PA2) = 1/36
Sustituyendo todos estos valores en la función (2-27) da:
P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
P(A1 ∪ A2) = 1/6 + 1/6 – 1/36 = 11/36
Ejemplo #74. ¿Cuál es la probabilidad de que una carta seleccionada, aleatoriamente, de
un mazo de 52 cartas sea un as o un corazón?
Solución:
Aquí, nuevamente, se usa la regla aditiva para eventos no mutuos excluyentes. Para esto
dejemos que A = un as cualquiera y B = precisamente un corazón cualquiera. Usando el
2-45
mazo de 52 cartas (que contiene cuatro 2´s, cuatro 3´s, cuatro 4´s, ………, cuatro 10´s,
cuatro sotas, cuatro reinas, cuatro reyes y cuatro ases, con sus correspondientes figuras
de tréboles, corazones, espadas y diamantes), por lo tanto, para un as cualquiera, P(A) =
4/52 , para un corazón cualquiera, P(B) = 13/52 y, para ases o corazones, P(A y B)
igual a 1/52. Aquí, nuevamente, como en el caso del ejemplo #68 es lógico asumir qué,
la probabilidad conjunta (una probabilidad que mide la probabilidad de que puedan
ocurrir dos o más eventos a la misma vez), de un as y un corazón deba restarse una vez.
De no ser así, se incluiría dos veces en encontrar la probabilidad de que una carta
seleccionada al azar fuera, ya sea un as o un corazón. Existe un sobrepuesto de
resultados, lo cual dice que existe la probabilidad de que el as (A) y un corazón (B)
salgan a la misma vez. Por lo tanto:
P(as o corazón) = P(as) + P(corazón) – P(as y corazón)
= 4/52 + 13/52 – 1/52
= 16/52
Ejemplo #75. En este ejemplo, para ilustrar la ley aditiva de probabilidad, en la cual
existen traslapados, se puede hacer usando diagramas de Venn. Para esto, se hace el
siguiente experimento de lanzar dos monedas. Siendo así, estimar la probabilidad de
sacar, cuando menos una cara, ya sea en el primer lanzamiento o en el segundo
lanzamiento (Smith, 1985).
Solución:
Primeramente, enlistar los cuatro posibles resultados poniendo H = caras y T = a soles,
es decir, HT, HH, TH y TT. Aquí, para evitar un traslapado, se usa la regla aditiva para
eventos no mutuos excluyentes. El diagrama de Venn de abajo ilustra claramente, el
traslapado que pudiera ocurrir, si se sumara la probabilidad de una cara en el primer
lanzamiento, más la probabilidad de una cara en el segundo lanzamiento que daría ½ +
2-46
2-47
= (2/52)(8/51)(12/50)
= 8/5,525
Ejemplo #77. Hacer el mismo ejemplo #1 de arriba pero, en esta ocasión, con reemplazo
de cartas.
Solución:
Al haber reemplazo de cartas, el problema se reduce a la regla multiplicativa para
eventos independientes. Los valores de las variables son:
P(A1) = 2/52; P(A2) = 8/52; y P(A3) = 12/52
Enseguida, substituyendo los valores en la expresión de abajo da:
P(A1 ∩ A2 ∩ A3) = P(A1)P(A2)P(A3)
= (2/52)(12/52)(12/52)
= 0.002
Ejemplo #78. Cuatro cartas se sacan en sucesión. Encontrar la probabilidad de que la
primera carta sea un rey; la segunda sea un 9 de diamantes; la tercera sea, cuando
menos, una sota (asumiendo que el as sea la última carta) y, la cuarta carta sea un 7
negro.
Solución:
Dejemos que A sea cualquiera de los 4 reyes; B sea precisamente un 9 de diamantes; C
sea igual a doce cartas, es decir, desde la sota hasta el as; y D sea cualquiera de los dos
sietes negros.
Siendo así, P(A) = 4/52, P(B) = 1/51, P(C) = 16/50, P(D) = 2/49
Por lo tanto:
P(A ∩ B ∩ C ∩ D) = (4/52)(1/51)(16/50)(2/49)
= 128/6,497,400 = .00002
Ejemplo #79. Dejemos que un par de dados sean lanzados una sola vez. Las tablas de
2-49
2-50
TABLA 2.3. Resultados cuando se lanzan dos dados una sola vez. (Elaboración propia)
1 2-1 3
2 2-2 4
3 2-3 5
2 4 2-4 6
5 2-5 7
6 2-6 8
1 3-1 4
2 3-2 5
3 3-3 6
3 4 3-4 7
5 3-5 8
6 3-6 9
1 4-1 5
2 4-2 6
3 4-3 7
4 4 4-4 8
5 4-5 9
6 4-6 10
1 5-1 6
2 5-2 7
3 5-3 8
5 4 5-4 9
5 5-5 10
6 5-6 11
1 6-1 7
2 6-2 8
3 6-3 9
6 4 6-4 10
5 6-5 11
6 6-6 12
2-51
Ejercicios Capítulo 2
2.1. Si una moneda tiene dos caras denotadas por águilas o soles, ¿cuál es la
probabilidad de que salga un sol? (0.5)
2.2. En el caso de un dado que tiene 6 números o caras, entonces, si el dado es honesto,
todas los números del 1 al 6 tienen la misma probabilidad de caer. Entonces, ¿cuál es la
probabilidad de sacar un 1?
2.3. En el lanzamiento de un dado, ¿cuál es la probabilidad de que se muestren los
números 3 o 4? ¿Cuál es la probabilidad de no sacar un 3 o un 4? (2/3)
2.4. Si una persona es seleccionada al azar de un grupo de 20 psicólogos y 30
sociólogos, ¿cuál es la probabilidad de seleccionar un sociólogo?
2.5. ¿Cuál de los siguientes no es una probabilidad? 3/7, 2, -1/2, 3/4, 99/101, 0, 1, 5,
1.11, 1.0001, 0.0001, 0.001, 0.9999. (2, 5, 1.11, 1.0001
2.6. La probabilidad de que Juan esté vivo en 20 años es de 0.7 y la probabilidad de que
Pedro esté vivo en 20 años es 0.5. ¿Cuál es la probabilidad de que ambos estén vivos en
20 años?
2.7. Si E1 y E2 sean los eventos de "caras del quinto lanzamiento" y "caras en el sexto
lanzamiento" de una moneda, entonces, los eventos E1 y E2 son eventos independientes.
¿Cuál es la probabilidad de que salgan caras en ambos lanzamientos? (1/4)
2.8. ¿Cuál es la probabilidad de sacar cuando menos un 6 en dos lanzamientos de un
dado honesto? Sugerencia: Usar la regla de adición.
2.9. Asumiendo que los varones y las hembras ocurran igualmente y que el sexo de
cualquier hijo sea independiente de cualquiera de los hermanos o hermanas, encontrar el
espacio muestral y encontrar la probabilidad de que una pareja con 3 hijos tendrán:
(a) exactamente 2 varones. (3/8)
(b) Exactamente 2 hembras. (3/8)
2-52
2-54
2.21. Supóngase que se estudian 10,000 personas de 20 años y se encuentra que 9961
vivieron 21 años. Encontrar la probabilidad de que una persona de 20 años vaya a vivir
21 años. (.9961)
2.22. Un estudio encuestó a un grupo de 100 profesionistas que consistía de 40
ingenieros (de los cuales la mitad eran mujeres) y a 60 arquitectos (de los cuales la
mitad eran mujeres). Encontrar la probabilidad de que un profesionista seleccionado
aleatoriamente sea ingeniero o mujer. Asumir una regla aditiva.
2.23. ¿Cuál es la probabilidad de que una carta seleccionada al azar de un mazo de 52
naipes sea una reina o un corazón? Asumir una regla aditiva para eventos no mutuos
excluyentes (4/13)
2.24. ¿Cuál es la probabilidad de sacar un 6 en el primero o segundo lanzamiento de un
dado honesto o, en ambos lanzamientos?
2.25. Un ingeniero fabricante de motores le preocupan tres tipos de principales defectos.
Por ejemplo, A es el evento en el que el eje del motor es demasiado grande, B el evento
en el que las bobinas son inadecuadas y C el evento en el que las conexiones eléctricas
son insatisfactorias. De ser así, expresar verbalmente qué eventos están representados
por las siguientes regiones del diagrama de Venn. (Johnson, 1997)
2-55
(a) Región 2. (Dado que la región 2 está en A y B, pero no en C, esto dice que, el eje es
demasiado grande y las bobinas son inadecuadas)
(b) Región 1 y 3 juntas
(c) Regiones 3, 5, 6 y 8 juntas (Debido a que todas estas regiones están fuera de la
región A, esto representa el evento en que el eje es demasiado largo o defectuoso)
2.41. Un estudio de tráfico vehicular indica que de 3,756 autos que se acercan a la plaza,
857 entran en el aparcamiento. ¿Cuál es la probabilidad de que un auto no entre en el
aparcamiento? (P(857) = 0.23, q = ?)
2.42. En una prueba la primera pregunta es de falso y verdadero y, la segunda pregunta
es de selección múltiple con posibles respuestas de a, b, c, d, e. (a) ¿Cuántas secuencias
de posibles respuestas hay en estas dos preguntas? (b) Usar un diagrama de árbol y
enlistar el espacio muestral. (10)
2.43. En el diseño de un sistema de computadora, si un byte se define como una
secuencia de 8 bits y, cada bit debe ser 0 o 1, ¿cuántos bytes diferentes son posibles?
2.44. Explique en sus propias palabras lo que significan los siguientes términos:
(a) Experimento aleatorio
(b) Espacio muestral
(c) Evento
2.45. Hablando de factoriales, evaluar 50! Sugerencia: usar la aproximación de Sterling:
n! ~ √2πn nn e-n (3.04x1064)
2.46. Se lanza una moneda 3 veces consecutivas. Hacer un diagrama de árbol con los
resultados de soles y águilas y el espacio muestral. Calcular lo siguiente:
(a) Número de soles es cuando menos 2.
(b) Segundo lanzamiento son soles.
(c) El número de soles es exactamente 2.
(d) Segundo lanzamiento son águilas.
(e) Todos los lanzamientos muestran la misma imagen.
(f) El número de soles es menor que 2.
2-59
2.77. Supongamos que de todos los individuos que compran una computadora personal,
60% incluyen un programa de procesador de palabras en su compra, 40% incluye un
programa de esparcimiento de hojas (LOTUS) y 30% incluye ambos programas.
(a) ¿Cuál es la probabilidad de seleccionar un comprador que incluya un programa de
procesador de palabras, dado que incluya un programa de LOTUS? Usar un diagrama
de Venn. (0.75)
(b) ¿Cuál es la probabilidad de que un comprador incluya un programa de LOTUS,
dado que incluya un programa de procesador de palabras?
(0.5) 2.78. Una revista de publicaciones publica tres columnas intituladas Arte (A),
Libros (B), Cinema (C). La selección aleatoria de un comprador de revistas, con
respecto a estas tres columnas se da abajo (elaboración propia):
(b) La probabilidad de leer la revista Arte (A), dado que leyó las revistas Libros (B) y
Cinema (C).
(c) La probabilidad de leer la revista Arte (A), dado que haya leído cuando menos una.
2.79. Supongamos que P(A) = .5, P(B) = .4, P(A ∩ B) = .25. Hacer los siguientes
cómputos y usar un diagrama de Venn.
(a) P(B|A) (.5)
(b) P(B’|A) (.5)
2-64
vicepresidente. (5P2)
(c) Decir la probabilidad de que un comité de 2 personas consistirán de 1 hombre y 1
mujer. ([3C1·2C1]/5C2)
2.82. ¿Cuál es la probabilidad de sacar una flor corrida, es decir, 5 cartas de una sola
denominación, que no incluyan del 10 al as? Ver Figura 2.6.
2.83. En el juego de póquer de 5 cartas, existen un total de 52 cartas que van desde el 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, As y cada una de estas cartas, tienen 4 figuras, es decir,
tréboles, diamantes, espadas y corazones. Tomando en consideración esto, ¿Cuál es la
probabilidad de sacar una flor imperial, es decir, las cartas 10, J, Q, K, As, de una de las
cuatro figuras, es decir, corazones, diamantes, tréboles o espadas? Para esto, ver Figura
2.6. (624/2,598,960)
2.84. ¿Cuál es la probabilidad de sacar 4 cartas de la misma clase, es decir, un poker?
Esto es, cuatro 2, cuatro 3, cuatro 4,……cuatro J, cuatro K, cuatro As. Para esto ver
Figura 2.6.
2.85. ¿Cuál es la probabilidad de sacar una casa llena (full house), es decir, una tercia y
un par? (.00144)
2.86. En el juego de barajas, ¿Cuál es la probabilidad de sacar una tercia?
2.87. En el juego de naipes, ¿Cuál es la probabilidad de sacar un par de un mazo
ordinario de 52 cartas? Ver Figura 2.6. (0.42)
2.88. En un estudio de higiene industrial y seguridad, un supervisor de un grupo de 20
trabajadores de la industria desea saber la opinión de ellos, (a los que seleccionará
aleatoriamente), sobre cierto reglamento de seguridad relacionado con emisiones de
gases dentro de la fábrica. Si 12 de ellos están a favor del nuevo reglamento y los otros
8 están en contra, ¿Qué probabilidad hay de que dos trabajadores seleccionados, por el
supervisor, se manifiesten en contra del nuevo reglamento de seguridad? Sugerencia:
2-66
Fuente: http://en.wikipedia.org/wiki/Image:Set_of_playing_cards_52.JPG
2-68
CAPITULO 3
Distribuciones Binomial e hipergeométrica
Aplicaciones generales de la distribución binomial.- Relación entre la
distribución normal y la distribución binomial.- Relación entre la distribución
binomial y la distribución de Poisson.- La distribución hipergeométrica.-
Suposiciones y propiedades de la distribución hipergeométrica.-
3-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 3.0. Triángulo de Pascal que se usa para estimar los coeficientes binomiales.
En este triángulo se nota que, el primero y el último número de cada renglón es 1.
Además, cada otro número en cada ordenación puede obtenerse por medio de
sumar los dos números que aparecen directamente arriba. (Elaboración propia)
3-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
= 11/32
Ejemplo #5. En un estudio de toxicología, la probabilidad de que un enfermo se
recupere de una intoxicación es de 0.4. Si se sabe que una muestra de 15 personas
se ha intoxicado, calcular las siguientes probabilidades:
(a) La probabilidad de cuando menos 10 personas sobrevivan.
(b) La probabilidad de que de 3 a 8 personas (inclusivamente) intoxicadas
sobrevivan.
(c) La probabilidad de que exactamente 5 personas intoxicadas sobrevivan.
Solución:
(a) Dejemos que X sea el número de intoxicados que sobrevivan. Aquí, el término
“cuando menos 10” significa que el valor de la variable aleatoria es X ≥ 10.
También sabemos que la muestra es n = 15. Aquí, pudiéramos usar la expresión
binomial b(x;n,p) = nCx px qn-x y sustituir los valores de x = 10, 11, 12, 13, 14, 15
en la fórmula de abajo, y luego sumar todos los resultados usando la expresión de
abajo.
b(x;15,0.4) = 15Cx (0.4)x (0.6)15-x
Sin embargo, este procedimiento sería muy largo y tedioso. Siendo así, esto se
simplifica mucho si tomamos el complemento de la probabilidad de 1
(acordándose de que la probabilidad no puede ser mayor que 1 o negativa) y
usando la tabla de la distribución binomial.
P(X ≥ 10) = 1 – P(X < 10). Esto dice que x = 0, 1, 2, 3,….., 9
9
= 1 - ∑ b(x;15,0.4) = 1 – 0.9662
x=0
3-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
= P(X ≤ 8) – P(X ≤ 2)
= 0.9050 – 0.0271
= 0.8779 (usando la tabla de la distribución binomial)
(c) La probabilidad de que exactamente 5 intoxicados sobrevivan es de x = 5, n =
15, p = 0.4. Esto se puede hacer de tres maneras: usando la tabla de las
probabilidades individuales (la forma más sencilla) o la tabla acumulada o, bien, la
fórmula. Usando la tabla binomial individual, buscamos el valor de n = 15 con p =
0.4 y con x = 5 y da 0.186.
5 4
P(X = 5) = B(5;15,0.4) = ∑ b(x;15,0.4) - ∑ b(x;15,0.4)
x=0 x=0
= 0.4032 – 0.2173
= 0.1859
Si usamos la fórmula sería largo y tedioso, como se ve abajo.
P(X = 5) = B(5;15,0.4) = 15C5 (0.4)5 (0.6)15-5
= 15!/5!(15-5)! (0.0041)(0.6)10
= 0.1859
Ejemplo #6. Si el 20% de los tornillos producidos por una máquina son
3-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
= 0.59
Ejemplos aplicados a la ingeniería ambiental
Ejemplo #7. Supóngase que el 40% de los ríos de cierta región industrial de
México están contaminados con benceno. Si tomamos una muestra aleatoria de
tamaño n = 30, calcular lo siguiente:
(a) Exactamente 15 ríos estarán contaminados con benceno
(b) Cuando menos 15 ríos estarán contaminados con este compuesto
orgánico cancerígeno, de una muestra de n = 25.
(c) No más de 10 ríos, pero cuando menos de 5 ríos estarán contaminados de una
muestra aleatoria de n = 25.
Solución:
Usamos la distribución binomial, porque son dos eventos mutuos excluyentes o
binarios, es decir, están o no están contaminados los ríos. Entonces, llamemos
arbitrariamente, un éxito encontrar un río contaminado y, un fracaso, no encontrar
un río contaminado. Se usa la fórmula binomial expresada como:
b(x;n,p) = nCx px (1 – p)n-x = n! / (n – x)! px qn-x
(a) Aquí, n = 30, x = 15, p = 0.40, q = 0.60. La muestra de 30 se puede interpretar
como 30 ensayos repetidos de Bernoulli. Ahora, sustituyendo los valores en la
fórmula de arriba da:
B(15;30,0.40) = P(X = 15)
= 30! / (30 – 15)! (0.4)15(0.6)30-15
= 0.073
También se pudiera usar la tabla de la distribución binomial de densidad de
probabilidad o de probabilidades individuales, que son más precisas y más fáciles
de usar que la fórmula. Siendo así, con n = 30 y p = 0.4:
3-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
la bacteria (fracaso).
(a) Aquí, n = 25, p = .03, q = .97, X = 0
El tamaño de muestra n = 25 indica que son 25 ensayos repetidos de Bernoulli, es
decir, que los posibles valores de la variable aleatoria X son de x = 0, 1, 2, 3,
4,……., 24. Entonces,
(b) Cuando menos 1 bacteria indica X ≥ 1 y se expresa como:
P(X ≥ 1) = 1 – P(X = 0) = 1 – P(X < 1)
= 1 – 0.4670
= 0.533
(c) Entre 1 y 5 incluso se expresa como:
5
P(1 ≤ X ≤ 5) = ∑ B(5;25,0.03) – P(X < 1) = 0.9999 – 0.467 = .533
x=0
3-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
aleatoria de 10 partes.
(b) De no encontrar partes defectuosas de los ciclones fabricados de una muestra
de 20 partes.
Solución:
(a) Usando la fórmula binomial: b(x;n,p) = nCx px qn-x y sustituyendo X = 0, p = 0.2
y q = 0.8 nos da:
P(X = 0) = B(0;10,0.2) = 10C0 (0.2)0 (0.8)10-0 = 0.107
Este resultado también se puede obtener usando la tabla binomial de
probabilidades individuales o de función de masa, es decir, buscando n = 10, p =
0.2 y X = 0.
(b) Nuevamente usando la fórmula binomial y sustituyendo da:
P(X = 0) = B(0;20,0.2)= 20C0 (0.2)0 (0.8)20-0
= (1)(1)(0.012)
= 0.012
Análogamente, este mismo resultado se puede obtener usando la tabla binomial
acumulada buscando n = 20, p = 0.2 y X = 0 y da 0.012. Aquí, nótese que también
se obtiene el mismo resultado usando la tabla binomial de probabilidades
individuales.
Ejemplo #14. Si tenemos una muestra aleatoria de n = 20 (peces) para varios
valores de p, podemos estimar la probabilidad de X muertes de los organismos
sometiéndolos a ciertas concentraciones tóxicas provenientes de una descarga
industrial de un río. Para esto hacer los siguientes cálculos:
(a) Calcular el promedio µ y la desviación estándar σ, de la muerte de los peces, si
el valor de p = 0.05
(b) La probabilidad de que muera a lo más 1 organismo
3-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
(a) La tabla de probabilidades individuales, con n = 10 y p = 0.4 se da en la
TABLA 3.2 de abajo. Esto se hace con el programa Minitab. El procedimiento
para generar las probabilidades de función de masa P(X=x) es:
Calc → Probability distributions → Binomial
En la ventana de “Binomial Distribution” puntear “Probability” e introducir el
número de ensayos (10) y la probabilidad de éxito (0.4). Además, puntear “Input
column”, introducir los valores de X, y en la ventanilla de “Optional storage” poner
P(X=x) y luego OK. Todas estas ordenes generan la los valores de la TABLA 3.2.
TABLA 3.2. Tabla mostrando las probabilidades
binomiales individuales vs. valores de X.
__________________________________
P(X=x) Variable aleatoria X
__________________________________
0.006047 0
0.040311 1
0.120932 2
0.214991 3
0.250823 4
0.200658 5
0.111477 6
0.042467 7
0.010617 8
0.001573 9
0.000105 10
_________________________________
(b) Para hacer la gráfica de P(X=x) vs. valores de X usar el programa Minitab y
proceder de la siguiente manera: Irse a: Graph → Scatterplot. En la ventana de
“Scatterplot” que aparece, irse a “With Connect Line” e introducir los valores de
P(X=x) y valores de la variable aleatoria X. En la ventana de “Scatterplot Data
3-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
View” puntear “Symbols” y “Project Lines” y OK. Esto genera la gráfica de las
probabilidades binomiales de función de masa P(X=x), en función de los valores de
la variable X mostrada abajo. Siendo así, analizar la configuración de los resultados
de la grafica y decir si es oblicua a la derecha o a la izquierda y explicar porque
ocurre de esa manera. La gráfica se muestra abajo.
0.25 0.25
0.20 0.20
0.15 0.15
P(X=x)
0.10 0.10
0.05 0.05
0.00 0.00
0 2 4 6 8 10
Variable aleatoria X
3-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 3.3. Tabla mostrando los valores de la variable aleatoria X para este
problema. (Elaboración propia)
P(X = 0) = 0.0060 P(X = 6) = 0.1115
P(X = 1) = 0.0403 P(X = 7) = 0.0425
P(X = 2) = 0.1209 P(X = 8) = 0.0106
P(X = 3) = 0.2150 P(X = 9) = 0.9916
P(X = 4) = 0.2508 P(X = 10) = 0.0001
P(X = 5) = 0.2006
(e) P(X = 4) = 0.2508 dice qué, si seleccionáramos 100 muestras de tamaño n = 10,
de una población de operadores de la industria maquiladora esperaríamos que 25
de estas muestras tendrían un valor de X = 4 tomadores de licor.
Ejemplo #17. La paraestatal PEMEX de México se avocó a hacer perforaciones en
el sureste de Tabasco. Para ver la factibilidad financiera de que fuera conveniente
hacer las perforaciones, PEMEX contrató los servicios de una firma de estudios
estadísticos. Se sabe que, cada pozo perforado se clasifica como productivo o no
productivo. La experiencia de PEMEX es que, en este tipo de exploraciones, se
sabe por experiencia que, el 15% de los pozos perforados son productivos. Para las
exploraciones petroleras se seleccionaron aleatoriamente 12 sitios. Con esta
información en mente, hacer los siguientes cálculos.
(a) ¿Cuál es la probabilidad de que los 12 pozos que se perforen en cada uno de los
12 sitios, sean productivos?
(b) ¿Cuál es la probabilidad de que ningún pozo perforado sea productivo?
(c) ¿Cuál es la probabilidad de que exactamente un pozo sea productivo?
(d) Para hacer rentable al país, cuando menos tres de los pozos de exploración
deben ser productivos. Siendo así, ¿Cuál es la probabilidad de que el negocio sea
rentable?
3-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Sugerencia: Usar P(X = 12), P(X = 0), P(X = 1), P(X ≥ 3), etc.
Distribución Hipergeométrica
La función hipergeométrica es una distribución discreta de probabilidad, la cual
está estrechamente ligada a la distribución binomial. La manera más simple de ver
la diferencia entre las dos distribuciones radica en la forma que se hace el
muestreo. La diferencia entre estas dos distribuciones es que, en la distribución
binomial, los intentos son independientes, porque hay reemplazo en la selección de
la muestra. Sin embargo, en el caso de la distribución hipergeométrica, hay
dependencia, porque la selección de la muestra se hace sin reemplazo y la
probabilidad de éxito cambia de un intento a otro.
El modelo hipergeométrico es apropiado, cuando el muestreo es sin
reemplazo de una población finita y, cuando se requiere la probabilidad de un
número específico de éxitos y/o fracasos.
Suposiciones y propiedades de la distribución hipergeométrica
1. Una muestra aleatoria de tamaño n se selecciona sin reemplazo de N ítems.
2. k de los N ítems pueden ser clasificados como éxitos y, N – k es clasificado
como fracasos.
3. La población o conjunto de la muestra consiste de N individuos, objetos o
elementos (una población finita).
4. Cada individuo puede ser caracterizado como un éxito o un fracaso y hay k
éxitos en la población.
5. Una muestra de n individuos se selecciona sin reemplazo (hay dependencia, en
contraste con la binomial en la que hay independencia) en forma aleatoria.
Definición de la distribución hipergeométrica
En la distribución de probabilidad de una variable aleatoria hipergeométrica X, el
3-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
k = éxitos en n intentos, es decir, la cantidad de elementos
identificados como éxito en la población
N – k = fracasos
n = tamaño de la muestra aleatoria o cantidad de elementos en la
población
N = número de ítems (tamaño de la población)
Donde x no puede exceder de k y (n – x) no puede exceder de (N – k)
Observaciones:
NCn Representa la cantidad de formas en las que se puede
seleccionar una muestra de tamaño n de una población de
de tamaño N
kCx Representa la cantidad de maneras en las que se puede
seleccionar x éxitos de un total de k éxitos de la
población
N-kCn-x Representa la cantidad de maneras en las que se puede
seleccionar n – x fracasos de un total de N – k fracasos en la población
Aplicaciones de la distribución hipergeométrica
Las aplicaciones de esta distribución se encuentran en las pruebas electrónicas;
aseguranza de calidad; selección de diamantes industriales, algunos de los cuales
3-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Sustituyendo los valores en la fórmula de arriba nos da la forma bsica lista para
3Cx 8-3C5-x
h(x;8,5,3)= ─────────
8C3
3-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 3.5. Tabla mostrando los valores de la variable aleatoria x (columna C1),
la probabilidades binomiales individuales P(X=x) y la probabilidades binomiales
acumuladas P(X ≤ x) (columna C3).
(a) (b)
Figura mostrando la grafica de P(X=x) versus variable aleatoria x Grafica mostrando la probabilidad P(X<=x) vs. variable aleatoria X
1.0 0 1 2 3 4 5 6
0.6 0.6
Probabilidades acumuladas
0.4 0.4
0.8
P(X=x)
0.3 0.3
0.7
0.2 0.2
0.0 0.0
0.5
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Variable aleatoria x Variable aleatoria X
Figura 3.4. Esquemas mostrando los resultados de este ejemplo. La figura (a)
muestra la gráfica de P(X=x) vs. variable aleatoria X y, la figura (b), muestra la
gráfica de P(X <= x). (Elaboración propia)
3-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4. Para resolver los incisos (a)-(e), esto se puede hacer usando el modelo
hipergeométrico, h(x:N,n,k) = kCx • N-kCn-x / NCn, los datos de la TABLA 3.5 o las
gráficas. Por ejemplo si se usa la fórmula se sustituyen los valores de k, N y n y
luego se sustituyen los valores de x en la fórmula hipergeométrica:
h(x;10, 3,4) = 4Cx • 10-4C3-x / 10C3
Una vez hecho esto se sustituye los valores de x = 0, 1, 2, 3, 4. Este procedimiento,
sin embargo, es muy largo y tedioso. Pero si usamos los valores de la TABLA 3.5
esto se simplifica de sobremanera.
4. Las soluciones son:
(a) P(X = 1) = 4C1 • 6C2 / 10C3 = 0.500 (o de la columna C2)
(b) P(X = 2) = 4C2 • 6C1 / 10C3 = 0.300 (o de la columna C2)
(c) P(X = 3) = 4C3 • 6C0 / 10C3 = 0.033 (o de la columna C2)
2
3-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) (b)
Figura mostrando la grafica de P(X=x) vs. variable aleatoria x Figura mostrando la grafica de P(X<=x) vs. variable aleatoria x
0.5 1.0
0.9
0.4
0.8
0.7
P(X =< x)
0.3
P(X = x)
0.6
0.5
0.2
0.4
0.1 0.3
0.2
0.0 0.1
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Variable aletoria x Variable aletoria x
Ejemplo #24. En una encuesta universitaria hecha a 24 estudiantes del ultimo año
revela que casi el 50% de esa población de estudiantes recomienda tomarse cuando
menos una o dos cervezas diariamente, para estudiar mejor. Si se seleccionan
aleatoriamente 11 de estos estudiantes y se les pregunta que opinan de esto, estimar
lo siguiente:
(a) La probabilidad de que, solamente, 4 estudiantes sean de este parecer.
Solución:
Usando la distribución hipergeométrica con N = 24, n = 11, k = Np = (0.50)(24) =
12 y X = 4 y sustituyendo los valores en la formula hipergeométrica:
h(x;N,n,k) = kCx • N-kCn-x / NCn,
3-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-44
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 3
3.1. Si la variable aleatoria X tiene una distribución binomial con n = 10 y p = 0.5,
calcular las siguientes probabilidades:
(a) P(X = 5) (0.246)
(b) P(X ≤ 2) (0.055)
(c) P(X ≥ 9) (0.011)
(d) P(3 ≤ X < 5) (0.549)
3.2. La variable aleatoria X tiene una distribución binomial con un tamaño de 10 y
con p = 0.01. Calcular lo siguiente:
(a) P(X = 5)
(b) P(X ≤ 2)
(c) P(X ≥ 9)
(d) P(3 ≤ X ≤ 5)
3.3. Supongamos que 20% de todos los sensores de alto volumen fallen en una
prueba de muestreo de partículas con filtros de cierta porosidad. Sea X el número
de entre 15 sensores seleccionados al azar que fallen la prueba. Entonces, si X tiene
una distribución binomial, con n = 15 y p = 0.2, determinar lo siguiente:
(a) La probabilidad de que a lo sumo 9 muestreadores fallen la prueba. (.999)
(b) La probabilidad de que exactamente 8 fallen. (.003)
(c) La probabilidad de cuando menos 8 muestreadores fallen. (.004)
(d) La probabilidad de que fallen entre 4 y 7 excluso. (.143)
3.4. De acuerdo con la Chemical Engineering Progress (Noviembre de 1990),
aproximadamente, el 30% de todas las fallas de operación de tuberías en plantas
químicas son ocasionadas por errores del operador. Siendo así, calcular:
3-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
los problemas emocionales del trabajo, sino que dan solamente una solución
paliativa al problema de las depresiones emocionales; siendo así, entonces,
encontrar el promedio y la varianza, cuando se seleccionan aleatoriamente 5
personas de una muestra de 20.
3.9. En una investigación de higiene industrial y seguridad, el ingeniero encargado
del departamento de seguridad afirma que, solo el 40% de todos los trabajadores
usan cascos de seguridad cuando almuerzan en el lugar del trabajo. Suponiendo
que esta afirmación sea correcta, encontrar la probabilidad de que 4 de los
siguientes 6 trabajadores de la industria, elegidos, aleatoriamente, usen los cascos
de seguridad, mientras comen en el lugar del trabajo. (0.138)
3.10. Una compañía constructora de precipitadores electrostáticos sabe que, en
promedio, el 29% de este equipo de control de partículas requerirán de
reparaciones después de un año de usarse. Si se seleccionan, aleatoriamente, 20
precipitadores electrostáticos, de la producción total, encontrar la probabilidad que:
(a) Al menos 5 precipitadores requieran de reparaciones después de un año.
(b) Exactamente 5 de estas unidades de control de la contaminación atmosférica
requieran reparación después de un año.
3.11. En un estudio de ahorro de energía, se argumenta que, en el 40% de las
calefacciones activadas con energía solar, la cuenta por servicio baja
considerablemente. De acuerdo a este argumento, ¿Cuál es la probabilidad de que
la cuenta de servicio baje, en cuando menos 5 de una muestra de 50 calefacciones?
Hacer este problema usando la distribución binomial y después la distribución
normal. Comparar los resultados. (Binomial = 0.998, normal = 0.9987)
3.12. Hacer el mismo problema (3.11) pero usando 50% con n = 25 y P(X ≥ 5).
3.13. Se dan los siguientes datos: n = 15, p = 0.4. Calcular la probabilidad de que el
3-47
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 4
Distribución de Poisson
4-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
µ = promedio de ocurrencias por intervalo
= np
Donde: n = tamaño de la muestra
p = la probabilidad
e = 2.71828... (Base de los logaritmos Neperianos)
x = 0, 1, 2,....., ∞, es decir, los valores de la variable aleatoria X, esto es, el número
de resultados que ocurren en un intervalo de tiempo.
De acuerdo a la fórmula de arriba, la distribución de Poisson tiene un solo
parámetro simbolizado por la letra griega µ. Si conocemos este valor del promedio
µ podemos escribir la distribución de probabilidad completa. Este parámetro µ
puede ser interpretado como el promedio de las ocurrencias, por intervalo de
tiempo o espacio que caracteriza el proceso generado por la distribución de
Poisson.
Otra manera de ver la distribución de Poisson es usando la función dada
abajo:
(λ)x e-λ
p(x;λ) = ──────── (4-2)
x!
Donde:
4-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
resultados por unidad de tiempo o región. Aquí, debido a que λ es positiva para
todos los posibles valores de X, entonces:
∞
Σ p(x; λ) = 1, lo cual es la consecuencia del desarrollo de eλ en la serie infinita de
x=0
4-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ahora, bien, si se usará la distribución binomial, esto sería largo y tedioso, porque
n es grande. Sin embargo, para usar la relación b(x;n,p) = n!/x!(n – x)! px qn-x,
necesitamos calcular el valor p, es decir, usando µ = λ = np. Con λ = .08 y n = 50
da: .08 = (50)(p) y p = .0016 ~ .002.
(a) Usando la fórmula binomial b(x;n,p) = n!/x!(n – x)! px qn-x y sustituyendo los
valores da:
b(x;50,.08) = 50!/x!(50 – 0)! (.002)x (.998)50-x
B(0;50,.08) = 50!/0!(50 – 0)! (.002)0 (.998)50-0
= (1) (1) (0.905) = 0.905
B(1;50,.08) = 50!/1!(50 – 1)! (.002)1 (0.998)50-1
= 49(.002)(0.907) = .098
B(2;50,0.08) = 50!/2!(50 – 2)! (.002)2 (.998)50-2
= 1225 (.000004)(0.908) = 0.0045
(b) Cuando menos un defecto es:
P(X ≥ 1) = 1 – P(X = 0) = 1 - 0.905
= 0.095
(c) Exactamente, 2 defectos.
Esto nos lleva a P(X = 2) = B(2;50,0.08)
= 50C2(.002)2(.998)50-2
= (1225) (.000004)(0.91)
= 0.0045
Como se ve arriba, al usar la distribución binomial, el proceso es largo y
complicado, por lo que es mejor usar la distribución de Poisson como una
aproximación a la binomial. En este instante, el lector deberá usar la distribución
Poisson y comparar los resultados obtenidos.
4-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Usando la función (4-1), P(X) = f(x) = µx e-µ/x! y sustituyendo los valores da:
4-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #9. La probabilidad de que una persona muera de un arresto cardiaco, por
fumar en exceso, es de 0.002. Encontrar la probabilidad de que menos de 5
personas, de las siguientes 2,000, morirán de un síntoma del corazón. Encontrar,
también, el promedio y la varianza.
Solución:
Primero calculamos el promedio y la varianza. Las fórmulas para esto son:
µ = np = (2000)(0.002) = 4.0
σ2 = npq = (2,000)(0.002)(0.998) = 3.992
4-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 4.1. Figura mostrando el uso del papel semilogaritmo graficando los valores
de la variable aleatoria X (en la abscisa) y de p(x;µ) en la ordenada. (Elaboración
propia)
4-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
S c a tte r plot of P (X = x) v s X
0.14
0.12
0.10
0.08
P(X=x)
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16
X
Scatterplot of P(X<=x) vs X
1.0
0.8
0.6
P(X<=x)
0.4
0.2
0.0
0 2 4 6 8 10 12 14 16
X
4-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 4
4.1. Supóngase que X tiene una distribución Poisson con promedio de 4. Calcular
las siguientes probabilidades:
a. P(X = 0) (0.0183)
b. P(X ≤ 2) (0.2379)
c. P(X = 4) (0.1953)
d. P(X = 8) (0.1953)
e. P(X ≥ 2) (0.9987)
4.2. Si la probabilidad de que un cheque sea devuelto por el banco es de 0.0003 y
10,500 cheques se cambian, entonces, ¿cuál es el número promedio (λ o µ) de
cheques fraudulentos?
4.3. La probabilidad de que un individuo sufra de una mala reacción de una
inyección es de .001. Determinar la probabilidad que de 2,000 individuos,
exactamente 3 sufran una mala reacción. Hacer este problema usando la
distribución binomial y la Poisson. (Usando la distribución de Poisson = 0.1893;
usando la distribución binomial = 0.181)
4.4. El número promedio (λt) de partículas radiactivas que pasan a través de un
contador, durante un milisegundo, en un experimento de laboratorio es de 3. ¿Cuál
es la probabilidad de que entren 6 partículas en un milisegundo determinado?
Sugerencia: usar p(x;λt) = e-λt (λt)x/x!
4.5. Un estudio en una fábrica de aparatos electrónicos llevó al gerente a concluir
que el número de accidentes, por persona, durante cierto año sigue a la distribución
Poisson. La experiencia demostró que el número promedio de accidentes por
persona fue de 0.3. ¿Cuál es la probabilidad de que un empleado no tendrá un
accidente durante el siguiente año? (0.7410)
4-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(e) Asumiendo que este estudio se hiciera en la época calurosa, ¿cuál sería la
diferencia en los resultados, si el estudio se hiciera en invierno: aumentaría o
disminuiría la probabilidad?
4.12. Suponiendo que la probabilidad de que cierto tipo de semilla no germine sea
de .04. Si se plantan 25 semillas, ¿Cuál es la probabilidad de que 5 o menos
semillas no germinen?
4.13. Asumir que el número de autobuses que llegan a una terminal siga a un
proceso Poisson. Si el promedio de autobuses que llegan durante una hora es de 5,
calcular los siguientes enunciados:
(a) La probabilidad de que en 1 hora dada no llegue ningún autobús. (0.007)
(b) La probabilidad de que exactamente 5 llegarán en 1 hora. (0.176)
(c) La probabilidad de qué más de 5 autobuses llegarán en una hora. (0.384)
4.14. El número promedio de carros tanque que arriban cada día a cierto puerto
marítimo es de 9. Las facilidades portuarias pueden manejar a lo más 15 carros
tanques (X ≤ 15) por día. ¿Cuál es la probabilidad de que en un día dado tengan
que ser regresado los carros tanques cuando el número exceda 15?
4.15. En la manufactura de un alambre de cobre, supóngase que el número de fallas
sigue a una distribución Poisson, con un promedio de 2.3 fallas por milímetro.
Calcular la probabilidad de:
(a) Tener exactamente 2 fallas en un milímetro del alambre de cobre. (0.2650)
(b) Tener 10 fallas en cinco milímetros de alambre. (0.113)
(c) La probabilidad de tener al menos una falla en dos milímetros. (.899)
4.16. En un estudio de higiene industrial y seguridad estatal, el número de baches
en una sección de una carretera interestatal que requieren de reparación urgente,
4-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
una tabla con los resultados de las dos distribuciones y luego hacer una grafica y
comparar los resultados.
Tabla mostrando los resultados usando la distribución binomial y la distribución de
Poisson. (Elaboración propia)
Distribución binomial Distribución de Poisson
n b(x;100,0.01) p(x;1)
0 0.366 0.032 0.367 0.879
1 0.369 0.730 0.367 0.879
2 0.184 0.865 0.183 0.940
3 0.060 0.999 0.061 0.313
4 0.014 0.942 0.015 0.328
5 0.002 0.898 0.003 0.066
6 0.000 0.463 0.000 0.511
7 0.000 0.063 0.000 0.073
8 0.000 0.007 0.000 0.009
9 0.000 0.001 0.000 0.001
4-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) Explicar porque la distribución de Poisson sería una buena selección para r =
número de terremotos en un intervalo de tiempo dado
(b) Calcular la probabilidad de que cuando menos un terremoto, de grandes
magnitudes, ocurra en los siguientes 22 años. Redondear λ a las centésimas. (.63)
(c) Calcular la probabilidad de que no habrá un terremoto de grandes magnitudes
en los siguientes 22 años. Redondear λ a las centésimas. (0.37)
(d) Calcular la probabilidad de que ocurra cuando menos un gran terremoto en los
siguientes 50 años. (1.0)
(e) Calcular la probabilidad de que no ocurra un gran terremoto dentro los
siguientes 50 años. (0.980)
4.22. En un estudio de higiene industrial y seguridad se sabe que el número de
accidentes que pasan en la línea de ensamblaje tiene un promedio semanal de 3.
Encontrar lo siguiente:
(a) La probabilidad de que una semana, la línea de ensamblaje no tendrá ningún
accidente.
(b) La probabilidad de que, cuando menos 3 accidentes ocurrirán en una semana.
(c) La probabilidad de que ocurran entre 2 y 6 accidentes excluso.
4.23. En una investigación relacionada con el ahorro de combustible, en el 40% de
los coches no americanos de 4 cilindros, el consumo de gasolina se reduce
considerablemente (con relación a los coches americanos de 6 u 8 cilindros). Si se
saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad que
4 de estos autos de 4 cilindros sean eficientes en el ahorro de gasolina. Hacer este
problema usando la distribución binomial y la distribución normal como
aproximación. (B(4;15,0.04) = 0.1268); P(Z < -.7))
4-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
4-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 5
5-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
ejemplo, el número de niños en una familia pueden tener valores de 0, 1, 3, 4,… pero
no pueden tener valores de 2.5, o 3.842. Por otro lado, ejemplos de variables
continuas son las alturas de un grupo de personas que se pueden expresar como 62,
63.8 pulgadas, 65.83412 pulgadas, etc. Por ejemplo, decir cuales de los siguientes
términos representan datos discretos o continuos.
(a) Número de acciones bursátiles vendidos cada día en el mercado bursátil.
Solución: Aquí la variable es aleatoria discreta.
(b) Las temperaturas registradas cada media hora en la oficina de meteorología.
Solución: Aquí la variable es aleatoria discreta.
(c) Las longitudes de 1000 tornillos producidos por una fábrica.
Solución: Aquí la variable es continua.
Función de densidad de probabilidad de la variable aleatoria continua X
Una función f(x) es una función de densidad de probabilidad de la variable aleatoria
contٌ
inua X para el conjunto de posibles valores de X están en cualquier intervalo de
números reales [x1, x2]. Esta función llena lo siguiente: (Montgomery et al. 1996)
1. fx (x) ≥ 0 (5-1)
∞
2. ∫ -∞ f(x )dx = 1 (5-2)
x2
3. P (x1 ≤ X ≤ x2) = ∫ x1 fx(u) du (5-3)
5-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
b
P(a ≤ X ≤ b) = ∫ a f(x) dx (5-4)
Para que la función de densidad de probabilidad sea válida debe de satisfacer las
siguientes dos condiciones:
1. f (x) ≥ 0 para todas las x’s (5-5)
∞
2. ∫ -∞ f (x) dx = área bajo la gráfica completa de f (x) = 1 (5-6)
Dejemos que f sea una función que se define en el intervalo cerrado de [a, b],
b
Cualquier antiderivada de f(x) puede ser usada para evaluar el integral (5-7).
Entonces, si F es una antiderivada de f, usamos la fórmula de abajo:
b
∫ a f (x) dx = F(b) – F(a) (5-8)
b b
∫ a f (x) dx = F (x) │ a = F (b) – F (a) (5-9)
5-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
3
(a) ∫ 1 e-2x dx = (-0.5) [e-2 – e-6] = 0.067
∞
(b) ∫ 0.5 e-2x dx Intervalo [0.5, ∞]
3
(c) ∫ 0 e-2x dx = (-0.5) [e-6 – 1] = 0.5 Intervalo [0, 3]
plato de prueba durante 2 horas. Supóngase que la variable aleatoria X tiene función
(a) P (X ≤ 1)
(b P (.5 ≤ X ≤ 1.5)
Solución:
5-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1 1
(a) ∫ 0
2
0.5x dx = 0.5 (x /2)│0 = 0.5 (0.5 – 0/2) = 0.25
1.5 1.5
(b) ∫ 0.5
2
0.5 x dx = 0.5 (x /2)│0.5 = (0.5)(1.125 - .125) = 0.5
2.0 2.0
(c) ∫ 1.5
2
0.5 x dx = 0.5(x /2) │1.5 = 0.5(2.0 – 1.125) = 0.44
5-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) Usando la relación matemática de f(x) y g(x) cuyas funciones son continuas y
tienen una antiderivada en el intervalo [a, b], siendo así, entonces, usamos la función
(5-10) de abajo y sustituyendo da:
b b b
∫ a [f(x) + g(x)] dx = ∫ a f(x) dx + ∫ a g(x) dx (5-10)
1 1 1
∫ 0 (2x/5 + 4/5) dx = ∫ 0 2x/5 dx + ∫ 0 4/5 dx = 2x2/(2)(5) + 4x/5
1 1
= x2/5│0 + 4x/5 │0 = [1/5 – 0] + [4/5 – 0]
=1
(b) Aquí el intervalo es [0.25 < X < .50]. Esto dice que, a = 0.25 y b = 0.50
.50 .50 .50
Por lo tanto: ∫ .25 (2x/5
2
+ 4/5) dx = x /5│ .25 + 4x/5 │ .25
La distribución normal
5-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Sin embargo, es difícil resolver las integrales de las funciones de densidad normal,
debido a que no se pueden integrar en forma cerrada, entre cada par de límites de a y
b. Debido a esta situación se hace necesario la tabulación de las áreas de la curva
5-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Además, sería muy difícil hacer una tabla por separado para cada valor de µ y
σ. Afortunadamente, es posible transformar todas las observaciones de cualquier
variable aleatoria normal X a nuevo conjunto de observaciones de una variable
aleatoria normal z con promedio de 0 y varianza de 1. Las transformaciones se hacen
usando la fórmula de la variable aleatoria normal estandarizada z que se usa para
transformar cualquier variable aleatoria normal X con promedio µ y desviación
estándar σ a la distribución normal estandarizada. Esta fórmula para calcular las
probabilidades de cualquier distribución normal (no estandarizada) se da como:
X–µ
Z = ———— (5-14)
σ
z = (X – X ) / s (5-15)
Como se dijo arriba, hay tablas que dan los resultados de la integración, por lo
tanto, no tenemos que hacer la integración para calcular las probabilidades. En cuanto
a las propiedades de la distribución normal, éstas se dan en la TABLA 5.0 de abajo.
5-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 5.1. Esquema mostrando las áreas bajo la curva normal. (Brase et al. 1995)
5-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
están dentro de una desviación estándar a cada lado del promedio; aproximadamente,
el 95.45% de los valores están dentro de dos desviaciones estándar en cada lado del
promedio; y aproximadamente, el 99.73% de las observaciones están dentro de tres
desviaciones estándar del promedio.
Figura 5.2 . Esta figura muestra las áreas correspondientes a valores de z = ±1, z = ±2
y z = ±3, correspondientes a las probabilidades de 68.27%, 95.45% y 99.73%,
respectivamente. (Elaboración propia).
De la Figura 5.2, nótese que, en términos de frecuencia relativa, la probabilidad entre z = 0 y z = +1,
es igual a .3413; la probabilidad entre z = +1 y z = 2 es igual a .1359 y, la probabilidad entre z = +2
y z = +3 es igual a .0228. Por simetría el área total es ≈ 1.
5-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
P(-1.97 < z < 0.86) = P(z < 0.86) – P(z < -1.97)
= 0.8051 – 0.0244 = 0.7807 (de la tabla de la distribución normal)
5-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Por lo tanto, P(X > 362) = P(z > 1.24) = 1 – P(z < 1.24)
= 1 – 0.8925 = 0.1075
5-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 5.3. Gráfica de la curva normal para el Ejemplo #8. (Elaboración propia)
5-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Se busca el valor de z = 1.42 en la tabla de z y da .9222. Esto es lo mismo que, área
requerida de .5000 + .4222 = .9222.
Ejemplo #12. Encontrar la probabilidad de que la variable Z esté entre -05 y 1.25.
Solución:
P(-0.5 < Z < 1.25) = 1.0 – 0.3085 – 0.1056 = 0.5859
La Figura 5.4 muestra esquemáticamente esta situación.
Figura 5.4. Figura mostrando la probabilidad de P(-05 < Z < 1.25). (Elaboración
propia)
5-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 5.5. Gráfica mostrando la curva normal para este problema. (Elaboración
propia).
Ejemplo #16. En una investigación de higiene industrial y seguridad, relacionada con
un proceso industrial, se requiere una aptitud mental muy alta. Para esto, los
trabajadores se sometieron a una prueba del coeficiente de intelecto (IQ). Si se saca
una muestra al azar que da X = 120 puntos y s = 20 puntos, ¿Cuál es la probabilidad
de que un trabajador seleccionado tendrá un valor de coeficiente de intelecto que esté
entre 80 y 140 puntos?
Solución:
Aquí estamos buscando la probabilidad de P(80 < X < 140) = P(-2.00 < z < +1.00).
Por lo tanto, el área total o la probabilidad requerida es igual a 0.8185. Esto dice que,
cerca del 82% de la población tiene un IQ de esta prueba del intelecto que está entre
80 y 140 puntos.
Ejemplo #17. Si una muestra aleatoria de una población normal de intensidades de
viento, en m/segundo, tiene un promedio de 10 m/seg y una varianza de 4:
(a) ¿Qué porcentaje y/o probabilidad de las intensidades del viento caen entre 9 y 14
m/seg.?
(b) ¿Entre 13 y 15?
Solución:
5-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
.500). Sin embargo, aquí vemos que no hay entrada de 0.4000, no obstante, lo más
cercano es .3997 que corresponde al valor de z = 1.28.
Encontrando los valores z del punto de expansión para variables normalmente
distribuidas
Ejemplo #21. Calcular dentro de que rango estarán comprendidas el 95% de las
observaciones centrales o de en medio, si el promedio es de 10 y la desviación
estándar es de 2. Hacer una gráfica.
Solución:
Aquí, vamos a usar la relación: X = X ± z (s), con X = 10.0 y s = 2.0, es decir:
10 ± 1.96 (2) = 10 ± 3.92 para dar (6.08 ≤ X ≤ 13.92). La figura de abajo muestra
esta situación.
Figura 5.6. Grafica mostrando los resultados de este problema. (Elaboración propia)
Ejemplo #22. Si X = 10 y s = 2, ¿Dentro de que rango están comprendidas el 99% de
las observaciones de en medio de la curva normal?
(b) ¿El 90%?
Solución:
5-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
5-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
= 20 ± 3.84
= (16.16 ≤ X ≤ 23.84)
Ejemplo #24. Una máquina produce tornillos de los cuales 10% son defectuosos.
Encontrar la probabilidad de que, en una muestra aleatoria de 400 tornillos
producidos por esta máquina:
(a) A lo más 30 tornillos estarán defectuosos
(b) Entre 30 y 50 estarán defectuosos
(c) Entre 35 y 45 estarán defectuosos
(e) 55 o más tornillos estarán defectuosos
Solución:
Primero se calcula el promedio y la desviación estándar:
µ = np = (400)(0.1) = 40 y σ = npq = [(400)(0.1)(.90)]0.5 = 6.0
Enseguida, se calcula el valor de la variable aleatoria Z usando la relación:
Z = (X – µ) / σ.
(a) P(X ≤ 30). Para calcular esto, primero se transforma el valor de 30, a valores de Z
usando la función de arriba, es decir,
Z30 = (30 – 40)/6.0 = -1.67
Por lo tanto:
(b) P(30 ≤ X ≤ 50). Para calcular esto, primero transformamos los valores de 30 y
50 a valores de Z, es decir,
Z30 = (30 – 40) / 6.0 = -1.67; Z50 = (50 – 40) / 6.0 = 1.67
5-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Por lo tanto,
P(30 ≤ X ≤ 50) = P(X ≤ 50) – P(X ≤ 30)
= P(Z ≤ 1.59) - (Z ≤ -1.59)
= .9441 - 0.0559
= .8882
(c) La probabilidad de qué, entre 35 y 45 tornillos estén defectuosos, es, P(35 ≤ X ≤
45). Para esto, primero transformamos los valores de X a valores de Z.
Z35 = (35 – 40)/6.0 = -0.83 y Z45 = (45 – 40)/6.0 = 0.83.
z55 = (55 – 40) / 6.0 = 2.50 que corresponde a una probabilidad de .9938. Por lo tanto:
5-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 5.9. Gráficas mostrando los resultados para (a) y (b), del ejemplo #26.
Ejemplo #28. El tiempo requerido para que ocurra una reacción química está
exponencialmente distribuida con un tiempo esperado de 5 minutos. (a) ¿Qué
proporción de la sustancia se formará dentro de 1 minuto? (b) ¿En 5 minutos? (c)
¿Entre 4 y 8 minutos? (d) Si la cantidad de la sustancia química es de 5.00 gramos,
¿cuánto es lo que se va formando en cada uno de los intervalos? (El lector lo hará)
Solución:
Usaremos intervalos de 1 minuto para calcular la probabilidad. Por lo tanto, debido
a que la reacción se hace en 5 minutos en promedio (pensamos de esto
produciéndose en 5 intervalos continuos de un minuto) el número esperado de
producción en un minuto es 1/5 = .20 = λ (o sea el número esperado de ocurrencias
en 1 minuto). La variable aleatoria X se define como el tiempo, en minutos,
requerido para completar la reacción. Por lo tanto:
(a) P[X ≤ 1] = 1 – e-(0.20(1) = 0.8187 = 81.87% (Usando la fórmula 5-17b)
(b) P[X ≤ 5] = 1 – e-(0.20)(5) = 0.3679 = 36.87% (usando la fórmula 5-17b)
(c) P[4 < X < 8] = e-(0.20)(4) – e-(0.20)(8) = 0.2474 (usando la fórmula 5-17a)
(d) 4.09 g., 1.84 y 1.23 g, respectivamente.
5-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
o de otra manera
Donde los parámetros α y β satisfacen α > 0 y β > 0
Si se pone β = 1 la expresión (5-19) se reduce a la forma de de la distribución
gamma estándar descrita abajo.
x
f (x;α) = ∫ 0 xα-1 e-x / Г(α) dx x > 0 (5-20)
Figura 5.10. Gráficas con distribuciones gamma de densidad con diferentes valores
de α y β y curvas de densidad gamma estándar. Nótese que cuando β = 1, es la
curva exponencial. (Devore 2000).
Ejemplo #29. Supóngase que se tiene una distribución gamma estándar con
parámetro α = 3, calcular:
5-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
= 0.076
Esto dice que el valor de 0.076 es la probabilidad de que un conejillo sobreviva
entre 80 y 120 días.
(c) P(X ≥ 20) = 1 - P(X < 20)
= 1 - F(20/20;10)
= 0.000 (de la tabla de la distribución gamma)
Distribución Weibull
La distribución Weibull fue introducida por el físico sueco Waloddi Weibull en
1939. En forma análoga a las distribuciones gamma y exponencial la distribución
de Weibull tiene aplicaciones relacionadas con tiempo de falla o longitud de vida.
Es decir, para medir la confiabilidad de un componente o producto, como la
probabilidad de que si funcionará apropiadamente, por cuando menos un tiempo
especificado bajo condiciones experimentales especificadas. Esta función,
igualmente, se usa en el diseño de sistemas complicados, cuya operación o
seguridad depende de los varios componentes involucrados en el sistema. Por
ejemplo, una columna de acero puede vencerse. Otra aplicación es el modelado de
algún aparato sensible al calor que pueda fallar. Otra aplicación sería el estudio de
componentes idénticos sujetos a condiciones ambientales idénticas, que puedan
fallar a tiempos diferentes e impredecibles.
La función de probabilidad de densidad (pdf) de la distribución Weibull es:
f (x) = α xα-1 exp-(x/β)2 / βα , x > 0 (5-22)
Donde α y β son los parámetros condicionados a α > 0 y β > 0
5-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 5.11. Gráfica mostrando la curva de densidad de Weibull. Nótese que cuando
α = 1 y β = 1, la curva se torna exponencial. (Devore, 2000)
5-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Para esto se sustituye el valor de Z y se multiplica cada elemento de (5-23) por σ/√ n
y luego se le resta X de cada término. Después de esto, se multiplica por -1
(reversando el sentido de las desigualdades) y nos da la función de abajo:
Donde:
TABLA 5.2. Tabla mostrando los niveles de confianza más comunes (Elaboración
propia)
___________________________________________________________________
Nivel de confianza 1 – α α α/2 zα/2
_________________________________________________________________
.95 .05 .025 1.96
.99 .01 .005 2.58
.90 .10 .05 1.645
5-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Aquí, sin embargo, cabe notar que existen varios errores estándares de las
distribuciones estadísticas. Esta información se da en la tabla de abajo.
5-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Desviaciones σs = σ / 2 N (1)
estándares σs = µ4- µ2/4Nµ2 (2)
Las observaciones hechas para la desviación estándar aplican aquí también. Nótese
que (2) da (1) en el caso de una población normal.
___________________________________________________________________
5-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Cualesquiera de las hipótesis que sea correcta, siempre hay la posibilidad de que un
error de muestreo nos incline a cometer lo que se llaman errores I o II. Así, podemos
rechazar una hipótesis nula Ho: que es verdadera o podemos aceptar una hipótesis
nula que es falsa. Si se rechaza una hipótesis, cuando debió ser aceptada, se dice que
se cometió el error I. En contraste, si se acepta una hipótesis falsa, cuando debió ser
rechazada, se dice que se cometió el error II. Como se verá, estos dos errores se
pueden evitar aumentando el tamaño de la muestra estadística y/o reduciendo la
desviación estándar (esto se puede probar a través del error estándar del promedio,
que es igual a s/ n ).
De cualquier manera, como se asentó antes, la idea de una prueba de hipótesis
es tratar de producir evidencia para rechazar la hipótesis nula, Ho: Si no se puede
rechazar la hipótesis nula, esta falta de evidencia puede resultar, ya sea a través de una
muestra insuficientemente grande o a través de un error de laboratorio excesivamente
grande (que se refleja en la desviación estándar, σ). También, la aceptación de una
hipótesis falsa puede deberse a una variación inherente de la población que estamos
muestreando (como en el caso de las temperaturas a nivel mundial cuyos registros se
están rompiendo cada año, por el calentamiento global debido a las emisiones de
bióxido de carbono). De cualquier manera de estas tres variables, σ es la más sensible.
5-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
especifica antes de que se saquen las muestras y se haga la prueba de hipótesis, para
que no haya influencia sobre los resultados obtenidos.
La prueba de significancia es cuando se especifica la probabilidad con la cual
estamos dispuestos a arriesgar el rechazo de la hipótesis, acerca del promedio
poblacional, aun cuando es verdadero. Los niveles de significancia más usados en las
pruebas de hipótesis son el de α = 0.05 y α = 0.01. Estos valores corresponden a
niveles críticos de 1.96 y 2.58, cuando se usa la distribución normal z. Por ejemplo,
en pruebas de hipótesis bilaterales, con α = 0.05, si la z calculada es z < -1.96 o z >
1.96, se rechaza la hipótesis. Igualmente ocurre si el nivel de significancia es α = 0.01,
es decir, cuando z < -2.58 y z > 2.58, entonces, se rechaza la hipótesis. De otra
manera se retiene o se dice que no hubo suficiente evidencia para rechazar Ho: Esta
prueba de significancia nos ayuda a decidir si la diferencia entre el promedio de la
muestra estadística y el promedio poblacional asumido, se atribuye a la casualidad o
si es estadísticamente significante, esto es, si es muy grande para ser atribuido a la
casualidad. La TABLA 5.4 da los valores críticos más comunes.
TABLA 5.4. Tabla mostrando las regiones críticas que se definen de acuerdo al valor
del nivel de significancia usado, es decir, si la prueba de hipótesis es bilateral,
unilateral derecha o unilateral izquierda. (Elaboración propia)
5-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(o H1:µ < que cierto valor), usamos el extremo izquierdo de la distribución y ponemos
el nivel de significancia de α = 0.05 o 0.01. Finalmente, si esperamos que los valores
vayan a ser menores o mayores de ciertas cantidades (Ho:µ = a un determinado valor),
entonces usamos los dos extremos de la distribución y dividimos α, igualmente, entre
dos, para que nos dé, α = 0.05/2 o α = 0.01/2, etc.
Si hacemos las pruebas de otros, por medio del examen de la hipótesis nula,
Ho: podemos deducir si la prueba es de dos colas o de una cola (derecha o izquierda).
Por ejemplo, si Ho:µ = 98.6, entonces H1:µ ≠ 98.6 y se dice que las pruebas
alternativas son de H1:µ > 98.6 y H1:µ < 98.6. No obstante, si la prueba de hipótesis
nula es de Ho:µ ≥ 98.6, entonces, la cola de la hipótesis alternativa (que es lo
contrario de la hipótesis nula Ho:) apunta a la izquierda (como µ < 98.6), y la prueba
es de la cola izquierda (unilateral izquierda). Sin embargo, si Ho:µ ≤ 98.6, entonces la
prueba es de que µ > 98.6, y la prueba es de la cola derecha (unilateral derecha).
Resumen en el establecimiento de las pruebas de hipótesis bilaterales (dos colas)
o unilaterales (de la cola derecha o de la izquierda):
Si la prueba de hipótesis nula es Ho:µ = µo, entonces, la prueba es bilateral y las
hipótesis alternativas son: H1:µ ≠ µo. H2:µ > µo y H3:µ < µo, donde µo es el valor
esperado.
Si la prueba de hipótesis nula es Ho:µ ≥ µo, entonces, la prueba es unilateral izquierda
y la hipótesis alternativa es H1:µ < µo.
Si la prueba de hipótesis nula es Ho:µ ≥ µo, entonces, la prueba es unilateral derecha y
la hipótesis alternativa es H1:µ > µo.
Definiendo los pasos clásicos en el procedimiento para hacer pruebas de
hipótesis
1. Establecer la prueba de hipótesis nula (Ho:) y el promedio esperado µo y las pruebas
5-44
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-47
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
comparan con ztab. o ttab. Si la estadística calculada es mayor que la estadística tabulada
(de las regiones críticas) se rechaza la hipótesis nula. De otra manera, se acepta la
hipótesis o no se hace ninguna decisión. De esta manera, si el valor de la estadística
calculada se mete en las regiones críticas se rechaza la hipótesis nula (o también si el
valor de p es menor o igual al nivel de significancia, α deseado).
Nota: Aquí es importante recordar que, la prueba de hipótesis nula estadística se
diseñó el siglo antepasado. En tiempos modernos de la era cibernética, existe la
prueba no tradicional relacionada con el valor de la probabilidad p. También es
importante notar que muchos programas de computadora dan únicamente el valor de
p y el investigador o lector tiene que interpretarlo acordemente.
Mecanismos para calcular los valores de la probabilidad p (para la distribución
normal) cuando se hacen las pruebas de hipótesis no tradicionales (calculando el
valor de p)
1. Para calcular el valor de la probabilidad p, se busca el valor de la z calculada en la
tabla de la distribución normal, con el valor del nivel de significancia usado. Los
criterios que se siguen se hacen comparando el valor de la p con el valor de α.
2. Los criterios que se siguen para interpretar el valor de p son:
P ≤ .05 La prueba está en el umbral de la significancia. Aquí casi siempre se
acepta la hipótesis nula. Es un argumento débil y no convincente en la pruebas de
hipótesis. Nos deja en una situación de incertidumbre. Nos dice que, “tal vez así
sea”.
P ≤ .01 La prueba es altamente significativa. Se considera un argumento
estadístico muy fuerte en contra de la aceptación de la hipótesis nula. La
probabilidad de .01 dice que pudiéramos habernos equivocado en la
decisión de rechazar la hipótesis nula, con una probabilidad de 1 en 100 de haber
5-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
p = 1 - .9987 = .0013
Como la prueba es unilateral, así se queda.
(c) Para z = -3.2 con Ho: µ ≥ µo. Esta es una prueba unilateral izquierda (porque el
valor de z es negativo). Buscamos este valor en la tabla de la distribución normal y da
.0007.
Metodología para calcular los valores de la probabilidad p dependiendo de la
estadística usada
Para las pruebas de hipótesis no tradicionales, es decir, usando el valor de la
probabilidad p, es necesario hacer interpolaciones de los valores obtenidos. Sin
embargo, en el caso de la distribución normal, para estimar el valor de la probabilidad
p, no es necesario hacer interpolaciones, porque se puede leer directamente en la tabla
de la distribución normal el valor de la estadística z calculada. No obstante, para la
distribución de t de estudiante, para la distribución Fisher, para la distribución de la JI
cuadrada, etc., si es necesario hacer interpolaciones. Esto se hace buscando el valor de
la estadística calculada en la tabla de la distribución que se está usando con su
correspondiente valor de grados de libertad y del valor porcentual deseado.
5-52
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-53
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-54
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-55
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
niveles de significancia.
TABLA 5.5. Tabla mostrando las regiones críticas de acuerdo al valor del nivel de
confianza usado, es decir, si la prueba de hipótesis es bilateral, unilateral derecha o
unilateral izquierda. (Elaboración propia)
Nivel de confianza (%) 90% 95% 99% 99.5%
Valores críticos de z
para pruebas unilaterales 1.28 1.645 2.33 2.58
(derecha o izquierda) o -1.28 o -1.645 o -2.33 o -2.58
___________________________________________________________________
Valores críticos de z para ±1.645 ±1.96 ±2.58 ±2.81
pruebas bilaterales
5-56
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-57
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
74.0 mg/L. Suponiendo que σ2 = 81.0 mg/L, ¿indicaría esto que un límite de
concentraciones de NOx esté arriba de 70 mg/L? Usar α = 0.05.
Solución:
1. La prueba de hipótesis nula debe ser Ho:µ ≤ 70, porque la hipótesis alternativa,
dada por el problema, es H1:µ > 70.
2. Por lo tanto, la prueba de hipótesis es una prueba unilateral derecha.
3. La región crítica es zα = z0.05 = 1.645
4. La estadística usada es z = ( X – µo) / σ/ n
Sustituyendo los valores del promedio X = 74, de la desviación estándar σ = 9, n =
36 y µo = 70 en la función estadística z da:
z = (74 – 70) / 9/ 36 = 2.66
5. Al comparar el valor de zcalc. = 2.66, con ztab. = 1.645, se rechaza la hipótesis nula y
se dice que, H1:µ > 70, con un valor de p = 1 - .9961 = .0039, de haber hecho la
decisión equivocada. Aquí, nótese que el valor de p no se multiplica por 2, porque la
prueba es unilateral derecha. Como resultado, la evidencia a favor de H1: es más
fuerte que la sugerida por un nivel de significancia de 0.05 (porque .0039 <<< 0.05).
Ejemplo #38. En un estudio de la ingeniería ambiental atmosférica, para evitar la
contaminación ambiental producida por el consumo excesivo e innecesario de
gasolina, en el diseño de un motor de combustión interna, el departamento de
ingeniería de un constructor de autos, de cierto modelo, afirma que el rendimiento del
millaje de este modelo de auto es de cuando menos 35 millas por galón. El
departamento de control de calidad sugiere que el valor de la desviación estándar es
de σ = 4 millas. La Environmental Protection Agency de Estados Unidos de América
quiere probar esta afirmación para ver si la figura afirmada debería ser más alta o más
baja que 35 millas por galón. Para esto, se saca una muestra aleatoria de 50 modelos
5-58
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
de este tipo y se prueban bajo circunstancias iguales. Los resultados dan un promedio
muestral de 33.6 millas por galón. Probar el reclamo del departamento de ingeniería
usando un nivel de significancia de 0.05. Calcular el valor de p.
Solución:
1. La prueba es bilateral, porque un promedio muestral significantemente, más alto
que 35 (cola derecha) o menos que 35 (cola izquierda) es una fuerte evidencia contra
la hipótesis nula de µ = 35.
2. Las regiones críticas son distribuyendo α = 0.05 igualmente entre las dos colas para
obtener 0.025 en cada una, con esto, los valores críticos son de ±1.96.
3. Usamos la función estadística y sustituimos los valores y da:
z = ( X – µo) / σ/ n
z = (33.6 – 35) / 4 50 = -2.47
4. En conclusión, debido a que el valor de -2.47 se introduce en el extremo izquierdo
de la distribución normal, se rechaza la hipótesis. El valor de p es de .0068, pero
como son dos colas, entonces, este valor se multiplica por 2 y da .0136. Ver figura de
abajo.
X = 33.6
z = -2.47
Figura 5.14. Gráfica mostrando los valores críticos para el problema de arriba.
5-59
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(Elaboración propia)
Ejemplo #39. El estándar químico para el agua potable, en cuanto a sólidos disueltos
totales (SDT) es de 500 mg/L. Para probar esta aseveración se saca una muestra
aleatoria de 144 casos y da un promedio aritmético estadístico de 503 mg/L, con una
desviación estándar de 15 mg/L. Probar la hipótesis de que el estándar químico, para
el agua potable es de no más de 500 mg/L. Para esto, usar α = 0.05 y calcular el valor
de p.
Solución:
1. La prueba de la hipótesis nula es Ho:µ ≤ 500. Esto quiere decir que, la prueba es
unilateral derecha.
2. La hipótesis alternativa es H1:µ > 500.
3. La región crítica es unilateral derecha, esto es, zα = z0.05 = 1.645.
4. Ahora, sustituyendo los valores correspondientes de X = 503, σ = s = 15, n = 144 y
µo = 500, en la función de z nos da:
zcalc. = (503 – 500) / 15/ 144 = 2.4
5. En conclusión, debido a que el valor de la estadística se introduce en el extremo
derecho de la distribución, se rechaza la hipótesis nula y se inclina por la hipótesis
alternativa.
6. El valor de la probabilidad p se calcula buscando el valor de 2.4 en la tabla de la
distribución normal y da .9918, pero como queremos únicamente el valor de p, le
restamos 1 y nos da p = 1 - .9918 = .0082. Este valor es muy significante.
Ejemplo #40. Se calcula el promedio muestral de 5 ppm de cadmio (Cd), para medir
la calidad del aire, de cierta región industrial. Esto se hace sacando una muestra de 36
observaciones de Cd atmosférico. Hacer lo siguiente:
(a) Una prueba de hipótesis con µo = 4.85 ppm, con α = 0.05 y α = 0.01
5-60
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
En conclusión, debido a que el valor de zcalc. = 3.00 es mayor que el valor crítico de
1.96 se rechaza Ho: y nos inclinamos por la hipótesis alternativa de H3:µ > 3.85. Cosa
similar ocurre con el nivel de significancia de α = 0.01, porque el valor de 3.00 es
mayor que el valor crítico de 2.58.
Por otra parte, con respecto a la estimación del intervalo de confianza del 95%,
que corresponde a un nivel de significancia de α = 0.05, los valores críticos son de
±1.96. La estimación puntual de µ es X = 5.0. Para calcular el intervalo de confianza
de 95%, se sustituyen los valores en ecuación (5-24) de abajo para dar:
X – zα/2 σ/ n < µ < X + zσ/2 σ/ n
5-61
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-62
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-63
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
M edian
Figura 5.15. Figura mostrando el histograma de los datos con curva normal
sobrepuesta, los intervalos de confianza para el promedio y la mediana y la estadística
descriptiva.
Para el inciso (c), es decir, para la prueba de normalidad de los datos esto se hace
usando la estadística de Kolmogorov-Smirnov, del programa Minitab. Siendo así, se
procede de la siguiente manera:
Basic Statistics → Normality Test
En la ventanilla del recuadro de Normality Test introducir las variables y puntear
Kolmogorov-Smirnov. Esto genera la figura de abajo.
5-64
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
60
50
40
30
20
10
1
16 18 20 22 24 26 28 30 32
C1
5-65
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
de 55.0 oC, con una desviación estándar de 1.0 oC. Si se sabe que la distribución de
los tiempos de activación de los sistemas de aspersión, contra los incendios, de este
fabricante, es normal, ¿se refutaría el argumento del fabricante de que el verdadero
promedio es el que se menciona arriba? Asumir un nivel de significancia de 0.05.
1. Aquí la prueba de hipótesis es Ho:µ = 54.4 contra la prueba de hipótesis alternativa
de H1:µ ≠ 54.4.
2. Debido a que la prueba de hipótesis llena la condición de igualdad, la prueba es
bilateral, es decir, z ≥ z.025 y z ≤ z.025, esto es, z ≥ 1.96 o z ≤ -1.96.
3. Usamos la distribución de z, aunque el tamaño de la muestra no sea de n > 30
casos. Esto es así, porque sabemos de antemano que la población muestreada es
normal. También se pudiera usar la distribución de t de estudiante, pero en este caso
es mejor usar la distribución z porque es mas precisa.
4. Siendo así, el valor de la prueba estadística es:
z = (55.0 – 54.4) / 1.0/ 16
= 2.4
5. De acuerdo al inciso (4) el promedio muestral observado se encuentra a 2.4
desviaciones estándar arriba de lo que se hubiera esperado, si Ho: fuera verdadera.
6. En conclusión, debido a que el valor calculado de z cae en la región crítica derecha,
se rechaza la prueba de hipótesis tradicional.
7. Ahora, para hacer la prueba de hipótesis no tradicional, es decir, calculando el valor
de p, buscamos en la tabla de la distribución normal el valor de 2.4 y vemos que el
valor de la probabilidad p es p = 2(1 – 0.9918) = 0.0164.
8. El valor de p = 0.0164 contradice la afirmación del fabricante de que el verdadero
promedio de sus productos contra incendios es de 54.4 oC.
5-66
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-67
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
σ +σ
2 2
z = [( X 1 - X 2) - (µ1 - µ2)] / 1 2
(5-33)
n
1 n 2
Donde:
X 1, X 2 = promedios de muestras uno y dos, respectivamente
σ21, σ22 = varianzas de muestras uno y dos respectivamente
( X 1 – X 2) = estimador puntual de (µ1 – µ2)
n1 y n2 = tamaños de muestras uno y dos, respectivamente
z = variable normal estándar
Si se asume que σ1 = σ2 = σ, la estadística de arriba se reduce a:
1 1
z = ( X 1 – X 2) – (µ1 – µ2) / σ + (5-34)
n n 1 2
Las funciones para las pruebas de hipótesis nulas y las alternativas, son:
Ho:µ1 - µ2 = 0 es decir, que µ1 = µ2
H1:µ - µ2 ≠ 0 y H2:µ1 - µ2 > δ y H3:µ1 - µ2 < δ
Aquí, aunque δ puede ser cualquier valor constante, muchas veces el valor de δ es de
0 y se prueba la hipótesis nula de no "diferencia", es decir Ho:µ1 = µ2.
Ejemplo #44. Para medir la calidad del aire de cierta zona industrial, con relación a
los óxidos de azufre, se sacaron dos muestras de tamaños 50 y 75, respectivamente.
Los promedios fueron de 76 mg/L y de 82 mg/L, respectivamente. Asumir que las
varianzas de estas poblaciones son conocidas e iguales a 16. Asumir un nivel de
significancia de α = .05. Usando el valor de p, probar que no hay deferencias entre las
dos poblaciones muestreadas, que es lo mismo que µ1 = µ2, esto es, µ1 – µ2 = 0
Solución:
1. Usamos la función de z, porque las muestras son grandes.
2. Las hipótesis nulas y alternativas, son, respectivamente:
5-68
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ho:µ1 – µ2 = 0 y H1:µ1 – µ2 ≠ 0
3. Los valores críticos correspondientes a las regiones críticas, con α = .05 son de
±1.96.
4. Los valores que se substituyen en la fórmula (5-34) son:
X 1 = 76, X 2 = 82, n1 = 50, n2 = 75, σ1 = σ2 = 16. Substituyendo estos valores en la
fórmula (5-34) nos dan:
1 1
z = [( X 1 – X 2) – (µ1 – µ2)] / σ +
n n
1 2
1 1
= [(76 – 82) – 0] / 16] + = 2.05
50 75
5-69
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
efectos secundarios entre el grupo que toma la droga y el que no la toma. (Nota: En
este problema, de acuerdo al autor de este libro de estadística, el uso de medicamentos
artificiales siempre causará efectos secundarios. Esto se debe a qué, el cuerpo es una
esencia natural, que no puede aceptar artificialismos, por ser antagónicos al diseño
natural del organismo humano. Además, el medicamento artificial ataca un efecto
reactivo (el síntoma de la enfermedad), más no su origen causal (vida antinatural). En
verdad, el efecto secundario es una reacción orgánica natural, en respuesta a la acción
incompatible del artificialismo médico. De cualquier manera, para este problema usar
el nivel de significancia de α = .05. Los cálculos de las variables y sus valores se dan
en la tabla de abajo.
TABLA 5.6. Tabla mostrando los datos del Ejemplo #45.
_________________________________________________________________
Grupo de tratamiento Grupo de control
_________________________________________________________________
n1 = 50 n2 = 100
X 1 = 203.4 X 2 = 189.4
σ1 = 39.4 σ2 = 39.0
_________________________________________________________________
5-70
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ho:(µ1 - µ2) = 0, H1:(µ1 - µ) ≠ 02, H2:(µ1 - µ2) > 0, H3:(µ1 – µ2) < 0
4. El nivel de significancia es de α = .05
5. El problema satisface las suposiciones de normalidad.
6. Usamos la estadística de z (5-33) que se da abajo y se sustituyen los valores
correspondientes:
σ +σ
2 2
z = [( X 1 - X 2) - (µ1 - µ2)] / 1 2
n1 n 2
39.42 39.02
= [(203.4 - 189.4) - (0)] / + = 2.06
50 100
5-71
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Los dos promedios son independientes y σ1 y σ2 son conocidos, por lo tanto, usamos
5-72
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
σ +σ σ +σ
2 2 2 2
( X 1 - X 2) - zα/2 1 2
< (µ1 - µ2) < ( X 1 - X 2) + zα/2 1 2
(5-35)
n1 n
2 n1 n
2
Donde:
zα/2 es el valor de z con α = 0.05 y 0.01 niveles de significancia
5-73
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-74
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
σ +σ
2 2
z = [( X 1 – X 2) – (µ1 – µ2)] / 1 2
n1 n
2
= 6 / 0.529
= 11.34
Pruebas de hipótesis para proporciones
Las pruebas de hipótesis relacionadas con proporciones (porcentajes) se requieren en
muchas áreas de la ingeniería. Por ejemplo, las compañías constructoras están
interesadas en saber, qué proporción de sus productos salen defectuosos. Además, los
políticos están interesados en saber qué fracción de los votantes los favorecerán.
Por otro lado, en la ingeniería ambiental estamos interesados en saber qué
fracción de las industrias están cumpliendo con las legislaciones ambientales.
También, es de interés social saber qué fracción de los jóvenes universitarios
usan determinadas drogas. Igualmente, es de interés saber qué fracción o proporción
de personas que puedan estar conscientes de la magnitud del problema de la
contaminación ambiental, etc.
Las pruebas de hipótesis con la estadística p (que estima a ρ) de proporción
están basadas en una muestra aleatoria de tamaño n de la población muestreada. Si el
tamaño de la muestra n es pequeño, con relación al tamaño poblacional, el promedio
X tiene aproximadamente una distribución binomial. Además, si n es grande, el
5-75
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-76
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-77
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(0.5)(0.5)
= (0.48 – 0.5) / = -1.79
1998
5-78
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-79
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
el resto proceder como arriba. Para las gráficas hacer lo mismo que arriba.
Similarmente, para calcular los valores de la distribución Gamma:
Calc > Probability distributions > Gamma…
Proceder en forma análoga a como se hizo con la función Weibull
Ejemplo #51. Calcular las siguientes probabilidades bajo la curva normal estándar
usando el paquete de computadora Minitab:
(a) Entre z = -1.5 y z = -1
(b) P(z ≥ 2)
(c) Entre z = 1 y z = -1
(d) Hacer una gráfica
Solución:
Abrir el programa Minitab y seguir las instrucciones correspondientes. Esto generará
una tabla de abajo.
TABLA 5.8. Valores de la variable aleatoria X y la cpd. (Elaboración propia)
___________________________________________________________________
Columnas C1 C2
Variable aleatoria z Distribución de Probabilidad acumulada
1 -4.0 .000032
2 -3.5 .000233
3 -3.0 .001350
4 -2.5 .006210
5 -2.0 .022750
6 -1.5 .066807
7 -1.0 .158655
8 0.0 .500000
9 1.0 .841345
10 1.5 .933193
11 2.0 .977250
12 2.5 .993790
13 3.0 .998650
14 3.5 .999767
15 4.0 .999968
5-80
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-81
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
__________________________________________________________________
Columnas C1 C2
Variable aleatoria X Probabilidad acumulada
1 2.5 0.068622
2 2.6 0.123865
3 2.7 0.204508
4 2.8 0.310167
5 2.9 0.434423
6 3.0 0.565577
7 3.1 0.689833
8 3.2 0.795492
9 3.3 0.876135
10 3.4 0.931378
Ahora, para resolver los incisos pedidos por el problema se procede como:
(a) P(X ≥ 2.9) = 1 – 0.3102 = 0.6890 (de la tabla de arriba)
(b) P(2.6 ≤ X ≤ 3.2) = 0.795492 – 0.068622 = 0.7269
(c) P(X ≥ 3.4) (para resolverse por el lector)
Ejemplo #53. Supongamos que el tiempo promedio que se tarda una sustancia
radiactiva (un isótopo radiactivo que tiene el mismo número atómico pero diferente
peso molecular) en descomponerse es de µ = 15 años; siendo así:
(a) Hacer una tabla con los valores de la función exponencial de densidad para los
valores de la variable aleatoria X = 0, 5, 10, 15, 20, 25, 30, 35, 40, 45 y 50 años.
(b) Graficar las probabilidades individuales y las probabilidades acumuladas en
función del tiempo en años.
(c) ¿Cuál es la probabilidad que el isótopo tarde en degradarse a lo más en 5 años?
(d) ¿La probabilidad de que el isótopo tarde en oxidarse en cuándo menos 20 años?
(e) ¿La probabilidad de que el isótopo tarde en degradarse entre 20 y 50 años?
(f) ¿Cuánta radiactividad quedó después de 40 años?
5-82
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
0.06
Radiactividad restante
0.05
0.04
0.03
0.02
0.01
0.00
0 10 20 30 40 50
Tiempo en años
5-83
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
0.8
Energia liberada
0.6
0.4
0.2
0.0
0 10 20 30 40 50
Tiempo en años
5-84
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 5
5.1. En un muestreo de partículas atmosféricas, el promedio de la muestra fue de 72
micras y la desviación estándar fue de 15 micras. Determinar las unidades de
desviación estándar de las partículas que tuvieron valores de:
(a) 60 (-0.80)
(b) 93 (1.4)
(c) 72 micras (0)
5.2. Refiriéndose al problema anterior, encontrar los valores de la variable aleatoria
normal z correspondientes a:
(a) z = -1
(b) z = 1.6
5.3. En un estudio independiente, dos industrias contaminantes fueron informadas de
que recibieron evaluaciones ecológicas de variables aleatorias normales estándares de
z de 0.7 y -0.5, respectivamente. Si sus resultados (evaluaciones) fueron de 90 y 74,
respectivamente, y asumiendo que s = 13.32, encontrar el promedio aritmético, para
ambos casos. ( X = 80.67, X = 60.67) 5.4. Encontrar el área o la
proporción de la valores de la variable aleatoria z de la curva normal entre z = 0 y z =
1.2.
5.5. Encontrar el área entre z = 0.81 y z = 1.94. (0.1828)
5.6. Encontrar la probabilidad de que una z observada se encuentre a la derecha de z =
2.05 y a la izquierda de z = -1.44.
5.7. Determinar el valor o los valores de z cuando:
(a) La probabilidad entre 0 y z es de 0.3770 (±1.16)
(b) La probabilidad a la izquierda de z es de 0.8621 (1.09)
5.8. El peso promedio de residuos tóxicos peligrosos generados por 500 industrias es
5-85
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
de 151 toneladas métricas, con una desviación estándar de 15 toneladas. Si los pesos
de los residuos tóxicos generados por estas industrias están normalmente distribuidos,
encontrar todo lo siguiente:
(a) Cuántas industrias generan entre 120 y 155 toneladas, inclusive.
(b) Cuántas generan más de 185 toneladas
(c) Cuántas generan cuando menos 128 toneladas
(d) Cuántas generan igual a 128 toneladas
(e) Cuántas generan más de 75, pero menos de 100 toneladas
5.9. Si los diámetros de unas chumaceras de una maquinaria están normalmente
distribuidos, con un promedio de 0.6140 pulgadas y una desviación estándar de .0025
pulgadas, determinar la probabilidad de que las chumaceras tengan diámetros de:
(a) Entre .610 y .618 pulgadas inclusivamente (0.8904)
(b) > .617 pulgadas (0.1151)
(c) < .608 pulgadas (.0207)
(d) Igual a .615 pulgadas
5.10. Si una muestra aleatoria de análisis de las concentraciones de demanda
bioquímica de oxígeno de 5 días (DBO5) está normalmente distribuidas, ¿qué
probabilidad hay de que éstas difieran del promedio por?
(a) Más de la mitad de la desviación estándar
(b) Menos que 0.75 de la desviación estándar.
5.11. Dada una distribución normal de precipitaciones pluviales con promedio de 50
mm y s = 10 mm. Encontrar la probabilidad de que X asuma un valor entre 45 mm y
62 mm de lluvia. (0.5764)
5.12. Si el X y s son el promedio y la desviación estándar de una muestra aleatoria de
análisis de aguas residuales de concentraciones de nitratos, en mg/L, ¿Cuál es la
5-86
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-87
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5.18. Se utilizan medidores para rechazar todo los componentes cuyas dimensiones no
se encuentren dentro del la especificación dada de 1.50 ± d. Sin embargo, se sabe que
esta dimensión está normalmente distribuida con un promedio de 1.50 Y una
desviación estándar de 0.2. Determinar el valor de d para que la especificación cubra
el 90% de las mediciones.
5.19. Cuál es la probabilidad de que:
(a) P(-0.5 < z < 1.25) (0.5859)
(b) ¿El valor de z no esté entre estos dos valores? (0.4144)
5.20. En un estudio de ingeniería de higiene industrial y seguridad, el supervisor de
producción encuentra que, los trabajadores, en promedio, completan una tarea en 10
minutos cuando están expuestos a altas concentraciones de gases. Los tiempos
requeridos para completar la tarea son aproximadamente normales con una desviación
estándar de 3 minutos. Encontrar lo siguiente:
(a) La proporción de empleados que completan la tarea en menos de 4 minutos.
(b) El % de empleados que requieren más de 5 minutos en completar la tarea.
(c) La probabilidad de que un empleado, quien acaba de ser asignado a la tarea, la
completará dentro de 3 minutos.
5.21. Se llevó a cabo un muestreo y un análisis de las concentraciones de nitratos
(NO-3) de un sistema de tratamiento de aguas industriales. Las concentraciones de
nitratos se reportaron en mg/L. Los siguientes datos se dan en mg/L en la tabla de
abajo:
5-88
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Hacer los siguientes cálculos corriendo una estadística descriptiva que incluya:
(a) El promedio muestral, la varianza, la desviación estándar y el rango. ( X = 7.26,
s2 = 2.02, s = 1.42, rango = 5.3)
(b) Encontrar el error estándar, el sesgo, la kurtosis, el valor máximo y el valor
mínimo. (0.25, 0.08, -.088, 10.1, 4.8)
(c) Evidenciar la simetría de los datos.
(d) Si el límite de las concentraciones de nitratos en el efluente es de 8.5 mg/L, de
acuerdo a la legislación ambiental de aguas, hacer una prueba de hipótesis con un
nivel de significancia de α = .05 y calcular la probabilidad p e interpretarla
acordemente. (P <<< .0003)
(e) Hacer un intervalo de confianza para el promedio µ. (6.76, 7.76)
(f) Hacer un intervalo de confianza para la mediana. (6.39, 7.95)
(g) Hacer un intervalo de confianza con nivel de confianza de 95% para la desviación
estándar poblacional, σ. (1.14, 1.88)
(h) Encontrar el primer cuartil (6.05)
(i) Encontrar el tercer cuartil. (8.25)
5.22. En un estudio de meteorología de precipitación pluvial, el promedio de lluvia
registrado, a la centésima de un centímetro, para el mes de marzo fue de 9.22
centímetros. Asumiendo que estos valores están normalmente distribuidos con una
desviación estándar conocida de 2.83 cm., encontrar la probabilidad de que el
5-89
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-90
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-91
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-92
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los resultados del DBO que va quedando y el DBO oxidado o
ejercido. (Elaboración propia)
X DBO restante DBO oxidado
(Días) (Prob. individual) (Prob. acumulada)
1 .0123 .0124
2 .0122 .0247
3 .0120 .0368
4 .0119 .0488
5 .0117 .0606
5.30. Se da la tabla de abajo con los porcentajes de DBO oxidado en función del
tiempo y de la constante de desoxigenación k. Si el DBO5 último o total es de Lo =
300 mg/L (derivado de la ecuación monomolecular y = Lo(1 – 10-kt), hacer lo
siguiente:
(a) Una gráfica para ver el efecto de la velocidad de la constante k para un nivel dado
de Lo de la ecuación monomolecular.
(b) Una gráfica que indique el DBO que va quedando y la cantidad de DBO que se
va ejerciendo, para cada uno de los 20 días y para cada una de las tasas k.
(c) ¿Cuál es la probabilidad de que la concentración de DBO esté entre 3 y 6 días
inclusivamente, para k = 0.15? ¿A qué concentración de DBO ascendió esto?
(d) Calcular la concentración de DBO que quedó entre 3 y 5, para k = 0.10.
5-93
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5.31. Supóngase que, el tiempo en horas, requeridas para reparar una bomba de calor
es una variable aleatoria X que tiene un distribución gamma con parámetros α = 2 y β
= 0.5.
(a) Encontrar el promedio, la varianza y la desviación estándar. (µ = 1.0, σ2 = 0.5)
(b) ¿Cuál es la probabilidad de que el siguiente servicio requerirá a lo más una hora
para reparar la bomba?
(c) La probabilidad de que se requieran cuando menos 2 horas para reparar la bomba.
(0.0916)
5.32. En cierta ciudad, el consumo diario de electricidad, en millones de kilowatt-
horas, es una variable aleatoria X que sigue a una distribución gamma con µ = 6 y σ2
= 12. Encontrar:
(a) Los valores de α y β.
(b) Encontrar la probabilidad de que en un día dado el consumo diario de electricidad
excederá 12 millones de kilowatt-horas.
5-94
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-95
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2. El promedio del peso del papel descartado cada semana en un estudio de reciclaje
de papel es menor que 10 kilogramos.
3. El tiempo promedio requerido para los estudiantes puedan adquirir su título es
mayor que 5 años.
4. El promedio anual de ingresos de los médicos es de $300,000 dólares.
5. El promedio de la edad de los aviones comerciales es de cuando menos 10 años.
6. La tasa del promedio de consumo de los automóviles Chevrolet es de no más de 17
millas/galón.
Para cada uno de estos ejemplos del 1 al 6, contestar lo siguiente:
(a) Identificar la hipótesis nula, Ho:
(b) Identificar la hipótesis alternativa, H1:
(c)Identificar la prueba si es bilateral, o unilateral izquierda o derecha.
(g) Asumir que la conclusión es de rechazar la hipótesis nula. Declarar la conclusión
en términos no técnicos. Asegurarse de enlistar el reclamo original.
(h) Asumir que la conclusión es la de fallar en rechazar la hipótesis nula. Declarar la
conclusión en términos no técnicos. Asegurarse de enlistar el reclamo original.
5.37. Calcular el valor de la probabilidad p con niveles de significación de α = 0.05 y
α = 0.01. Se dan los siguientes valores: n = 50, X = 31.8 y σ = 0.75. Probar la
hipótesis nula Ho:µ ≥ 32 contra H1: < 32. (z = -1.89, p = .0294)
5.38. Una muestra aleatoria de 36 casos de análisis de aguas conteniendo cloratos
(mg/L de ClO3-), se usa el método argentométrico de titulaciones (Estándar Methods
for the Examination of Water and Wastewater, 1971). Probar la hipótesis de que el
promedio poblacional es igual a 145 mg/L. Se calcula el promedio estadístico y nos
da X = 138.84 con una desviación estándar de 20. Probar la hipótesis de Ho:µ = 145
con los niveles de significancia de 0.05 y 0.01. También calcular el valor de p. 5.39.
5-96
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-97
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-98
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-99
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
mediciones de milímetros de lluvia: Ho:µ = 0.340 mm, H1:µ ≠ 0.340, donde 0.34 = µo,
α = .05, X = 0.343 mm., σ = .01, n = 35. (Nótese que aquí es una prueba de 2 colas,
porque Ho:µ = 0.340 reúne la condición de igualdad). Las regiones críticas son ±
1.96, porque α = 0.05. Ver tabla de abajo. (z = 1.77. Se retiene Ho: con p = .0768)
Tabla mostrando los datos. (Elaboración propia)
________________________________________________________________
Hipótesis alternativas Rechazar Ho:µ = 0.340 si:
__________________________________________________________________
H1: µ < µo = 0.3430 z < - zα
H1: µ > µo = 0.343 z > + zα
H1: µ ≠ µo = .0.343 z < - zα/2 o z > zα/2
__________________________________________________________________
5.50. Una muestra aleatoria de 100 muertes en E. U. mostró una vida promedio de
5-100
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
71.8 años con una desviación estándar de 8.9 años. ¿Pudiera esto indicar que la vida
promedio de hoy en día es mayor que 70 años? Usar α = .05.
5.51. Un fabricante de cables de acero afirma que su producto tiene una resistencia de
ruptura de 8.0 Kg. Probar la hipótesis nula de que Ho:µ = 8.0 Kg., contra la prueba
alternativa de que H1:µ ≠ 8.0 Kg. Para esto, se sacó una muestra aleatoria de 50
cables y se encuentra que tiene una resistencia promedio de X = 7.8 Kg., con una
desviación estándar de 0.5 Kg. Para esta prueba usar α = .05 y α = .01. (p = .0046)
5.52. En un estudio de la aplicación del pH (potencial hidrógeno que tiene una escala
de 0 a 14, donde 7 es neutral y abajo de 7 es ácido y arriba de 7 es alcalino) para
medir la alcalinidad y la acidez de soluciones, un científico, dedicado al estudio de la
contaminación ambiental, asegura que dos muestras de soluciones (A y B) provienen
del mismo lugar de un río, donde supuestamente hubo un descarga industrial de ácido
clorhídrico (HCl). Si esto fuera cierto, entonces el pH de las dos muestras de
soluciones serían iguales. Asumiendo que las observaciones provienen de
poblacionales normales, probar la hipótesis nula de igualdad de los promedios de pH.
Asumir α = 0.05. Hacer las siguientes estimaciones:
(a) Hacer estos cálculos usando la distribución normal y la distribución de t de
Estudiante.
(b) También, calcular el valor de la probabilidad p en ambos casos y ver que
diferencias hay.
(c) Hacer intervalos de confianza usando las fórmulas para la distribución z y para la t
de Estudiante.
(d) ¿Desaprueban los datos la afirmación del científico? La tabla de abajo muestra la
información requerida para este problema.
5-101
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los datos de las mediciones del pH. (Elaboración propia)
5-102
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-103
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-104
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-105
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
diferencias en las dos mediciones de pH de esos años 1976 y 1981. Los datos se dan
en la tabla de abajo. Asumir que las varianzas de las dos poblaciones son iguales.
Usar un nivel de significación de 0.05 y calcular el valor de la probabilidad p en la
toma de decisiones. (Statistics for Environmental Sciences and Management, por
Bryan Manly, p. 8).
5-106
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-107
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Sugerencia: Usar la función estadística para pruebas de hipótesis para las diferencias
de dos promedios.
5.63. El presidente de cierta compañía fabricante de partes de automóvil afirma qué,
el número promedio de partes vendidas, diariamente, es de 1500. El director general
de toda la cadena de establecimientos quiere comprobar esta afirmación. Para esto, se
toma una muestra aleatoria consistente en 36 días, la cual mostró un promedio de
1450 partes. Asumir que se conoce el valor de σ = 120 partes. Usar α = 0.05. Calcular
el valor de la prueba no tradicional, es decir, usando el valor de p. ¿Qué se puede
concluir acerca de esta situación? (z = -2.5 y se rechaza Ho:)
5.64. Jay Devore autor del libro Probabilidad y Estadística para Ingeniería y
Ciencias (2201) discute el problema relacionado con el análisis de una muestra
aleatoria de n1 = 20 especimenes de acero laminado en frío, para determinar su
resistencia, dando, como resultado, una resistencia promedio muestral de X 1 = 29.8
ksi. Una segunda muestra aleatoria de n2 = 25 especimenes de acero galvanizado de
dos lados dio una resistencia promedio muestral de X 2 = 34.7 ksi. Si se supone que
las dos distribuciones de resistencia de los aceros son normales con σ1 = 4.0 y σ2 = 5.0
ksi (sugeridas por una gráfica en el artículo “Sinc-Coated Sheet Steel: An Overview”,
Automotive Engr., diciembre de 1984, pp. 39-43).
(a) ¿Significan estos datos que las verdaderas resistencias promedio µ1 y µ2 son
diferentes?
(b) Calcular el valor de p.
(c) También hacer un intervalo de confianza para los dos promedios poblacionales.
Realizar la prueba de hipótesis con α = 0.01.
5.65. En un estudio de higiene industrial y seguridad en carreteras estatales, al
seleccionar un concreto de azufre para construir una carretera, es importante escoger
5-108
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
un concreto con bajo valor de conductividad térmica, para reducir al mínimo los
daños ocasionados por cambios de temperatura y, así, evitar accidentes
automovilísticos en las carreteras. Supóngase que hay dos tipos de concreto, uno es
un agregado escalonado y el otro no tiene agregados finos considerados para cierta
carretera. La tabla de abajo resume los datos de un experimento realizado para
comparar los dos tipos de concreto. ¿Sugiere esta información que el verdadero
promedio de conductividad del concreto, con agregado escalonado supera al del
concreto sin agregado fino? ( Probabilidad y Estadística para Ingeniería y Ciencias,
J. L.Devore, 2000). (3.36, p = .0004)
5-109
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Día | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
No. de vehículos |1150 1225 1195 1195 1210 1100 1150 1195 1105 1205 1121 1190 1195 1192 1100 1201 1090 1095
5-110
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-111
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-112
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(b) A medida que n disminuye y s disminuye, el valor del error estándar aumenta y,
por lo tanto, el valor de p disminuye.
(c) A medida que n aumenta y las técnicas del laboratorio se refinan causando una
varianza pequeña, el error estándar del promedio baja y, por consiguiente, el valor
de p aumenta y la hipótesis nula se rechaza.
(d) A medida que el error estándar del promedio disminuye por tamaños de
muestra grandes, con pequeñas variaciones, esto conlleva a un valor pequeño de p
mucho muy significante, lo cual nos lleva a retener la hipótesis nula.
(e) A medida que la varianza disminuye, con n constante, el valor de p disminuye y
la hipótesis nula se rechaza.
(f) A medida que n aumenta y las técnicas del laboratorio se refinan causando una
varianza pequeña, el error estándar baja y, por consiguiente, el valor de p
disminuye y se retiene Ho:
(g) A medida que n aumenta y las técnicas del laboratorio se refinan causando una
varianza pequeña, el error estándar baja y, por consiguiente, el valor de p
disminuye y se acepta HA:
(h) los incisos (d), (e) y (f) son correctos
(i) Los incisos (e) y (g) son correctos
5.79. Actualmente, hay mucho debate, por saber si las emisiones de campos
electromagnéticos producidos por teléfonos móviles (celulares) y sus estaciones de
antenas base puedan estar afectando la salud. Con más de 500 millones de
teléfonos móviles en todo el mundo, de acuerdo a al artículo Examining the effects
of electromagnetic fields emitted by GSM mobile phones on human event-related
potentials and performance during an auditory task publicado en Clinical
Neurophysiology 115 (204) 171- 178 (http://www.wow-com.com/industry/stats),
5-113
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
5-114
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
MHz, 195 MHz, 80,000 Hz, 30,000 Hz y 500 Hz, respectivamente. Sus respectivas
desviaciones estándares fueron 50 MHz, 40 MHz, 35 MHz, 80 MHz, 100 MHz,
20,000 Hz, 10,000 Hz y 100 Hz. El estudio se llevó a cabo durante todo un año, en
un esfuerzo por evaluar variables, como la distancia, la altura, época del año,
factores meteorológicos (como temperatura, presión atmosférica, intensidad y
dirección del viento, humedad relativa), contaminación del aire por partículas y
gases, etc., que pudieran afectar el poder de la densidad de la radiación
electromagnética emitida. Para resolver este problema estimar el modelo
matemático que mejor ajuste los datos. Una vez que se evalúe el modelo
acordemente, predecir la radiación de microondas a una distancia de 10 y 1000
metros de la antena base. Si hubiese valores atípicos extremos, enlistar tres
posibles factores que puedan explicar estas situaciones.
5-115
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 6
Distribuciones de t de Estudiante, JI cuadrada y F
Propiedades de la distribución de t de Estudiante.- Intervalos de confianza para
el promedio poblacional µ.- Prueba de hipótesis para µ.- Prueba de t pareada
para detectar diferencias entre dos tratamientos.- Prueba de t para probar la
hipótesis de dos promedios, cuando las varianzas son iguales.- Prueba de t para
probar la hipótesis de dos promedios cuando las varianzas son desiguales.-
Mecanismos para calcular el valor de p cuando se hacen pruebas de hipótesis no
tradicionales.- Intervalos de confianza y pruebas de hipótesis con la JI cuadrada,
(χ2).- Aplicación de la JI cuadrada en cuanto a la prueba de bondad de ajuste
comparando las frecuencias observadas y las frecuencias teóricas.- Distribución
F y su aplicación en la comparación de varianzas muestrales.-
Aquí, discutiremos la distribución de t de Estudiante, que está relacionada con la
teoría de muestreo pequeño. También, discutiremos la distribución de JI cuadrada y
la distribución de F.
En los capítulos anteriores hicimos hincapié de que, para muestras que fueran
≥ 30 casos, se usa la distribución normal. Sin embargo, para muestras menores que
30 observaciones se usa lo que se llama teoría de muestreo pequeño, que está
relacionada con la distribución de t de Estudiante, con la JI cuadrada o con la
distribución F. La distribución de t se nombró después de W.S. Gosset, quien usó el
seudónimo de estudiante.
Por ejemplo, cuando usamos la distribución normal siempre se conoce el valor
de σ, el tamaño de la muestra es > 30 y se sabe que la distribución muestreada es
normal. Pero cuando usamos la distribución de t de Estudiante, no se conoce σ y el
tamaño de la muestra es menor que 30 casos, sin saber si la distribución muestreada
6-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
aleatoriamente, y, con varianzas iguales o desiguales. Aquí, cabe notar que, si se trata
de comparar los promedios de más de 2 distribuciones, entonces se usa el análisis de
varianza simple o múltiple.
Descripción de las funciones usadas con la distribución de t de Estudiante
Estadística descriptiva:
n
Promedio: X = Σ Xi / n (6-2)
x=0
6-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
( X 1 - X 2) - (µ1 - µ2)
t = ──────────────────────── (6-7)
s2p (1/n1 + 1/n2)
Donde:
X 1, X 2 = promedios aritméticos de las dos distribuciones
n1, n2 = tamaños de las dos muestras
µ1, µ2 = parámetros de población uno y dos a estimarse
s2p = (ν1 s12 + ν2 s22) / (ν1 + ν2)
Donde:
s2p = la varianza combinada de las dos muestras
ν1, ν2 = grados de libertad de muestras uno y dos
6-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Nota importante: las diferencias entre las funciones de t (6-6), (6-7), y (6-8) se basan
en el método de la selección al azar que se sigue. Por ejemplo, en la función (6-6), el
método de selección en el emparejamiento de los pares de las observaciones de las
distribuciones es deliberado. Sin embargo, en el caso de las funciones (6-7) y (6-8),
con relación a la función (6-6), la selección es completamente aleatoria, sin hacer
emparejamientos. Además, las diferencias entre el uso de las funciones (6-6), (6-7), y
(6-8) es de que en el caso de la (6-6), el tamaño de las muestras pares debe de ser
igual. En contraste, las funciones (6-7) y (6-8) pueden usarse con tamaños de
muestras desiguales. También, con respecto a la uso de las funciones (6-7) y (6-8),
éstas están relacionadas con la condición de igualdad o desigualdad de las varianzas.
La función (6-7) requiere que las varianzas sean iguales y la función (6-8) no. Ahora
bien, para hacer un decisión sobre cual de las dos funciones, (6-7) o (6-8) se vaya a
6-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
usar, la manera de saber si las varianzas son iguales o desiguales, se puede deducir
haciendo una prueba de igualdad de varianzas con la distribución F, esto es, usando la
función de F = s21 /s22.
Tipos de criterios que se siguen para establecer las pruebas de hipótesis
(análogos a los de la distribución normal)
1. La hipótesis nula se puede hacer como: Ho:µ = µo. Bajo estas condiciones de
igualdad, las hipótesis alternativas son:
H1:µ ≠ µo, H2:µ < µo y H3:µ > µo. Donde µo es el promedio poblacional que se quiere
probar. Aquí, cabe notar que en este caso, la prueba de hipótesis es bilateral o de dos
colas.
2. También la hipótesis nula se puede hacer como: Ho:µ ≥ µo. En este caso, la
hipótesis alternativa es Ho:µ < µo. Aquí, la prueba de hipótesis es unilateral izquierda.
3. Igualmente, la hipótesis nula se puede hacer como: Ho:µ ≤ µo. En este caso la
hipótesis alternativa es H1:µ > µo. Aquí, la prueba de hipótesis es unilateral derecha.
4. Seleccionar un nivel de significación de tamaño α, esto es, α = .05 o α = .01 con sus
respectivos niveles de confianza de 95% y 99%. También, se pueden usar otros
niveles de significación, como el .10, .20, etc., pero los más comunes son los de 0.05
y .01.
5. Seleccionar la estadística apropiada (por ejemplo, si n > 30 casos se usa la
distribución z. Si la muestra es n < 30 casos y la población muestreada no es normal
se usa la distribución de t de Estudiante, la distribución de Ji cuadrada, la distribución
F, etc.
6. Se establecen las regiones críticas usando niveles de confianza del 95%, 99%, 90%,
80% etc. (95% y 99% los más comunes)
7. Se estima el valor de la prueba de estadística de la muestra y se compara con el
6-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
valor de la estadística calculada, es decir, zcalc. o tcalc. (De las regiones críticas) y se
comparan con ztab. o ttab. Si la estadística calculada es mayor que la estadística tabulada
(de las regiones críticas) se rechaza la hipótesis nula). De otra manera, se acepta la
hipótesis o no se hace ninguna decisión. De esta manera, si el valor de la estadística
calculada se mete en las regiones críticas se rechaza la hipótesis nula (o también si el
valor de p es menor o igual al nivel de significación, α deseado).
Nota: Aquí es importante recordar que, la prueba de hipótesis nula estadística se
diseñó el siglo antepasado. En tiempos modernos de la era cibernética, existe la
prueba no tradicional relacionada con el valor de la probabilidad p. También es
importante notar que muchos programas de computadora dan únicamente el valor de
p y el investigador tiene que interpretarlo acordemente.
Mecanismos que se siguen para calcular el valor de la probabilidad p usando las
tablas de las distribuciones de t de Estudiante, la JI cuadrada o la distribución F
Aquí, para calcular el valor de la probabilidad p se puede hacer usando la función t es
decir, haciendo interpolaciones aplicando una fórmula empírica diseñada por el autor
de este libro, el Dr. Héctor Quevedo Urías y auxiliado por la Dra. Socorro Arteaga.
(λ2 – λ1) / (t2 – t1) = (λ2 - X) / (t2 – tcalc.) (6-10)
Donde:
λ2 = el nivel de confianza más alto de la tabla de la t de Estudiante
λ1 = el nivel de confianza más bajo de la tabla de la distribución de t
t1 = la probabilidad correspondiente a λ1
t2 = la probabilidad correspondiente a λ2
X = valor desconocido de λ
tcalc.= valor de la estadística de la distribución de t, con el nivel significante deseado,
e.g., α = .05 o α = .01
6-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
λ2 = .99975, t2 = 4.499, λ1 = .9995, t1 = 4.14, tcalc. = -4.3 (aquí en este caso, se toma
el valor absoluto), X igual a valor buscado el cual corresponden a la interpolación
de t = -4.3 con ν = 14 g.l.
Sustituyendo los valores en la fórmula de arriba da:
(.99975 – .9995)/(4.499 – 4.14) = (.99999 - X)/(4.499 – 4.3)
X = 0.99987 y el valor de p es p = 2(1 - .99999) = 0.00002. Este valor es mucho muy
significativo y apoya, muy contundentemente, la contención de que el promedio no es
mayor que 34.5.
(b) Probando la hipótesis nula de Ho:µ ≥ 34.5 contra H1:µ < 34.5
La t calculada es la misma que en la parte (a), es decir, - 4.3. Esta es una prueba
unilateral izquierda con α = 0.5 con el valor porcentual de t.95;14 = - 1.761 o sea que la
región crítica izquierda es – 1.761 (de la tabla de la distribución de t). Para hacer una
decisión de rechazar o de aceptar Ho: se compara el valor de t.95;14 = – 1.761 con tcalc. =
– 4.3 y vemos, nuevamente, que se introduce en el extremo izquierdo de la
distribución, por lo tanto, se rechaza la hipótesis. El valor de la probabilidad p se
calcula buscando el valor absoluto de |-4.3| en la tabla con α = 0.05 y vemos que está
entre 4.499 y 4.14 con sus respectivos valores de λ igual a .99975 y .9995. Es decir
que el valor de p está entre .00025 < p < .0005, con un valor de p ≈ .0002.
(c) Para probar la hipótesis de Ho:µ ≤ 33.2 contra la hipótesis alternativa de H1:µ >
33.2, se usa la estadística de t de Estudiante, es decir:
t = (33.8 – 33.2)/0.63/3.87 = 3.68
La región crítica derecha es t.95;14 = 1.76 y vemos que 3.68 es mayor que este valor y
se rechaza la hipótesis nula. Bajo estas condiciones, el valor de la probabilidad p es
0.001.
6-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #5. Un fabricante de llantas afirma qué, la vida promedio de cierto tipo de
neumático, es mayor que 25,000 kilómetros, bajo condiciones normales de manejo y,
para vehículos de cierto peso. Para esto, se saca una muestra aleatoria de 15 llantas y
se calcula un promedio aritmético y una desviación estándar de 27,000 y 3,000,
kilómetros, respectivamente. Asumir que α = 0.05 y que la población de llantas está
normalmente distribuida ¿Se puede concluir de esta información que la contención
del fabricante de llantas es legítima? Para resolver este problema hacer lo siguiente:
(a) Establecer las pruebas de hipótesis nula y alternativa
(b) Establecer la(s) región(es) crítica(s)
(c) Calcular el valor de la estadística
(d) Calcular y graficar el valor de p.
Solución:
(a) El problema está preguntando si se puede concluir que µ es mayor que 25,000
kilómetros. Por lo tanto, una afirmación de este efecto deberá ir en la prueba de
hipótesis alternativa. Las hipótesis apropiadas son:
Ho:µ ≤ 25,000 y H1:µ > 25,000
(b) La región crítica con α = 0.05 es: t0.95;14 = 1.7613
(c) El valor calculado de la estadística t con X = 27,000, error estándar = 774.61, n =
15 y µo = 25,000 es:
t = (27,000 – 25,000) / 3000/√15
= 2.58
(d) Para encontrar el valor de la probabilidad p se procede de la siguiente manera: Se
busca t = 2.58 en la tabla de la distribución de t con ν = 14 grados de libertad, y
vemos que este valor está entre 2.624 y 2.1448, con sus respectivos percentiles de
0.10 y 0.025. De esta manera, si la hipótesis nula Ho: es cierta, entonces, la
6-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
probabilidad de obtener un valor de t tan grande o más grande que 2.1448 es 0.025.
Similarmente, la probabilidad de obtener un valor tan grande o más grande que 2.624
es de 0.10. Por lo tanto, si Ho: es verdadera, la probabilidad de obtener un valor de t
tan grande o más grande que t = 2.58 está entre 0.010 y 0.025, es decir, 0.10 < p <
0.025. Las figuras de abajo muestran esta situación.
Ejemplo #6. Para probar la eficiencia de una planta de tratamiento lodos activados se
midió la concentración del DBO5 en la entrada y en el efluente (salida). Se requiere
saber qué tan eficiente es este sistema de tratamiento del drenaje.
6-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Usando los valores de la TABLA 6.0 sacamos las diferencias entre las
concentraciones en la entrada y en el efluente. Esto se muestra en la tercera columna
de la tabla. Una vez hecho esto, se calcula el promedio aritmético de las diferencias
(que es igual a D ) y la desviación estándar (que es igual sd), el error estándar, etc.
1. Usando un paquete de computadora se calcula el valor del promedio D = X =
36.37, la desviación estándar que es igual a sd = 22.95, n = 10, error estándar = 7.26
2. La prueba de hipótesis nula es de Ho:µ = 0 o sea que no hay diferencias entre el
6-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 6.1. Tabla mostrando los datos del problema. (Elaboración propia)
Sin fusión (en libras por pulgada cuadrada)
2748 2700 2655 2822 2511 3149 3257 3213 3220 2753
2
n1 = 10 X 1 = 2902.8 s1 = 277.2 s 1 = 76,875.99
__________________________________________________________________
Con fusión (en libras por pulgada cuadrada)
3027 3356 3359 3297 3125 2910 2889 2902
n2 = 8 X 2 = 3108.1 s2 = 205.9 s22 = 42382.41.
__________________________________________________________________
Solución:
(a) La prueba de hipótesis nula es: Ho:µ = 0 o sea que no hay diferencias entre las
tensiones, para los dos tratamientos.
Las pruebas de hipótesis alternativas son H1:µ > 0 y H2:µ < 0.
(b) La región crítica es unilateral izquierda es igual a -1.75
(c) Se usa la función estadística de t para varianzas desiguales. Es decir, cuando se
usan dos muestras aleatorias independientes de poblaciones normales, con varianzas
desiguales. Esta estadística de la función de t, algunas veces se llama prueba de
Smith-Satterthwaaie abajo mostrada. (Miller et al. 1976, p. 261)
Sustituyendo los valores en la ecuación (6-7) da:
3108.10 – 2925.33
t = ————————————
√(277.3)2/10 + (205.9)2/8
= - 1.86
6-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Y sustituyendo todos los valores de: s21 = 76,875.96, n1 = 10, s22 = 42,382.41, n2 = 8
da:
[(76,875.96)/(10) + 42,382.41/(8)]2
ν = —————————————————
[(76,875.96)/10)2/9) + (42,382.41/8)2/7]
= 16 grados de libertad
(d) Conclusión: se rechaza la prueba de hipótesis nula de no diferencias en las
resistencias a la tensión debido a que el valor de la estadística t = -1.86 es menor que
la región crítica izquierda de -1.75.
(e) Para hacer la prueba de hipótesis no tradicional se busca el valor absoluto de la t
calculada, es decir, |-1.86| en la tabla de la distribución de t de Estudiante con 16
grados de libertad y vemos que los valores percentiles son de 0.025 y 0.05 con sus
puntos porcentuales de 1.746 y 2.120. Entonces, el razonamiento que se sigue para
calcular el valor de p es como sigue. Si Ho: es verdadera, la probabilidad de obtener
un valor de t tan grande o más grande que 1.746 es 0.025. Además, la probabilidad de
obtener un valor tan grande o más grande que 2.120 es de 0.05. Por lo tanto, si Ho: es
verdadera, la probabilidad de obtener un valor tan grande o más grande que el valor
de -1.86 está entre 0.025 y .05. Para esta prueba en particular, 0.05 > p > 0.025.
Ejemplo #8. Supóngase que se saca una muestra de 8 mediciones de nitratos (NO3-) y
se calcula un valor de t = - 3.62, con un nivel de significancia de α = 0.05. Probar la
6-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
La figura de abajo muestra una prueba bilateral. Para encontrar el valor crítico
izquierdo, se refiere a la tabla de la JI cuadrada y se busca ν = 9 en la columna
izquierda de la tabla y se va hasta la columna 0.975, porque el área total a la
derecha de este valor es 0.975 que lo sacamos restando 0.025 de 1 y nos da χ2 =
2.700. Similarmente, para la región crítica derecha, se localiza el valor de ν = 9 y
nos movemos hacia el valor de 0.025 y da χ2 = 19.023. La Figura 6.4 de abajo
muestra esta situación.
↑ ↑
χ20.975;9 = 2.70 χ20.025;9 = 19.023
Figura 6.4. Gráfica mostrando los valores críticos de la distribución, con un área de
0.025 en cada cola, con n = 10 y ν = n –1 = 10 – 1 = 9. Fuente: Triola (1995)
6-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #10. Encontrar los valores críticos de χ2 por los cuales el área del extremo
derecho de la distribución es de 0.05, si:
(a) ν = 15
(b) ν = 21
Solución:
(a) El valor de la cola derecha de la distribución de JI cuadrada se busca en la tabla
de esta distribución y es: χ2α;n-1 = χ2.05;16-1 = χ2.05;15 = 24.996
(b) El valor de la cola derecha es de χ2.05;21 = 32.7
Ejemplo #11. Para una distribución de JI cuadrada con 12 grados de libertad,
encontrar el valor de χ2 de tal manera que:
(a) El área a la derecha de χ2 es .05,
(b) El área a la izquierda de χ2 es .99
Solución:
(a) χ2.05;12 = 21.026
(b) χ2.01;12 = 26.22
Ejemplo #12. Encontrar los valores críticos de χ2 por los cuales el área a la derecha
de la distribución es de α = .01, si ν = 5:
Solución:
Si el área sombreada sobre la derecha es .010, el área a la izquierda de χ22 es .99 y
χ22 representa el 99avo percentil, χ2.99, el cual es igual a 15.1.
Intervalos de confianza y pruebas de hipótesis usando la distribución de JI
cuadrada χ2
El intervalo de confianza 1 – α para la varianza poblacional, σ2 se da como:
(n – 1) s2 / χ2[1-α/2;n-1] < σ2 < (n – 1)s2 / χ2[α/2;n-1] (6-14)
Ejemplo #13. Si una muestra aleatoria estadística de 17 mediciones tiene una
6-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #15. En un estudio de ahorro de energía eléctrica (lo que ocasionaría que
hubiera menos contaminación del medio ambiente) se observa qué, la varianza
(poblacional) del consumo es de 28.0 kWh. Se decide poner focos fluorescentes y
apagar las luces cuando no se usen, para ver si hay una reducción en la variación
del consumo. Para esto se saca una muestra aleatoria de 26 consumos de energía, y
se estima una varianza muestral de 16.0 kWh. Usar un nivel de significancia de α =
0.05, y probar que la varianza del consumo de energía se ha reducido, bajo las
condiciones dadas. También hacer una prueba de hipótesis no tradicional
calculando el valor de la probabilidad p e interpretarla, acordemente.
Solución:
1. La prueba de hipótesis nula es Ho:σ2 = 28.0. La prueba de hipótesis alternativa es
6-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Aquí se nota qué, las pruebas de hipótesis nulas son siempre unilaterales
derechas. También, es de notarse que se puede usar la prueba de Kolmogorov-
Smirnov en las pruebas de bondad de ajuste.
Descripción de la estadística de χ2 usada para la prueba de bondad de ajuste
χ2 = (o1 – e1)2 / e1 + (o2 – e2)2 / e2 +...+ (ok – ek) / ek (6-16)
k
χ2 = Σ (oj – ej)2 / ej (6-17)
j=1
Donde:
χ2 = estadística usada para la prueba de bondad de ajuste
o = frecuencias observada
e = frecuencia esperada
k = número de categorías diferentes de un resultado
n = número total de casos o tamaño de la muestra
ν = k – 1 = número de grados de libertad
Nota: En algunas ocasiones, si se van a acomodar los datos por distribuciones
teóricas, como la binomial, se usa la relación ν = k – 1 – m (Spiegel, 1961).
Cuando se usa la prueba de bondad de ajuste, el criterio para rechazar o
retener la hipótesis nula es que, si χ2 = 0, entonces, las observaciones teóricas y las
observadas son iguales. Pero, si χ2 > 0, entonces, las frecuencias teóricas y las
observadas no son iguales. Esto quiere decir que, si el valor de la estadística χ2calc. >
χ2tab., entonces, se rechaza la hipótesis nula; de otra manera, se retiene Ho:.
Suposiciones para hacer las pruebas de bondad de ajuste
1. Los datos muestrales consisten de conteos de frecuencia de diferentes categorías, k
de muestras aleatorias.
2. Para cada una de las categorías k, la frecuencia esperada es de cuando menos 5.
6-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
f(χ2)
0 χ2α
Figura 6.6. Regla de decisión estadística mostrando la región crítica y la región de
aceptación, para la prueba de bondad de ajuste, es decir, usando la distribución de
JI cuadrada. (Elaboración propia)
Accidentes observados| 31 42 18 25 31
6-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Los datos calculados y los resultados de la prueba de hipótesis se dan abajo.
TABLA 6.5. Cálculos para la prueba de bondad de ajuste. (Elaboración propia)
5
χ2 = Σ(o – e)2 / e = (0.0871) + (5.400) + (4.4204) + (0.6585) + (0.8711) = 10.65
j=1
La prueba de hipótesis nula dice que no hay diferencias entre las frecuencias
observadas y las esperadas (los accidentes si ocurren con la misma frecuencia). La
región crítica es del extremo derecho, con ν = k – 1 = 5 – 1 = 4 grados de libertad.
La estadística tabulada es de χ2α;ν = χ2.05;4 = 9.49. En conclusión, debido a que el
valor de χ2 = 10.65 > χ2tab. = 9.49, se rechaza la hipótesis nula, y se dice que si hay
diferencias entre las frecuencias observadas y las esperadas. Ahora usando la
fórmula de interpolación para la JI cuadrada, con λ2 = .025, λ1 = .05, χ22 = 11.14,
χ21 = 9.488 y χ2calc.= 10.65 y sustituyendo todos los valores da:
(0.025 – 0.05)/(11.14 – 9.488) = (0.025 – X)/(11.14 – 10.65)
Resolviendo por el valor a interpolarse da X = 0.015 = p = 0.015.
Ejemplos con la t de Estudiante usando el programa Minitab
Para usar el programa Minitab en las pruebas de hipótesis con la distribución de t se
6-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
procede como:
Stat > Basic Statistics > 1-sample t…
Procedimiento:
En la ventana de “Variables” poner los datos del problema en la columna C1. En la
ventana de “Test mean” poner el promedio probado. En la ventana de “Options” en la
ventanilla de “Alternative” poner la hipótesis alternativa deseada y luego presionar la
tecla de “OK”.
Ejemplo #17. Este problema está relacionado con el ejemplo de la sección de los
mecanismos usados para calcular el valor de p. Usando los datos de ese ejemplo #4
correspondientes a esa sección y aplicando la función de arriba del programa Minitab,
probar:
(a) Ho:µ = 34.5 vs. H1:µ ≠ 34.5
(b) Ho:µ ≥ 34.5 vs. H1:µ < 34.5
(c) Ho:µ ≤ 33.2 vs. H1:µ > 33.2
Después de sustituir todos los valores, el programa Minitab da los resultados
mostrados en la tabla de abajo.
6-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 6.4. Tabla mostrando los cálculos hechos por el Minitab. (Elaboración
propia).
________________________________________________________________
6-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
árboles a los hongos. Este experimento consistió en aplicar nitrógeno a la mitad de los
árboles y a la otra mitad o sea el grupo de control al cual no se le aplicó el nitrógeno.
Los pesos de los árboles se registraron en gramos al final del experimento. Probar que
no hay diferencias entre los pesos de las dos poblaciones de árboles. Asumir un
pareamiento en este problema. Asumir α = 0.05. Los datos se dan en la tabla de abajo.
TABLA 6.5. Tabla mostrando los datos del problema. (Walpole et al. 1999)
Sin nitrógeno | 0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43
Con nitrógeno | 0.26 0.43 0.47 0.49 0.52 0.75 0.79 0.86 0.62 0.46
Solución:
El programa Excel da los resultados en la tabla de abajo.
TABLA 6.6. Tabla mostrando los resultados del programa Minitab. (Elaboración
propia).
6-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla 6.7. Diagrama mostrando los criterios que se siguen para pruebas de
hipótesis con la distribución F.
__________________________________________________________________
Prueba unilateral Prueba bilateral
Ho: σ21 = σ22 Ho: σ21 = σ22
Ha: σ21 < σ22 Ha: σ21 ≠ σ22
(o Ha: σ21 > σ22)
Prueba estadística: Prueba estadística:
F = s22/s21 F = Varianza muestral grande/varianza muestral pequeña
(o F = s21/s22 cuando Ha: σ21 > σ22) = s21/s22 cuando s21 > s22
(o s22/s21 cuando s22 > s21)
Región de rechazo: Región de rechazo:
Fcalc. > Ftab. Fcalc. > Fα/2 cuando s21 > s22
donde Ftab. está basada en ν1 = n2 -1 donde Fα/2 se basa en ν1 = n2 -1
y ν2 = n1 – 1 grados de libertad. y ν2 = n1 – 1 grados de libertad
(o Fcalc. > Ftab. donde Ha: σ21 > σ22 (o Fcalc. > Fα/2 cuando s21 > s22
donde Ftab. se basa en ν1 = n1 – 1 donde Fα/2 se basa ν1 = n1 – 1
y ν2 = n2 – 1 grados de libertad) y ν2 = n2 – 1 grados de libertad)
Fuente: McClave et al. (1982)
6-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
. Frecuencia relativa
Ejemplo #18. Este ejemplo está encaminado a encontrar los valores críticos usando
la distribución F. Siendo así, encontrar:
6-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
vemos que está entre 4.53 y 9.15 con sus valores respectivos de α = 0.50 y .010,
por lo tanto la probabilidad es .01 < p < .05. Ahora, para obtener un valor de p más
especifico se usa la fórmula de interpolación (5-30) :
(λ2 – λ1)/(F2 – F1) = (λ2 – X)/(F2 – Fcalc.)
Donde λ2 = valor porcentual más alto que el valor de Fcalc., λ1 = valor porcentual
más bajo que Fcalc., F2 = valor de la distribución F correspondiente a λ2, F1 = valor
de la distribución F correspondiente a λ1, X valor que se quiere interpolar y Fcalc. =
valor calculado.
Ahora con λ2 = 0.05, λ1 = 0.01, F2 = 4.53, F1 = 9.15 y Fcalc. = 5.70 y sustituyendo y
resolviendo por X da:
(0.05 – 0.01)/(4.53 – 9.15) = (0.05 – X)/(4.53 – 5.70)
X = p = 0.04
Ejemplo #20. Supóngase que un ingeniero ambiental saca dos muestras aleatorias
de dos sitios diferentes a lo largo de una corriente de agua y mide las
concentraciones de DBO5. Para la prueba de hipótesis el ingeniero quiere usar α =
.10. La primera muestra consiste de n1 = 25 concentraciones de DBO5, cuyo
promedio es de X 1 = 25 mg/L con una desviación estándar de s1 = 75 mg/L.
Similarmente, la segunda muestra consiste de n2 = 25, X 2 = 125 mg/L con s2 = 46.
Para esto, se tiene que hacer una decisión si se va a usar la distribución (6-7) de t
de Estudiante que requiere de varianzas iguales y/o la distribución (6-8) que no
requiere de varianzas iguales. Para resolver este problema hacer lo siguiente:
(a) Probar la hipótesis nula de que las varianzas de las dos muestras son iguales.
(b) Además, calcular el valor de p.
Solución:
1. Debido a que se quiere detectar una diferencia en las varianzas poblacionales,
6-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
tendremos que estimar, ya sea σ21 > σ22, o bien, σ22 > σ21.
2. Por lo tanto, la hipótesis alternativa es Ha:σ21 ≠ σ22.
3. La prueba es bilateral, es decir: Ho:σ21/σ22 = 1 y Ha:σ21/σ22.
4. La prueba estadística es:
F = varianza muestral grande/varianza muestra pequeña = s21/s22
5. Las suposiciones son de que las muestras tienen frecuencias relativas que son
aproximadamente normales. Además, se supone que las muestras son aleatorias e
independientes.
6. La decisión estadística se basará en comparar la región crítica de 1.98, con el
valor estadístico, esto es: Fcalc. > Ftab. = F.05;24,24 = 1.98
Donde ν1 = n1 – 1 = 24 y ν2 = n2 – 1 = 24 grados de libertad
7. Ahora se calcula la prueba estadística (6-18) y se sustituyen los valores:
F = s21/s22 = (76)2/(46)2 = 2.73
8. Debido a que, 2.73 > 1.98, por lo que se rechaza Ho: de varianzas iguales.
9. Usando α = .10 esto dice qué, solamente una vez en diez, esta prueba estadística
nos llevaría a concluir erróneamente que las varianzas σ21/σ22 fueran diferentes,
cuando de hecho fueran iguales.
10. Para calcular p se busca el valor de 2.73 en la tabla F con ν1 = 24 y ν2 = 24 y
está entre .100 y .050. Esto es: .050 < p < .100.
No obstante, si se deseara más precisión se puede usar la fórmula de interpolación
(5-30), con λ2 = .100, λ1 = .050, con F2 = 1.98, F1 = 2.41 y Fcalc. = 2.73
Sustituyendo todos los valores en (5-30) da: p = 0.013(2) = .02. (Nótese que aquí
se multiplica por 2 porque la prueba es bilateral).
6-44
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 6
6.1. Encontrar los valores críticos de t por los cuales el área del extremo derecho de la
distribución de t es de α = 0.05, y de α = 0.01, si:
(a) ν = 16 (t[α;ν] = t[.95;16] = 1.75, t[.99;16] = 2.583)
b) n = 28 (t[α;ν] = t[.95;16] = 1.70, t[.99;28] = 1.701
(c) ν = ∞ (t[α;ν] = t[.95;∞] = 2.33, t[99;∞] = 2.33)
6.2. Hacer el problema 6.1, pero bilateralmente.
6.3. Para mantener el control de la calidad industrial, un fabricante de sistemas de
control de partículas (ciclones), supone que la producción de estos sistemas para el
control de partículas < 10 micras, tienen un eficiencia promedio de 32%. Para probar
esta aseveración se tomó una muestra de 8 ciclones y se midieron las eficiencias de
cada uno para ese tamaño de partículas. Las eficiencias (%) fueron: 29.4, 30.8, 30.6,
31.5, 32.1, 31.7, 30.3, y 30.8%, respectivamente. Hacer las siguientes estimaciones:
(a) Establecer un intervalo de confianza para µ, con α = 0.05. (30.18 < µ < 31.62)
(b) Hacer una prueba de hipótesis bilateral al 95%. (t = -3.62)
(c) Calcular el valor de la probabilidad, p. (0.009)
6.4. En una prueba para medir la acumulación de plomo atmosférico (Pb) en la
sangre, se realizó un experimento con 15 voluntarios. La prueba consistió en exponer
los sujetos en un sitio aledaño a una planta de fundición de metales y de exaltar el
metabolismo, esto es, corriendo. Después de que los sujetos terminaron de correr, se
les sacó sangre y se medió la concentración de Pb, es decir, antes de correr y después
de correr. Para esto usar la estadística de t más apropiada para resolver este problema
y sacar las conclusiones apropiadas. La tabla de abajo muestra la información
requerida para este experimento.
Tabla mostrando los datos del problema. (Elaboración propia)
6-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
___________________________________________________________________
No. sujeto Concentración de Pb antes de correr Concentración de Pb después de correr
1 2.76 7.02
2 5.18 3.10
3 2.68 5.44
4 3.05 3.99
5 4.10 5.21
6 7.05 10.26
7 6.60 13.91
8 4.79 18.53
9 7.39 7.91
10 7.30 4.85
11 11.78 11.10
12 3.90 3.74
13 26.00 94.03
14 67.48 94.03
15 17.04 41.70
__________________________________________________________________
6.5. En una prueba para diseñar un equipo de control para partículas emitidas por una
fuente industrial, se hicieron dos pruebas para saber cual de los dos sistemas de
control eran más eficientes. La primera prueba consistió en instalar un filtro de vidrio
(baghouse). La otra prueba consistió en agregar al sistema de control del baghouse, un
ciclón. Probar la hipótesis, al 95% de nivel de confianza de qué, con el equipo
adicional, no hubo diferencia en las reducciones de contaminantes. Calcular el valor
de la probabilidad, p. La tabla de abajo muestra los resultados de los dos equipos de
control. Asúmase que el muestreo de selección fue completamente al azar, sin
emparejamiento y asumir que las poblaciones son normales. (t = 3.54, p = 0.028)
6-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6.6. Para saber si una droga experimental puede curar los síntomas de la leucemia
6-47
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6.7. En un estudio de ingeniería del agua de análisis de oxígeno disuelto (OD) varios
laboratorios se avocaron a hacer estos análisis usando el método de Winkler (MW)
(titulación) y el método de electrodos (ME). Usar una t estadística de muestras
pareadas y probar que no hay diferencias entre los dos métodos. Usar α = .05.
Calcular el valor de p. Los datos se dan en la tabla de abajo. La tabla de abajo muestra
los datos de oxígeno disuelto (OD) de varios laboratorios usando el método de
Winkler y el método de electrodos. Las concentraciones del oxígeno disuelto (OD), se
expresan en mg/L son en mg/L. Sugerencia: Usar el programa de computadora
Minitab o Excel. (t = -2.49, p = .01)
6-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Método de | 1.2 1.4 1.4 1.3 1.2 1.3 1.4 2.0 1.9 1.1 1.8 1.0 1.1 1.4
Winkler
Método de | 1.6 1.4 1.9 2.3 1.7 1.3 2.2 1.4 1.3 1.7 1.9 1.8 1.8 1.8
Electrodos
_______________________________________
Mes 1 2 3 4 5 6
___________________________________________________________________
Antes de instalar el equipo 18 26 43 17 29 30
Después de instalar el equipo 15 20 31 17 25 27
___________________________________________________________________
6-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-52
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
completar la tabla de abajo y comparar los resultados de las dos pruebas de hipótesis.
¿Son los resultados de la t de estudiante y de la probabilidad p, iguales o diferentes?
Tabla mostrando las temperaturas. (Elaboración propia).
Temperaturas oC | 47 55 68 55 51 50 49 45 53 47 48 51
___________________________________________________________________
Temperaturas oF |
___________________________________________________________________
6.18. Encontrar los valores críticos de χ2, por los cuales el área de la cola derecha
de la distribución es de 0.05 (χ2.95), si los grados de libertad son de:
(a) ν = 15
(b) ν 21
(c) ν = 50.
6.19. Para este problema, se dan los siguientes datos obtenidos de una muestra de
concentraciones (en mg/L) de nitratos (NO3-) tomados del efluente de una planta de
tratamiento de aguas residuales industriales. Construir un intervalo de confianza
para el verdadero valor de la varianza, es decir, la varianza poblacional σ2, usando
un nivel significante de α = 0.01. (0.21 < σ2 < 1.31)
6-53
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6.23. El libro Elementary Statistics del auto Mario Triola (1995) da un ejemplo de
un radiador de un auto que contiene 3785 mL de anticongelante. Asumiendo que
las fluctuaciones son inevitables, el manejador de control de calidad quiere estar
seguro de que la desviación estándar sea menos que 30 mL. De otra manera,
algunos radiadores se derramarían, mientras que otros, que no tendrían suficiente
anticongelante, no. Para esto se selecciona una muestra aleatoria cuyos resultados
se dan abajo. Usar estos datos para construir un intervalo de confianza del 99%
para el verdadero valor de σ2. ¿Sugiere este intervalo de confianza que las
fluctuaciones están en un nivel aceptable? Asúmase que las distribuciones de los
llenados de los radiadores con el anticongelante están normalmente distribuidas.
6-54
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
6-55
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 7
Análisis de Varianza
Diseños de análisis de varianza completamente aleatorizados.- Método de
comparaciones múltiples para saber cuales poblaciones son iguales y cuales
son desiguales.- Análisis de varianza de diseño de bloques aleatorizados.-
Suposiciones del modelo de bloques aleatorios completos.- Análisis de
varianza en dos sentidos.- Interacción con ANOVA de dos factores.- Análisis
de varianza de tres sentidos: diseño completamente aleatorio.- Interacción con
ANOVA de diseños factoriales de tres clasificaciones.- Ejemplos de análisis de
varianza usando el programa Minitab.-
El método para comparar varios promedios se llama análisis de varianza o
simplemente ANOVA. En su más simple forma, el análisis de varianza compara
varios tratamientos para determinar la igualdad de los promedios. En contraste con
la prueba de t de estudiante, que estudia la igualdad de dos poblaciones (Ho: µ1 =
µ2), el análisis de varianza estudia más de 2 distribuciones, y usa la estadística F.
Específicamente, el modelo ANOVA simple estudia las igualdades de más de 2
promedios, esto significa que estudia los efectos de más de dos "tratamientos," es
decir, de la hipótesis nula Ho: µ1 = µ2 = µ3 = ..... = µn, esto es, de que las varianzas
de los promedios son igual a cero (σ2µ = 0). A pesar de que este análisis de varianza
estudia los promedios, analiza, de hecho, la varianza de las poblaciones.
Las propiedades y suposiciones en el análisis de varianza (ANOVA) son:
7-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
aditivos. Por ejemplo, para ilustrar esta situación, si se grafican los promedios
poblacionales versus tratamientos, digamos de bloque 1 y 2 y, si las gráficas son
paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no
interactúan. Sin embargo, si las líneas se cruzan entre si, se dice que hay
interaccion o no aditividad.
El formato de la tabla de ANOVA de un sentido completamente aleatorizado
se da abajo. La TABLA 7.1 da una descripción de todos los componentes de
clasificaciones unilaterales o de diseños completamente aleatorizados.
TABLA 7.1. Análisis de varianza de un sentido de diseños completamente
aleatorizados.
Fuente de la Suma de (SS) Grados de Cuadrado (MSa) Fcalc. Ftab. Valor
variación los cuadrados libertad medio de p
Tratamientos SSa a–1 MSa = SSa/(a – 1) F1 = MSa/s2 F[1-α;a-1,a(n-1)]
Error SSe a(n – 1) s2e = SSe/[a(n – 1)]
Total SSt an – 1
Donde:
a
SSa = n Σ ( y i. - y .. )2 (7-1)
i=1
a n
SSe = Σ Σ (yij – y i.)2 = SSt – SSa (7-2)
i=1 j=1
a n
SSt = Σ Σ (yij – y ..)2 (7-3)
i=1 j=1
a = número de tratamientos
n = tamaño de la muestra
7-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Para denotar los simbolismos usados en la TABLA 7.1, estos se dan en la tabla de
abajo.
TABLA 7.2. Tabla mostrando los simbolismos usados en la TABLA 7.1. (Walpole
et al. 1999)
Tratamiento: 1 2 …… i …… k
y11 y11 …… yi1 …… yk1
y12 y22 …… yi2 …… yk2
. . …… . …… .
. . . .
y1n y2n …. yin ….. ykn
Promedio y 1. y 2. …. y i. …. y k. y ..
promedios
Ti. = Total de todos los promedios
Ejemplo #1. Este es un ejemplo relacionado con el uso de ANOVA unilateral o de
diseño completamente aleatorizado. Para esto se coleccionaron las concentraciones
atmosféricas de SO2 (en ppm) provenientes de 5 muestreadores localizados a
diferentes distancias (aleatoriamente asignadas), de una fuente industrial emisora.
Probar la hipótesis nula de que las 5 poblaciones de SO2 son iguales, es decir, Ho:
µ1 = µ2 = µ3 = µ4 = µ5. Calcular el valor de p. Los datos se dan en la tabla de abajo.
Usar un paquete de computadora para procesar los datos.
7-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Si se usa el programa Excel irse a: ANOVA → Single factor.
Usando este programa, los resultados se dan abajo:
TABLA 7.4. Tabla mostrando los resultados de este problem usando el programa
de Excel.
ANOVA: Un solo factor
RESUMEN
Grupos Conteo Suma Promedio Varianza
Columna 1 4 2030 507.5 291.6667
Columna 2 4 2110 527.5 491.6667
Columna 3 4 2498 624.5 401
Columna 4 4 2866 716.5 235.6667
Columna 5 4 3590 897.5 291.6667
Tabla de ANOVA
Fuente de
Variación SS gl MS Fcalc. Valor-p Fcrit.
Entre los grupos 406123.2 4 101530.8 296.5846 4.4E-14 3.055568
Dentro de los
grupos 5135 15 342.3333
Total 411258.2 19
7-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Source DF SS MS F P
Factor 4 406123 101531 296.58 0.000
Error 15 5135 342
Total 19 411258
Nótese que cada uno de estos paquetes de computadora tiene sus ventajas y
desventajas. De cualquier manera, al juzgar por el valor de F = 296.58 >>>> Fcrítica
= 3.06, la hipótesis nula de igualdad de poblaciones de SO2 se rechaza de una
manera mucho muy significante. Esta decisión es contundentemente apoyada por
el valor tan pequeño de p = 4.4x10-14.
Ejemplo #2. Se da la siguiente información en la tabla de abajo relacionada con
cierto estudio ecológico. Asúmase un diseño completamente aleatorizado. Sacar las
conclusiones adecuadas.
TABLA 7.6. Tabla mostrando los datos del problema. (Elaboración propia)
6
Tratamiento Observaciones ∑ yij y i.
J=1
1 99 40 61 72 76 84 432 72
2 96 84 82 104 99 105 570 95
3 63 57 81 59 64 72 396 66
4 79 92 91 87 78 71 498 83
Solución:
7-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla de ANOVA
Fuente de
Variacion SS gl MS Fcalc. Valor-p Fcrit.
Entre los Grupos 2940 3 980 5.99022 0.004387 3.098391
Dentro de los
grupos 3272 20 163.6
Total 6212 23
7-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
siguientes cálculos:
Solución:
(a) Las suposiciones implicadas por el modelo de análisis de varianza de una sola
clasificación son:
1. Las cuatro poblaciones de los nitratos están normalmente distribuidas.
2. Las varianzas de las cuatro poblaciones de nitratos son iguales.
3. Las 24 observaciones (análisis) son independientes, es decir, que las muestras
fueron seleccionadas aleatoriamente.
(b) Usando el programa Minitab irse a:
Stat → ANOVA → One way (unstacked) da los iguientes resultados mostrados en
la Tabla 7.9.
7-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 7.9. Tabla de ANOVA para los resultados de ejemplo de arriba usando el
Minitab. (Elaboración propia)
One-way ANOVA: Tratamiento 1, Tratamiento 2, Tratamiento 3, Tratamiento 4
Source DF SS MS F P
Factor 3 2940 980 5.99 0.004
Error 20 3272 164
Total 23 6212
Por otra parte, un método corto para hacer análisis de varianza de un sentido, es
decir, manualmente, se da usando el formato de la tabla de abajo.
TABLA 7.10. Tabla de análisis de varianza (ANOVA) para una clasificación, con
muestras de tamaños iguales usando el método abreviado. (Elaboración propia).
Debido al SSa = ∑T2/n – G2/an a–1 MSa = SSa/(a-1) MSa/s2e F[1-α;a-1,a(n-1)] Estimado
tratamiento
Residuo SSr = ∑X2 - ∑ T2/n a(n-1) s2e = SSr/a(n-1)
Donde:
T2 = cuadrado de los totales
g.l. = ν = grados de libertad
n = tamaño de la muestra
G = gran total
a = número de muestras
7-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #4. La tabla de abajo muestra los datos de los análisis de demanda
química de oxígeno (DQO) hechos por 3 laboratorios diferentes. Se tomaron 3
muestras de 5 observaciones cada una. Asumir que las 3 muestras vienen de
poblaciones normales aleatorias y que tienen la misma varianza. Asumir un nivel
de significancia de α = 0.05. Hacer lo siguiente:
(a) Una tabla con un análisis de varianza para el DQO.
(b) Establecer la región crítica.
(c) Probar la hipótesis nula de Ho: µ1 = µ2 = µ3, o sea que σ2µ = 0, es decir, que los
promedios de las tres poblaciones de DQO son iguales. Además, establecer la
hipótesis alternativa apropiada.
(d) Si se rechaza Ho: calcular el valor de la probabilidad p.
Se da la tabla de abajo con algunos cálculos preliminares:
TABLA 7.11. Tabla mostrando los cálculos preliminares. (Elaboración propia)
Número de muestra (1) (2) (3) Combinación
Observación 3 9 1
7 12 2
7 11 6
6 8 4
2 5 7
__________________________________________________________________
Totales 25 45 20 G = 90
Promedio X 5 9 4 X =6
Solución:
Usando las estadísticas de la TABLA 7.10, los cálculos son:
7-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Usando un programa de computadora como EXCEL da los siguientes resultados.
(a) La tabla de abajo muestra los resultados obtenidos usando el paquete de
computadora.
TABLA 7.13. Resultados usando análisis de varianza de un solo factor.
Análisis de varianza de un solo factor
Resumen
Grupos Conteo Suma Promedios Varianzas
Agregado 1 6 3320 553.3333 12133.87
Agregado 2 6 3416 569.3333 2302.667
Agregado 3 6 3663 610.5 3593.5
Agregado 4 6 2791 465.1667 3318.567
Agregado 5 6 3664 610.6667 3455.467
ANOVA
Fuente de Variación SS gl MS F calc. Valor-p F crit.
Entre los grupos 85356.47 4 21339.12 4.301536 0.008752 2.75871
Dentro de los grupos 124020.3 25 4960.813
Total 209376.8 29
7-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
dos factores, en el sentido de que se usa I para representar el número de niveles del
primer factor A y J para representar el número de niveles del segundo factor B
(bloques). Siendo así, hay IJ posibles combinaciones que constan de un nivel de
factor A y otro de factor B. Cada una de estas combinaciones se llama tratamiento,
por lo que hay IJ diferentes tratamientos. Aquí, en el diseño de bloques, el número
de observaciones hechas en el tratamiento IJ se representan con Kij = 1, el cual es
un caso especial del diseño de bloques aleatorizados, donde un solo factor A es de
interés principal, y el otro factor (B) bloques es incluido para reducir el error
experimental. En la siguiente discusión de ANOVA de dos factores, nos
centraremos en el caso de Kij = K > 1, para diferenciarlo del diseño de bloques
aleatorios con Kij = 1.
De cualquier manera, el término “bloque” se deriva de diseños
experimentales agrícolas, en los cuales las parcelas de tierras de cultivos se refieren
como “bloques”. Por ejemplo, en el caso del diseño de bloques aleatorios, los
tratamientos se asignan aleatoriamente a unidades dentro de cada bloque con
características de suelos semejantes. De no ser así, las parcelas a las que se le
aplica fertilizante, no todas pudieran tener el mismo tipo de tierra, nutrientes o
humedad, (lo que puediera causar variaciones en los rendimientos agrícolas). Al
agrupar las parcelas por características similares de suelos, minerales, nutrientes,
humedad, etc., el error experimental se reduce.
Otro ejemplo, es el relacionado con experimentos médicos. Por ejemplo, si
los tratamientos son 3 drogas y hay 24 pacientes, usando el diseño completamente
aleatorizado, 8 pacientes son asignados aleatoriamente a cada uno de los
tratamientos. Pero puede ocurrir que el historial clínico de los 24 pacientes no sea
el mismo, lo cual puede afectar su comportamiento a las drogas (lo que puede
7-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
causar un error o residual grande). Sin embargo, agrupando los pacientes por
historiales clínicos similares, edades, sexo, pesos, fumadores, tomadores,
orientaciones sexuales, etc., se controla esta variación.
En el caso de la ingeniería ambiental, usando modelos de contaminación
atmosférica, se esperaría que las concentraciones de los contaminantes
disminuyeran en función de la distancia (siempre y cuando las alturas de los
muestreadores fueran iguales, las condiciones metereológicas fueran uniformes y
el tipo terreno por donde está pasando la pluma fuera similar). Al controlar estos
factores, las concentraciones de los contaminantes disminuyen exponencialmente,
en función de la distancia de la fuente emisora, sin producir mucha variación.
La tabla de abajo da el ANOVA para el diseño de bloques completos.
TABLA 7. 14. ANOVA de un diseño aleatorizado por bloques completos.
Fuente de Suma de los Grados de Cuadrado Fcalc. Ftab. Valor de
variación cuadrados libertad medio p
Debido a los SSa a–1 MSa = SSa/(a – 1) MSa/s21 F[1-α;a-1,(a-1)(b-1)] Calculada
tratamientos
Debido a los SSb b–1 MSb = SSb/(b – 1) MSb/s22 F[1-α;b-1,(a-1)(b-1)]
bloques
Residual (Error) SSe (a – 1)(b – 1) MSe = SSe/[(a – 1)(b - 1)]
Total SSt ab – 1
____________________________________________________________________________________
Donde:
a
SSa = b Σ ( y i. – y .. )2 Suma de cuadrados de tratamientos (7-7)
i=1
b
SSb = a Σ ( y .j – y .. )2 Suma de cuadrados de bloques (7-8)
J=1
7-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
a b
SSe = Σ Σ (yij – y i. – y .j + y .. )2 Suma de cuadrados del error (7-9)
i=1 j=1
a b
SSt = Σ Σ (yij – y ..)2 Suma total de los cuadrados (7-10)
i=1 j=1
Donde:
y i. = promedio de las observaciones para el i-ésimo tratamiento
7-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
7-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla de ANOVA
Fuente de variación SS gl MS Fcalc. Valor de p Fcrítica
Maquinaria 280.26 3 93.42 54.93499 .00000414 3.862548
Operadores 951.115 3 317.0383 186.4322 .00000002 3.862548
Error 15.305 9 1.700556
Total 1246.68 15
7-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Conclusión:
Con respecto a la maquinaria, debido a que el valor de la Fcalc. = 54.9 >>> Fcrítica se
rechaza Ho: Esta decisión es mucho muy significativa, al juzgar por el valor de p =
.000004. Las máquinas sí difieren muy significantemente, con respecto a la
productividad. Con respecto a los operadores, debido a que el valor de Fcalc. = 186.4
>>>> Fcrítica se rechaza Ho: Esta decisión es mucho, mucho muy significante al
juzgar por el valor de p = 2x10-8. Los operadores sí difieren muy
significantemente, con respecto a la productividad de tiempo. Esto es apoyado,
muy contundentemente, por el valor tan bajo de la probabilidad p.
Ejemplo #7. Este es un ejemplo relacionado con un experimento de bloques
aleatorios completos para determinar los efectos corrosivos de cuatro sustancias
químicas diferentes, v.g., HCl, H2SO4, HNO3 y HF. Es decir, ácidos gaseosos que
entran en el flujo de aire (flujo transportador que entra al equipo de control, el cual
se genera de un procesamiento industrial), que pasan por los filtros, es decir, en las
telas usadas en los filtros o baghouses (hechas de fibra de vidrio, asbestos, dacron,
nilón, polietileno), para controlar la contaminación del aire. Para tales fines se
seleccionan cinco muestras de telas y se aplica un diseño aleatorio por bloques
completos, por medio de probar cada sustancia química, en un orden aleatorio,
sobre cada una de las muestras de las telas. Sacar las conclusiones debidas. Los
datos se dan en la tabla de abajo. Hacer lo siguiente:
(a) Probar la hipótesis nula de igualdad de promedios
(b) Hacer una tabla de análisis de varianza de diseño aleatorizado por bloques
completos. Sacar las conclusiones apropiadas
7-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla de ANOVA
Valor de
Fuente de variación SS gl MS Fcalc. p Fcritica
Debido a los ácidos 13.7095 3 4.569833 48.18805 5.75E-07 3.490295
Debido a las telas 5.738 4 1.4345 15.12654 0.000123 3.259167
Error 1.138 12 0.094833
Total 20.5855 19
Debido a que el valor de la Fcalc. = 48.19 > F0.05,3,12 = 3.49 se rechaza la hipótesis
7-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
cual consistiría en usar seis tratamientos formados por medio de usar cada tipo de
semilla con cada nivel de fertilizante.
Otro ejemplo, de ANOVA de dos factores está relacionado con la medición
de las concentraciones de contaminates del aire emitidos por una fuente industrial.
Aquí para un factor se pueden seleccionar diferentes niveles distancias de la fuente
emisora y, para el otro factor, se pueden seleccionar diferentes alturas donde están
situados los muestreadotes (porque la altura afecta las concentraciones).
Interacción con ANOVA de dos factores
Cuando se estudian experimentos factoriales es importante determinar si los
factores principales tienen una influencia en la respuesta, sino también analizar lo
que se llama interacción (no aditividad) entre los factores. El texto de Dunn et al.
(1974) aplica un experimento de dos clasificaciones, para explicar el concepto de
la interacción. Por ejemplo, en la Figura 7.2, en un experimento que involucra tres
niveles de agua y tres niveles de fertilizante, las líneas son paralelas, lo que indica
que no hay interacción, o sea que hay independencia en los datos. Sin embargo, en
la Figura 7.3 se observa qué, en ambas gráficas hay una respuesta promedio con
interacción, es decir, que hay dependencia. Por ejemplo, en la primera gráfica un
nivel alto de fertilizante interacciona positivamente con un nivel alto de agua;
mientras que en la segunda gráfica niveles altos de agua y fertilizante resultan en
una respuesta baja, en comparación con la respuesta a niveles bajos y medianos de
agua. En términos simples, se dice que hay interacción entre dos factores (digamos
A y B), si el cambio en uno de los factores (digamos factor B) produce un cambio
en respuesta a un nivel (digamos nivel 1) del otro factor (digamos A) diferente de
aquél producido en los otros niveles (digamos nivel 2) de este segundo factor A,
donde un nivel es uno de los tratamientos dentro de un factor.
7-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 7.2. Gráfica indicando una respuesta promedio sin interacción (aditividad),
o sea que hay independencia en los datos. (Dunn et al. 1974).
Figura 7.3. Gráficas indicando una respuesta promedio con interacción (no
aditividad) o sea que hay dependencia entre los datos. (Dunn et al. 1974).
Cuando ocurre una interacción en algún experimento es importante
investigar porque ocurrió. Por ejemplo, cuando se establece la tabla de análisis de
varianza, se estudian los comportamientos de los efectos principales y también, la
posible interacción entre los dos factores bajo estudio. En términos estadísticos, si
la F calculada es mayor que la F crítica eso indica que los factores están
7-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
La TABLA 7.19 de abajo muestra el formato que se sigue para los análisis de
varianza en dos sentidos.
TABLA 7. 19. Tabla de análisis de varianza en dos sentidos. (Elaboración propia)
Fuente de SS g.l. MS Fcalc. Ftab.
variación
Efecto principal
Interacción de
dos factores
Donde:
a
Σ ( y i.. - y …)2
SSa = bn i=1 (7-11)
b
Σ ( y .j. - y ... )2
SSb = an J=1 (7-12)
a b
SSab = n i=1 Σ ( y ij. - y i.. - y .j. + y …)2
Σ j=1 (7-13)
a b n
SSe = i=1
Σ Σ Σ (yijk - y ij.)2
j=1 k=1
(7-14)
a b n
SSt = i=1
Σ Σ Σ (yijk – y …)2
j=1 k=1
(7-15)
7-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
yijk = k-ésima observación en el i-ésimo nivel del factor A y el nivel j-ésimo nivel
del factor B
a = número de muestras del primer factor
b = número de muestras del segundo factor
n = número total de casos
Y donde:
7-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 7.21. Producción de cebada en fanegas por acre. (Dunn et al. 1974)
Nivel de fertilizante
Tipo de semilla Bajo Mediano Alto
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
y 11. = 13.475 y 12. = 17.600 y 13. = 18.225 y 1.. = 16.433
----------------------------------------------------------------------------------------------------
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6
y 21. = 11.725 y 22. = 10.175 y 23. = 16.625 y 2.. = 12.842
Con a = 2, b = 3 y n = 4
2
SSa = bn Σ ( y i.. - y …)2 = (3)(4)[16.443 - 14.638)2 + (12.842 - 14.638)2]
i=1
+ (17.43 - 14.638)2 ]
7-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
a b n
SSe = i=1
Σ Σ Σ (yijk - y ij.)2
j=1 k=1
Ahora, se sustituyen todos los cálculos hechos manualmente, para obtener la tabla
de debajo de dos clasificaciones cruzadas o de doble sentido.
TABLA 7.22. Tabla de análisis de varianza para el experimento agrícola de dos
tipos de semillas con tres niveles diferentes de fertilizantes. (Dunn et al. 1974)
En conclusión, debido a que la Fcalc. es mucho mayor que la Ftab., es decir, 64.8 >>
4.41 se rechaza la hipótesis de que no hay diferencia entre las semillas, y nos
inclinamos por la hipótesis alternativa, es decir, H1:µ1 ≠ µ2 ≠ µ3 ≠ µ4. Esta
7-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
a
SSa = bcn Σ ( y i... – y ....)2 (7-18)
i=1
b
SSb = acn Σ ( y .j.. – y ….)2 (7-19)
j=1
c
SSc = abn Σ ( y ..k. – y ....)2 (7-20)
k=1
a b
SSab = cn Σ Σ ( y ij.. – y i… - y .j.. + y ….)2 (7-21)
i=1 j=1
a c
SSac = bn Σ Σ ( y i.k. – y i… - y ..k. + y ….)2 (7-22)
i=1 k=1
b c
SSbc = an Σ Σ ( y .jk. – y .j.. – y ..k. + y ….)2 (7-23)
j=1 k=1
a b c
SSabc = n Σ Σ Σ ( y ijk. – y ij.. – y i.k. – y .jk. + y i… + y .j.. + y ..k. – y ….)2 (7-24)
i=1 j=1 k=1
a b c n
SSe = Σ Σ Σ Σ (yijkl – y ijk.) (7-25)
i=1 j=1 k=1 l=1
a b c n
SSt = Σ Σ Σ Σ (yijkl – y ....) (7-26)
i=1 j=1 k=1 l=1
7-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
y ij.. = promedio de los casos para el i-ésimo nivel del factor A y el j-ésimo nivel del
factor B
yijkl = denota la l-ésima observación de la combinación del tratamiento ijk-ésimo
Los investigadores estadísticos Dunn et al. (1974) proporcionan el modelo
para el análisis de varianza en tres sentidos, esto es:
yijkl = µ + αi + βj + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk + εijkl (7-27)
Donde:
µ = promedio total de los tres tratamientos abc
αi = efecto promedio del nivel i-ésimo del factor A
βj = efecto promedio del nivel j-ésimo del factor B
γk = efecto promedio del nivel k-ésimo del factor C
(αβ)ij = interacción de los factores A y B, es decir, del nivel i-ésimo del factor A con
el nivel j-ésimo del factor B
(αγ)ik = interacción de los factores A y C, es decir, del nivel i-ésimo del factor A
con el nivel k-ésimo del factor C
(βγ)jk = interacción de los factores B y C, es decir, del nivel j-ésimo del factor B
con el nivel k-ésimo del factor C
(αβγ)ijk = interacción de los factores A, B y C, es decir, las interacciones entre el
nivel i-ésimo del factor A con el nivel j-ésimo del factor B y con el nivel k-ésimo
del factor C
Interacción con ANOVA de diseños factoriales de tres clasificaciones
En cuanto al impacto de interacciones, cuando se diseñan análisis de varianza en
tres sentidos, es importante estar consciente de esta situación, porque la interaccion
puede impactar la interpretación que se hace con respecto a los efectos principales.
7-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
interacción, tal vez los tipos de suelos de las parcelas no tienen las mismas
características, es decir, de humedad, de tipos de suelos, tipos de temperaturas,
tipos de nutrientes, etc., en cuyo caso hay que remitirnos a los diseños de bloques
completamente aleatorizados.
Ejemplo #10. En un estudio hipotético de difusión atmosférica, es decir, usando un
modelo de difusión atmosférica, se hicieron mediciones en cuatro distancias
diferentes a lo largo de la pluma (500, 1000, 1200 y 1500 metros), en dos alturas
diferentes, (500 y 800 metros), con cuatro marcas diferentes de sensores, y con
tamaños de muestras de 3 observaciones para cada una de las combinaciones de
niveles de los tres factores. Para esto se da una avanzada de los valores en la
siguiente forma: Suma de los cuadrados del factor A = SSa = 1.50, suma de los
cuadrados del factor B = SSb = 19.35, suma de los cuadrados del factor C = SSc =
147.00, suma de los cuadrados de la interacción de factores A y B = SSab = 0.006,
suma de los cuadrados de la interacción de factores A y C = SSac = 4.83, suma de
los cuadrados de la interaccion de B y C = SSbc = 2.64, suma de los cuadrados de la
interacción de los factores A, B y C = SSabc = 0.75, suma total de los cuadrados =
SSt = 183.70. Asumir un nivel de significancia de 0.05. Probar las hipótesis de los
efectos principales, sólo si todas las interacciones no son significativas. Hacer lo
siguiente:
(a) Asignar los simbolismos apropiados para cada uno de los componentes de la
fuente de variación
(b) Hacer una tabla de análisis de varianza que incluya la F crítica y los valores de
p
(c) Hacer pruebas de significancia sobre los efectos principales
(d) Hacer una prueba de significancia sobre todas las interacciones.
7-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
(a) La distancia de los muestreadores situados a lo largo de la pluma, es decir,
viento abajo, es el factor A con i = 4. Las alturas a las que están situado los
muestreadores es el factor B con j = 2. Finalmente, los muestreadores son el factor
C con k = 4. El número de casos es n = 3. Por lo tanto el número de
combinaciones es 4x2x4 = 32 y el número total de observaciones es 32x3 = 96.
(b) La tabla de análisis de varianza se da abajo.
TABLA 7.24. Tabla mostrando los datos y el llenado de los faltantes en la tabla, de
acuerdo a los datos proporcionados por el problema. (Elaboración propia).
Fuente de SS g.l. Cuadrado del Fcalc. Ftab. Valor p
Variación promedio
__________________________________________________________________
Efectos principales
Debido a A 1.50 3 .50 4.17 2.76 .009
Debido a B 19.40 1 19.40 161.17 3.94 p <<< .001
Debido a C 147.00 3 49.00 408.33 2.76 p <<< .001
Interacción de dos factores
Debido a AB 0.006 3 0.002 0.02 2.76 p > .100
Debido a AC 4.83 9 0.54 4.50 1.97 p < .001
Debido a BC 2.64 3 0.88 7.33 2.76 p < .001
Interacción de tres factores
Debido a ABC 0.75 9 0.08 0.67 1.97 p > .100*
Error 7.59 64 0.12
Total 183.72 95
__________________________________________________________________
7-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(c) Conclusión: los efectos principales son significantes sustentados con valores de
p muy pequeños de .009 y p <<< .001. Al juzgar por estos valores de p, existen
efectos principales muy fuertes de distancia, altura y sensores. Por otro lado,
debido a que F7 = MSabc/s27 = 0.67 < F7[0.05;9,64] = 1.97, las interacciones entre los
factores distancia, altura y sensores no son de importancia. Sin embargo, las
interacciones AC y BC son variables importantes del experimento.
En el tópico de análisis de varianza, también hay lo que se llama diseños
factoriales con todos los factores a dos niveles. Aquí se incluyen tópicos como
combinaciones ortogonales lineales, diseños de replicaciones fraccionales, diseños
anidados o jerárquicos, cuadrados latinos, etc. Estas funciones, sin embargo, no se
discutiran aquí.
El análisis de varianza, también se puede aplicar a problemas de regresión
lineal y múltiple para evaluar la significancia total de la ecuación de regresión, es
decir, probando la hipótesis nula de que todos los coeficientes poblacionales del
modelo de regresión son iguales a cero. Este tema, sin embargo, se discute en el
capítulo dedicado a regresión múltiple.
Ejemplo #11. Este es un problema relacionado con un experimento factorial con
dos factores de efectos fijos (A y B) y con tamaños de muestras iguales. Por
ejemplo, el factor A tiene a niveles, mientras que el factor B tiene b niveles. Este
experimento está relacionado con un estudio de difusión atmosférica para medir las
concentraciones del contaminante del aire SO2 provenientes de una fuente emisora
industrial. Para tales fines se situaron dos sensores, al azar a cuatro diferentes
distancias viento abajo de la chimenea industrial, es decir, a 500, 1000, 1500 y
2000 metros y a dos alturas diferentes, es decir, a 100 y 200 metros. Usar un
7-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
paquete de computadora, para tales fines. La tabla de abajo proporciona los datos
pertinentes. Usar un nivel de significancia de α = 0.05 y hacer lo siguiente:
(a) Construir una tabla de análisis de varianza fijo en dos clasificaciones
(b) Analizar los efectos principales de la distancia y la altura
(c) Analizar el efecto de interacción y dar explicaciones al respecto
(d) Hacer un análisis residual para evaluar lo apropiado del modelo de ANOVA
(e) Hacer estudios objetivistas de estadística para evaluar la fidelidad del modelo
de ANOVA
TABLA 7.26. Tabla mostrando las concentraciones de SO2 (en ppm) en función de
cuatro distancias viento abajo de la chimenea y de las alturas de los sensores.
(Elaboración propia)
Distancias viento abajo de la fuente emisora
__________________________________________________
Alturas de los sensores 500 m 1000 m 1500 m 2000 m
_________↓______________________________________________________________
100 m 500 300 180 90
510 305 185 91
495 320 179 89
499 299 190 88
7-44
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Usando el programa Minitab se procede a diseñar la matriz o la entrada de los
datos mostrada en la tabla de abajo.
TABLA 7.26. Tabla mostrando la matriz o disposición ordenada de los datos en la
página del Minitab para la información de este problema.
_____________________________________________________________
Concentración de SO2 (ppm) Distancias (m) Alturas (m)
(Columna C1) (Columna C2) (Columna C3)
_____________________________________________________________
500 500 m 100 m
510 500 m 100 m
495 500 m 100 m
499 500 m 100 m
300 1000 m 100 m
305 1000 m 100 m
320 1000 m 100 m
299 1000 m 100 m
180 1500 m 100 m
185 1500 m 100 m
179 1500 m 100 m
190 1500 m 100 m
90 2000 m 100 m
91 2000 m 100 m
89 2000 m 100 m
88 2000 m 100 m
450 500 m 200 m
449 500 m 200 m
438 500 m 200 m
455 500 m 200 m
290 1000 m 200 m
270 1000 m 200 m
260 1000 m 200 m
275 1000 m 200 m
170 1500 m 200 m
160 1500 m 200 m
155 1500 m 200 m
165 1500 m 200 m
70 2000 m 200 m
70 2000 m 200 m
69 2000 m 200 m
68 2000 m 200 m
7-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Después de ingresar los datos de arriba a la página del Minitab procede como:
Stat → ANOVA → Two-Way…
En la ventana que aparece de “Two-Way Análisis of Variance” y dentro de la
ventanilla de “Response” poner, en la columna C1, todos los valores de la variable
de respuesta, es decir, en este caso, las concentraciones de SO2. Enseguida, en la
ventanilla de “Row factor” del factor A (renglones), poner los valores de las
distancias y meter en la ventanilla de “Column factor” la información del factor B
(columnas), es decir, las alturas. Esta información se da en la Tabla 7.26.
Una vez que se introducen todos los términos siguiendo las instrucciones
anteriores, irse a: Stat → ANOVA → Two-Way…, y el programa generará la tabla
de debajo de ANOVA correspondiente a la pregunta del inciso (a).
TABLA 7.27. Tabla mostrando los resultados de ANOVA dados por el Minitab.
(Elaboración propia)
Two-way ANOVA: Conc. SO2 (ppm) versus Distancias (m), Alturas (m)
Source DF SS MS F P Ftab.
Distancias (m) 3 695696 231899 4501.07 0.000 3.01
Alturas (m) 1 8001 8001 155.30 0.000 4.26
Interacción 3 1399 466 9.05 0.000 3.01
Error 24 1237 52
Total 31 706333
__________________________________________________________________
s = 7.178 R-Sq = 99.82% R-Sq(adj) = 99.77%
(b) De acuerdo a la tabla de ANOVA de arriba, los efectos principales del factor A
(distancias) y el factor B (alturas) son mucho muy significantes.
7-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(c) Existe una interacción significante entre los factores A (distancia) y B (alturas).
La interacción en este caso, pudo ocurrir por mera casualidad o tal vez pudo
deberse a algún problema en los datos, es decir, en términos de causa y efecto.
Físicamente hablando, algún factor que no se pudo controlar pudo ocasionar la
interacción entre los dos factores. Por ejemplo, pudo ocurrir algún mal
funcionamiento de los sensores, que no midieron bien las concentraciones de SO2
en un momento dado. Otras razones pudieron relacionarse con algún cambio
meteorológico inusitado (aunque el modelo de difusión asume condiciones
meteorológicas constantes), emisiones fugitivas, terreno no uniforme por donde
pasa la pluma, etc. Estadísticamente hablando, las interacciones también pueden
ocurrir cuando los efectos principales son muy grandes (como el factor A en este
caso, aunque si bien, esto se puede corregir aminorando las diferencias entre los
niveles de un tratamiento, para hacer los efectos principales menos acentuados).
(d) Las gráficas de abajo muestran los resultados para este inciso.
Residuals Versus the Order of the Data Residuals Versus the Fitted Values
(response is Concentracion de SO2 (m))
(response is Concentracion de SO2 (m))
20
20
15 15
10 10
Residual
5
Residual
0 0
-5 -5
-10 -10
-15 -15
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 100 200 300 400 500
Observation Order Fitted Value
Figura 7.10. Graficas mostrando los valores residuales en función del número de
observación y de los valores ajustados.
7-47
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Normal Probability Plot of the Residuals Individual Value Plot of Conc. SO2 (ppm) vs Distancias (m), Alturas (m)
(response is Concentracion de SO2 (m))
99
500
95
90 400
60 300
50
40
30
20 200
10
5
100
1
-15 -10 -5 0 5 10 15 20 Alturas (m) 100 m 200 m 100 m 200 m 100 m 200 m 100 m 200 m
Residual Distancias (m) 1000 m 1500 m 2000 m 500 m
7-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Aquí, el factor A tiene tres niveles (i = 1,…, a = 3); el factor B tiene dos niveles (j
= 1,…, b = 2) y el factor C tiene dos niveles (k = 1,…, c = 2) o sea 3x2x2 = 12
combinaciones de tratamientos. Además hay l = 1,…, n = 4 observaciones en cada
uno de las abc combinaciones de tratamientos (celdas) o sea abcn = 3x2x2x4 = 48
observaciones.
7-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-52
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-53
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
18.0
16.5
Mean of Y (respuesta)
15.0
1 2 3 1 2
C
19.5
18.0
16.5
15.0
1 2
7-54
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
12
20
B
1
2
16
B
12
20
C
1
2
16
C
12
1 2 3 1 2
Figura 7.13. Gráficas mostrando los efectos de interacción entre los factores A, B y
C. Se le pide al lector interpretar estas interacciones.
7-55
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Standardized Residual
90 2
Percent
50
0
10
-2
1
-3.0 -1.5 0.0 1.5 3.0 10 15 20
Standardized Residual Fitted Value
12 2
Frequency
8
0
4
-2
0
-2 -1 0 1 2 3 1 5 10 15 20 25 30 35 40 45
Standardized Residual Observation Order
7-56
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 7
7.1. Los siguientes datos se obtuvieron de un muestreo atmosférico de óxidos de
azufre (SO2) proveniente de 4 lugares diferentes. Hacer un análisis de varianza con
un nivel de significancia de α = 0.05. Ver si hay diferencias entre los 4 sitios. Usar
la prueba de comparaciones múltiples para ver cuales son iguales y cuales son
desiguales si es que así es.
Tabla mostrando los datos del SO2. (Elaboración propia)
__________________________________________________________________
7-57
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Probar que no hay diferencia entre los cuatro tratamientos. Usar el programa
Minitab.
Tabla mostrando la producción de maíz bajo cuatro diferentes tratamientos de
fertilizantes. (Elaboración propia)
__________________________________________________________________
Tratamientos Rendimientos
Sin aplicación de fertilizante (1) 99 40 61 72 76 84
Con aplicación de fertilizante (2) 96 84 82 104 99 105
Con aplicación de fertilizante (3) 63 57 81 59 64 72
Con aplicación de fertilizante (4) 79 92 91 87 78 71
Las suposiciones son que las 4 poblaciones del rendimiento de maíz están
normalmente distribuidas, con las varianzas de las poblaciones iguales y con las
observaciones independientes.
7.3. Para comparar la efectividad de 3 muestreadores de gases, es decir, usando
métodos A, B y C se seleccionaron muestras de tamaño cuatro y se registraron los
siguientes resultados en ppm.
Tabla mostrando la información requerida. (Elaboración propia)
7-58
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-59
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Laboratorio 1 2 3 Ti
1 16 19 24 59
2 21 20 21 62
3 18 21 22 61
4 13 20 25 58
Suma de las 68 80 92 240
columnas (Tj)
Sacar las conclusiones debidas de la hipótesis para los tres métodos de análisis y
decir si se rechaza o se retiene la hipótesis.
7.5. La tabla de abajo muestra una información que se recabó de un muestreo de un
contaminante atmosférico (ozono) proveniente de 5 muestreadores localizados en
cinco lugares diferentes. Hacer los siguientes cálculos.
7-60
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) Probar la hipótesis nula de que no hay diferencias entre las 5 poblaciones
muestreadas, Ho: µ1 = µ2 = µ3 = µ4 = µ5, con un nivel significante de α = 0.05.
(b) Hacer una tabla de ANOVA.
(c) Calcular el valor de la probabilidad p.
Tabla con los datos de ozono con los números de los muestreadores. (Elaboración
propia)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
7-61
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Hacer la tabla del análisis de varianza para los obesos y sacar conclusiones al
respecto. Además, revertir este problema a un diseño de bloques aleatorios y ver si
hay alguna mejoría en el error experimental.
7.7. Los datos de abajo representan el número de horas de alivio paliativo dado por
5 tabletas diferentes A, B, C, D, E, para el dolor de cabeza, que se les
administraron a 25 sujetos quienes experimentaban dolores de cabeza (migrañas).
Hacer un análisis de varianza para probar la hipótesis al nivel de significancia de
0.05 de que el número promedio de horas de alivio paliativo dado por las tabletas
es el mismo para las cinco tabletas usadas. Calcular el valor de la probabilidad p.
Los datos se dan en la tabla de abajo. Calcular la tabla de análisis de varianza.
7-62
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando las horas de alivio con las 5 tabletas de aspirinas. (Elaboración
propia)
Tipos de tabletas
—————————————————————————————————
A B C D E
—————————————————————————————————
5 9 3 2 7
4 7 5 3 6
8 8 2 4 9
6 6 3 1 4
3 9 7 4 7
7-63
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los resultados del muestreo del DBO en mg/L. (Elaboración
propia).
20 25 28 31
17 25 31 15
18 26 34 12
10 14 17 24
7-64
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-65
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-66
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(b) Hacer una tabla de análisis de varianza que incluya los valores de la F
calculada, la F tabulada y el valor de p.
7.13. El libro de Montgomery et al. Probabilidad y Estadística Aplicadas a la
Ingeniería discute una investigación para determinar el consumo de gasolina (en
millas por litro) de 4 coches. Para esto, se agrupan los 4 tipos de autos tratando de
homogenizar o de control las variables que pudieran afectar el consumo de
gasolina (bloqueo para eliminar las variables no deseables). Las variables
controladas son caballajes del motor, mismo rodaje de llantas, mismo tipo de
carburador, mismo tipo de aceite, mismo tipo de mantenimiento, mismo peso,
mismas temperaturas ambientales, mismo millaje, edad del motor, tamaño del
motor, etc. Probar la hipótesis de que no hay diferencias en el millaje de los coches
probados usando α = 0.01. Calcular el valor de p. (Montgomery, 1996).
Tabla de datos de los millajes por litro de los 4 coches probados.
Millaje Totales por Promedios por
Coche no. tratamiento tratamiento
1 2 3 4 5 Yi. Yi.
7-67
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Industrial higiene Association Journal (vol. 37, 1976, pags. 418-422), la cual
describe una prueba de campo para detectar la presencia de arsénico en muestras
de orina. La prueba ha sido propuesta para su uso entre trabajadores forestales
debido al uso cada vez mayor de arsénicos orgánicos en dicha industria. El
experimento compara los resultados obtenidos con la prueba al ser efectuada por
un inexperto y un entrenador experimentado con el análisis efectuado en un
laboratorio remoto. Para la prueba se escogen cuatro sujetos, los cuales son
considerados como bloques. La variable de respuesta es el contenido de arsénico
(en ppm) en la orina del sujeto. Los datos son los siguientes:
Tabla mostrando los datos del problema.
Sujeto
___________________________________________________
Prueba 1 2 3 4
__________________________________________________________________
Inexperto 0.05 0.05 0.04 0.15
Experto 0.05 0.05 0.04 0.17
Laboratorio 0.04 0.04 0.03 0.10
__________________________________________________________________
Fuente: Montgomery et al. Probabilidad y Estadística Aplicadas a la Ingeniería
(1996)
7-68
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Nivel de fertilizante
_______________________________________
Nivel de agua Nada Bajo Mediano Alto
__________________________________________________________________
Poca agua 3.0 3.3 3.7 3.1
Mucha agua 2.3 4.0 4.3 5.0
__________________________________________________________________
7-69
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7.17. En un estudio de análisis de varianza de tres vías se dan los siguientes datos:
SSa = 22.63, SSb = .003, SSc = .40, SSab = .40, SSac = .07, SSbc = .0.063, SSe =
.001 y SSt = .90. Para el factor A se usaron cuatro niveles, para el factor B se
usaron dos niveles y para el factor C se usaron 2 niveles. Asumir dos muestras con
cada nivel. Usando α = 0.05, hacer lo siguiente:
(a) Construir una tabla de ANOVA
(b) Identificar las interacciones significativas e interpretarlas acordemente
7.18. Este es un estudio del texto de Applied Statistics: Análisis of Variance and
Regression de Dunn y Clark. Esta investigación está relacionada con un estudio de
la inteligencia de los niños con síntomas cardiacos de tipos acianóticos y
cianóticos. Para esto, los cambios en el coeficiente de inteligencia se midieron, es
decir, después de operarse y antes de operarse. Los resultados se dan como sigue:
Tabla mostrando los resultados de los cambios en el coeficiente de inteligencia.
_________________________________________________________________
Operación Acianóticos Cianóticos
_________________________________________________________________
No 9 2
-1 1
-10 -4
3 -5
-2 0
Si -7 5
-7 10
-12 9
-13 2
-12 15
__________________________________________________________________(
a) Usar el modelo de ANOVA más apropiado para este estudio
7-70
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2 8 12 17
10 14 16
8 13 17
3 9 14 16
10 14 18
12 16 21
__________________________________________________________________
Aplicar la función de ANOVA más apropiada para este experimento y sacar las
conclusiones debidas.
7-71
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7.20. Este estudio está encaminado para que el lector adquiera destreza en el
cumplimiento del llenado de tablas de análisis de varianza. Para esto completar la
siguiente tabla de ANOVA y decir que diseño se usó.
Tabla mostrando los datos del problema.
__________________________________________________________________
Fuente de SS g.l. MS Fcalc. Ftab. Valor p
Variación
__________________________________________________________________
Debido a los 2000 10
tratamientos
Debido a las 1200
columnas
Debido a los 7400 5
renglones
Residual 25
_________________________________________________________________
Total 12000 40
7-72
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
n = 2. Con esta información hacer una tabla de análisis de varianza y sacar las
conclusiones debidas.
7.23. Se hace un estudio hipotético relacionado con la medición de concentraciones
de partículas atmosféricas emitidas por una fuente industrial, esto es, usando un
modelo de difusión atmosférica. Para tales fines se seleccionaron dos tipos
diferentes de muestreadores, cuatro diferentes alturas y cuatro diferentes distancias
viento abajo de la fuente emisora. Por ejemplo, llamemos las cuatro distancias el
factor A (es decir I = 4 distancias de 500, 1000, 1500 y 2000 metros). Las
concentraciones se midieron con dos tipos marcas diferentes de sensores, cuyo
factor lo llamaremos B (es decir, J = 2). Además, se seleccionaron cuatro alturas
diferentes cuyo factor lo denominaremos C (K = 4 alturas de 100, 200, 300 y 500
metros). Para todo esto, se hicieron L= 3 observaciones para cada una de las 32
combinaciones de niveles de los tres factores (4 x 2 x 4) y para un total de 96
observaciones. La tabla de abajo muestra los resultados de las mediciones. Asumir
α = 0.05. Para esto, hacer los siguientes cálculos:
(a) Establecer el modelo apropiado con las suposiciones
(b) Hacer pruebas de significancia sobre los factores principales, v.g., distancia,
marcas de sensores y posición de los sensores
(c) Hacer pruebas de significancia sobre todas las interacciones
7-73
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7.24. El texto Applied Linear Statistical Models de los autores Kutner, Nachtsheim,
Meter y Li explica un problema relacionado con un fabricante de automóviles,
quien desea estudiar los efectos entre diferentes conductores de autos (factor A, i =
7-74
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-75
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-76
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-77
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
7-78
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Líquidos
Inflamables
Sum TCDF 4.9 26 7.8 18 5.8 9 13 13
Sum PeCDF 4.2 31 11 22 7.0 12 17 24
Sum HxCDF 3.5 31 11 28 8.0 14 18 19
Sum HpCDF 9.1 103 32 80 32 41 47 62
OCDF 3.8 19 6.4 18 6.6 7.0 6.7 6.7
______________________________________________________________________________
Fuente: Berthouex, P. Mac y L. C. Brown. Statistics for Environmental Engineers
Lewis Publishers. CRC Press, Inc. (1994).
7-79
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) Generar una matriz con los datos de la tabla de arriba e introducirlos en el
programa Minitab.
(b) Hacer una tabla de análisis de varianza
(c) Hacer pruebas de significancia sobre los cuatro factores principales, v.g.,
periodos de tiempo, muestreadores, grupos de sustancias tóxicas y niveles de
clorinacion
(d) Hacer pruebas de significancia sobre todas las interacciones
(e) Sacar todas las conclusiones pertinentes
7.30 Se hace un estudio del control de la contaminación del aire, es decir, usando
sistemas de control de partículas para hornos de cemento. Para esto se usan
diferentes tipos de precipitadores electrostáticos (factor A), es decir, precipitadores
de placa de alambre, precipitadores de placa plana y precipitadores tubulares.
Además se usaron enfriadores de aspersión y colectores mecánicos (factor B). La
finalidad de este experimento factorial fue para ver la eficiencia de colección de las
partículas usando los anteriores factores. Construir una tabla de análisis de
varianza tomando en consideración la siguiente información: Cuadrado medio del
primer factor fue igual a 2.30; el cuadrado medio del segundo factor medio fue
igual a 5.00; cuadrado medio de la interacción fue de 0.12; cuadrado medio del
error fue de 0.075. Asumir α = 0.05. Completar la tabla de ANOVA de abajo
calculando los siguientes valores.
(a) Los valores de Fcalc. para los efectos principales y para el efecto de interacción
(b) Los valores de Ftab. para los dos factores principales y para la interacción
(c) Los valores de p para cada uno de los factores principales y para la interacción
(d) Decir si los efectos principales afectan la eficiencia de los factores A y B
7-80
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(e) Decir si hay interacción entre los factores bajo consideración y, si la hay,
explicar porque ocurrió así.
Tabla de análisis de varianza para el experimento de los precipitadores
electrostáticos.
Fuente de g. l. Suma de Cuadrado Fcalc. Ftab. Valor
variación cuadrados medio de p
Primer factor 2.30
Segundo factor 5.00
Interacción 0.12
Error 12 0.075
Total
7-81
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 8
Regresión lineal simple y múltiple
Suposiciones del modelo de regresión lineal.- Ecuaciones normales para
calcular el intercepto en la ordenada a y la pendiente b de la curva o línea de
regresión.- Coeficiente de determinación múltiple R2 de la muestra que estima
a ρ2 el coeficiente de determinación poblacional.- Coeficiente de correlación R
de la muestra que estima a ρ, el coeficiente de correlación poblacional.-
Intervalo de confianza para el coeficiente poblacional β componente de la
línea de regresión µY|X = α + βX, estimado por b, la pendiente de la línea.-
Intervalo de confianza para el parámetro poblacional α, el intercepto de la
ordenada de la línea de regresión µY|X = α + βX, cuyo estimador es a.- Hipótesis
nula de Ho:β = βo contra las hipótesis alternativas de H1:β < 1 y H2:β > 1.-
Hipótesis nula de Ho:α = αo contra las hipótesis alternativas de H1:α ≠ αo, H2:α
> αo, y de H3: α < αo.- Intervalo de confianza para µY|X de la línea de regresión
poblacional estimada por Y.- Regresión y correlación múltiple.- Métodos para
validar el modelo de regresión lineal simple y múltiple: a través de estadística de
inferencias y a través del análisis gráfico de los residuales estandarizados.
Procedimiento de regresión múltiple usando el programa Minitab.-
El objetivo de estudiar regresión lineal simple es para obtener el modelo de
regresión más apropiado, es decir, una ecuación de regresión lineal simple o
múltiple para fines de predicción y estimación. Los componentes de esta ecuación
de regresión lineal, con solo una variable independiente, también llamado modelo
lineal de primer orden, son la variable dependiente Y´ o función de respuesta y, la
variable independiente X. El modelo de esta ecuación, que describe la relación de
la variable X con la variable Y, se llama la ecuación de regresión de Y sobre X y, la
gráfica de esta función, se llama la curva de regresión.
8-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
Y = variable dependiente poblacional (también se usa la anotación y)
βo = intercepto en la ordenada
β1 = pendiente de la línea
x1 = variable independiente
ε = error aleatorio con promedio de 0 y varianza σ2 constante. Este valor de ε es la
diferencia entre el valor teórico de Yi y el valor de Y calculado u observado. Las
condiciones de ε son de que este parámetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de ε es Var(ε) = σ2ε
n = número de (x, y) pares de observaciones
La ecuación de la línea de regresión muestral que estima a modelo de regresión
poblacional (8-1) de arriba se da como:
Y = a + bx + e (8-2)
Donde:
Y = valor de la variable dependiente de la muestra
a = intercepto en la ordenada
b = pendiente de la línea
e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadística es la
estimadora del parámetro ε
8-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
regresión es mucho menor, que la dispersión de los puntos con respecto a la línea
horizontal de y , entonces, se puede concluir que la ecuación de la línea de
regresión da un buen ajuste para los datos de la muestra (Daniel et al. 1989).
Como se dijo antes, el enfoque objetivista es la otra manera que se usa para
evaluar el modelo de regresión lineal, esto es, a través de análisis estadísticos. Para
esto, se pueden usar las siguientes funciones estadísticas:
(a) Coeficiente de determinación lineal R2 (o r2), el coeficiente de correlación lineal
R, s y PRESS.
(b) Análisis de varianza simple (ANOVA), para probar los coeficientes del modelo
de regresión (β), para ρ, etc.
(c) Intervalos de confianza para ρ2, para βo, βi, µy|x, etc.
Tipos de correlación lineal
1. Correlación simple que consiste de dos variables, una dependiente (Y) y la otra
independiente (X). Dentro de esta categoría tenemos:
(a) Correlación directa. Esta correlación consiste en el incremento en una variable la
cual es acompañada por el incremento de otra variable (correlación positiva).
(b) Correlación inversa. Esta correlación consiste en el incremento de una variable la
cual es acompañada por el incremento de otra (correlación negativa).
(c) Correlación no lineal. En esta correlación no hay ninguna asociación entre las dos
variables.
2. Correlación múltiple. Aquí, hay más de dos variables. Una variable es
dependiente (Y), mientras que las otras son independientes X1, X2,…, Xk, etc.
Las figuras de abajo representan varios tipos de correlaciones.
8-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Fig. 8.1. Diagramas esparcidos con líneas de cuadrados mínimos. La Figura (a)
representa una línea recta con X fija; la Figura (b) representa línea no recta con X fija;
la Figura (c) representa una distribución adjunta con línea recta; la Figura (d)
representa una distribución adjunta con línea no recta; la Figura (e) representa un
diagrama donde no hay asociación entre las dos variable y; la Figura (f) representa
una relación causal. Las otras dos gráficas representan correlaciones perfectas.
(Elaboración propia)
8-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 8.2. La figura (a) representa la función exponencial; la figura (b) representa la
función de potencia, la figura (c) representa una función recíproca y, la figura (d)
representa una función hiperbólica. (Elaboración propia)
8-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
relación lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste
lineal perfecto. Aquí, sin embargo, es necesario aclarar que, un valor alto de R2, no
necesariamente indica un buen ajuste del modelo de regresión, sino hasta que se
hacen todas las pruebas objetivistas y subjetivas. La función que calcula R2 es:
R2 = (Σxy)2 / Σx2Σy2 (8-11)
= 1 – SSe / SSt (8-12)
Donde Σxy, Σx2 y Σy2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para
la ecuación (8-11). Además, para la ecuación (8-12) SSe es la suma de los
cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos
que se describen en el formato de la tabla de ANOVA.
También hay el llamado coeficiente R2 de determinación ajustado. Esta es
una versión ajustada de R2, el cual busca remover la distorsión debida a un tamaño
de muestra pequeño. Se define como:
R2ajustada = 1 – [(1 – R2) (n – 1)/(n – 2)] (8-13)
Donde R2 ya se definió y n es el tamaño de la muestra
Coeficiente de correlación R de la muestra que estima a ρ, el coeficiente de
correlación poblacional
El coeficiente de correlación R, que estima a ρ, también se llama coeficiente de
correlación de Pearson. Este coeficiente es un índice de la fuerza de la asociación
lineal entre las variables X e Y. El coeficiente de correlación R es:
R= ∑ xy (8-14)
∑x ∑ y
2 2
Donde: Σxy, Σx2 y Σy2 se dan por las ecuaciones (8-8), (8-9) y (8-10)
Nota: El coeficiente de correlación R explica el grado de asociación entre las
variables X e Y. Este coeficiente R varía de –1 a 0, si la correlación es negativa, es
8-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
∑x ∑x
2 2
b – t[1-α/2;n-2] s / < β < b + t[1-α/2;n-2] s / (8-15)
Donde:
b = Σxy / Σx2
t[1-α/2;n-2] = valor de la distribución de t de Estudiante
Σx2 = ΣX2 – (ΣX)2 / n
(∑ y − b∑ xy )
2
s= (8-16)
n−2
∑ y − (∑ y )
2 2
(8-18)
Donde:
8-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
a ya se definió anteriormente
t[1-α/2;n-2] = a un valor usando la distribución de t de estudiante con ν = n – 2 grados
de libertad
s = de la ecuación (8-16)
Hipótesis nula Ho:β = βo contra las hipótesis alternativas H1:β < 1 y H2:β > 1.
Para esta prueba también se usa la distribución de t de Estudiante con ν = n – 2
grados de libertad, es decir:
t = (b – βo) / s/Σx2 (8-19)
Donde:
t = la estadística de la distribución de t de Estudiante
βo = un valor dado
b = pendiente de la línea
Hipótesis nula Ho:α = αo contra las hipótesis alternativas H1:α ≠ αo, H2:α > αo,
y H3: α < αo
Aquí, nuevamente, se usa la distribución de t de Estudiante con grados de libertad,
ν = n – 2. Para esto se usa la fórmula de abajo:
(8-20)
8-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
αo = un valor dado
s = ya definida anteriormente
a ya se definió anteriormente
Donde:
Yo’ = a + b Xo = valor de la línea de regresión con un valor de Xo dado (8-22)
t[α/2;n-2] = valor de la distribución de t con un nivel de significancia de α = .05 o bien
0.01 con ν = n – 2 grados de libertad
a = ya definida anteriormente
s = ya definida anteriormente
Xo = un valor dado
X = promedio de la muestra
Hipótesis nula Ho:β = 0 contra las hipótesis alternativas H1:β > 0 y H2:β < 0
Para hacer esta prueba usamos la distribución de t de Estudiante con ν = n – 2 grados
de libertad. La función estadística usada para tales fines es:
∑x
2
t = (b – bo) / s / (8-23)
Donde:
s = ya definida anteriormente
8-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
b = intercepto en la ordenada Y
bo = un valor dado
Σy2 = ΣY2 – (ΣY)2/n
Σxy = ΣXY – ΣXΣY/n
βo = 0
Aquí, también se tienen que calcular las regiones críticas usando la distribución
de t, es decir, t[1-α/2;ν], donde α es el nivel de significancia deseado y, ν es el número de
grados de libertad, es decir, n - 1. Después de esto, se compara el valor de tcalc., con el
valor crítico de ttab. y se sigue el mismo procedimiento para cualquier prueba de
hipótesis.
Hipótesis nula de Ho:α = αo contra las hipótesis alternativas H1:α > 0 y H2:α < 0
Para hacer esta prueba de hipótesis se usa la estadística de t de Estudiante mostrada
abajo:
(8-24)
Donde:
s = ya definida anteriormente
Donde:
Σy2 = ΣY2 – (ΣY)2/n
Σxy = ΣXY – ΣXΣY/n
b = ya definida anteriormente
Aquí, también se tiene que establecer las regiones críticas usando la distribución de t
de Estudiante. Estas regiones críticas son: t[1-α/2;ν], donde α es el nivel de significancia
usado.
8-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
∑x ∑ y
2 2
R = Σxy / (8-26)
ν = n – 2 grados de libertad
Aquí, nuevamente, para calcular las regiones críticas se usa la t de Estudiante, es
decir, t[α/2;n-2].
Ejemplos de problemas usando regresión y correlación lineal simple
Ejemplo #1. Este problema está relacionado con un estudio acerca de la cantidad de
precipitación pluvial y la cantidad de contaminación atmosférica.
TABLA 8.0. Tabla mostrando los datos. (Elaboración propia)
___________________________________________________________________
Lluvia (0.026”) | 18 7 14 31 21 5 11 16 26 29
Remoción de contaminación | 55 17 36 85 62 18 33 41 63 87
8-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2. Hacer una gráfica con los residuales estandarizados versus valores ajustados de Y .
(El valor predecido o ajustado de Y i es el valor de Y que se esperaría cuando se usa la
línea de regresión. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen
sustituyendo, sucesivamente, x1, x2, .., xn en la ecuación de la línea de regresión
estimada: Y i = βo + β1xi, .., βo + β1xn.
3. Hacer un histograma de residuales.
4. Hacer una grafica que muestre los residuales estandarizados versus renglones.
(e) Complementar la evaluación del modelo con inferencias estadísticas, como:
1. Cálculo del coeficiente de determinación R2 y el coeficiente de correlación R.
2. Hacer una tabla de análisis de varianza (ANOVA).
3. Hacer una tabla con los coeficientes, los errores estándares, las pruebas de t, los
valores de p, y los intervalos de confianza para el intercepto y la pendiente.
Solución:
(a) La variable dependiente es la remoción de contaminantes (Y) y la variable
independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solución:
Figura 8.3. Gráfica mostrando Y versus X, con una línea recta horizontal
correspondiente al valor del promedio de Y = 49.7000. (Elaboración propia)
(b) Los valores de la estadística descriptiva son:
X = 17.8000, Y = 49.7000. Los valores máximos y mínimos de los valores de Y son
8-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
0
50
-5
10
1 -10
-10 -5 0 5 10 20 40 60 80
Residual Fitted Value
2
Residual
1 -5
0 -10
-8 -4 0 4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
8-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estándar
de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadísticas de la
pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeño.
Ejemplo #2. En un estudio de microbiología ambiental, en muestras de agua, se
dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento
de una colonia de bacterias en un medio de cultivo.
TABLA 8.3. Tabla mostrando los datos. (Elaboración propia)
Tiempo en días de | 3 6 9 12 15 18
inoculación (X)
__________________________________________________________________
No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400
8-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 8.5. Figuras mostrando los resultados del número de bacterias versus el tiempo
de incubación. La gráfica (a) muestra la relación entre Y y X, con la línea recta de Y ;
la gráfica (b) muestra los residuos crudos versus X; la gráfica (c) muestra los residuos
crudos versus los renglones y, la gráfica (d) muestra los residuos crudos versus
residuos rezagados (Elaboración propia).
8-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(d) Probar la hipótesis nula de Ho:β = βo, es decir, β = 0 contra la hipótesis alternativa
de H1:β > 0 y H2:β < 0. Calcular el valor de la probabilidad p.
(e) Hacer un intervalo de confianza para µY|Xo.
(f) Calcular los criterios evaluadores del modelo de regresion, v. g., R2, PRESS y s.
(g) Hacer una prueba de hipótesis para el coeficiente de correlación poblacional ρ.
(h) Graficar los datos y trazar la ecuación de la línea de regresión sobre la gráfica y
trazar la línea horizontal correspondiente al valor del promedio Y .
(i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresión.
La tabla de abajo muestra los datos.
TABLA 8.6. Tabla mostrando el diámetro de fibras vs. fuerza de rompimiento.
Diámetro de la fibra (X) Log de la fuerza de rompimiento (Y)
22.5 .19
28.0 .62
27.5 .51
25.5 .53
22.0 .24
30.5 .87
23.0 .25
25.0 .25
23.5 .37
27.0 .32
21.5 .13
22.0 .35
29.0 .53
20.5 .22
27.0 .65
(Fuente: Dunn et al. 1974. Applied Statistics: Analysis of Variance and Regression)
Solución:
(a) Los cálculos preliminares son:
8-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Por lo tanto, el intervalo de confianza para el intercepto (α) se lee de la tabla como:
-1.5706 < α < -0.5224
(c) En forma análoga el intervalo de confianza para β se lee de la TABLA 8.7 como:
8-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
X = promedio
t[α/2;n-2] = valor de t con ν = n – 2 g.l.
t[.025;13] = ± 2.16
Xo = los diferentes valores que se le den a Xo para construir los límites o bandas de
8-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
R = ya definida
Para calcular las regiones críticas se usa la distribución de t, es decir, t[α/2;n-2] = t.025;13 =
± 2.16
Entonces, usando la fórmula de abajo y sustituyendo los valores da:
∑x ∑ y
2 2
R = Σxy / = 7.701 / (132.73)(0.6074) = 0.86
y R2 = 0.7396
2
t= n−2 R/ 1− R
t = 13 (0.86) / .2604
= 6.07
Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribución de t con ν =
13 y con α = .05, lo que da .025 < p < .05.
(h) Para graficar los datos aunados a la ecuación de la línea de regresión con una línea
horizontal correspondiente al valor del promedio Y se hace usando un paquete de
computadora.
8-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
2 4 6 8 10 12 14
Observation Order
8-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
Fitted Value
Figura 8.7b. Está gráfica muestra los residuales versus valores ajustados. Para que
el modelo de regresión sea aceptable, se requiere que: los puntos en la gráfica sean
aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o
disminuyan; no debe haber predominancia de residuales positivos o negativos, ni
tampoco debe haber patrones de residuales que aumenten con valores ajustados
que aumenten. Como se ve, todas estas condiciones están bien sustentadas.
Normal Probability Plot of the Residuals
(response is Log fuer)
1
Normal Score
-1
-2
-2 -1 0 1 2
Standardized Residual
Figura 8.7c. Gráfica mostrando la prueba de normalidad. Los datos deben formar
una línea recta si los residuales están normalmente distribuidos (situación que
ocurre aquí). De otra manera, la suposición de normalidad se inválida.
8-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
8-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
35
DQO (Y)
30
25
27 32 37
Solidos suspendidos (X)
8-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
-3
-4
25 30 35
Fitted Value
(b)
Normal Probability Plot of the Residuals
(response is DQO (Y))
1
Normal Score
-1
-2
-4 -3 -2 -1 0 1 2
Standardized Residual
Figura 8.9. La figura (a) prueba por la autocorrelación o falta de independencia de los
datos. Además, la figura (b) prueba por la normalidad de los datos.
8-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No
debe haber colinialidad o correlación en serie. Esto se revisa graficando los
residuos (estandarizados o crudos) en función de los renglones. Si no hay,
aproximadamente, los mismos residuos positivos y negativos en la gráfica,
entonces, el modelo lineal calculado no es el apropiado y tendrán que buscarse
otras alternativas (como funciones polinomiales, cuadráticas, cúbicas, etc.). Aquí
cabe notar que la suposición de independencia es la más importante que se pueda
violar, porque es la base para las pruebas estadísticas como la R2, el error de lo
estimado (s dado por el programa Minitab), ANOVA, etc.
3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se
llama homoscedasticidad. Esto se puede revisar visualmente graficando los
residuales estandarizados o no estandarizados (crudos) contra cada valor de las
variables independientes (Xi). Aquí, nuevamente, tiene que haber la misma
cantidad de valores positivos y negativos expresados en la gráfica. Aquí, sin
embargo, existen otros métodos para revisar por el problema de
heteroscedasticidad que se retomarán en el capítulo de regresión polinomial.
Otros investigadores estadísticos (Devore, 2000) sugieren cuatro gráficos de
diagnóstico subjetivo, para la validación del modelo de regresión múltiple. Estos
gráficos de diagnóstico son:
1. El gráfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores de Xi en la abscisa.
2. El gráfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores pronosticados (en la abscisa) por el programa de computadora usado.
3. El gráfico de los valores pronosticados en la ordenada versus los valores de Yi en
la abscisa.
4. Gráfico de normalidad de los residuos estandarizados versus los percentiles de z
8-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(valores de z).
5. Histogramas.
Aplicación de análisis objetivos para la evaluación del modelo de regresión
Por otro lado, en cuanto al enfoque objetivista (estadística inferencial) para la
validación del modelo de regresión, éste está relacionado con el uso de estadísticas
como el coeficiente de determinación múltiple R2 (o r2), el coeficiente de
determinación ajustado R2ajustada, el error estándar de lo estimado, s, tablas de
análisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio
de Mallow de Cp, PRESS, etc.
De esta manera, cuando se habla de coeficientes en el modelo de regresión
múltiple, existen cuatro tipos de coeficientes:
(1) El coeficiente de determinación múltiple (R2)
(2) El coeficiente de correlación múltiple (R)
(3) El coeficiente de determinación ajustado (R2ajustada)
(4) El coeficiente parcial de correlación múltiple (Rij.k)
Por ejemplo, el coeficiente de determinación múltiple R2 es, tal vez, la
medida estadística más popular usada para medir, qué tan bien encaja el modelo de
regresión en los datos de la muestra. En realidad el uso de R2 es una técnica para
medir la adecuación de un modelo de regresión lineal múltiple. Esta estadística se
puede definir como una proporción o como un porcentaje. Como proporción, sus
valores varían de cero a uno. Por ejemplo, si el valor de R2 está cercano a cero, esto
indica que no hay una relación lineal entre Y y las X´s, mientras que, un valor
cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de
interpretarse ligeramente, sin el apoyo del error estándar de lo estimado (s), el
residual (PRESS), el criterio de Mallow (Cp) o los factores de variación inflados
(variance inflation factors, VIF). Además la validación del modelo debe estar
8-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hipótesis
bilateral para los coeficientes individuales βi incluidos en el modelo de regresión
múltiple. (Elaboración propia)
Hipótesis nula: Ho:βi = 0, hipótesis alternativa: H1:βi ≠ 0
Valor del estadístico: t = bi / sbi
Regla de decisión:
Rechazar Ho: si t > tα/2;n-(k+1) o bien si t < -tα/2;n-(k+1).
No rechazar Ho: si tα/2;n-(k+1) ≤ t ≤ tα/2;n-(k+1)
Donde: βi son los coeficientes de regresión individuales.
bi = estimadores de βi
sbi = errores estándar
α = nivel de significancia deseado
n = número de observaciones
k = número de variables independientes
t = función estadística de t de Estudiante
Ejemplos aplicando la regresión y correlación múltiple
Ejemplo #6. En la adsorción de tierra y sedimento, la magnitud de la acumulación
en forma condensada de los productos químicos en la superficie es una
característica importante que influye en la eficiencia de insecticidas y varios otros
productos químicos. El artículo “Adsorption of Phosphate, Arsenate,
Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with
Soils” (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la
tabla de abajo. Aquí se toma Y como la variable dependiente, la cual denota el
índice de adsorción de fosfato, X1 es una de las variables independientes
denotando la cantidad de hierro extraíble y, X2 es otra de las variables
independientes denotando la cantidad de aluminio extraíble. (Devore, 2000)
8-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 8.10 Figura mostrando las gráficas de los residuos estandarizados versus
valores esperados de z (1); gráfica mostrando el residuo estandarizado versus la
variable independiente X1 (2); gráfica mostrando el residuo estandarizado versus la
variable independiente X2 (3); gráfica mostrando el residuo estandarizado versus el
valor de Y pronosticado (4) y, finalmente, gráfica de Y pronosticada versus
adsorción (5). (Elaboración propia)
8-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema.
(Elaboración propia)
_________________________________________________________________
Variable Límite inferior (95%) Límite superior (95%)
independiente
_________________________________________________________________
Intercepto -15.1149 0.4137
Hierro (X1) 0.0467 0.1789
Aluminio (X2) 0.1901 0.5079
__________________________________________________________________
8-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
X1 | 4 4 4 6 3 6 3 2
X2 | 3 4 3 4 2 4 2 2
Y | 3 2 7 6 5 6 7 4
Solución:
Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le
pide al lector que decida cual modelo es el más apropiado.
8-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Analysis of Variance
Source DF SS MS F P
Regression 2 14.000 7.000 3.50 0.112
Residual Error 5 10.000 2.000
Total 7 24.000
Analysis of Variance
Source DF SS MS F P
Regression 2 0.1824 0.0912 5.63 0.052
Residual Error 5 0.0809 0.0162
Total 7 0.2634
Analysis of Variance
Source DF SS MS F P
Regression 3 0.1533 0.0767 3.48 0.113
Residual Error 5 0.1100 0.0220
Total 7 0.2634
8-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboración
propia)
___________________________________________________________________________
C1 C2 C3 C4 C5 C6
___________________________________________________________________________
Y X1 X2 Log Y Log X1 Log X2
___________________________________________________________________________
1 3 4 3 0.477121 0.602060 0.477121
___________________________________________________________________________
2 2 4 4 0.301030 0.602060 0.602060
___________________________________________________________________________
3 7 4 3 0.845098 0.602060 0.477121
___________________________________________________________________________
4 6 6 4 0.778151 0.778151 0.060206
___________________________________________________________________________
5 5 3 2 0.698970 0.477121 0.301030
___________________________________________________________________________
6 6 6 4 0.778151 0.778151 0.602060
___________________________________________________________________________
7 7 3 2 0.845098 0.477121 0.301030
___________________________________________________________________________
8 4 2 2 0.602060 0.301030 0.301030
___________________________________________________________________________
8-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Yi X1 X2 X3 X4
8-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-52
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-53
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Total 24
8-55
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2)
Longitud - 2.29 (X3) Latitud
8-56
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Source DF SS MS F F crítica P
Regression 3 2048.54 682.85 70.07 F.05;3,12 = 3.49 <<< 0.001
Residual Error 12 116.94 9.74
Total 15 2165.48
2 2 99
95
90
1
Standardized Residual
1
Standardized Residual
80
70
Percent
60
0 0 50
40
30
20
-1 -1
10
-2 -2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 30 40 50 60 -3 -2 -1 0 1 2 3
Observation Order Fitted Value Standardized Residual
Figura 8.12. La Figura (a) muestra los residuales vs. órdenes; la figura (b) muestra
los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad.
(c) En conclusión, de acuerdo a los valores del coeficiente de determinacion R2 =
95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la
hipótesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de
p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay
problemas de multicolinealidad. Análogamente, los valores bajos de VIF sugieren
indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de
las variables regresoras de la ecuación de regresión, los cuales si están de acuerdo a
una lógica a posteriori. El valor de la función de Durbin-Watson Statistic o de
correlación en serie igual a 1.53384 indica que no hay problemas de
autocorrelación (aunque aquí, esto se puede ignorar porque el problema no
involucra series de tiempo). En cuanto a la Figura 8.12 la gráfica (a) muestra los
residuales versus los órdenes, en la cual hay aleatoriedad de los datos.
Análogamente, la gráfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-58
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
__________________________________________________________________________________________
(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en función de las
temperaturas con los valores de los residuales ei.
8.13. Figura mostrando la medicion de cada uno de los valores residuales con la
línea de regresión. (Elaboración propia).
8-59
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 8
8.1. Los datos de abajo muestran las emisiones de óxidos de nitrógeno (NOx)
provenientes de calderas de plantas eléctricas.
Tabla mostrando los datos para el problema. (Elaboración propia)
__________________________________________________________________
MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400
NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570
8-61
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ver cuál modelo de regresión encaja mejor en los datos, al juzgar por las estadísticas
y por los análisis gráficos, es decir, usando una aproximación lineal, una logarítmica
y una aproximación de función de potencia de la forma de Ln (Y) = Ln(a) + b(LnX).
(a) Usar una aproximación lineal como Y = a + bX y, además, calcular el coeficiente
de determinación R2. (Y = 880.4 – 9.6 (X), R2 = 0.699)
(b) Usar una aproximación logarítmica como Y = a + b Ln (X) y además, calcular el
valor de R2. (Y = 1331.08 – 557.03 Lg X)
(c) Usando una aproximación de función de potencia de la forma de Ln (Y) = Ln (a)
+ b (Ln X) y, además, calcular R2 (R2 = 0.829)
8.4. En un estudio de química analítica, en la tabla de abajo se da la relación entre la
temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los
siguientes:
(a) Estimar el modelo de regresión más apropiado basado en análisis estadísticos de
R2, R2ajustada, PRESS, s, y Cp y en análisis gráficos subjetivos de los valores
8-62
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
residuales.
Tabla mostrando la información requerida.
_________________________________________________________________
Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9
_________________________________________________________________
Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5
_________________________________________________________________
8.5. El aluminio es el tercer elemento más abundante que ocurre en minerales, rocas
y barros. El aluminio se puede analizar con el método de absorción atómica
espectrométrica (método A), el cual está exento de interferencias como fluoruros y
fosfatos. El aluminio también se puede analizar por medio del método de
calorimetría de cianuro de Eriocromo R (método B), el cual es más simple que el
anterior. La tabla de abajo muestra los resultados de los análisis (en mg/L) de los dos
métodos usados. Hacer los siguientes cálculos usando el programa de computadora
de Minitab o SAS.
(a) Calcular e interpretar el coeficiente de determinación R2 y el coeficiente de
correlación R. (R2 = 0.9922, R = 0.9961)
Tabla mostrando los datos del ejemplo. (Elaboración propia)
Método A | 5 6 6 8 10 10 11 11
Método B | 8 9 9 11 13 13 14 14
8-63
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
métodos para el análisis (en µg/L) del berilio, es decir, el método espectrométrico de
absorción atómica (método 1) y el método aluminon (método 2). Los resultados de
los análisis de los dos métodos se dan en la tabla de abajo. Hacer los siguientes
cálculos:
(a) Hacer un estudio estadístico objetivista, es decir, estimando los valores de R2,
R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo análisis
subjetivistas.
Tabla mostrando los resultados de los métodos 1 y 2 para la medición del berilio.
(Elaboración propia)
Método 1 | 0 3 4 5 9 12 15 17 20 20
Método 2 | 1 7 11 19 24 31 31 35 41 41
8-64
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-65
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-66
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-67
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(Y) | 4 7 8 8 10 11 16 26 21 9 31 30 75 90
8-68
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Nota: Los sistemas de flujo freático (áreas pantanosas) se usan como sistemas de
tratamiento natural, porque tienen la capacidad de degradar las concentraciones
carbonosas de DBO actuando como especie de lagunas de oxidación. En Minatitlán
y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales.
Solución:
De acuerdo a la tabla de arriba se le pide al lector decidir, cuál modelo es superior.
8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257
mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas
el cual es un problema muy serio, porque los pesticidas tienen la facultad de
acumularse en los tejidos de los animales y, de ahí se pasan a aquellas personas que
los consumen. Así, en aňos recientes, los ambientalistas se han preocupado mucho
por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas.
Es verdad que los insecticidas matan los insectos, pero también matan todo lo demás.
De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y
también a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los
insecticidas en las ovejas relacionada con la actividad enzimática en el cerebro.
Además, de otros análisis estadísticos, estos científicos derivaron una línea de
regresión que describe las relación entre la actividad enzimática en el cerebro de las
ovejas (Y) y el tiempo, en horas, después de que las ovejas has sido expuestas a los
insecticidas (X). La función de la línea de regresión estimada por estos científicos se
da abajo.
Y = 27.32 + 1.36 X
Basando el criterio en esta ecuación, estimar lo siguiente:
(a) Si después de que han pasado 30 horas, cuando las ovejas han sido expuestas a
los insecticidas, ¿Cuál sería el valor de la actividad enzimática? (68.12)
(b) Si el coeficiente de correlación muestral se da como R = 0.86 y, el coeficiente de
8-69
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-70
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los volúmenes y las presiones del gas. (Elaboración propia)
Sugerencias: Se dan los siguientes factores de conversión: 1 atm = 14.7 lbs/in2 = 760
torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada =
6.25 cm2; 1 m3 = 1000 L. = 106 cm3.
8.13. Se coleccionó una muestra de 33 casos de una descarga de aguas residuales
municipales. Esta muestra se analizó para la demanda bioquímica de oxígeno de 5
días (DBO5), en libras por día, y la demanda química de oxígeno, DQO (en libras por
día). La tabla de abajo muestra la información requerida.
Tabla mostrando las mediciones de DBO5 y DQO. (Elaboración propia)
Demanda química de oxígeno Demanda bioquímica de oxígeno
(lbs/día) (lbs/día)
8-71
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Hacer lo siguiente:
(a) Ver su existe una correlación significante usando los valores R del DBO5 y el
DQO. (R = 0.9677, R2 = 0.9360)
(b) Interpretar el valor del coeficiente de correlación R y el coeficiente de
determinación R2. Usar el programa Minitab o EXCEL para hacer el cálculo pedido.
8.14. Considerar los datos de abajo relacionados con el peso del vehículo y el
rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del
combustible se da en millas galón. Los datos se dan abajo.
8-72
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los datos del los modelos vehiculares en función del peso en
toneladas (X), y de millas por galón (Y).
________________________________________________________________
Modelo vehicular Peso (toneladas) Millas/galón
8-73
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
rendimiento de gasolina.
(b) Estimar el coeficiente de correlación de la muestra R (llamado también
coeficiente de correlación de producto-momento de Pearson) y el coeficiente de
determinación muestral R2.
(c) Hacer una gráfica que vaya en función de Y y X, trazarla en la gráfica y también
trazar la línea horizontal usando el valor del promedio de Y.
(d) Hacer una tabla de ANOVA.
(e) Estimar los intervalos de confianza para α y β las probabilidades
correspondientes para cada uno de éstos.
(f) ¿Qué otros factores tendrían que considerarse, para que el modelo de regresión
fuera más confiable?
8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el
tratamiento biológico en las plantas municipales de aguas residuales domésticas. En
este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento
de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la
entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboración propia)
Entrada (X) | 250 290 270 100 300 410 110 130 1100
(µg/L)
Efluente (Y) | 19 10 17 11 70 60 18 30 180
(µg/L)
8-77
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-78
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al.
1974) hace un estudio médico relacionado con el cambio de la hemoglobina de la
sangre de operaciones de la glándula tiroides, el cual está relacionado con la duración
de la operación quirúrgica y el cambio en el porcentaje de la hemoglobina de la
sangre. Los datos se dan en la tabla de abajo.
8-79
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-80
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-81
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-82
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
________________________________________________________________
Fuente: Daniel et al. 1989. Business Statistics
Hacer los siguientes cálculos:
(a) Encontrar la ecuación de regresión de los cuadrados mínimos.
(b) Computar R2y.12.
(c) Probar Ho:β1 = 0 y Ho:β2 = 0. Dejar que α = 0.05 y calcular el valor de p para
cada prueba.
(d) Computar el 95% de intervalo de confianza para β2.
(e) Dejar que x1 = 2 y x2 = 25 y calcular y.
(f) Encontrar el intervalo de 95% para y.
8.27. La capacidad de los ecologistas para identificar regiones de máxima riqueza
de las plantas podría tener un impacto sobre la preservación de la diversidad
genética. Esto es uno de los objetivos de los ecologistas quienes están preocupados
8-83
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-84
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1 2 3 4 5 6 7 8 9
Criterios _________________________________________________________
R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575
MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532
Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0
__________________________________________________________________
Sólidos suspendidos| 18 7 14 31 21 5 11 16 26 29
DBO5 | 55 17 36 85 62 18 33 41 63 87
8-85
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
DQO (lbs/Día)| 494 444 528 396 532 308 350 456 440 544 310 538
| 480 500 396 486 556 600 428 440 291 490 546 582
| 368 386 400 347 278 304
DBO (lbs/Día | 216 200 238 164 230 116 150 190 190 248 120 226
| 200 222 176 202 240 280 184 194 134 215 246 292
| 177 193 165 160 125 137
__________________________________________________________________
(a) Determinar R2 y R. (R2 = 0.9350, R = 0.967)
(b) Graficar los datos en papel de probabilidad y determinar lo siguiente:
(1) Determinar los valores de DBO y el DQO que excederán el 50% y el 90% de
las veces. (195 lbs/Día y 440 lbs/Día)
(2) Determinar los valores de DBO y del DQO que se lograrán el 90% de las veces.
8-86
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de
las veces. (260 lbs/Día y 580 lbs/Día)
(4) Calcular el promedio y la desviación estándar del DBO y del DQO.
(c) Evaluar el modelo de regresión aplicando enfoques subjetivistas, es decir, con
gráficas de los valores residuales en función de valores ajustados (para la prueba de
independencia), pruebas de normalidad, etc.
8.31. Este es un problema adaptado del libro Introducción al Análisis de Regresión
Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto está
relacionado con un estudio de energía solar en el Tecnológico de Georgia, Estados
Unidos. El proyecto involucra datos de pruebas de energía térmica con una
variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco
variables independientes que están relacionadas con la insolación (watts/m2), la
posición del foco en dirección del este (en pulgadas), la posición del foco en
dirección del sur (en pulgadas), la posición del foco en dirección norte (en
pulgadas) y la hora del día. Para esto, estimar los siguientes enunciados:
(a) Probar el modelo de regresión que mejor ajuste a los datos.
(b) Evaluar el modelo de regresión seleccionado, es decir, a través de criterios
estadísticos y complementar la decisión usando gráficos subjetivistas.
La tabla de abajo muestra la información requerida para solución todos los
enunciados requeridos por este problema.
8-87
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-88
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
235 20 19 86 95
231 27 17 85 90
285 40 20 83 105
270 55 20 82 83
296 60 20 87 90
312 68 21 89 94
295 75 20 83 92
292 80 20 81 92
263 70 20 58 105
271 50 15 79 100
283 40 15 80 90
256 30 15 79 88
8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se
da la información requerida para la selección del modelo de regresión superior,
basado en la inclusión del número de variables regresoras, seleccionado entre
8-89
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
cuatro modelos candidatos. El ejemplo está relacionado con el calor acumulado del
endurecimiento del cemento tomado como la variable dependiente, en función de
los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 =
% ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamaño de muestra igual
a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76.
Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es
el modelo superior que tiene el número adecuado de variables regresoras.
Tabla mostrando la información. Llenar los faltantes.
No. de regresores k Regresor (es)k SSEk R2k R2(ajustada)k Cpk F(calc.)k
1 x4 880.85 0.676 0.647 138.2
2 x1, x2 58.01 2.7
3 x1, x2, x3 0.982 0.876 3.2
4 x1, x2, x3, x4 0.982 4.0
8-90
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 8
Regresión lineal simple y múltiple
Suposiciones del modelo de regresión lineal.- Ecuaciones normales para
calcular el intercepto en la ordenada a y la pendiente b de la curva o línea de
regresión.- Coeficiente de determinación múltiple R2 de la muestra que estima
a ρ2 el coeficiente de determinación poblacional.- Coeficiente de correlación R
de la muestra que estima a ρ, el coeficiente de correlación poblacional.-
Intervalo de confianza para el coeficiente poblacional β componente de la
línea de regresión µY|X = α + βX, estimado por b, la pendiente de la línea.-
Intervalo de confianza para el parámetro poblacional α, el intercepto de la
ordenada de la línea de regresión µY|X = α + βX, cuyo estimador es a.- Hipótesis
nula de Ho:β = βo contra las hipótesis alternativas de H1:β < 1 y H2:β > 1.-
Hipótesis nula de Ho:α = αo contra las hipótesis alternativas de H1:α ≠ αo, H2:α
> αo, y de H3: α < αo.- Intervalo de confianza para µY|X de la línea de regresión
poblacional estimada por Y.- Regresión y correlación múltiple.- Métodos para
validar el modelo de regresión lineal simple y múltiple: a través de estadística de
inferencias y a través del análisis gráfico de los residuales estandarizados.
Procedimiento de regresión múltiple usando el programa Minitab.-
El objetivo de estudiar regresión lineal simple es para obtener el modelo de
regresión más apropiado, es decir, una ecuación de regresión lineal simple o
múltiple para fines de predicción y estimación. Los componentes de esta ecuación
de regresión lineal, con solo una variable independiente, también llamado modelo
lineal de primer orden, son la variable dependiente Y´ o función de respuesta y, la
variable independiente X. El modelo de esta ecuación, que describe la relación de
la variable X con la variable Y, se llama la ecuación de regresión de Y sobre X y, la
gráfica de esta función, se llama la curva de regresión.
8-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
Y = variable dependiente poblacional (también se usa la anotación y)
βo = intercepto en la ordenada
β1 = pendiente de la línea
x1 = variable independiente
ε = error aleatorio con promedio de 0 y varianza σ2 constante. Este valor de ε es la
diferencia entre el valor teórico de Yi y el valor de Y calculado u observado. Las
condiciones de ε son de que este parámetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de ε es Var(ε) = σ2ε
n = número de (x, y) pares de observaciones
La ecuación de la línea de regresión muestral que estima a modelo de regresión
poblacional (8-1) de arriba se da como:
Y = a + bx + e (8-2)
Donde:
Y = valor de la variable dependiente de la muestra
a = intercepto en la ordenada
b = pendiente de la línea
e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadística es la
estimadora del parámetro ε
8-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
regresión es mucho menor, que la dispersión de los puntos con respecto a la línea
horizontal de y , entonces, se puede concluir que la ecuación de la línea de
regresión da un buen ajuste para los datos de la muestra (Daniel et al. 1989).
Como se dijo antes, el enfoque objetivista es la otra manera que se usa para
evaluar el modelo de regresión lineal, esto es, a través de análisis estadísticos. Para
esto, se pueden usar las siguientes funciones estadísticas:
(a) Coeficiente de determinación lineal R2 (o r2), el coeficiente de correlación lineal
R, s y PRESS.
(b) Análisis de varianza simple (ANOVA), para probar los coeficientes del modelo
de regresión (β), para ρ, etc.
(c) Intervalos de confianza para ρ2, para βo, βi, µy|x, etc.
Tipos de correlación lineal
1. Correlación simple que consiste de dos variables, una dependiente (Y) y la otra
independiente (X). Dentro de esta categoría tenemos:
(a) Correlación directa. Esta correlación consiste en el incremento en una variable la
cual es acompañada por el incremento de otra variable (correlación positiva).
(b) Correlación inversa. Esta correlación consiste en el incremento de una variable la
cual es acompañada por el incremento de otra (correlación negativa).
(c) Correlación no lineal. En esta correlación no hay ninguna asociación entre las dos
variables.
2. Correlación múltiple. Aquí, hay más de dos variables. Una variable es
dependiente (Y), mientras que las otras son independientes X1, X2,…, Xk, etc.
Las figuras de abajo representan varios tipos de correlaciones.
8-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Fig. 8.1. Diagramas esparcidos con líneas de cuadrados mínimos. La Figura (a)
representa una línea recta con X fija; la Figura (b) representa línea no recta con X fija;
la Figura (c) representa una distribución adjunta con línea recta; la Figura (d)
representa una distribución adjunta con línea no recta; la Figura (e) representa un
diagrama donde no hay asociación entre las dos variable y; la Figura (f) representa
una relación causal. Las otras dos gráficas representan correlaciones perfectas.
(Elaboración propia)
8-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 8.2. La figura (a) representa la función exponencial; la figura (b) representa la
función de potencia, la figura (c) representa una función recíproca y, la figura (d)
representa una función hiperbólica. (Elaboración propia)
8-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
relación lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste
lineal perfecto. Aquí, sin embargo, es necesario aclarar que, un valor alto de R2, no
necesariamente indica un buen ajuste del modelo de regresión, sino hasta que se
hacen todas las pruebas objetivistas y subjetivas. La función que calcula R2 es:
R2 = (Σxy)2 / Σx2Σy2 (8-11)
= 1 – SSe / SSt (8-12)
Donde Σxy, Σx2 y Σy2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para
la ecuación (8-11). Además, para la ecuación (8-12) SSe es la suma de los
cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos
que se describen en el formato de la tabla de ANOVA.
También hay el llamado coeficiente R2 de determinación ajustado. Esta es
una versión ajustada de R2, el cual busca remover la distorsión debida a un tamaño
de muestra pequeño. Se define como:
R2ajustada = 1 – [(1 – R2) (n – 1)/(n – 2)] (8-13)
Donde R2 ya se definió y n es el tamaño de la muestra
Coeficiente de correlación R de la muestra que estima a ρ, el coeficiente de
correlación poblacional
El coeficiente de correlación R, que estima a ρ, también se llama coeficiente de
correlación de Pearson. Este coeficiente es un índice de la fuerza de la asociación
lineal entre las variables X e Y. El coeficiente de correlación R es:
R= ∑ xy (8-14)
∑x ∑ y
2 2
Donde: Σxy, Σx2 y Σy2 se dan por las ecuaciones (8-8), (8-9) y (8-10)
Nota: El coeficiente de correlación R explica el grado de asociación entre las
variables X e Y. Este coeficiente R varía de –1 a 0, si la correlación es negativa, es
8-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
∑x ∑x
2 2
b – t[1-α/2;n-2] s / < β < b + t[1-α/2;n-2] s / (8-15)
Donde:
b = Σxy / Σx2
t[1-α/2;n-2] = valor de la distribución de t de Estudiante
Σx2 = ΣX2 – (ΣX)2 / n
(∑ y − b∑ xy )
2
s= (8-16)
n−2
∑ y − (∑ y )
2 2
(8-18)
Donde:
8-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
a ya se definió anteriormente
t[1-α/2;n-2] = a un valor usando la distribución de t de estudiante con ν = n – 2 grados
de libertad
s = de la ecuación (8-16)
Hipótesis nula Ho:β = βo contra las hipótesis alternativas H1:β < 1 y H2:β > 1.
Para esta prueba también se usa la distribución de t de Estudiante con ν = n – 2
grados de libertad, es decir:
t = (b – βo) / s/Σx2 (8-19)
Donde:
t = la estadística de la distribución de t de Estudiante
βo = un valor dado
b = pendiente de la línea
Hipótesis nula Ho:α = αo contra las hipótesis alternativas H1:α ≠ αo, H2:α > αo,
y H3: α < αo
Aquí, nuevamente, se usa la distribución de t de Estudiante con grados de libertad,
ν = n – 2. Para esto se usa la fórmula de abajo:
(8-20)
8-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
αo = un valor dado
s = ya definida anteriormente
a ya se definió anteriormente
Donde:
Yo’ = a + b Xo = valor de la línea de regresión con un valor de Xo dado (8-22)
t[α/2;n-2] = valor de la distribución de t con un nivel de significancia de α = .05 o bien
0.01 con ν = n – 2 grados de libertad
a = ya definida anteriormente
s = ya definida anteriormente
Xo = un valor dado
X = promedio de la muestra
Hipótesis nula Ho:β = 0 contra las hipótesis alternativas H1:β > 0 y H2:β < 0
Para hacer esta prueba usamos la distribución de t de Estudiante con ν = n – 2 grados
de libertad. La función estadística usada para tales fines es:
∑x
2
t = (b – bo) / s / (8-23)
Donde:
s = ya definida anteriormente
8-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
b = intercepto en la ordenada Y
bo = un valor dado
Σy2 = ΣY2 – (ΣY)2/n
Σxy = ΣXY – ΣXΣY/n
βo = 0
Aquí, también se tienen que calcular las regiones críticas usando la distribución
de t, es decir, t[1-α/2;ν], donde α es el nivel de significancia deseado y, ν es el número de
grados de libertad, es decir, n - 1. Después de esto, se compara el valor de tcalc., con el
valor crítico de ttab. y se sigue el mismo procedimiento para cualquier prueba de
hipótesis.
Hipótesis nula de Ho:α = αo contra las hipótesis alternativas H1:α > 0 y H2:α < 0
Para hacer esta prueba de hipótesis se usa la estadística de t de Estudiante mostrada
abajo:
(8-24)
Donde:
s = ya definida anteriormente
Donde:
Σy2 = ΣY2 – (ΣY)2/n
Σxy = ΣXY – ΣXΣY/n
b = ya definida anteriormente
Aquí, también se tiene que establecer las regiones críticas usando la distribución de t
de Estudiante. Estas regiones críticas son: t[1-α/2;ν], donde α es el nivel de significancia
usado.
8-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
∑x ∑ y
2 2
R = Σxy / (8-26)
ν = n – 2 grados de libertad
Aquí, nuevamente, para calcular las regiones críticas se usa la t de Estudiante, es
decir, t[α/2;n-2].
Ejemplos de problemas usando regresión y correlación lineal simple
Ejemplo #1. Este problema está relacionado con un estudio acerca de la cantidad de
precipitación pluvial y la cantidad de contaminación atmosférica.
TABLA 8.0. Tabla mostrando los datos. (Elaboración propia)
___________________________________________________________________
Lluvia (0.026”) | 18 7 14 31 21 5 11 16 26 29
Remoción de contaminación | 55 17 36 85 62 18 33 41 63 87
8-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2. Hacer una gráfica con los residuales estandarizados versus valores ajustados de Y .
(El valor predecido o ajustado de Y i es el valor de Y que se esperaría cuando se usa la
línea de regresión. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen
sustituyendo, sucesivamente, x1, x2, .., xn en la ecuación de la línea de regresión
estimada: Y i = βo + β1xi, .., βo + β1xn.
3. Hacer un histograma de residuales.
4. Hacer una grafica que muestre los residuales estandarizados versus renglones.
(e) Complementar la evaluación del modelo con inferencias estadísticas, como:
1. Cálculo del coeficiente de determinación R2 y el coeficiente de correlación R.
2. Hacer una tabla de análisis de varianza (ANOVA).
3. Hacer una tabla con los coeficientes, los errores estándares, las pruebas de t, los
valores de p, y los intervalos de confianza para el intercepto y la pendiente.
Solución:
(a) La variable dependiente es la remoción de contaminantes (Y) y la variable
independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solución:
Figura 8.3. Gráfica mostrando Y versus X, con una línea recta horizontal
correspondiente al valor del promedio de Y = 49.7000. (Elaboración propia)
(b) Los valores de la estadística descriptiva son:
X = 17.8000, Y = 49.7000. Los valores máximos y mínimos de los valores de Y son
8-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
0
50
-5
10
1 -10
-10 -5 0 5 10 20 40 60 80
Residual Fitted Value
2
Residual
1 -5
0 -10
-8 -4 0 4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
8-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estándar
de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadísticas de la
pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeño.
Ejemplo #2. En un estudio de microbiología ambiental, en muestras de agua, se
dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento
de una colonia de bacterias en un medio de cultivo.
TABLA 8.3. Tabla mostrando los datos. (Elaboración propia)
Tiempo en días de | 3 6 9 12 15 18
inoculación (X)
__________________________________________________________________
No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400
8-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 8.5. Figuras mostrando los resultados del número de bacterias versus el tiempo
de incubación. La gráfica (a) muestra la relación entre Y y X, con la línea recta de Y ;
la gráfica (b) muestra los residuos crudos versus X; la gráfica (c) muestra los residuos
crudos versus los renglones y, la gráfica (d) muestra los residuos crudos versus
residuos rezagados (Elaboración propia).
8-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(d) Probar la hipótesis nula de Ho:β = βo, es decir, β = 0 contra la hipótesis alternativa
de H1:β > 0 y H2:β < 0. Calcular el valor de la probabilidad p.
(e) Hacer un intervalo de confianza para µY|Xo.
(f) Calcular los criterios evaluadores del modelo de regresion, v. g., R2, PRESS y s.
(g) Hacer una prueba de hipótesis para el coeficiente de correlación poblacional ρ.
(h) Graficar los datos y trazar la ecuación de la línea de regresión sobre la gráfica y
trazar la línea horizontal correspondiente al valor del promedio Y .
(i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresión.
La tabla de abajo muestra los datos.
TABLA 8.6. Tabla mostrando el diámetro de fibras vs. fuerza de rompimiento.
Diámetro de la fibra (X) Log de la fuerza de rompimiento (Y)
22.5 .19
28.0 .62
27.5 .51
25.5 .53
22.0 .24
30.5 .87
23.0 .25
25.0 .25
23.5 .37
27.0 .32
21.5 .13
22.0 .35
29.0 .53
20.5 .22
27.0 .65
(Fuente: Dunn et al. 1974. Applied Statistics: Analysis of Variance and Regression)
Solución:
(a) Los cálculos preliminares son:
8-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Por lo tanto, el intervalo de confianza para el intercepto (α) se lee de la tabla como:
-1.5706 < α < -0.5224
(c) En forma análoga el intervalo de confianza para β se lee de la TABLA 8.7 como:
8-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
X = promedio
t[α/2;n-2] = valor de t con ν = n – 2 g.l.
t[.025;13] = ± 2.16
Xo = los diferentes valores que se le den a Xo para construir los límites o bandas de
8-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde:
R = ya definida
Para calcular las regiones críticas se usa la distribución de t, es decir, t[α/2;n-2] = t.025;13 =
± 2.16
Entonces, usando la fórmula de abajo y sustituyendo los valores da:
∑x ∑ y
2 2
R = Σxy / = 7.701 / (132.73)(0.6074) = 0.86
y R2 = 0.7396
2
t= n−2 R/ 1− R
t = 13 (0.86) / .2604
= 6.07
Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribución de t con ν =
13 y con α = .05, lo que da .025 < p < .05.
(h) Para graficar los datos aunados a la ecuación de la línea de regresión con una línea
horizontal correspondiente al valor del promedio Y se hace usando un paquete de
computadora.
8-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
2 4 6 8 10 12 14
Observation Order
8-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
Fitted Value
Figura 8.7b. Está gráfica muestra los residuales versus valores ajustados. Para que
el modelo de regresión sea aceptable, se requiere que: los puntos en la gráfica sean
aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o
disminuyan; no debe haber predominancia de residuales positivos o negativos, ni
tampoco debe haber patrones de residuales que aumenten con valores ajustados
que aumenten. Como se ve, todas estas condiciones están bien sustentadas.
Normal Probability Plot of the Residuals
(response is Log fuer)
1
Normal Score
-1
-2
-2 -1 0 1 2
Standardized Residual
Figura 8.7c. Gráfica mostrando la prueba de normalidad. Los datos deben formar
una línea recta si los residuales están normalmente distribuidos (situación que
ocurre aquí). De otra manera, la suposición de normalidad se inválida.
8-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
8-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
35
DQO (Y)
30
25
27 32 37
Solidos suspendidos (X)
8-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
-3
-4
25 30 35
Fitted Value
(b)
Normal Probability Plot of the Residuals
(response is DQO (Y))
1
Normal Score
-1
-2
-4 -3 -2 -1 0 1 2
Standardized Residual
Figura 8.9. La figura (a) prueba por la autocorrelación o falta de independencia de los
datos. Además, la figura (b) prueba por la normalidad de los datos.
8-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No
debe haber colinialidad o correlación en serie. Esto se revisa graficando los
residuos (estandarizados o crudos) en función de los renglones. Si no hay,
aproximadamente, los mismos residuos positivos y negativos en la gráfica,
entonces, el modelo lineal calculado no es el apropiado y tendrán que buscarse
otras alternativas (como funciones polinomiales, cuadráticas, cúbicas, etc.). Aquí
cabe notar que la suposición de independencia es la más importante que se pueda
violar, porque es la base para las pruebas estadísticas como la R2, el error de lo
estimado (s dado por el programa Minitab), ANOVA, etc.
3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se
llama homoscedasticidad. Esto se puede revisar visualmente graficando los
residuales estandarizados o no estandarizados (crudos) contra cada valor de las
variables independientes (Xi). Aquí, nuevamente, tiene que haber la misma
cantidad de valores positivos y negativos expresados en la gráfica. Aquí, sin
embargo, existen otros métodos para revisar por el problema de
heteroscedasticidad que se retomarán en el capítulo de regresión polinomial.
Otros investigadores estadísticos (Devore, 2000) sugieren cuatro gráficos de
diagnóstico subjetivo, para la validación del modelo de regresión múltiple. Estos
gráficos de diagnóstico son:
1. El gráfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores de Xi en la abscisa.
2. El gráfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores pronosticados (en la abscisa) por el programa de computadora usado.
3. El gráfico de los valores pronosticados en la ordenada versus los valores de Yi en
la abscisa.
4. Gráfico de normalidad de los residuos estandarizados versus los percentiles de z
8-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(valores de z).
5. Histogramas.
Aplicación de análisis objetivos para la evaluación del modelo de regresión
Por otro lado, en cuanto al enfoque objetivista (estadística inferencial) para la
validación del modelo de regresión, éste está relacionado con el uso de estadísticas
como el coeficiente de determinación múltiple R2 (o r2), el coeficiente de
determinación ajustado R2ajustada, el error estándar de lo estimado, s, tablas de
análisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio
de Mallow de Cp, PRESS, etc.
De esta manera, cuando se habla de coeficientes en el modelo de regresión
múltiple, existen cuatro tipos de coeficientes:
(1) El coeficiente de determinación múltiple (R2)
(2) El coeficiente de correlación múltiple (R)
(3) El coeficiente de determinación ajustado (R2ajustada)
(4) El coeficiente parcial de correlación múltiple (Rij.k)
Por ejemplo, el coeficiente de determinación múltiple R2 es, tal vez, la
medida estadística más popular usada para medir, qué tan bien encaja el modelo de
regresión en los datos de la muestra. En realidad el uso de R2 es una técnica para
medir la adecuación de un modelo de regresión lineal múltiple. Esta estadística se
puede definir como una proporción o como un porcentaje. Como proporción, sus
valores varían de cero a uno. Por ejemplo, si el valor de R2 está cercano a cero, esto
indica que no hay una relación lineal entre Y y las X´s, mientras que, un valor
cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de
interpretarse ligeramente, sin el apoyo del error estándar de lo estimado (s), el
residual (PRESS), el criterio de Mallow (Cp) o los factores de variación inflados
(variance inflation factors, VIF). Además la validación del modelo debe estar
8-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hipótesis
bilateral para los coeficientes individuales βi incluidos en el modelo de regresión
múltiple. (Elaboración propia)
Hipótesis nula: Ho:βi = 0, hipótesis alternativa: H1:βi ≠ 0
Valor del estadístico: t = bi / sbi
Regla de decisión:
Rechazar Ho: si t > tα/2;n-(k+1) o bien si t < -tα/2;n-(k+1).
No rechazar Ho: si tα/2;n-(k+1) ≤ t ≤ tα/2;n-(k+1)
Donde: βi son los coeficientes de regresión individuales.
bi = estimadores de βi
sbi = errores estándar
α = nivel de significancia deseado
n = número de observaciones
k = número de variables independientes
t = función estadística de t de Estudiante
Ejemplos aplicando la regresión y correlación múltiple
Ejemplo #6. En la adsorción de tierra y sedimento, la magnitud de la acumulación
en forma condensada de los productos químicos en la superficie es una
característica importante que influye en la eficiencia de insecticidas y varios otros
productos químicos. El artículo “Adsorption of Phosphate, Arsenate,
Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with
Soils” (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la
tabla de abajo. Aquí se toma Y como la variable dependiente, la cual denota el
índice de adsorción de fosfato, X1 es una de las variables independientes
denotando la cantidad de hierro extraíble y, X2 es otra de las variables
independientes denotando la cantidad de aluminio extraíble. (Devore, 2000)
8-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 8.10 Figura mostrando las gráficas de los residuos estandarizados versus
valores esperados de z (1); gráfica mostrando el residuo estandarizado versus la
variable independiente X1 (2); gráfica mostrando el residuo estandarizado versus la
variable independiente X2 (3); gráfica mostrando el residuo estandarizado versus el
valor de Y pronosticado (4) y, finalmente, gráfica de Y pronosticada versus
adsorción (5). (Elaboración propia)
8-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema.
(Elaboración propia)
_________________________________________________________________
Variable Límite inferior (95%) Límite superior (95%)
independiente
_________________________________________________________________
Intercepto -15.1149 0.4137
Hierro (X1) 0.0467 0.1789
Aluminio (X2) 0.1901 0.5079
__________________________________________________________________
8-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
X1 | 4 4 4 6 3 6 3 2
X2 | 3 4 3 4 2 4 2 2
Y | 3 2 7 6 5 6 7 4
Solución:
Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le
pide al lector que decida cual modelo es el más apropiado.
8-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Analysis of Variance
Source DF SS MS F P
Regression 2 14.000 7.000 3.50 0.112
Residual Error 5 10.000 2.000
Total 7 24.000
Analysis of Variance
Source DF SS MS F P
Regression 2 0.1824 0.0912 5.63 0.052
Residual Error 5 0.0809 0.0162
Total 7 0.2634
Analysis of Variance
Source DF SS MS F P
Regression 3 0.1533 0.0767 3.48 0.113
Residual Error 5 0.1100 0.0220
Total 7 0.2634
8-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboración
propia)
___________________________________________________________________________
C1 C2 C3 C4 C5 C6
___________________________________________________________________________
Y X1 X2 Log Y Log X1 Log X2
___________________________________________________________________________
1 3 4 3 0.477121 0.602060 0.477121
___________________________________________________________________________
2 2 4 4 0.301030 0.602060 0.602060
___________________________________________________________________________
3 7 4 3 0.845098 0.602060 0.477121
___________________________________________________________________________
4 6 6 4 0.778151 0.778151 0.060206
___________________________________________________________________________
5 5 3 2 0.698970 0.477121 0.301030
___________________________________________________________________________
6 6 6 4 0.778151 0.778151 0.602060
___________________________________________________________________________
7 7 3 2 0.845098 0.477121 0.301030
___________________________________________________________________________
8 4 2 2 0.602060 0.301030 0.301030
___________________________________________________________________________
8-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Yi X1 X2 X3 X4
8-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-52
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-53
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Total 24
8-55
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2)
Longitud - 2.29 (X3) Latitud
8-56
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Source DF SS MS F F crítica P
Regression 3 2048.54 682.85 70.07 F.05;3,12 = 3.49 <<< 0.001
Residual Error 12 116.94 9.74
Total 15 2165.48
2 2 99
95
90
1
Standardized Residual
1
Standardized Residual
80
70
Percent
60
0 0 50
40
30
20
-1 -1
10
-2 -2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 30 40 50 60 -3 -2 -1 0 1 2 3
Observation Order Fitted Value Standardized Residual
Figura 8.12. La Figura (a) muestra los residuales vs. órdenes; la figura (b) muestra
los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad.
(c) En conclusión, de acuerdo a los valores del coeficiente de determinacion R2 =
95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la
hipótesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de
p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay
problemas de multicolinealidad. Análogamente, los valores bajos de VIF sugieren
indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de
las variables regresoras de la ecuación de regresión, los cuales si están de acuerdo a
una lógica a posteriori. El valor de la función de Durbin-Watson Statistic o de
correlación en serie igual a 1.53384 indica que no hay problemas de
autocorrelación (aunque aquí, esto se puede ignorar porque el problema no
involucra series de tiempo). En cuanto a la Figura 8.12 la gráfica (a) muestra los
residuales versus los órdenes, en la cual hay aleatoriedad de los datos.
Análogamente, la gráfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-58
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
__________________________________________________________________________________________
(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en función de las
temperaturas con los valores de los residuales ei.
8.13. Figura mostrando la medicion de cada uno de los valores residuales con la
línea de regresión. (Elaboración propia).
8-59
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 8
8.1. Los datos de abajo muestran las emisiones de óxidos de nitrógeno (NOx)
provenientes de calderas de plantas eléctricas.
Tabla mostrando los datos para el problema. (Elaboración propia)
__________________________________________________________________
MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400
NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570
8-61
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ver cuál modelo de regresión encaja mejor en los datos, al juzgar por las estadísticas
y por los análisis gráficos, es decir, usando una aproximación lineal, una logarítmica
y una aproximación de función de potencia de la forma de Ln (Y) = Ln(a) + b(LnX).
(a) Usar una aproximación lineal como Y = a + bX y, además, calcular el coeficiente
de determinación R2. (Y = 880.4 – 9.6 (X), R2 = 0.699)
(b) Usar una aproximación logarítmica como Y = a + b Ln (X) y además, calcular el
valor de R2. (Y = 1331.08 – 557.03 Lg X)
(c) Usando una aproximación de función de potencia de la forma de Ln (Y) = Ln (a)
+ b (Ln X) y, además, calcular R2 (R2 = 0.829)
8.4. En un estudio de química analítica, en la tabla de abajo se da la relación entre la
temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los
siguientes:
(a) Estimar el modelo de regresión más apropiado basado en análisis estadísticos de
R2, R2ajustada, PRESS, s, y Cp y en análisis gráficos subjetivos de los valores
8-62
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
residuales.
Tabla mostrando la información requerida.
_________________________________________________________________
Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9
_________________________________________________________________
Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5
_________________________________________________________________
8.5. El aluminio es el tercer elemento más abundante que ocurre en minerales, rocas
y barros. El aluminio se puede analizar con el método de absorción atómica
espectrométrica (método A), el cual está exento de interferencias como fluoruros y
fosfatos. El aluminio también se puede analizar por medio del método de
calorimetría de cianuro de Eriocromo R (método B), el cual es más simple que el
anterior. La tabla de abajo muestra los resultados de los análisis (en mg/L) de los dos
métodos usados. Hacer los siguientes cálculos usando el programa de computadora
de Minitab o SAS.
(a) Calcular e interpretar el coeficiente de determinación R2 y el coeficiente de
correlación R. (R2 = 0.9922, R = 0.9961)
Tabla mostrando los datos del ejemplo. (Elaboración propia)
Método A | 5 6 6 8 10 10 11 11
Método B | 8 9 9 11 13 13 14 14
8-63
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
métodos para el análisis (en µg/L) del berilio, es decir, el método espectrométrico de
absorción atómica (método 1) y el método aluminon (método 2). Los resultados de
los análisis de los dos métodos se dan en la tabla de abajo. Hacer los siguientes
cálculos:
(a) Hacer un estudio estadístico objetivista, es decir, estimando los valores de R2,
R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo análisis
subjetivistas.
Tabla mostrando los resultados de los métodos 1 y 2 para la medición del berilio.
(Elaboración propia)
Método 1 | 0 3 4 5 9 12 15 17 20 20
Método 2 | 1 7 11 19 24 31 31 35 41 41
8-64
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-65
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-66
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-67
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(Y) | 4 7 8 8 10 11 16 26 21 9 31 30 75 90
8-68
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Nota: Los sistemas de flujo freático (áreas pantanosas) se usan como sistemas de
tratamiento natural, porque tienen la capacidad de degradar las concentraciones
carbonosas de DBO actuando como especie de lagunas de oxidación. En Minatitlán
y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales.
Solución:
De acuerdo a la tabla de arriba se le pide al lector decidir, cuál modelo es superior.
8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257
mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas
el cual es un problema muy serio, porque los pesticidas tienen la facultad de
acumularse en los tejidos de los animales y, de ahí se pasan a aquellas personas que
los consumen. Así, en aňos recientes, los ambientalistas se han preocupado mucho
por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas.
Es verdad que los insecticidas matan los insectos, pero también matan todo lo demás.
De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y
también a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los
insecticidas en las ovejas relacionada con la actividad enzimática en el cerebro.
Además, de otros análisis estadísticos, estos científicos derivaron una línea de
regresión que describe las relación entre la actividad enzimática en el cerebro de las
ovejas (Y) y el tiempo, en horas, después de que las ovejas has sido expuestas a los
insecticidas (X). La función de la línea de regresión estimada por estos científicos se
da abajo.
Y = 27.32 + 1.36 X
Basando el criterio en esta ecuación, estimar lo siguiente:
(a) Si después de que han pasado 30 horas, cuando las ovejas han sido expuestas a
los insecticidas, ¿Cuál sería el valor de la actividad enzimática? (68.12)
(b) Si el coeficiente de correlación muestral se da como R = 0.86 y, el coeficiente de
8-69
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-70
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los volúmenes y las presiones del gas. (Elaboración propia)
Sugerencias: Se dan los siguientes factores de conversión: 1 atm = 14.7 lbs/in2 = 760
torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada =
6.25 cm2; 1 m3 = 1000 L. = 106 cm3.
8.13. Se coleccionó una muestra de 33 casos de una descarga de aguas residuales
municipales. Esta muestra se analizó para la demanda bioquímica de oxígeno de 5
días (DBO5), en libras por día, y la demanda química de oxígeno, DQO (en libras por
día). La tabla de abajo muestra la información requerida.
Tabla mostrando las mediciones de DBO5 y DQO. (Elaboración propia)
Demanda química de oxígeno Demanda bioquímica de oxígeno
(lbs/día) (lbs/día)
8-71
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Hacer lo siguiente:
(a) Ver su existe una correlación significante usando los valores R del DBO5 y el
DQO. (R = 0.9677, R2 = 0.9360)
(b) Interpretar el valor del coeficiente de correlación R y el coeficiente de
determinación R2. Usar el programa Minitab o EXCEL para hacer el cálculo pedido.
8.14. Considerar los datos de abajo relacionados con el peso del vehículo y el
rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del
combustible se da en millas galón. Los datos se dan abajo.
8-72
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando los datos del los modelos vehiculares en función del peso en
toneladas (X), y de millas por galón (Y).
________________________________________________________________
Modelo vehicular Peso (toneladas) Millas/galón
8-73
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
rendimiento de gasolina.
(b) Estimar el coeficiente de correlación de la muestra R (llamado también
coeficiente de correlación de producto-momento de Pearson) y el coeficiente de
determinación muestral R2.
(c) Hacer una gráfica que vaya en función de Y y X, trazarla en la gráfica y también
trazar la línea horizontal usando el valor del promedio de Y.
(d) Hacer una tabla de ANOVA.
(e) Estimar los intervalos de confianza para α y β las probabilidades
correspondientes para cada uno de éstos.
(f) ¿Qué otros factores tendrían que considerarse, para que el modelo de regresión
fuera más confiable?
8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el
tratamiento biológico en las plantas municipales de aguas residuales domésticas. En
este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento
de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la
entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboración propia)
Entrada (X) | 250 290 270 100 300 410 110 130 1100
(µg/L)
Efluente (Y) | 19 10 17 11 70 60 18 30 180
(µg/L)
8-77
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-78
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al.
1974) hace un estudio médico relacionado con el cambio de la hemoglobina de la
sangre de operaciones de la glándula tiroides, el cual está relacionado con la duración
de la operación quirúrgica y el cambio en el porcentaje de la hemoglobina de la
sangre. Los datos se dan en la tabla de abajo.
8-79
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-80
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-81
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-82
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
________________________________________________________________
Fuente: Daniel et al. 1989. Business Statistics
Hacer los siguientes cálculos:
(a) Encontrar la ecuación de regresión de los cuadrados mínimos.
(b) Computar R2y.12.
(c) Probar Ho:β1 = 0 y Ho:β2 = 0. Dejar que α = 0.05 y calcular el valor de p para
cada prueba.
(d) Computar el 95% de intervalo de confianza para β2.
(e) Dejar que x1 = 2 y x2 = 25 y calcular y.
(f) Encontrar el intervalo de 95% para y.
8.27. La capacidad de los ecologistas para identificar regiones de máxima riqueza
de las plantas podría tener un impacto sobre la preservación de la diversidad
genética. Esto es uno de los objetivos de los ecologistas quienes están preocupados
8-83
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-84
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1 2 3 4 5 6 7 8 9
Criterios _________________________________________________________
R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575
MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532
Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0
__________________________________________________________________
Sólidos suspendidos| 18 7 14 31 21 5 11 16 26 29
DBO5 | 55 17 36 85 62 18 33 41 63 87
8-85
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
DQO (lbs/Día)| 494 444 528 396 532 308 350 456 440 544 310 538
| 480 500 396 486 556 600 428 440 291 490 546 582
| 368 386 400 347 278 304
DBO (lbs/Día | 216 200 238 164 230 116 150 190 190 248 120 226
| 200 222 176 202 240 280 184 194 134 215 246 292
| 177 193 165 160 125 137
__________________________________________________________________
(a) Determinar R2 y R. (R2 = 0.9350, R = 0.967)
(b) Graficar los datos en papel de probabilidad y determinar lo siguiente:
(1) Determinar los valores de DBO y el DQO que excederán el 50% y el 90% de
las veces. (195 lbs/Día y 440 lbs/Día)
(2) Determinar los valores de DBO y del DQO que se lograrán el 90% de las veces.
8-86
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de
las veces. (260 lbs/Día y 580 lbs/Día)
(4) Calcular el promedio y la desviación estándar del DBO y del DQO.
(c) Evaluar el modelo de regresión aplicando enfoques subjetivistas, es decir, con
gráficas de los valores residuales en función de valores ajustados (para la prueba de
independencia), pruebas de normalidad, etc.
8.31. Este es un problema adaptado del libro Introducción al Análisis de Regresión
Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto está
relacionado con un estudio de energía solar en el Tecnológico de Georgia, Estados
Unidos. El proyecto involucra datos de pruebas de energía térmica con una
variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco
variables independientes que están relacionadas con la insolación (watts/m2), la
posición del foco en dirección del este (en pulgadas), la posición del foco en
dirección del sur (en pulgadas), la posición del foco en dirección norte (en
pulgadas) y la hora del día. Para esto, estimar los siguientes enunciados:
(a) Probar el modelo de regresión que mejor ajuste a los datos.
(b) Evaluar el modelo de regresión seleccionado, es decir, a través de criterios
estadísticos y complementar la decisión usando gráficos subjetivistas.
La tabla de abajo muestra la información requerida para solución todos los
enunciados requeridos por este problema.
8-87
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
8-88
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
235 20 19 86 95
231 27 17 85 90
285 40 20 83 105
270 55 20 82 83
296 60 20 87 90
312 68 21 89 94
295 75 20 83 92
292 80 20 81 92
263 70 20 58 105
271 50 15 79 100
283 40 15 80 90
256 30 15 79 88
8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se
da la información requerida para la selección del modelo de regresión superior,
basado en la inclusión del número de variables regresoras, seleccionado entre
8-89
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
cuatro modelos candidatos. El ejemplo está relacionado con el calor acumulado del
endurecimiento del cemento tomado como la variable dependiente, en función de
los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 =
% ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamaño de muestra igual
a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76.
Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es
el modelo superior que tiene el número adecuado de variables regresoras.
Tabla mostrando la información. Llenar los faltantes.
No. de regresores k Regresor (es)k SSEk R2k R2(ajustada)k Cpk F(calc.)k
1 x4 880.85 0.676 0.647 138.2
2 x1, x2 58.01 2.7
3 x1, x2, x3 0.982 0.876 3.2
4 x1, x2, x3, x4 0.982 4.0
8-90
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 9
Regresión polinomial
Modelos polinomiales de segundo orden (k = 2) con una variable independiente.-
Modelo de polinomios de tercer orden (k = 3), con una variable independiente.-
Modelo de segundo orden (cuadrático) con interacción.- Modelo polinomial (de
segundo orden o cuadrático), con tres variables independientes con interacción.-
Evaluación de los modelos de regresión.- Prueba estadística para comparar la
suma de los cuadrados del error (SSE) de cada modelo probado, para saber cual
modelo es superior.- Modelos de regresión no lineales y de regresión logística.-
Modelos de regresión exponenciales paramétricos, con una sola variable
independiente.- Procedimientos para la identificación de valores atípicos
extremos. Diagnóstico y mitigación de multicolinealidad.- Medidas para corregir
multicolinealidad severa.- Ejemplos de problemas de regresión polinomial
usando el programa de computadora Minitab.- Autocorrelación en datos de
series de tiempo.- Heteroscedasticidad y homoscedasticidad.- Prueba de White
para el problema de heteroscedasticidad.-
La regresión polinomial es un caso especial de la regresión lineal simple o múltiple.
Hay modelos polinomiales de segundo o tercer orden. Con la regresión polinomial
existen modelos con una variable independiente, con ecuaciones cuadráticas, cúbicas
o con órdenes más altos que k = 3. También hay modelos polinomiales con dos o más
variables independientes, con ecuaciones de segundo, tercer orden, etc. Igualmente,
puede haber modelos de segundo orden o tercer orden con interacción. Sin embargo,
los modelos polinómicos que tienen tres o más variables independientes, con valores
de k > 3 son aplicaciones muy dificultosas y raras.
9-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 9.0. Figuras mostrando las gráficas del modelo cuadrático y cúbico. Por
ejemplo, gráfica (a) muestra el modelo de segundo orden, con β2 < 0; la gráfica (b)
muestra el modelo con β2 > 0 y con varios valores de β2. La gráfica (c) muestra los
modelos de tercer orden con β3 < 0 y, (d), con β3 > 0. (Fuente: Keller et al. 1990)
9-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Los modelos polinomiales de poderes más altos que k = 3 deben de usarse con
precaución. Esto se debe a que, la interpretación de los coeficientes es difícil, y las
interpolaciones pueden ser peligrosas. Además, cuando hablamos de modelos con
valores de k = 4, o k = 5, el comportamiento de semejantes modelos es extraño y de
aplicaciones raras y, por lo tanto, no se discutirán aquí.
Modelo de segundo orden con más de dos variables independientes con
interacción
Antes de discutir estos modelos de regresión hay que definir el término interacción.
Interacción significa que, el efecto de x1 sobre y, es influenciado por el valor de x2, que
también significa que, el efecto de x2 sobre y, es influenciado por x1.
Para ver el efecto de interacción, supóngase que la ecuación de la línea de
regresión muestral es y = 6 + 4x1 + 5x2 – 3x1x2. Para explicar este efecto supóngase que
le demos valores a x2 de 1, 2, y 3. Al sustituir los valores de x2 = 1, 2, y 3, en la ecuación
muestral de arriba, se producen las siguientes ecuaciones: y = 5 + x1, con x2 = 1; y =
10 – 2x1 con x2 = 2 y, además, y = 15 – 5x1, con x2 = 3. Analizando estas tres ecuaciones
modificadas vemos que el intercepto y los coeficientes de x1 también varían. Aquí se ve
que el efecto de x1 sobre y es influenciado por el valor de x2. Al graficar estas tres
ecuaciones vemos que las tres líneas rectas se cruzan entre si. Esto se ve en la Figura
9.1 (b). En esta gráfica, claramente, se ve que hay interacción, es decir, cuando las
líneas rectas se cruzan entre si.
Modelo de segundo orden (cuadrático) con interacción
Si un investigador cree que en sus datos existe una relación cuadrática entre la variable
dependiente (y) y cada una de las variables independientes x1 y x2, es decir, cuando las
variables independientes interaccionan entre si (decisión que se logró después de
analizar las gráficas con tres curvas interaccionando entre si), entonces, se
9-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
β12, β13, β23 = los coeficientes del efecto de interacción entre los pares de variables
de predicción x1x2, x1x3 y x2x3 x1x2, x1x3, x2x3 representan la interacción entre las
variables independientes x1, x2, x3,x1, x2, x3 = variables independientes
En la solución de problemas relacionados con modelos de regresión lineal,
múltiple o de regresión polinomial, con una o más variables independientes es siempre
conveniente graficar los datos y examinar el diagrama esparcido. Esto se hace con el
objeto de analizar, visualmente, el diagrama esparcido y ver el tipo de curva mostrado
y, por consiguiente, el modelo de regresión o función que pueda encajar mejor en los
datos.
Figura 9.1. Gráficas mostrando modelos polinomiales de primero y segundo orden, con
dos variables independientes. La gráfica (a) muestra la ecuación y = 6 + 4x1 + 5x2.
Cuando x2 = 1, 2 y 3, las ecuaciones modificadas se ven en la gráfica en cada uno de sus
casos.
9-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Donde, SSE = Σe2i se refiere a la suma de los cuadrados del error o residuo, y p es línea
9-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
y | 2508 2518 3304 3423 3507 3190 3500 3883 3823 3646 3708 3333 3517 3241 3103 2776
9-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 9.2. Diagrama esparcido de los datos del rendimiento de la cosecha (y) y el
número de días de floración (x). (Fuente: Devore, 2001).
Los niveles críticos para una prueba bilateral, con un nivel significante de α = 0.05 son:
9-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Conclusión: Debido a que Fcalc. = 25.08 >>> Fcrítica = 3.81, se rechaza la hipótesis nula
Ho:β2 = 0 y, por lo tanto, se inclina por la hipótesis alternativa de H1:β2 ≠ 0.
(d) La estimación del coeficiente de determinación es:
R2 = 1 – SSerror/SStotal
= 1 – 540,388/2,625,167
= 0.794
(e) Para la prueba de hipótesis nula Ho:β2 = 0 y la hipótesis alternativa H1:β2 ≠ 0,
usamos los datos de arriba. Por ejemplo, β2 = -4.5358 y la desviación estándar es de sβ2
= 0.6744. La prueba de Ho:β2 = 0 es lo mismo que decir que el modelo polinomial
cuadrático no aplica a los datos y, H1:β2 ≠ 0 dice que si aplica. La función de t usada
es:
t = β2 / sβ2 (9-8)
9-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(c) Finalmente, probar un modelo de regresión lineal múltiple, sin interacción. Este
modelo, lo llamaremos modelo lineal simple.
(d) Describir las ecuaciones de los modelos de regresión poblacionales de los incisos
(a), (b) y (c).
(e) Para decidir cual modelo es mejor, hacer una tabla con los resultados de los tres
modelos, basándose en los diagnósticos objetivistas como las estadísticas R2, R2ajustada,
s, PRESS, ANOVA, etc.
(f) Hacer una prueba de hipótesis para ver si el efecto de interacción es viable. Además,
usar la ecuación 9-9, para seleccionar el modelo de regresión más apropiado.
9-17
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-18
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 9.3. Figura mostrando los resultados usando el programa Minitab de los tres
modelos probados. (Elaboración propia)
(a) Primero, se prueba el modelo de regresión polinomial cuadrático, con interacción,
es decir, el modelo completo.
The Regression Equation is:
(y) = -1135 + 173(X1) + 23.6(X2) – 3.73(X21) – 3.8(X22) + 1.97(X1X2)
Source DF SS MS F p
Due to regression 5 368162 73632 36.88 0.000
Residual Error 19 37934 1097
Total 24 406096
Nota: Aquí, la región crítica de F, con α = 0.05 y con 5 y 19 grados de libertad, es 2.74.
(b) Enseguida se prueba el modelo de regresión cuadrático, sin interacción, es decir, el
modelo abreviado. El programa Minitab arroja los siguientes resultados:
The Regression Equation is:
(y) = -1558 + 198(X1) + 70.8(X2) – 3.98(X21) – 4.12(X22)
9-19
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Source DF SS MS F p
Due to Regression 4 359463 89866 38.54 0.000
Residual Error 20 46633 2832
Total 24 406096
Analysis of Variance
Source DF SS MS F p
Due to regression 2 132253 66126 5.31 0.013
Residual Error 22 273844 12447
Total 24 406096
Nota: Para probar que los coeficientes son iguales, en cuanto al análisis de varianza, la
función de ANOVA prueba la longitud total de la utilidad del modelo.
(d) La descripción de los tres modelos poblacionales, a estimarse, por los modelos de
regresión estadística son:
1. El modelo cuadrático con interacción o completo es:
y = βo + β1x1 + β2 x2 + β3 x21 + β4 x22 + β5 x1x2 + ε
2. El modelo cuadrático sin interacción o abreviado es:
y = βo + β1x1 + β2 x2 + β3 x21 + β4 x22 + ε
3. El modelo de regresión lineal múltiple es:
y = βo + β1x1 + β2 x2 + ε
9-20
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Al juzgar por los resultados, tal parece que los mejores modelos candidatos son el
modelo completo y el abreviado. (Para hacer una decision final usar la función (9-9).
(f) Ahora se va a inquirir si existe suficiente evidencia, para concluir que, el modelo
cuadrático, con interacción, es el modelo óptimo. Esto se debe a qué, si a los modelos
de regresión se les agregan variables innecesarias, que pudieran dar un mejoramiento
pequeño, no es recomendable. Bajo estas condiciones, la adición de variables
innecesarias conlleva a problemas de colinealidad (correlación entre las variables
regresoras). Por esta razón, es conveniente dejar el modelo de regresión, lo más simple
posible, a menos de que existan buenas razones estadísticas para agregarle variables
adicionales.
Una manera de revisar, si el efecto de interacción es necesario, se prueba β5 (el
coeficiente de interacción) haciendo una prueba de hipótesis, como sigue:
La prueba de hipótesis nula es: Ho:β5 = 0
La prueba de hipótesis alternativa es: H1:β5 ≠ 0
Con un nivel significante de α = 0.05, la región de rechazo es:
|t| > tα/2;n-k-1; > t0.05/2;25-6-1; > t.025;19; > 2.093
De la Figura 9.3, en la columna de las pruebas de t, se ve que, para el efecto de
9-21
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
interacción de (x1x2) el valor de T es igual a 2.09 con p = .051. Por consiguiente, debido
a que T = 2.09 es menor que la T crítica de 2.093, esto indica que, la inclusión del
término de interacción β5x1x2 no mejora al modelo completo, es decir, al incluir el
factor de interacción. Esta decisión nos lleva al modelo cuadrático, sin interacción,
como el mejor modelo para este problema.
Otra forma de comprobar lo mismo que arriba, se puede hacer usando la
ecuación (9-9). Esta estadística dada por Keller et al. (1990) está relacionada con la
suma de los cuadrados SS, la cual mide, qué tan bien encajan los datos en el modelo.
Como se dijo antes, este procedimiento consiste en comparar la suma de los cuadrados
SS1 del modelo abreviado y SS2 del modelo completo. Por ejemplo, si SS2 es
significativamente más pequeña que SS1, se concluye que el modelo completo es
superior al modelo abreviado; de otra manera, se concluiría que, el modelo completo no
sería, realmente, superior. Para tales fines se usa la estadística (9-9) y se procede a
sustituir los siguientes valores sacados de la Figura 9.3 es decir, SS1 = 46633, SS2 =
37934, k2 = 5, k1 = 4, n = 25.
La prueba de hipótesis nula es: Ho:β3 = β4 = β5 = 0. La prueba de hipótesis
alternativa es que los coeficientes de regresión no son igual a 0 o, cuando menos, uno
de los coeficientes β3, β4 y β5 no es igual a 0. Si el modelo completo (con interacción en
este caso) es mejor que el abreviado (sin interacción en esta instancia), el valor de SSE2
será más pequeño que SSE1, el valor de F será grande, y se rechazará Ho:, y se concluirá
que si hay evidencia para afirmar que el modelo completo, con interacción, es mejor
que el modelo sin interacción. Sin embargo, si el modelo completo no es
significantemente mejor que el modelo abreviado, entonces, la relación SSE1 – SSE2,
será, aproximadamente, igual a cero. Por consiguiente, el valor de F será pequeño y no
se rechazará la hipótesis nula Ho: Bajo estas condiciones se concluirá que, el modelo
abreviado (sin interacción), es mejor.
9-22
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
En conclusión, debido a que la Fcalc. = 4.35 < Fcrítica = 4.38, se dice que no hay evidencia
para afirmar que el modelo de regresión con interacción es superior al modelo
abreviado.
Ejemplo #3. El desarrollo de microorganismos sigue a un crecimiento exponencial
matemático. Para esto decidió usar un modelo cúbico, donde Y es el conteo de
microorganismos y X es el número de horas que han pasado. Usar el programa Minitab
para tales propósitos.
Solución:
La ecuación es: Y = -8.10 + 12.7X – 0.905(X 2) + 2.14(X 3)
s = 41.845 R2 = 0.998 R2(ajustada) = 99.8%
TABLA 9.4. Tabla de análisis de varianza. (Elaboración propia)
Fuente de variación g.l. SS MS Fcalc.
Debido a la regresión 3 12,331,818 4,110,606 1370202
Residuo (error) 13 22,760 1,751
Total 16 12,354,578
9-23
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-24
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-25
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-26
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-27
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 9.4. Gráfica mostrando los casos de SIDA, en función del tiempo de este
problema. (Elaboración propia)
(b) Cuando t = 20 (año 2000), el número de casos de SIDA sería:
y = (1290.84)(1.75974) 20
= 104,674,894.9
9-28
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ajustamiento de curvas
En el ajustamiento de curvas, para seleccionar el modelo que mejor encaja en los datos
se dan abajo varios tipos de curvas. Estas funciones ayudan a seleccionar la forma más
apropiada para los datos. Estos tipos de curvas son sugeridos por el programa de
computadora NCSS.
Figura 9.5. Gráficas mostrando los diferentes tipos de funciones usados en los
ajustes de curvas, para seleccionar el mejor modelo de regresión que pueda encajar
en los datos.
9-29
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Figura 9.6. Gráficas mostrando los diferentes tipos de curvas usados en el ajustamiento
de modelos de regresión más apropiados.
9-30
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-31
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
programa NCSS.
9. También se puede hacer usando el valor crítico de Bonferroni, que identifica los
valores absolutos de los residuales estudentizados. Esta prueba citada por Neter et al.
(1996) se da como t(1 – α/2n;n – p – 1).
10. También se hace con la estadística Cook´s Distance (lógica del programa NCSS), la
cual dice que, si ésta es mayor que F(.50,p,n-p), donde F es un valor de la distribución F,
entonces, esto sugiere un valor extremo.
11. Los valores extremos también se pueden identificar con los gráficos de los residuos
que van en función de X o de Y.
Diagnóstico de multicolinealidad
En regresión múltiple hay lo que se llama colinealidad, multicolinealidad o
intercorrelación. Esta situación existe cuando las variables independientes están
correlacionadas entre si. Lo ideal en regresión múltiple es de que las variables
independientes x1, x2,…, xkn no estén correlacionadas, de tal manera que, cada una
explique un porcentaje separado de la variación en la variable dependiente.
El mal efecto de multicolinealidad es que las desviaciones estándar de los
coeficientes del modelo de regresión están sobreestimadas. Como resultado de esto,
cuando se hacen las pruebas de hipótesis, la estadística t es más pequeña de lo que
debería ser. Además, algunas variables independientes o exógenas aparecen como si no
estuvieran relacionadas linealmente con la variable Y, cuando en realidad si lo están.
Existen dos métodos para descubrir la multicolinealidad, es decir, métodos
informales y métodos formales. Los métodos informales para detectar colinealidad
severa son:
1. Estudios de los signos algebraicos de los coeficientes del modelo de regresión. Si
hay colinealidad, los signos algebraicos de los coeficientes son opuestos, a lo que se
debería esperar de consideraciones teóricas o de experiencia a posteriori.
9-32
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-33
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
hechas, solamente, sobre las región de los valores de las variables independientes y, los
coeficientes de regresión estimados no se usarán para propósitos de interpretación,
concerniendo las relaciones de las variables explicativas (X´s) y de la variable de
respuesta (Y), entonces, la multicolinealidad, aun cuando sea severa, no será un
problema (Pfaffenberger, 1987). Aquí, sin embargo, la determinación de la región
muestreada es difícil. Por ejemplo, si hay una variable independiente, entonces, la
región es un intervalo sobre la línea real entre el valor mínimo de x y el valor máximo
de x en la muestra. Además, con cuatro variables independientes, la región muestreada
es en el espacio de cuatro dimensiones de las x´s y sus linderos no son obvios. Por lo
tanto, bajo estas condiciones, hay que ejercer precaución, de tal manera que, la
predicción no represente una extrapolación más allá de la región muestreada de las x´s,
cuando existe multicolinealidad severa. Por otra parte, si se desea hacer
interpretaciones de los coeficientes de correlación (bi), entonces la multicolinealidad no
se puede tolerar.
2. El hecho de que algunos o todas las variables independientes estén correlacionadas
entre si, en general, no obstruye la habilidad para obtener un buen ajuste de los datos.
Esta situación tampoco interfiere en las inferencias acerca de las respuestas promedio
de predicciones de nuevas observaciones, siempre y cuando, estas inferencias sean
hechas dentro de la región de las observaciones.
3. Cuando las variables independientes están altamente correlacionadas, los
coeficientes de regresión estimados tienden a tener una gran variación de muestreo. Por
lo tanto, bajo estas condiciones, los coeficientes de regresión tienden a variar
ampliamente de una muestra a otra. Como resultado de esto, solamente, se obtiene
información imprecisa acerca de los coeficientes individuales.
4. Cuando hay multicolinealidad, la interpretación de un coeficiente de regresión,
9-34
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-35
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-36
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-37
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 9.6. Tabla mostrando los valores originales y los valores del cuadrado y del
cubo de los valores de X. (Elaboración propia)
Nota: para hacer esta tabla cuadrar y cubicar los valores de X antes de ponerlos en las
columnas. Después de esto, se corre el programa como si fuera una regresión lineal.
9-38
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
(a) La figura de abajo muestra la gráfica de los datos.
40
Millas por galon (y)
30
20
40 50 60
Velocidad constante (x)
Figura 9.7. Figura mostrando el rendimiento de gasolina en función del tipo de manejo.
(Elaboración propia)
(b) Los resultados asumiendo un modelo cuadrático son:
y = -183 + 8.98(X) – 0.0911(X2)
Con s = 1.727, R2 = 0.947, PRESS = 49.26
TABLA 9.7. Tabla de ANOVA para el ajuste de un modelo cuadrático. (Elaboración
propia)
Fuente de variación g.l. SS MS Fcalc. Valor p
Debido a la regresión 2 483.17 241.58 81.0 0.000
Error o residual 9 26.83 2.98
Total 11 510.00
9-39
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 9.8. Tabla mostrando los coeficientes, los errores estándares de los
coeficientes, los valores de t y de p para el modelo cuadrático. (Elaboración propia)
TABLA 9.10. Tabla mostrando los coeficientes, los errores estándares de los
coeficientes, los valores de t y de p para el modelo cúbico. (Elaboración propia)
Predictores Coeficientes Error estándar Valor t Valor p
de coeficientes
Constante -73.9 125.7 -0.59 0.57
X1 1.85 8.2 0.23 0.83
XSQR 0.06 17.5 0.35 0.73
XCUBE -0.001 0.001 -0.87 0.41
9-40
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Standardized Residual
-1
-2
2 4 6 8 10 12
Observation Order
1
Standardized Residual
-1
-2
20 30 40
Fitted Value
Figura 9.9. Gráfica de los residuos estandarizados versus los valores ajustados de Y
para el modelo cúbico. Nótese que, en esta gráfica hay el mismo número de valores
positivos y negativos. En contraste, el modelo cúbico ajustado (no mostrado aquí) no
muestra el mismo número de residuos positivos y negativos. (Elaboración propia).
9-41
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
1
Normal Score
-1
-2
-2 -1 0 1
Standardized Residual
(d) De acuerdo a los datos tabulados de abajo, y de los diagnósticos gráficos, tal parece
que el mejor modelo es el modelo cuadrático. Esto se debe a que, a pesar de que los
valores de R2 y s de los dos modelos son parecidos, los valores de PRESS difieren uno
del otro. Además, los valores de t del modelo cuadrático son muy significantes en
comparación con los del modelo cúbico (TABLAS 9.8 y 9.10). También la Figura 9.7
de Y versus X sugiere a una función cuadrática; no cúbica. Finalmente, los análisis de
los gráficos de los residuales para la función cuadrática son más convincentes que los
del modelo cúbico.
TABLA 9.11. Tabla mostrando los datos del problema.
__________________________________________________________________
Diagnósticos estadísticos
_________________________________________
Clase de Modelo R2 s PRESS
__________________________________________________________________
Modelo cuadrático 0.947 1.727 49.26
__________________________________________________________________
Modelo cúbico 0.952 1.750 59.22
9-42
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Antes de comenzar, vamos a tomar en cuenta la definición que dice como calcular el
cuarto inferior y el cuarto superior de un diagrama de caja. Esta definición dice que,
una vez que se ordenan los datos en forma ascendente, el cuarto inferior y el cuarto
superior se definen como:
Cuarto = Mediana de los mínimos n/2 casos, cuando n es par
inferior Mediana de los mínimos (n + 1)/2 casos, cuando n es impar
Cuarto = Mediana de los máximos n/2 casos, cuando n es par
superior Mediana de los máximos (n + 1)/2 casos, cuando n es impar
El investigador Devore (2001) enlista los valores atípicos usando un diagrama
de caja. Estos datos son: El valor mínimo y el valor máximo, el cuarto inferior y el
cuarto superior, la mediana, la cuarta dispersión fs (la cual es la diferencia entre el
cuarto superior y el cuarto inferior).
Además, para identificar la presencia de valores inusuales moderados y
extremos se dice que, toda observación mayor que 1.5fs, del cuarto más cercano, es un
valor inusual. Análogamente, si 3fs es mayor que el cuarto más cercano, entonces, el
valor inusual es extremo.
Los cálculos para este problema son:
9-43
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
X = 95.0, n = 25, valor mínimo = 5.0, valor máximo = 114.0, X = 84.92, s = 29.55,
error estándar del promedio = 5.91, Q1 = 89.0, Q3 = 97.5
Cuarto inferior para observaciones impares = mediana de los mínimos (25 + 1)/2 = 13
Cuarta dispersión fs = cuarto superior – cuarto inferior
= 97 - 90 = 7
Además, 1.5fs = (1.5)(7) = 10.5 y 3fs = (3)(7) = 21
Para estimar los valores atípicos inusuales, el criterio es: cualquier observación
menor que el cuarto inferior, menos 1.5fs o mayor que el cuarto superior más 1.5fs es un
valor atípico inusual. Esto es: 90 – 10.5 = 79.5 y 97 + 10.5 = 107.5
Analizando los datos de la TABLA 9.14, se ve que hay un valor atípico (114)
mayor en el extremo superior de la muestra. Además hay cuatro valores, de este tipo (5,
8, 14, 74), en el extremo inferior. Para identificar los valores extremos se calcula la
diferencia entre el cuarto inferior y 3fs, es decir, 90 – 21 = 69. Refiriéndose a la TABLA
9.14 y la Figura 9.11, vemos que las tres observaciones 5, 8 y 14 son valores extremos
(que se eliminarán) y los valores 85 y 114 son valores atípicos moderados.
Boxplot of C1
0 50 100
C1
Figura 9.11. Diagrama de caja con los 3 valores atípicos extremos (5, 8, 14) y los
valores atípicos moderados (85, 114). (Elaboración propia)
9-44
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #17. Este ejemplo está encaminado a analizar el efecto que pueda ocurrir en el
modelo de regresión estimado, cuando se eliminan valores extremos. Para los datos de
la tabla de abajo, asumir un modelo polinomial cúbico. En la primera instancia, estimar
el modelo cúbico incluyendo todas las variables. Enseguida, ajustar un modelo de
regresión polinomial, como el anterior, pero esta vez excluyendo los valores extremos
(5, 8 y 14) estimados en el ejemplo anterior. Analizar en cada caso, los valores de R2,
R2ajustada, el error estándar de lo estimado s, PRESS (la sigla de suma de cuadrados de
predicción), ANOVA, etc. Ver si hay diferencias significantes en cada uno de los dos
casos. Hacer una tabla con los dos modelos de regresión que incluya las estadísticas
anteriores, correspondientes a cada uno de los dos modelos probados, bajo las dos
condiciones.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
9-45
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-46
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Source of variation DF SS MS F p
Due to Regression 3 19072.1 6357.4 70.57 0.000
Residual Error 21 1891.7 90.1
Total 24 20963.8
Analysis of Variance
Source of Variation DF SS MS F p
Due to Regression 3 1232.81 410.94 187.00 0.000
Residual Error 18 39.56 2.20
Total 21 1272.36
9-47
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
TABLA 9.17. Tabla mostrando el resumen de los resultados de los dos modelos
probados, es decir, con y sin los valores extremos. (Elaboración propia)
Tipo de modelo R2 R2ajustada s PRESS
Modelo con valores extremos 91.0% 89.7% 9.491 2749.98
Modelo sin valores extremos 96.9% 96.5% 1.482 105.10
9-48
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
D = ───────── (9-14)
n
Σ e2t
t=1
Donde:
D es la estadística de Durbin-Watson
et y et-1 relación entre los residuos sobre el periodo de tiempo
n es el número de casos
En general, a menos que las observaciones sean de series de tiempo, la
estadística de Durbin-Watson debería ser ignorada, porque esta estadística da una
prueba de autocorrelación positiva o negativa, solamente, para series de tiempo.
9-49
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-50
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-51
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
> 0, porque los errores aleatorios adyacentes εt y εt-1 tienden a ser de la misma
magnitud cuando están positivamente autocorrelacionados. Por lo tanto, la diferencia
en los resultados εt - εt-1 tienden a ser menores cuando ρ > 0, lo cual lleva a un
numerador pequeño en la función de D y, por lo tanto, a una prueba estadística de D
pequeña.
Las tablas de abajo muestran las pruebas de los linderos de Durbin-Watson, para
un nivel de significancia de α = 0.05 y 0.01. Como se ve, la columna de la izquierda
señala los valores de n. Las siguientes columnas dan los valores para cada k con sus
correspondientes linderos. Siendo así, las tablas de abajo muestran las pruebas de los
linderos de Durbin-Watson para los niveles significancia de α = 0.05 y α = 0.01.
9-52
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla 9.19. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un
nivel de significancia de α = 0.05.
Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and
Economics (1990).
9-53
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla 9.20. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un
nivel de significancia de α = 0.01 (continuación).
Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and
Economics (1990).
9-54
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejemplo #18. Se dan los siguientes datos adaptados del libro Applied Linear Regresión
Models de Neter et al. (1996):
(et – et-1)2 = 0.09794, e2t = 0.1333018 con una tamaño de muestra de n = 20. Probar las
hipótesis (de autocorrelación positiva) señaladas abajo usando niveles de significancia
de 0.05 y 0.01:
Ho:ρ = 0
Ha:ρ > 0
Solución:
Usando la ecuación (9-14) y sustituyendo da:
20
Σ (et – et-1)2
t=2
0.09794
D = ───────── = ──────── = 0.735
20 0.13330
2
Σe t
t=1
9-55
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-56
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-57
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-58
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 9
9.1. Este es un ejercicio relacionado con el ajustamiento del mejor modelo de
regresión. La tabla de abajo da los datos.
Tabla mostrando los datos. (Elaboración propia)
X | 0 1 2 3 4 5 6 7 8 9
___________________________________________________________________
Y | 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8 10.2
(a) Obtener el modelo de regresión más apropiado, es decir, lineal, cuadrático o cúbico
de acuerdo a los criterios R2, Rajustada, s y PRESS calculados.
(b) Complementar la decisión del mejor modelo candidato basándose en el diagnóstico
subjetivo del análisis gráfico.
La tabla de abajo da las respuestas objetivistas.
Tabla mostrando los datos. (Elaboración propia).
__________________________________________________________________
Tipo de modelo de regresión R2 R2ajustada s PRESS
Modelo de regresión cuadrático 46.3% 30.9% 2.102 100.404
Modelo de regresión cúbico 61.3% 42.0% 1.926 421.055
Modelo de regresión lineal 38.2% 30.5% 2.109 51.316
Distancia después
de frenar el auto, d (m) | 17 27 43 63 89 120
9-59
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Presión de oxígeno (x) | 603.40 582.50 556.20 594.60 558.90 575.20 80.10
9-60
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) ¿Realmente encaja un modelo cúbico mejor que un modelo de regresión cuadrático
o lineal? Justificar el argumento. (Si, porque el valor de R2 = 87.5% es el más alto de los
3 modelos probados; además el valor de s = 0.6726 y el valor de PRESS = 18.43 son los
valores más bajos de los 3 modelos probados. Además, los diagnósticos gráficos
también apoyan a la noción de un modelo cúbico)
(b) Si el modelo cúbico es superior (justificando el argumento), entonces, pronosticar
Y cuando X = 2. (4.422)
9.6. El libro de Probabilidad y Estadística Aplicadas a la Ingeniería de Montgomery
et al. 1996, p.583 da un ejemplo relacionado con los paneles de las paredes laterales de
un avión formados en una prensa de 1500 toneladas. El costo de fabricación de cada
unidad cambia con el tamaño del lote de producción. La tabla de abajo proporciona los
datos.
(a) Hacer un diagrama de dispersión y decidir qué grado del modelo polinomial es
conveniente usar.
(b) Hacer un análisis de varianza y probar que los coeficientes son igual a cero.
Calcular el valor de p y sacar conclusiones.
(c) Obtener el modelo polinomial que mejor encaje en los datos usando la ecuación
(9-9), con su respectiva prueba de hipótesis.
9-61
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) Obtener el modelo probabilístico (cuadrático o cúbico, sin asumir interacción), más
adecuado para los datos y estimar la función de regresión correspondiente.
(b) Validar el modelo determinado en (a) construyendo una gráfica con los residuales
9-62
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-63
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(b) Completar la tabla de abajo con los resultados de los cuatro modelos probados
y decir cual es el modelo superior.
9-64
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
con interacción
9.10. Analizar las gráficas de abajo de y versus x1 para una variedad de valores de x2 y
determinar si hay o no interacción.
Gráficas (a), (b), (c), (d), (e) y (f) de y en función de varios valores de x. (Elaboración
propia)
9.11. El texto de los autores Michael J. Neter, H., Kutner, Christopher J. Nachtsheim
y William Wasserman, cuyo título es Applied Linear Regression Models (1996)
discute la eficiencia de un tipo de un mecanismo de transmisión que funciona a más
de la capacidad normal se prueba para reducir el consumo de gasolina y, por ende, la
reducción de la contaminación ambiental (por las emisiones de gases de
invernadero). Esto se estudió en 12 pruebas, con una camioneta equipada con este
tipo de transmisión. La tabla de abajo muestra la velocidad constante (xi), en millas
por hora, en función de las millas por galón obtenidas (yi). Asúmase un modelo de
regresión de segundo orden. Los datos se dan en la tabla de abajo.
9-65
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-66
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-67
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
cuadrados del modelo simple es 130.0 y la suma de los cuadrados del modelo complejo
es de 100.0.
9.15. En una investigación relacionada con la contaminación del aire por el ozono, a
nivel del suelo, se sacó una muestra de 5 años (1999-2003) procedente de una estación
muestreadora localizada en el Parque Chamizal en El Paso, Texas. El mantenimiento
y calibración de los aparatos de esta estación muestreadora fue hecha por la E. P. A. de
Los Estados Unidos. El estudio consistió en el procesamiento estadístico de variables,
como el ozono (O3), el monóxido de nitrógeno (NO), el bióxido de nitrógeno (NO2) y
la temperatura en grados Fahrenheit (oF). Esto se hizo con el objeto de obtener un
modelo de regresión estadístico para fines de predicción. El procedimiento consistió en
sacar los promedios (de los valores espacio-temporales de una hora), de cada una de las
4 variables independientes de cada una de las 24 horas del día de cada mes de cada uno
de los 5 años. Aproximadamente, se procesaron 178,560 datos (24 horas x 31 días x 12
meses x 5 años x 4 variables). Los promedios de los promedios, en partes por billón
(ppb) se dan abajo. Hacer los siguientes cálculos:
(a) Graficar los datos para ver el tipo de la función gráfica que se pueda esperar.
Sugerencia: Usar el paquete de computadora Excel.
(b) Para obtener el mejor candidato del modelo de regresión usar un “best subset
regresión” (mejor subconjunto de regresión) y un “Stepwise Regresión” (regresión por
pasos). Evaluar la utilidad del modelo usando los criterios R2, s, Cp y PRESS y los
criterios subjetivos (gráficas de residuales y prueba de normalidad).
(c) Usando el modelo de regresión seleccionado, para el mes de julio, predecir la
concentración de ozono, si la concentración de NO es igual a 4.0 ppb, NO2 igual a 11.8
ppb, y la temperatura es de 23.5 oC.
La tabla de abajo muestra la información requerida.
9-68
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(a) Usando el programa Excel introducir los datos en la hoja de Excel, de la siguiente
manera: En la primera columna poner los meses del año, en la segunda columna poner
los valores de O3, en la tercera columna poner los valores de NO y en la última columna
poner los valores de NO2. Una vez hecho esto irse a:
Chart Wizard → En la ventana de Chart-Wizard-Step 1 of 4 Chart 5 → Chart Type →
Line → Next → Data Range (sombreando los datos) → Column → Next → Título →
Finísh. Todos estos órdenes generan la gráfica mostrada abajo.
90
80
70
60 Conc. O3
50 Conc. NO
40 Conc. NO
30 Temperatura
20
10
0
E F M A M J J A S O N D
9-69
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-70
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Para contestar las preguntas del inciso (c) usar el modelo de regresion seleccionado.
9.16. Las tablas de abajo muestran datos sacados de un experimento, el cual consiste en
4 variables independientes. Se usa un paquete de computadora, el cual selecciona tres
de los modelos candidatos más apropiados.
(a) Confirmar la selección del los tres candidatos modelos de regresión más apropiados
usando el paquete Minitab, NCSS o SAS.
(b) De los tres modelos finalistas señalados en la tabla de abajo, seleccionar el modelo
más óptimo basando el criterio en los diagnósticos estadísticos R2, s, PRESS y Cp.
Complementar la decisión usando enfoques subjetivistas, es decir, analizando los
gráficos de los residuos estandarizados. Hacer, además, una prueba de normalidad.
9-71
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
La tabla de abajo muestra los tres mejores candidatos de modelos, para que el lector
haga una decisión sobre cual de los tres modelos es el mejor. Hacer esta decisión final
basándose en los criterios estadísticos R2, s, PRESS y Cp. ¿Pudiera una interacción
mejorar el modelo de regresión?
Tabla mostrando los resultados. (Elaboración propia)
Modelo de regresión Fcalc. R2 s PRESS Cp Durbin-Watson
X2, X3 998 0.9940 6.6749 782.1896 11.4013 1.91
X1, X2, X3 1200 0.9970 4.9795 643.3578 3.4075 2.02
X1, X2, X3, X4 852 0.9971 5.1193 741.7557 5.0000 2.02
9.17. Este problema está relacionado con una información de datos de un experimento
relacionado entre el pH (X) y la conductividad eléctrica (Y). Los datos se dan en la tabla
9-72
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-73
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9.18. Se dan los siguientes datos relacionados con la manufactura de chumaceras para
vehículos. Se sospecha que ciertas mediciones no están dentro del rango permitido,
posiblemente, debido a fallas de los operadores o tal vez de la maquinaria.
9-74
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
modelos es superior.
9.19. Se da la tabla de abajo con datos relacionados con las concentraciones de
monóxido de carbono (CO) emitidas por motores de combustión interna. Sin embargo,
se argumenta que, el aparato analizador que muestreaba el CO, pudo haber tenido fallas
durante el muestreo de CO debido a que se notaron valores fuera de lo normal. Para
verificar si en verdad hubo valores atípicos en las concentraciones de CO, se requiere
saber, cuales fueron los valores extremos. Para tales fines usar diagramas de caja que
identifiquen valores atípicos extremos. Para esto se da la tabla de abajo.
Tabla mostrando los valores de las concentraciones de monóxido de carbono (ppm).
(Elaboración propia).
Concentración de CO | 95 90 90 80 75 65 45 60 57 95 97 130 130 120
105 103 100 99 99
No. de observación | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
18 19
9-75
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
que no incluye los valores extremos. Bajo estas condiciones, los valores de los
diagnósticos estadísticos, para el modelo de regresión, sin los valores atípicos extremos
son: R2 = 98,4%, R2ajustada = 98.2%, s = 2.51, PRESS = 135.74. En contraste, para el
modelo de regresión cuadrático, que incluye todos los valores atípicos extremos, los
valores de los diagnósticos estadísticos son: R2 = 93.6, R2ajustada = 92.8%, s = 6.26 y
PRESS = 949.77)
(f) De acuerdo a los diagnósticos objetivistas y subjetivistas, determinar cual de los
dos modelos es superior.
9.20. El texto de Jay L. Devore intitulado Probabilidad y Estadística para Ingeniería
y Ciencias (2001) cita una investigación para determinar la concentración de cocaína
en la sangre (mg/L) en una muestra de individuos quienes murieron de delirio excitado
(DE) debido al uso de la cocaína. Además, hubo otra muestra de cocaína en la sangre
de otro grupo de adictos a esta droga, quienes murieron por sobredosis, sin delirio
excitado. El tiempo de supervivencia de ambos grupos fue de 6 horas. Los datos
adjuntos se graficaron en un diagrama de caja. Este estudio se publicó en la revista
“Fatal Excited Delirium Following Cocaine Use” (J. of Forensic Sciences, 1997, pp.
25-31). Los datos de este estudio se dan en la tabla de abajo.
9-76
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-77
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9.22. Los autores Sawyer C. N., Perry L. McCarty del libro Chemistry for Sanitary
Engineers, 2nd. Edition (1967) proporcionan los siguientes datos provenientes de un
experimento para evaluar la desinfección de un almacenamiento de agua con una
dosis de cloro dada para matar las bacterias coliformes. Usando el programa Minitab
o cualquier otro programa de computadora, correr un análisis de regresión
estadístico y hacer lo siguiente:
(a) Decir el orden de la reacción de estos datos. (Primer orden)
(b) ¿Que tan bien encajan los datos en el modelo de regresión? Para esto, usar un
criterio objetivista y uno subjetivista para justificar la aserción.
(c) Calcular la vida media
(d) Calcular la tasa de la reacción (0.1848)
(e) ¿Predecir el tiempo que se llevaría para aniquilar el 50% de las bacterias
coliformes?
9-78
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
9-79
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
(c) De acuerdo a los resultados obtenidos en los incisos (a) y (b) decidir cual de los
dos modelos es superior, es decir, el modelo de regresión que ajusta mejor a los
datos.
9.24. En un experimento relacionado con la velocidad del vehículo y el consumo de
gasolina se estudia en una muestra de un tamaño 15, es decir, usando un solo
vehículo. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos de este experimento.
__________________________________________________________________
Velocidad (km/hr) | 57 57.6 64 66 66 80 81 89.6 98 99
Consumo de gasolina (L/km) | 20 21 25 26.3 26.5 29 29 27 25.5 25
9-80
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 10
Estadística no paramétrica. El modelo de ANOVA libre
Ventajas de los métodos no paramétricos.- Desventajas de los métodos no
paramétricos.- Prueba de H de Kruskal-Wallis para análisis de varianza por
rangos.- Pruebas de hipótesis con las funciones no paramétricas.-
Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple.- Pruebas
de hipótesis no tradicionales, para la prueba de Kruskal-Wallis, es decir,
usando el valor de la probabilidad p.-
Cuando se estudian procedimientos libres o de pruebas no paramétricas se incluyen
la prueba de suma de rangos de Wilcoxon, la prueba de Kruskal-Wallis para
diseños completamente aleatorizados, la prueba de Friedman, la prueba de
Kolmogorov-Smirnov, etc. Existen muchas aplicaciones en la ciencia y en la
ingeniería donde los datos se reportan, no como valores continuos, sino en una
escala ordinal de tal manera que se puedan asignar rangos a los datos obtenidos.
Todos los métodos discutidos anteriormente, como la distribución normal, la
distribución de t de estudiante, la distribución de F, el modelo de regresión, etc., se
llaman métodos estadísticos paramétricos. Esto se debe a qué, estas distribuciones
continuas asumen que la variación aleatoria de los datos debe de seguir a la
suposición de normalidad. Sin embargo, existen situaciones en que las
suposiciones de normalidad no se satisfacen para las pruebas de hipótesis. Para
resolver este problema, los estadísticos han diseñado varias alternativas para
aquellos investigadores que estén renuentes a aceptar las suposiciones de
normalidad, es decir, de funciones no paramétricas. Estos procedimientos no
paramétricos se aplican igualmente a distribuciones paramétricas y a distribuciones
no paramétricas.
10-1
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10-2
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
pérdida de peso de una sola libra, recibe la misma representación que la pérdida de
50 libras.
2. Las pruebas no paremétricas no tienen la eficiencia de las pruebas paramétricas.
Esto se debe a qué, con los métodos no paramétricos, en las pruebas de hipótesis se
necesita una fuerte evidencia, antes de que se pueda rechazar la hipótesis.
La TABLA 10.0 muestra una comparación entre los métodos paramétricos y los
no paramétricos.
TABLA 10.0. Tabla mostrando una comparación entre los métodos paramétricos y
los métodos no paramétricos. (Elaboración propia)
Aplicación Prueba Prueba no Eficiencia
paramétrica paramétrica
Datos pareados para Prueba de z Prueba de 0.63
muestras dependientes o de t* signo
σ +σ
2 2
** z = ( X 1 – X 2) – (µ1 – µ2) / 1 2
con σ1 y σ2 conocidas
n 1 n 2
10-3
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10-4
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10-5
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Los niveles de significancia son los mismos que las pruebas paramétricas, es decir,
α = .05 y α = .01. Estos valores se buscan en la tabla de la JI cuadrada con χ2α,
donde α es igual a .05 o .01 (extremo derecho de la tabla).
Pruebas de hipótesis no tradicionales, para la prueba de Kruskal-Wallis, es
decir, usando el valor de la probabilidad p
Para hacer estas pruebas de hipótesis no tradicionales usando el valor de p, se
siguen los mismos criterios usado anteriormente. El procedimiento se hace
buscando el valor de la estadística calculada H en la tabla de la distribución de JI
cuadrada, y se hace una interpolación usando la misma fórmula usada con las
pruebas paramétricas.
Ejemplos usando la prueba de Kruskal-Wallis
Ejemplo #1. Se quiere probar si existen diferencias en las concentraciones de
óxidos de nitrógeno (NO2) provenientes de tres muestreadores (1, 2 y 3)
localizados en diferentes lugares. Probar que no hay diferencias entre las
concentraciones de óxido de nitrógeno, entre las tres poblaciones muestreadas.
Usar α = 0.05. Las concentraciones de NO2 se dan en la tabla de abajo.
TABLA 10.1. Tabla mostrando las concentraciones de óxidos de nitrógeno (NOx)
en ppm provenientes de los tres muestreadores. (Elaboración propia)
Muestreador 1 Muestreador 2 Muestreador 3
51 14 89
32 31 20
17 68 60
69 87 72
86 20 56
62 28 22
96 77
97
10-6
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
Primeramente, se tienen que ordenar los rangos, para cada uno de los tres
muestreadores. Aquí, sin embargo, hay que tener cuidado de tomar en
consideración situaciones donde hay repeticiones. En este caso hay dos
repeticiones en los muestreadores 2 y 3. Estas situaciones se modifican como se ve
en la TABLA 10.2 de abajo. Analizando la tabla de abajo, vemos que, el marcador
más bajo, es el 14 de la columna dos, el 17 de la columna uno y, el 20 de la
columna dos y tres. La tabla de abajo muestra el orden de los rangos.
TABLA 10.2. Tabla mostrando los datos de los marcadores con sus respectivos
rangos. (Elaboración propia)
__________________________________________________________________
Mestreador 1 Muestreador 2 Muestreador 3
10-7
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Solución:
10-8
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
2. Enseguida, establecemos la región crítica unilateral derecha (no hay más que
esa, ¿por qué?).
χ2[α;k-1] = χ2[.05;4-1] = χ2[.05;3] = 7.82 (de la tabla de la JI cuadrada)
3. Usando la fórmula de Kruskal-Wallis (10-1) y sustituyendo:
N = 16, (ΣR1)2 = (13)2 = 169, (ΣR2)2 = (38)2 = 1444, (ΣR3)2 = (28)2 = 784, (ΣR4)2 =
(57)2 = 3249, n1 = n2 = n3 = n4 = 4, da:
H = 12/16(16+1) [169/4 + 1444/4 + 784/4 + 3249/4] – 3(16+1)
= 11.06.
4. Conclusión: Debido a que 11.27 > 7.82 se rechaza la hipótesis de igualdad de
poblaciones, y se dice que si hay diferencias entre los promedios de las
concentraciones de alquitrán en los cigarrillos.
5. El valor de la probabilidad p se saca buscando 11.06, con 3 grados de libertad en
la tabla de la JI cuadrada y está entre .025 y .01. Si se requiere mas precisión se
puede usar la fórmula de interpolación (5-28), es decir, buscando el valor de 11.27.
Los valores interpolados son:
λ2 = 0.99, χ2 = 11.345, λ1 = 0.975, χ2 = 9.348, H = 11.06
Sustituyendo estos valores en la fórmula de interpolación:
(λ2 – λ1) / (χ22 – χ21) = (λ2 – X) / (λ2 – χ2calc.)
(0.99 – 0.975)/(11.345 – 9.348) = (0.99 – X)/(11.345 – 11.06)
10-9
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10-10
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Rango | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 118
TABLA 10.7. Tabla mostrando los cuatro marcadores con sus correspondientes
rangos.
(1) (2) (3) (4)
.001 .01 .05 .10
_______________ ______________ ______________ _______________
Marcador Rango Marcador Rango Marcador Rango Marcador Rango
103 1 104 2 153 15 207 18
111 5 113 6.5* 127 11 183 17
107 4 117 8 143 13.5* 173 16
105 3 120 10 119 9
113 6.5* 138 12
143 13.5*
*Debido a que hay dos 113 y dos 143, entonces el rango correspondiente a 113 es
(6+7)/2 = 6.5 y el rango correspondiente a 143 es (13 + 14)/2 = 13.5
Ahora se procede a sumar los rangos para cada una de las cuatro columnas.
ΣR1 = 13 ΣR2 = 33 ΣR3 = 74 ΣR4 = 51
n1 = 4 n2 = 5 n=6 n=3
La región crítica derecha se calcula usando la distribución de JI cuadrada. El valor
de χ2α;ν = χ20.05;3 = 7.82, es decir, donde ν = k – 1 = 4 – 1 = 3.
Enseguida sustituyendo los valores de arriba en la ecuación (10-1)
10-11
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
[
H = ─────── ─────── + ────── + ────── + ────── – 3(18 + 1) ]
18(18+1) 4 5 6 3
10-12
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Ejercicios Capítulo 10
10-13
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
Tabla mostrando las temperaturas del cuerpo (oF) clasificadas por edades.
(Elaboración propia)
10.3. Un panel de siete expertos fue consultado para calificar a cinco industrias (A,
B, C, D, E) en cuanto a la probabilidad de que cambios tecnológicos produzcan
mejoras en el control de la contaminación ambiental, en el curso de los próximos
10 años. Las calificaciones en se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboración propia)
Industrias
_________________________________________________
A B C D E
_________________________________________________
Experto
1 0.15 0.75 0.10 0.00 0.30
2 0.30 0.60 0.20 0.05 0.25
3 0.20 0.80 0.30 0.00 0.50
4 0.00 0.50 0.25 0.10 0.60
5 0.10 0.55 0.15 0.15 0.40
6 0.25 0.70 0.35 0.25 0.45
7 0.40 0.95 0.45 0.20 0.35
(a) Probar con el nivel de significancia de α = 0.05, que las poblaciones son
idénticas.
(b) Calcular el valor de la probabilidad p.
10-14
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10-15
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
10-16
Estadísticos e-Books & Papers
Dr. Héctor Quevedo Urías
CAPITULO 11
Series de tiempo
Clasificación de los movimientos de las series de tiempo.- Tendencias a largo
plazo.- Componentes cíclicos de series de tiempo.- Variaciones estacionales.-
Variación irregular.- Métodos para encontrar líneas de tendencia.- Línea de los
cuadrados mínimos y parábolas de los cuadrados mínimos.-
Cualquier variable en función del tiempo, en sucesión, se llama series de tiempo. Las
series de tiempo son una secuencia de valores de variables tomadas en periodos de
tiempo sucesivos. La gráfica de una serie de tiempo es un diagrama, con el eje vertical
mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo
(minutos, días, años, etc.).
Las gráficas como los histogramas o diagramas de tallo y hoja son métodos
visuales útiles para mostrar la variación en los datos. Sin embargo, el tiempo es un
factor muy importante que contribuye a la variación observada de los datos, que los
histogramas o las gráficas de caja no los toman en cuenta.
Las series de tiempo son un conjunto de observaciones tomadas a tiempos
específicos, usualmente, a intervalos iguales en un orden cronológico. Las series de
tiempo o secuencias de tiempo se definen como datos estadísticos que son
coleccionados, registrados u observados en incrementos de tiempos sucesivos. El
análisis de los datos de las series de tiempo es de interés para aquéllos quienes deseen
entender la naturaleza de los datos pasados y presentes. También, las series de tiempo
son de interés para aquellos investigadores, quienes deseen usar el conocimiento de
datos pasados para predecir el futuro.
Las aplicaciones de las series de tiempo son muy comunes en la economía,
pero también en la economía o la ingeniería. Por ejemplo:
11-1
1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de
las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las
tendencias de las tasas de devaluación de la moneda. También es deseable predecir las
tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de
los incrementos de los costos de la vida.
2. Otras aplicaciones de las series de tiempo son los pronósticos de las tasas de interés
para la construcción de viviendas y el costo de los materiales de construcción.
3. También las compañías manufacturadoras quieren pronosticar la demanda de sus
productos y sus acciones en el mercado.
4. En ingeniería ambiental, los activistas y protectores del medio ambiente quieren
saber cuáles son las tendencias en los aumento de los gases de invernadero, como el
bióxido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos
forestales, etc.) que están calentando la tierra, fundiendo los glaciares montañosos y
las capas polares y cambiando el clima mundial. También es interesante saber las
tendencias y los aumentos de la radiación ultravioleta, que tanto daño está causando al
ser humano, por la destrucción del ozono natural estratosférico, causado por la
irracionalidad del hombre moderno.
5. Las series de tiempo también aplican para saber las tendencias y pronósticos de los
incrementos de la población mundial, etc.
Cuando se grafican las mediciones de series de tiempo, a menudo se observan
tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasarían
inadvertidos.
Definición: Matemáticamente, una serie de tiempo se define por valores Y1, Y2,....... de
una variable Y, como la temperatura, concentraciones de contaminantes, como CO2,
SO2, partículas atmosféricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una función de t
11-2
11-3
sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son
menos predecibles. Las fluctuaciones duran de 2 a 10 años, o más, cuando se miden
las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son
periodos de recesiones económicas o de periodos de inflación, demanda de productos
a largo plazo, etc. Esta situación se ve en la Figura 11.0 (b)
Variaciones estacionales
Este tipo de series de tiempo se refieren a variaciones periódicas, pero no están
limitadas a variaciones con la estación del año. Estos son patrones de periodos en las
series de tiempo que se completan en un año y, luego se repiten de acuerdo al mismo
patrón de periodo en años, subsecuentes. Por ejemplo, los precios de los mercados
financieros pueden mostrar tendencias altas o bajas en un día o en una semana.
En estudios ambientales, las fluctuaciones de los contaminantes muestran
tendencias cíclicas durante el día, como en el caso del estudio de las concentraciones
de ozono troposferico. Otros ejemplos son la producción de ciertos productos de
granjas agrícolas, el número de vehículos que pasan por cierto punto, entre dos sitios,
etc. La unidad de tiempo en variaciones estacionales es menos que un año, pero
pueden ser de un mes, una semana, o parte del día. Esta situación se ve en la Figura
11.0(c).
Variación irregular
Este es un tipo de variación que no está considerado por tendencias, ciclos o factores
estacionales, sino que se compone de fuerzas no recurrentes, esporádicas que no se
describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos
de variaciones irregulares son movimientos esporádicos de series de tiempo debido a
inundaciones, granizadas, heladas, tornados, huracanes, sequías, fuegos forestales,
etc.
11-4
Figura 11.0. Gráficas mostrando los tipos de tendencias. La gráfica (a) muestra una
tendencia de línea a largo plazo o de movimiento secular. La gráfica (b) muestra una
línea de tendencia a largo plazo con un movimiento cíclico sobrepuesto. La gráfica (c)
muestra tendencias cíclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).
11-5
11-6
TABLA 11.0. Tabla mostrando los tipos de funciones matemáticas más comunes
usadas para líneas de tendencia. (Elaboración propia)
Para decidir, cuál función matemática es la más apropiada, para ajustar los
datos se puede hacer viendo un diagrama esparcido de la gráfica de los datos. Por
ejemplo, si el diagrama esparcido en papel semilogaritmo de Log (y) vs. x muestra
una relación lineal, la ecuación tiene la forma de la curva exponencial (6). Si se usa el
papel logaritmo completo, Log y-Log x, y los datos muestran una relación lineal, la
ecuación tiene la forma de una curva geométrica (7). De cualquier manera, los
programas de computadora, como el SAS, Minitab, NCSS, etc., son las mejores
herramientas para encontrar la función que mejor ajuste los datos.
Métodos para encontrar líneas de tendencia
1. El método a mano libre o visual.
11-7
11-8
Figura 11.2. Gráfica mostrando el método de los cuadrados mínimos. Fuente: Spiegel
(1961).
Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de
X, digamos, X1, habrá una diferencia entre el valor Y1 y el valor correspondiente como
se determinó de la curva C. Como se ve en la gráfica, denotamos esta diferencia por
D1, la cual, en algunas ocasiones se refiere como la desviación, error o residual y
puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de
X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medición de “bondad de
ajuste” se da por la relación D21 + D22 + ... + D2n. De esta manera, si la suma de estos
cuadrados D21, D22, D23, etc., es pequeña, el ajuste es bueno. Pero, si la suma es
grande, el ajuste es malo, lo cual quiere decir que, el error o residual será grande,
indicando mucha variación entre los datos (Spiegel, 1961).
Definición. De todas las curvas que aproximan un grupo de datos en el sentido de los
cuadrados mínimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un
mínimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta
propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mínimo y se
llama la curva de los cuadrados mínimos. Por lo tanto, una línea que tenga esta
propiedad se llama la línea de los cuadrados mínimos, parábola de los cuadrados
mínimos, etc.
11-9
(Años codificados) | 1 3 4 6 8 9 11 14 15 16
11-10
(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un
sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Gráfica mostrando las concentraciones de bióxido de carbono vs. tiempo
12
10
8
Conc. de CO2 (Y)
0
0 2 4 6 8 10 12 14 16
Tiempo (X)
Figura 11.3. Gráfica mostrando las concentraciones de CO2 en función del tiempo.
(Elaboración propia)
11-11
n ΣXY – (ΣX)(ΣY)
b = ──────────── (11-3)
n ΣX 2 – (ΣX)2
11-12
(8)(364) – (56)(40)
Pendiente = b = ───────────── = .636
(8)(524) – (56)2
11-13
160
140
Demanda trimestral (Y)
120
100
80
60
40
20
0 2 4 6 8 10 12
Periodos de tiempo (X)
Figura 11.4. Gráfica mostrando los datos del ejemplo de arriba. (Elaboración propia)
(a) Para obtener la ecuación de la línea, usamos la gráfica de arriba y seleccionamos
cualesquiera de dos puntos sobre la línea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1,
1) y (12, 7.5). Ahora, usando la ecuación de los cuadrados mínimos dada por:
Y = a + b(X) (11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
ecuación (11-3) de arriba, nos da:
1.0 = a + b(0) y 7.5 = a + b(12).
(b) Usando métodos estadísticos calculamos las sumatorias:
ΣX = 78, ΣX 2 = 650, (ΣX)2/n = 507, ΣY = 1188, ΣY 2 = 140774, (ΣY)2/n = 117,612
Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.
11-14
Por lo tanto, la ecuación de lineal de las series de tiempo para este problema es:
Yc = 20.55 + 12.07(X)
Para trazar una línea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y
X = 9 y resolviendo por Yc en la ecuación lineal de las series de tiempo, da las
coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos
coordenadas y trazamos la línea como se ve en la figura de arriba, la cual muestra la
demanda trimestral (Y) por un periodo de 3 años (X).
(c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolación
usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuación
de las series de tiempo, esto es:
Yc = 20.55 + 12.07(X)
= 20.55 + 12.07(140)
= 1,710.35
Ejemplo #3. En un estudio hipotético relacionado con los casos de SIDA, se da la
tabla de abajo. Estimar la función ajustada de tendencia usando análisis de tendencia
con una función exponencial.
11-15
Hacer lo siguiente:
(a) Derivar la ecuación del modelo propuesto. Con este modelo predecir el número de
casos de SIDA para el año 2008. (El lector lo deberá hacer).
MSD 4.13874E+11
15000000
10000000
5000000
2 4 6 8 10 12 14 16 18 20
Index
Figura 11.5. Gráfica mostrando la relación de los casos de SIDA en función del
tiempo.
11-16
11-17
línea de las series de tiempo (Yc) y trazar una línea recta sobre los datos gráficos
(c) Estimar las concentraciones promedio de partículas para el año 2003 por medio de
interpolación y por medio de la ecuación.
Tabla mostrando los datos del problema. (Elaboración propia)
________________________________________________________________
Años Conc. promedio Años Conc. promedio
(ppm) (ppm)
Ventas
Tiempo
11-18
estacionalidad?
Precio
11-19
CAPITULO 11
Series de tiempo
Clasificación de los movimientos de las series de tiempo.- Tendencias a largo
plazo.- Componentes cíclicos de series de tiempo.- Variaciones estacionales.-
Variación irregular.- Métodos para encontrar líneas de tendencia.- Línea de los
cuadrados mínimos y parábolas de los cuadrados mínimos.-
Cualquier variable en función del tiempo, en sucesión, se llama series de tiempo. Las
series de tiempo son una secuencia de valores de variables tomadas en periodos de
tiempo sucesivos. La gráfica de una serie de tiempo es un diagrama, con el eje vertical
mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo
(minutos, días, años, etc.).
Las gráficas como los histogramas o diagramas de tallo y hoja son métodos
visuales útiles para mostrar la variación en los datos. Sin embargo, el tiempo es un
factor muy importante que contribuye a la variación observada de los datos, que los
histogramas o las gráficas de caja no los toman en cuenta.
Las series de tiempo son un conjunto de observaciones tomadas a tiempos
específicos, usualmente, a intervalos iguales en un orden cronológico. Las series de
tiempo o secuencias de tiempo se definen como datos estadísticos que son
coleccionados, registrados u observados en incrementos de tiempos sucesivos. El
análisis de los datos de las series de tiempo es de interés para aquéllos quienes deseen
entender la naturaleza de los datos pasados y presentes. También, las series de tiempo
son de interés para aquellos investigadores, quienes deseen usar el conocimiento de
datos pasados para predecir el futuro.
Las aplicaciones de las series de tiempo son muy comunes en la economía,
pero también en la economía o la ingeniería. Por ejemplo:
11-1
1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de
las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las
tendencias de las tasas de devaluación de la moneda. También es deseable predecir las
tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de
los incrementos de los costos de la vida.
2. Otras aplicaciones de las series de tiempo son los pronósticos de las tasas de interés
para la construcción de viviendas y el costo de los materiales de construcción.
3. También las compañías manufacturadoras quieren pronosticar la demanda de sus
productos y sus acciones en el mercado.
4. En ingeniería ambiental, los activistas y protectores del medio ambiente quieren
saber cuáles son las tendencias en los aumento de los gases de invernadero, como el
bióxido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos
forestales, etc.) que están calentando la tierra, fundiendo los glaciares montañosos y
las capas polares y cambiando el clima mundial. También es interesante saber las
tendencias y los aumentos de la radiación ultravioleta, que tanto daño está causando al
ser humano, por la destrucción del ozono natural estratosférico, causado por la
irracionalidad del hombre moderno.
5. Las series de tiempo también aplican para saber las tendencias y pronósticos de los
incrementos de la población mundial, etc.
Cuando se grafican las mediciones de series de tiempo, a menudo se observan
tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasarían
inadvertidos.
Definición: Matemáticamente, una serie de tiempo se define por valores Y1, Y2,....... de
una variable Y, como la temperatura, concentraciones de contaminantes, como CO2,
SO2, partículas atmosféricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una función de t
11-2
11-3
sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son
menos predecibles. Las fluctuaciones duran de 2 a 10 años, o más, cuando se miden
las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son
periodos de recesiones económicas o de periodos de inflación, demanda de productos
a largo plazo, etc. Esta situación se ve en la Figura 11.0 (b)
Variaciones estacionales
Este tipo de series de tiempo se refieren a variaciones periódicas, pero no están
limitadas a variaciones con la estación del año. Estos son patrones de periodos en las
series de tiempo que se completan en un año y, luego se repiten de acuerdo al mismo
patrón de periodo en años, subsecuentes. Por ejemplo, los precios de los mercados
financieros pueden mostrar tendencias altas o bajas en un día o en una semana.
En estudios ambientales, las fluctuaciones de los contaminantes muestran
tendencias cíclicas durante el día, como en el caso del estudio de las concentraciones
de ozono troposferico. Otros ejemplos son la producción de ciertos productos de
granjas agrícolas, el número de vehículos que pasan por cierto punto, entre dos sitios,
etc. La unidad de tiempo en variaciones estacionales es menos que un año, pero
pueden ser de un mes, una semana, o parte del día. Esta situación se ve en la Figura
11.0(c).
Variación irregular
Este es un tipo de variación que no está considerado por tendencias, ciclos o factores
estacionales, sino que se compone de fuerzas no recurrentes, esporádicas que no se
describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos
de variaciones irregulares son movimientos esporádicos de series de tiempo debido a
inundaciones, granizadas, heladas, tornados, huracanes, sequías, fuegos forestales,
etc.
11-4
Figura 11.0. Gráficas mostrando los tipos de tendencias. La gráfica (a) muestra una
tendencia de línea a largo plazo o de movimiento secular. La gráfica (b) muestra una
línea de tendencia a largo plazo con un movimiento cíclico sobrepuesto. La gráfica (c)
muestra tendencias cíclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).
11-5
11-6
TABLA 11.0. Tabla mostrando los tipos de funciones matemáticas más comunes
usadas para líneas de tendencia. (Elaboración propia)
Para decidir, cuál función matemática es la más apropiada, para ajustar los
datos se puede hacer viendo un diagrama esparcido de la gráfica de los datos. Por
ejemplo, si el diagrama esparcido en papel semilogaritmo de Log (y) vs. x muestra
una relación lineal, la ecuación tiene la forma de la curva exponencial (6). Si se usa el
papel logaritmo completo, Log y-Log x, y los datos muestran una relación lineal, la
ecuación tiene la forma de una curva geométrica (7). De cualquier manera, los
programas de computadora, como el SAS, Minitab, NCSS, etc., son las mejores
herramientas para encontrar la función que mejor ajuste los datos.
Métodos para encontrar líneas de tendencia
1. El método a mano libre o visual.
11-7
11-8
Figura 11.2. Gráfica mostrando el método de los cuadrados mínimos. Fuente: Spiegel
(1961).
Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de
X, digamos, X1, habrá una diferencia entre el valor Y1 y el valor correspondiente como
se determinó de la curva C. Como se ve en la gráfica, denotamos esta diferencia por
D1, la cual, en algunas ocasiones se refiere como la desviación, error o residual y
puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de
X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medición de “bondad de
ajuste” se da por la relación D21 + D22 + ... + D2n. De esta manera, si la suma de estos
cuadrados D21, D22, D23, etc., es pequeña, el ajuste es bueno. Pero, si la suma es
grande, el ajuste es malo, lo cual quiere decir que, el error o residual será grande,
indicando mucha variación entre los datos (Spiegel, 1961).
Definición. De todas las curvas que aproximan un grupo de datos en el sentido de los
cuadrados mínimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un
mínimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta
propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mínimo y se
llama la curva de los cuadrados mínimos. Por lo tanto, una línea que tenga esta
propiedad se llama la línea de los cuadrados mínimos, parábola de los cuadrados
mínimos, etc.
11-9
(Años codificados) | 1 3 4 6 8 9 11 14 15 16
11-10
(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un
sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Gráfica mostrando las concentraciones de bióxido de carbono vs. tiempo
12
10
8
Conc. de CO2 (Y)
0
0 2 4 6 8 10 12 14 16
Tiempo (X)
Figura 11.3. Gráfica mostrando las concentraciones de CO2 en función del tiempo.
(Elaboración propia)
11-11
n ΣXY – (ΣX)(ΣY)
b = ──────────── (11-3)
n ΣX 2 – (ΣX)2
11-12
(8)(364) – (56)(40)
Pendiente = b = ───────────── = .636
(8)(524) – (56)2
11-13
160
140
Demanda trimestral (Y)
120
100
80
60
40
20
0 2 4 6 8 10 12
Periodos de tiempo (X)
Figura 11.4. Gráfica mostrando los datos del ejemplo de arriba. (Elaboración propia)
(a) Para obtener la ecuación de la línea, usamos la gráfica de arriba y seleccionamos
cualesquiera de dos puntos sobre la línea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1,
1) y (12, 7.5). Ahora, usando la ecuación de los cuadrados mínimos dada por:
Y = a + b(X) (11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
ecuación (11-3) de arriba, nos da:
1.0 = a + b(0) y 7.5 = a + b(12).
(b) Usando métodos estadísticos calculamos las sumatorias:
ΣX = 78, ΣX 2 = 650, (ΣX)2/n = 507, ΣY = 1188, ΣY 2 = 140774, (ΣY)2/n = 117,612
Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.
11-14
Por lo tanto, la ecuación de lineal de las series de tiempo para este problema es:
Yc = 20.55 + 12.07(X)
Para trazar una línea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y
X = 9 y resolviendo por Yc en la ecuación lineal de las series de tiempo, da las
coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos
coordenadas y trazamos la línea como se ve en la figura de arriba, la cual muestra la
demanda trimestral (Y) por un periodo de 3 años (X).
(c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolación
usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuación
de las series de tiempo, esto es:
Yc = 20.55 + 12.07(X)
= 20.55 + 12.07(140)
= 1,710.35
Ejemplo #3. En un estudio hipotético relacionado con los casos de SIDA, se da la
tabla de abajo. Estimar la función ajustada de tendencia usando análisis de tendencia
con una función exponencial.
11-15
Hacer lo siguiente:
(a) Derivar la ecuación del modelo propuesto. Con este modelo predecir el número de
casos de SIDA para el año 2008. (El lector lo deberá hacer).
MSD 4.13874E+11
15000000
10000000
5000000
2 4 6 8 10 12 14 16 18 20
Index
Figura 11.5. Gráfica mostrando la relación de los casos de SIDA en función del
tiempo.
11-16
11-17
línea de las series de tiempo (Yc) y trazar una línea recta sobre los datos gráficos
(c) Estimar las concentraciones promedio de partículas para el año 2003 por medio de
interpolación y por medio de la ecuación.
Tabla mostrando los datos del problema. (Elaboración propia)
________________________________________________________________
Años Conc. promedio Años Conc. promedio
(ppm) (ppm)
Ventas
Tiempo
11-18
estacionalidad?
Precio
11-19
CAPITULO 12
Selección del tamaño de la muestra
Derivación de la fórmula para estimar el tamaño más apropiado de la
muestra para el promedio.- Selección del tamaño de la muestra para dos
poblaciones.-
12-1
por ciento de que el error, al estimar, digamos µ, sea menor que el error
especificado E, esto es, lo que queremos arriesgar.
En la determinación del tamaño de la muestra en un experimento estadístico
tenemos que saber dos cosas:
1. Qué tan cerca deseamos que nuestra estimación esté del verdadero valor del
parámetro poblacional.
2. Qué tanta certeza deseamos que nuestra estimación esté dentro del número de
unidades seleccionadas del valor del parámetro.
Derivación de la fórmula para estimar el tamaño más apropiado de la
muestra para el promedio
Para derivar la fórmula para estimar el tamaño óptimo de la muestra, usamos la
distribución de la estadística del promedio X . Por ejemplo, sabemos qué, de la
distribución del promedio X mostrada abajo, el intervalo µ ± 2σX contiene,
aproximadamente, el 95% de los valores de la estadística del promedio X .
12-2
estimador estadístico del promedio X , entonces, dejamos que E = 2σX esto es,
E = 2 σ / √n (12-1)
Ahora, resolviendo por n da:
n = 4σ2 / E2 (12-2)
Esta función (12-2) tiene un coeficiente de confianza de (1 – α) = 0.9544. Si
queremos un coeficiente de confianza de (1 – α), entonces, se deja que:
zα/2 σX = E o bien zα/2 σ/√n = E (12-3)
Que resulta en la fórmula:
n = zα/2 σ2/E2 (12-4)
= (zα/2 σ/E)2 (12-5)
Donde:
zα/2 = valor de la distribución normal estándar de tal manera que, P(Z ≥ zα/2) = α/2.
Aquí, usualmente, los valores críticos de
zα/2 son de 1.97 y 2.58, σ = desviación estándar poblacional.
E = error máximo de la estimación
De acuerdo a la ecuación anterior, el error E es dado por:
E = zα/2(σ√n) (12-6)
Para poder usar la fórmula (12-4) necesitamos conocer (1 – α), E y σ. Si el
tamaño de la muestra es n ≥ 30 casos o si la población muestreada es normal,
entonces, se puede aproximar σ a s.
Definición: Si el promedio X se usa como estimación de µ, entonces, puede
tenerse una confianza del 100(1 – α) por ciento de que el error | X – µ| no será
mayor que una cantidad específica E cuando el tamaño de la muestra sea
n = (zα/2 σ / E)2. Esta función puede ser usada para determinar el tamaño de
12-3
E = 1.96(6.2/√150) = 0.992
Aquí, nótese que debido a que queremos menos precisión (usando el nivel de
confianza de 95%) el error es más pequeño que si usamos el nivel de confianza de
99%. También es de notarse que, a medida que el tamaño de n se hace más grande,
el error E disminuye.
Ejemplo #3. En un estudio de química, en un artículo publicado en el Journal of
Heat Transfer, se describe un nuevo método para medir la conductividad térmica
del hierro Armco. Supóngase que se desea que el error promedio en la
conductividad térmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un
nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la
desviación estándar es de σ = 0.10, estimar el tamaño de muestra requerido.
Solución:
Aquí, zα/2 = z0.05/2 = z0.025 = ±1.96, σ = 0.10, E 0.05.
Usando la ecuación (12-4): n = (zα/2 σ/ E)2 y sustituyendo estos valores nos da:
n = [(1.96)(0.10) / 0.05)]2
= 15.37 ≈ 16
Nota 1. Siempre queremos redondear el tamaño de la muestra de manera que, el
número requerido en la muestra sea cuando menos adecuado, en lugar de un poco
adecuado. Esto es un convencionalismo.
Ejemplo #4. En un estudio de recolección de basura desechada por el sector
doméstico, es decir, del salvamento de basura reciclable, queremos estimar el
promedio del plástico desechado por las casas. ¿Qué tamaño de muestra de casas
debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el
promedio muestral esté dentro de 0.250 kilogramos del verdadero promedio
poblacional µ? Asumir que estudios pilotos dan una desviación estándar conocida
12-5
de σ = 1.100 kilogramos.
Solución:
Queremos un tamaño de muestra n, dado que α = 0.01 (99% de nivel de confianza)
de manera que, zα/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribución
normal con 99% nivel de confianza). Además, E = 0.250, σ = 1.100. Así, usando la
fórmula (12-5) nos da:
n = (zα/2 σ / E)2
= [(2.575)(1.100) / (0.250)]2
= 128.37
≈ 129
En conclusión, debemos de obtener una muestra, de cuando menos 129 casas
domésticas seleccionadas aleatoriamente (que están descartando el plástico). Con
semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estará dentro de 0.250 kilos de µ.
tener una confianza del 95% de que el error, al estimar la diferencia entre los
promedios de las dos fórmulas diferentes, sea menor que 1?
Solución:
Aquí, usamos la fórmula (12-7) para calcular el tamaño de la muestra de dos
poblaciones, es decir,
n = (zα/2 / E)2 (σ21 + σ22)
Donde:
zα/2 = z0.05/2 = z.025 = 1.97, E = 1, σ21 = 1.5, σ22 = 1.2
Sustituyendo estos valores en la fórmula de arriba da:
n = (1.95 / 1)2 (1.5 + 1.2)
= 10.27 ≈ 11
Por lo tanto, el tamaño de la muestra para las poblaciones µ1 y µ2 es:
n = n1 = n2 = 11
12-8
Ejercicios Capítulo 12
12.1. Se sabe que la duración, en horas, de un foco de 75 watts tiene una
distribución, aproximadamente normal, con una desviación estándar de 25 horas.
Supóngase que se desea una confianza del 95% en que el error en la estimación de
la duración promedio sea menor que 5 horas. ¿Qué tamaño de muestra debe
usarse? (≈ 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
de 99% y un error E = 1 y comparar los resultados.
12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardaría
un mecánico en girar las llantas de un auto. Este ingeniero quiere estimar, con una
confianza de 95%, que el promedio de su muestra es imprecisa en cuando más 0.50
minutos. Si sabe de estudios pilotos anteriores que la desviación estándar es de σ =
1.6 minutos, ¿qué tan grande deberá ser la muestra que debe de seleccionar,
aleatoriamente? Sugerencia: Usar la fórmula n = (zα/2 σ/E)2 (39.3 ≈ 40 mecánicos)
12.4. El director de cierta universidad desea usar el promedio de una muestra
aleatoria para estimar el monto promedio de tiempo que se les lleva a los
estudiantes para ir de un salón a otro y tomar sus clases sin llegar tarde. Para esto
desea afirmar con 99% de confianza que el error es cuando más de 0.25 minutos.
Experiencias anteriores estiman una desviación estándar de σ = 1.40 minutos.
Siendo así, ¿qué tan grande deberá ser la muestra que se deba tomar?
12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea
conducir una prueba de millaje de cierto modelo de un auto importado. El
ingeniero estadístico de la EPA desea estimar el promedio µ, de millas por galón
de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo
12-9
que σ = 2.5 millas por galón, ¿qué tamaño de muestra (número de autos de este
modelo) deberá tomar para conducir esta prueba? (n = 25)
12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimación del
tamaño de las muestras para las poblaciones uno y dos. Siendo así, estimar los
tamaños de las muestras apropiados, si queremos una confianza de 99% y el error
de la estimación de las diferencias entre los promedios sea menor que 4.
12-10
CAPITULO 12
Selección del tamaño de la muestra
Derivación de la fórmula para estimar el tamaño más apropiado de la
muestra para el promedio.- Selección del tamaño de la muestra para dos
poblaciones.-
12-1
por ciento de que el error, al estimar, digamos µ, sea menor que el error
especificado E, esto es, lo que queremos arriesgar.
En la determinación del tamaño de la muestra en un experimento estadístico
tenemos que saber dos cosas:
1. Qué tan cerca deseamos que nuestra estimación esté del verdadero valor del
parámetro poblacional.
2. Qué tanta certeza deseamos que nuestra estimación esté dentro del número de
unidades seleccionadas del valor del parámetro.
Derivación de la fórmula para estimar el tamaño más apropiado de la
muestra para el promedio
Para derivar la fórmula para estimar el tamaño óptimo de la muestra, usamos la
distribución de la estadística del promedio X . Por ejemplo, sabemos qué, de la
distribución del promedio X mostrada abajo, el intervalo µ ± 2σX contiene,
aproximadamente, el 95% de los valores de la estadística del promedio X .
12-2
estimador estadístico del promedio X , entonces, dejamos que E = 2σX esto es,
E = 2 σ / √n (12-1)
Ahora, resolviendo por n da:
n = 4σ2 / E2 (12-2)
Esta función (12-2) tiene un coeficiente de confianza de (1 – α) = 0.9544. Si
queremos un coeficiente de confianza de (1 – α), entonces, se deja que:
zα/2 σX = E o bien zα/2 σ/√n = E (12-3)
Que resulta en la fórmula:
n = zα/2 σ2/E2 (12-4)
= (zα/2 σ/E)2 (12-5)
Donde:
zα/2 = valor de la distribución normal estándar de tal manera que, P(Z ≥ zα/2) = α/2.
Aquí, usualmente, los valores críticos de
zα/2 son de 1.97 y 2.58, σ = desviación estándar poblacional.
E = error máximo de la estimación
De acuerdo a la ecuación anterior, el error E es dado por:
E = zα/2(σ√n) (12-6)
Para poder usar la fórmula (12-4) necesitamos conocer (1 – α), E y σ. Si el
tamaño de la muestra es n ≥ 30 casos o si la población muestreada es normal,
entonces, se puede aproximar σ a s.
Definición: Si el promedio X se usa como estimación de µ, entonces, puede
tenerse una confianza del 100(1 – α) por ciento de que el error | X – µ| no será
mayor que una cantidad específica E cuando el tamaño de la muestra sea
n = (zα/2 σ / E)2. Esta función puede ser usada para determinar el tamaño de
12-3
E = 1.96(6.2/√150) = 0.992
Aquí, nótese que debido a que queremos menos precisión (usando el nivel de
confianza de 95%) el error es más pequeño que si usamos el nivel de confianza de
99%. También es de notarse que, a medida que el tamaño de n se hace más grande,
el error E disminuye.
Ejemplo #3. En un estudio de química, en un artículo publicado en el Journal of
Heat Transfer, se describe un nuevo método para medir la conductividad térmica
del hierro Armco. Supóngase que se desea que el error promedio en la
conductividad térmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un
nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la
desviación estándar es de σ = 0.10, estimar el tamaño de muestra requerido.
Solución:
Aquí, zα/2 = z0.05/2 = z0.025 = ±1.96, σ = 0.10, E 0.05.
Usando la ecuación (12-4): n = (zα/2 σ/ E)2 y sustituyendo estos valores nos da:
n = [(1.96)(0.10) / 0.05)]2
= 15.37 ≈ 16
Nota 1. Siempre queremos redondear el tamaño de la muestra de manera que, el
número requerido en la muestra sea cuando menos adecuado, en lugar de un poco
adecuado. Esto es un convencionalismo.
Ejemplo #4. En un estudio de recolección de basura desechada por el sector
doméstico, es decir, del salvamento de basura reciclable, queremos estimar el
promedio del plástico desechado por las casas. ¿Qué tamaño de muestra de casas
debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el
promedio muestral esté dentro de 0.250 kilogramos del verdadero promedio
poblacional µ? Asumir que estudios pilotos dan una desviación estándar conocida
12-5
de σ = 1.100 kilogramos.
Solución:
Queremos un tamaño de muestra n, dado que α = 0.01 (99% de nivel de confianza)
de manera que, zα/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribución
normal con 99% nivel de confianza). Además, E = 0.250, σ = 1.100. Así, usando la
fórmula (12-5) nos da:
n = (zα/2 σ / E)2
= [(2.575)(1.100) / (0.250)]2
= 128.37
≈ 129
En conclusión, debemos de obtener una muestra, de cuando menos 129 casas
domésticas seleccionadas aleatoriamente (que están descartando el plástico). Con
semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estará dentro de 0.250 kilos de µ.
tener una confianza del 95% de que el error, al estimar la diferencia entre los
promedios de las dos fórmulas diferentes, sea menor que 1?
Solución:
Aquí, usamos la fórmula (12-7) para calcular el tamaño de la muestra de dos
poblaciones, es decir,
n = (zα/2 / E)2 (σ21 + σ22)
Donde:
zα/2 = z0.05/2 = z.025 = 1.97, E = 1, σ21 = 1.5, σ22 = 1.2
Sustituyendo estos valores en la fórmula de arriba da:
n = (1.95 / 1)2 (1.5 + 1.2)
= 10.27 ≈ 11
Por lo tanto, el tamaño de la muestra para las poblaciones µ1 y µ2 es:
n = n1 = n2 = 11
12-8
Ejercicios Capítulo 12
12.1. Se sabe que la duración, en horas, de un foco de 75 watts tiene una
distribución, aproximadamente normal, con una desviación estándar de 25 horas.
Supóngase que se desea una confianza del 95% en que el error en la estimación de
la duración promedio sea menor que 5 horas. ¿Qué tamaño de muestra debe
usarse? (≈ 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
de 99% y un error E = 1 y comparar los resultados.
12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardaría
un mecánico en girar las llantas de un auto. Este ingeniero quiere estimar, con una
confianza de 95%, que el promedio de su muestra es imprecisa en cuando más 0.50
minutos. Si sabe de estudios pilotos anteriores que la desviación estándar es de σ =
1.6 minutos, ¿qué tan grande deberá ser la muestra que debe de seleccionar,
aleatoriamente? Sugerencia: Usar la fórmula n = (zα/2 σ/E)2 (39.3 ≈ 40 mecánicos)
12.4. El director de cierta universidad desea usar el promedio de una muestra
aleatoria para estimar el monto promedio de tiempo que se les lleva a los
estudiantes para ir de un salón a otro y tomar sus clases sin llegar tarde. Para esto
desea afirmar con 99% de confianza que el error es cuando más de 0.25 minutos.
Experiencias anteriores estiman una desviación estándar de σ = 1.40 minutos.
Siendo así, ¿qué tan grande deberá ser la muestra que se deba tomar?
12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea
conducir una prueba de millaje de cierto modelo de un auto importado. El
ingeniero estadístico de la EPA desea estimar el promedio µ, de millas por galón
de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo
12-9
que σ = 2.5 millas por galón, ¿qué tamaño de muestra (número de autos de este
modelo) deberá tomar para conducir esta prueba? (n = 25)
12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimación del
tamaño de las muestras para las poblaciones uno y dos. Siendo así, estimar los
tamaños de las muestras apropiados, si queremos una confianza de 99% y el error
de la estimación de las diferencias entre los promedios sea menor que 4.
12-10
Apéndice A-1
Apéndice A-2
Apéndice A-3
Apéndice A-4
Apéndice A-5
Apéndice A-6
Apéndice A-7
Apéndice A-8
Apéndice A-9
Apéndice A-10
Apéndice A-11
Apéndice A-12
Apéndice A-13
Apéndice A-14
Apéndice A-15
Apéndice A-16
Apéndice A-17
Apéndice A-18
Apéndice A-19
Apéndice A-20
Apéndice A-21
Apéndice A-22
Apéndice A-23
Apéndice A-24
Apéndice A-25
Fuente: Morris Hamburg. Statistical Analysis for Decision Making. Harcourt Brace
Javanovich, Inc. (1991).
Apéndice A-26
Apéndice A-27
Apéndice A-28
Apéndice A-29
Apéndice A-30
Apéndice A-31
Apéndice A-32
Apéndice A-33
Apéndice A-34
____________________________________________________________________
Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of Variance and
Regression. John Wiley and Sons, Inc., New York (1974).
Apéndice A-35
________________________________________________
Apéndice A-36
Apéndice A-37
____________________________________________________________
Fuente: J. L. Devore. Probabilidad y Estadística para Ingeniería y Ciencias.
Thomson Learning (2001).
Apéndice A-38
_______________________________________________________________
Apéndice A-39
_________________________________________________________________
Apéndice A-40
________________________________________________________________
Apéndice A-41
_____________________________________________________________________
Apéndice A-42
Apéndice A-43
________________________________________________________
Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of
Variance and Regression. John Wiley and Sons, Inc. New York (1974)
Apéndice A-44
Bibliografía
Freund, J.E. Statistics. A First Course. Second Edition. Prentice Hall, Inc.
Englewood Cliffs, New Jersey (1976).
Keller, G., Brian Warrock, Henry Bartel. Statistics for Management and
Economics: a Systematic Approach. Second Edition. Wardsworth Publishing
Company, Belmont, California (1990).
Papel de gráfica
Apéndice C
Índice
Mediana, 1-6
Medidas de tendencia central, 1-4
Moda, 1-7
Modelo de regresión cuadrático con 2 y 3 variables independientes, con y sin interacción, 9-24
Modelo de regresión múltiple generalizado, 8-33
Modelo de segundo orden con mas de dos variables independientes con interacción, 9-5
Modelos de regresión múltiple con mas de dos variables regresoras, 8-34
Modelos de regresión no lineales y de regresión logística, 9-24, 9-25
Multicolinealidad, diagnóstico de, 8-17, 8-58, 9-21, 9-31, 9-32, 9-33
Rango, 1-13
Regla aditiva para eventos mutuos excluyentes y no mutuos excluyentes, 2-40
Regla de multiplicación mas general, 2-22
Regla de multiplicación para eventos dependientes e independientes, 2-37
Regla del producto para pares ordenados, 2-12
Regla factorial, 2-23
Regresión lineal múltiple, 8-1
Regresión múltiple usando el paquete Minitab, 8-54
Regresión polinomial, 9-31
modelos polinomiales de segundo orden, 9-2
modelos polinomiales de tercer orden, 9-3
Relación entre la distribución binomial y la distribución de Poisson, 3-6
Relación entre la distribución binomial y la distribución normal, 3-6
Relación entre la distribución hipergeométrica y la distribución binomial, 3-33
Unión, 2-9
Valor de la probabilidad p, 5-48, 5-50, 6-16, 6-17