You are on page 1of 60

10.

1 Ejecutando el procedimiento Anlisis de una variable

En la siguiente imagen se muestra una tabla con los datos de perfiles de vigas
(acero y aluminio) con el que se realizara el siguiente tutorial

Se accede al procedimiento Anlisis de una variable del men principal como


sigue:

En el cuadro de dilogo de entrada de datos, indique la columna a analizar:

Deje en blanco el campo Seleccionar para analizar las 100 filas. Presione Aceptar.

Cuando se presiona Aceptar, aparecer la ventana Tablas y Grficos que muestra


las tablas y grficos disponibles. Por ahora, se aceptarn las caractersticas por
defecto

La parte superior izquierda del panel indica que la muestra tiene n = 100 valores
situados entre
1,0 y 72 cm. La parte superior derecha del panel muestra un grfico de dispersin
de los datos, con los puntos aleatoriamente dispersos en la direccin vertical.
Tome nota que los puntos tienen ms densidad entre 20 y 40 cm, disminuyendo
fuera.
Los paneles inferiores muestran resmenes estadsticos y el grfico de caja y
bigotes, descrito en las secciones siguientes.

10.2 Resmenes estadsticos


La tabla de la parte inferior izquierda del panel muestra estadsticos simples.
Adicionalmente pueden aadirse estadsticos maximizando el panel haciendo click
secundario en la ventana y seleccionando opciones de ventana

Incluyendo la mediana simple, cuartiles y el rango intercuartlico resulta:

Una asuncin comn para medidas de datos es que provienen de una


distribucin normal. Los datos de una distribucin normal estn completamente
descritos por dos estadsticos:
La Media:

36.51

La desviacin tpica muestral (desviacin estndar):

18.424

La media muestral y la desviacin tpica describen completamente la muestra slo


si provienen de una distribucin normal. Dos estadsticos que se pueden utilizar
para chequear la asuncin de normalidad son la asimetra y la curtosis
normalizadas. Estos estadsticos miden la forma:

Asimetra mide la simetra o la ausencia de la misma. Una distribucin


simtrica, tal como
la normal tiene asimetra cero. Distribuciones para las cuales los valores
de su asimetra estn por encima de cero presentan asimetra positiva.
Distribuciones para las cuales los valores de su asimetra estn por debajo
de cero presentan asimetra negativa.

Curtosis mide el apuntamiento de la distribucin. Una distribucin normal tiene


curtosis nula. Una distribucin ms apuntada que la normal tiene curtosis
positiva. Una distribucin menos apuntada que la normal tiene curtosis
negativa.

Si los datos provienen de una distribucin normal, los coeficientes de asimetra y


curtosis estandarizados deben de estar entre -2 y +2. En este caso, la
distribucin normal parece ser un modelo razonable para los datos.

Otro resumen habitual de los datos lo aportan los 5 nmeros resumen de


John Tukey: Mnimo (valor ms pequeo de los datos) = 1
Cuartil inferior (percentil 25)= 24
Mediana (percentil 50) = 28
Cuartil superior (percentil 75) = 57
Mximo (valor ms alto de los datos) = 72
Estos cinco nmeros dividen la muestra en cuartos y forman el grfico
bsico de caja y bigotes, descrito en la seccin siguiente.
10.3 Grfico de caja y bigotes
Un grfico usual utilizado para resumir datos, descubierto por John Tukey, es el
grfico de caja y bigotes

El grfico de caja y bigotes se construye como sigue:

Se dibuja una caja cuyos extremos se extienden desde el cuartil inferior al


cuartil superior de la variable. El 50% central de los valores de datos estn
cubiertos por esta caja.

Se dibuja una lnea vertical en el interior de la caja en la localizacin de la


mediana

simple, que divide la caja en dos partes. Si los datos provienen de una
distribucin simtrica, esta lnea vertical debe pasar por el centro de la
caja.

Se dibuja un signo ms en la localizacin de la media simple. Una diferencia


sustancial
entre la media y la mediana indica habitualmente la presencia de valores
atpicos (datos con valores que no provienen de la misma distribucin que
el resto) o distribucin asimtrica. En este caso de distribucin asimtrica,
la media se situar en la direccin de la mitad mayor de la caja y existir
asimetra hacia esa direccin.

Los bigotes se extienden desde los cuartiles hasta el mximo y el mnimo de


las
observaciones en la muestra, a no ser que algunos valores estn lo
suficientemente lejos de la caja para clasificarse como valores atpicos, en
cuyo caso los bigotes se extienden hasta el ms extremo de los puntos no
calificado como atpico. STATGRAPHICS Centurion XVI sigue a Tukey
tomando dos tipos de valores atpicos:

Atpicos lejanos puntos situados a ms de 3 veces el rango


intercuartlico por arriba o por debajo de los lmites de la caja. (Nota: el
rango intercuartlico es la distancia entre los cuartiles primero y tercero y
coincide con la anchura de la caja.) Los valores fuera de estos lmites se
denotan por un punto (habitualmente un pequeo cuadrado) con un
signo ms superpuesto en l. Si los datos provienen de una distribucin
normal, la posibilidad de que un punto est lo suficientemente lejos de la
caja para clasificarlo como un punto atpico es slo de
entre 300 en una muestra del tamao actual. A menos que haya
cientos de observaciones en la muestra, los puntos fuera de estos
lmites son indicativos de valores atpicos (o de una distribucin no
normal).

Atpicos dudosos - puntos situados a ms de 1.5 veces el rango


intercuartlico
por arriba o por debajo de los lmites de la caja. Estos valores se
denotan por puntos y no se le superpone el signo ms. Si los
datos provienen de una distribucin normal, la posibilidad de
observar 1 o 2 puntos atpicos en una muestra de n = 100
observaciones est cercana al 50% y no indica necesariamente la
presencia de un valor atpico verdadero. Estos puntos deben ser
considerados simplemente buenos para una investigacin
posterior.

El grfico de caja y bigotes no es muy simtrico. Los bigotes no tienen la misma


longitud
Y la media (lnea vertical que divide al cuadro en dos) esta notablemente hacia la
izquierda y la medina esta tambin ubicada un poca al lado izquierdo de la caja
No se han marcado puntos atpicos dudosos tampoco atpicos lejanos
Si selecciona Opciones de ventana en la barra de herramientas de anlisis, puede
aadir una muesca a la mediana en el grfico:

La muesca de la mediana aadida cubre un intervalo de confianza para la


mediana de la poblacin, al 95% de confianza por defecto. Muestra el margen de
error con que se estiman los datos. mediana de la poblacin con la muestra que
se ha tomado. En este caso, el error de muestreo es cercano a 0.15 grados en
cada direccin. Una muestra de mayor tamao presentar un menor margen de
error
10.4 Contrastando valores atpicos
Seleccione Describir Datos numricos Identificacin de Valores atpicos.
Especificando perfiles en el campo Datos de la ventana Opciones se genera la
ventana Tablas y
Grficos. Despus de seleccionar todas las opciones deseadas, se genera una
amplia tabla de estadsticos que se muestran en la mitad inferior del panel
izquierdo. De particular inters en la tabla son los cinco valores mayores y los
cinco valores menores 5 en la muestra:

El valor ms atpico est en la fila #6, que se destaca en rojo. Tiene un valor
estudentizado sin supresin (Studentized Value Without Deletion) de -1.92738. Los
valores estudentizados se calculan mediante:

Un valor de -1.92738 indica que la observacin est a -1.92738 desviaciones


tpicas sobre la media muestral, cuando la observacin se incluye en el clculo
de:

El valor estudentizado con


Supresin (Studentized Values With Deletion) es -1.97477 e indica la misma
interpretacin pero ahora sin incluir la observacin de la fila #6 en el clculo de :

Las observaciones a ms de 3 desviaciones tpicas de la media se consideran


atpicas, a menos que el tamao de la muestra n sea muy grande o la distribucin
no sea normal. Puede ejecutarse un test formal bajo las siguientes hiptesis:

Hiptesis nula: El valor ms extremo proviene de una distribucin normal


al igual que las otras observaciones.
Hiptesis alternativa: El valor ms extremo no proviene de una distribucin
normal.
Un test ampliamente utilizado es el test de Grubbs, tambin llamado test de
Desviaciones extremas
estudentizadas
. STATGRAPHICS Centurion XVI muestra el P-valor de este
test. En general, un P- valor cuantifica la probabilidad de obtener un estadstico
como inusual o ms inusual que el
observado en la muestra, si la hiptesis nula fuera cierta. Si el P-valor es lo
suficientemente
pequeo, la hiptesis nula puede ser rechazada, ya que la muestra ha tenido un
evento extremadamente raro. Suficientemente pequeo es definido
habitualmente como menor que 0.05, valor que se denomina nivel de
significacin o riesgo alfa del test. Si es menor del 5% la hiptesis nula se
rechaza.
Los valores Estudentizados miden a cuntas desviaciones estndar se encuentra
cada valor de la media muestral de 36,51. El valor ms extremo se encuentra en
la fila 6, el cual es 1,92738 desviaciones estndar de la media. Puesto que el
valor-P para la prueba de Grubb es mayor o igual que 0,05, ese valor no es un
aberrante significativo con un nivel de significancia del 5,0%, asumiendo que todos
los dems valores siguen una distribucin normal. Se muestran calificaciones
similares al calcular las estadsticas muestrales despus de eliminar cada punto,
uno a la vez, al igual que cuando la media y la desviacin estndar estn basadas
en la desviacin absoluta de la mediana (DAM). Valores de las calificaciones
modificadas mayores que 3,5 en valor absoluto, de las cuales hay 5, bien podran
ser observaciones aberrantes.
10.5 Histograma
Otro grfico habitual a mostrar que ilustra una muestra de datos es el histograma
de frecuencias.
Volviendo al procedimiento Anlisis de una variable, se puede crear un
histograma presionando el botn Tablas y Grficos

En la barra de herramientas de anlisis y seleccionando Histograma de


frecuencias. El histograma por defecto se muestra a continuacin:

La altura de cada barra en el histograma representa el nmero de observaciones


que caen en el intervalo de perfiles correspondiente a la barra. El nmero de
barras en el rango se sita por defecto en funcin de n, utilizando la regla
seleccionada en la pestaa AED (Anlisis de Datos Exploratorio) del cuadro de
dialogo Editar - Preferencias:

El histograma se puede modificar luego de haber sido creado dando clip


secundario sobre el histograma y seleccionando opciones de ventana:

Cuando se deciden las clases, hay que tener en cuenta el nmero de dgitos
significativos en los datos. Por ejemplo, las medidas de los perfiles fueron medidas
slo en las cercanas de la unidad es decir sin digito decimal. La anchura de los
intervalos correspondientes a las barras deben ser enteros mltiplos de1. Por esta
va, cada barra cubrir el mismo nmero de posibles mediciones. El grfico
siguiente muestra 25 intervalos entre 0 y 77cm

Los datos mostrados en el histograma pueden ser obtenidos de forma tabular


presionando el botn Tablas y Grficos en la barra de herramientas de anlisis y
seleccionando Tabulacin de frecuencias:

10.7 Intervalos de confianza

Eliminados los valores atpicos de la muestra, podemos proceder a establecer los


estimadores finales para los parmetros de la distribucin provenientes de los
datos. Seleccionando Intervalos de confianza del cuadro de dilogo de Tablas y
Grficos tenemos:

Este panel muestra los intervalos de confianza del 95,0% para la media y la
desviacin estndar de Perfiles. La interpretacin clsica de estos intervalos es
que, en muestreos repetidos, estos intervalos contendrn la media verdadera la
desviacin estndar verdadera de la poblacin de la que fueron extradas las
muestras, el 95,0% de las veces. En trminos prcticos, puede establecerse con
95,0% de confianza, que la media verdadera de Perfiles se encuentra en algn
lugar entre 32,8543 y 40,1657, en tanto que la desviacin estndar verdadera est
en algn lugar entre 16,1764 y 21,4027.
Ambos intervalos asumen que la poblacin de la cual proviene la muestra puede
representarse por la distribucin normal. Mientras que el intervalo de confianza
para la media es bastante robusto y no muy sensible a violaciones de este
supuesto, los intervalos de confianza para la desviacin estndar son muy
sensibles. Si los datos no provienen de una distribucin normal, el intervalo para
la desviacin estndar puede ser incorrecto. Para verificar si los datos provienen
de una distribucin normal, seleccione Resumen Estadstico de la lista de
Opciones Tabulares, escoja Grfica de Probabilidad Normal de la lista de
Opciones Grficas.
Seleccionando Opciones de panel, pueden ser requeridos intervalos de confianza
adicionales utilizando el mtodo bootstrap:

Los intervalos Bootstrap, diferentes de los intervalos dela figura anterior, no


cuentan con la asuncin de que la poblacin es normal. En su lugar, se toman
muestra aleatorias de n = 100 observaciones, mediante muestreo con reposicin
(las mismas observaciones pueden ser seleccionadas ms de una vez). Este
muestreo se repite 500 veces, se calculan los estadsticos simples y el 95% de los
resultados ms centrales se utilizan para calcular los intervalos de confianza. La
tabla siguiente muestra los intervalos bootstrap para la media de la poblacin,
desviacin tpica y mediana:

10.8 Test de hiptesis


Es posible ejecutar tambin los test de hiptesis formales habituales. Por
ejemplo, se asegura habitualmente que la temperatura humana es de 98.6
grados Fahrenheit. Para contrastar si los datos provienen de una distribucin
normal con una media dada, se puede considerar el test de hiptesis siguiente:

11.1 Ejecutando el procedimiento Comparacin de dos muestras

Si usa el men clsico, seleccione Comparar Dos muestras Muestras


independientes.

El cuadro de dilogo de entrada de datos para el procedimiento es el siguiente:

La caja Entrada indica la forma en que se introducirn los datos para las dos
muestras:

Datos en dos columnas los datos para cada muestra estn en columnas
diferentes.

Columnas de datos y cdigos los datos para ambas muestras estn en la


misma columna, y una segunda columna contiene cdigos que diferencian los
datos de las dos muestras.

Despus del cuadro Tablas y Grficos se presenta una ventana que contiene 4
paneles: un resumen de los datos, un histograma dual, un resumen estadstico de
cada grupo y un grfico

11.2 Estadsticos resumen


La tabla Estadsticos resumen muestra los estadsticos calculados para cada
muestra:

Varias facetas son particularmente interesantes:

La dimensin media del acero es 34.5415 ms alta que la del aluminio


La diferencia entre las medianas es 36 cm

La desviacin tpica del acero es menor que la del aluminio, indicando que las
medidas del acero pueden ser menos variables que las del aluminio.

11.6 Comparando medias


La segunda comparacin entre las dos muestras contrasta la hiptesis de que la
media () de las dos poblaciones es la misma:
Hiptesis nula: 1 = 2
Hiptesis alternativa: 1 2

Para ejecutar este test, presione el botn Tablas despus de seleccionar


Comparacin de medias. Los resultados son los siguientes:

Lo ms importante de la salida est iluminado en rojo en la tabla:


1. Diferencia entre las medias (asumiendo varianzas iguales): muestra un intervalo
de confianza al 95% para la media de las medidas del acero menos la media del
aluminio. El intervalo para 1 - 2 vara desde 30.34 a 38.74, indicando que la
media de las medidas del acero est entre 30.34 y 38.74 ms alta que las medidas
del aluminio.
2. El P-valor asociado con el test de la t se muestra en la tabla anterior. Ya que el
P-valor es menor que 0.05, hay evidencia significativa para rechazar la hiptesis
de igualdad de medias y declarar las medias de los dos materiales
estadsticamente diferentes al 5% de nivel de significacin.
Tome nota de que el test ha sido construido suponiendo que las varianzas de los
dos materiales son desiguales, lo cual ya fue validado con el estadstico de la F en
la seccin previa. Si las varianzas hubiesen sido iguales, approximates hubiera
utilizado un test de la t adecuado accediendo al Panel de opciones y marcando la
opcin etiquetada Asumir sigmas iguales.
Esto refrenda el hecho de que el acero es un material con medidas ms altas que
la del aluminio.
11.7 Comparando medianas
Si se sospecha que los datos contienen valores atpicos inevitables, se puede
ejecutar un test no paramtrico para comparar las medianas en lugar de las
medias. Los test no paramtricos no asumen que los datos provengan de una
distribucin normal y tienden a ser menos afectados por la presencia de valores
atpicos.

Seleccionando Comparacin de medianas del cuadro de dilogo Tablas y Grficos


se genera el test del estadstico W de Mann-Whitney (Wilcoxon). En este test, las
dos muestras han sido primero combinadas. Los datos combinados se han
reordenado de 1 hasta n1+n2, y los valores de los datos originales han sido
reemplazados por sus respectivos rangos. statistical test del estadstico
W se construye comparando los rangos medios de las observaciones en las dos
muestras:

La interpretacin del test de Mann-Whitney (Wilcoxon) es paralela a la del test de


la t descrito en la ltima seccin, con un P-valor igual a 0 que permite concluir que
las medianas de las muestras son significativamente diferentes.

11.9 Test de Kolmogorov-Smirnov para dos muestras


Un test no paramtrico adicional que puede ser ejecutado si la asuncin de la
normalidad de las distribuciones no es sostenible es el test de KolmogorovSmirnov para dos muestras. Este test est basado en el clculo de la distancia
vertical mxima entre las funciones de distribucin acumuladas de las dos
muestras, que aproximadamente es la mxima distancia entre los dos grficos de
cuantiles de la figura 11-9. Si la mxima distancia es lo suficientemente grande,
las dos muestras pueden ser declaradas provenientes de poblaciones
significativamente diferentes.
Seleccionando Test de Kolmogorov-Smirnov en el cuadro de dilogo de Tablas y
Grficos se muestra lo siguiente:

La mxima distancia vertical, denotada por DN, es igual aproximadamente a 0.95 para los
datos de las medidas de los materiales.
El P-valor es utilizado para determinar cundo las distribuciones son o no son
significativamente diferentes. Un pequeo P-valor nos lleva a la conclusin de que hay
una diferencia significativa.
Ya que el P-valor para esta muestra de datos es menor o igual que 0.05, hay una
diferencia significativa entre las distribuciones de las medidas del aluminio y el acero al
5% de nivel de significacin.
Peligro: Si los datos se redondean, el test puede no ser fiable ya que la funcin de
distribucin acumulativa emprica (CDF) puede tener saltos en pasos largos. Cuando
sea posible, es mejor confiar en una comparacin de parmetros seleccionados de
distribuciones tales como la media, la desviacin tpica o la mediana.

Tutorial #12: Comparando ms de dos muestras


Comparando medias y desviaciones tpicas, ANOVA de un factor,
ANOM, y mtodos grficos.
Cuando los datos caen en ms de dos grupos, se necesita utilizar tcnicas
diferentes a las usadas en el captulo anterior. Por ejemplo, supongamos que
queremos comparar la resistencia de 4 materiales diferentes. En un experimento
tpico, construimos 12 aparatos de cada uno de los 4 materiales para compararlos.
Los datos siguientes representan los resultados del experimento:

Es de considerable inters determinar qu materiales de construccin son ms


resistentes, as como qu materiales son estadsticamente diferentes entre s.
Hay dos caminos diferentes para introducir datos de mltiples muestras en la hoja
de datos:
1. Usar una columna separada para cada muestra.
2. Usar una columna simple para todos los datos y crear una segunda
columna con cdigos identificando de qu muestra proviene cada
observacin.

12.1 Ejecutando el procedimiento comparacin de varias muestras


El procedimiento Comparacin de varias muestras es accesible en el men
principal de las dos
Formas siguientes:
1. Si usa el men clsico seleccione: Comparar Varias muestras
Comparacin de varias
Muestras.
El cuadro de dilogo inicial se utiliza para estructurar los datos:

En este caso, los datos han sido situados en varias columnas de la hoja de datos.

En
el
muestra

archivo de la
de datos, las
observaciones
han sido situadas en cuatro columnas de nombres Cemento, Concreto, Hormign,
Hormign Armado
Cuando se presiona Aceptar, aparece el cuadro de dilogo Tablas y Grficos. Se
aceptan las caractersticas por defecto en este tutorial.
Cuando se abre la ventana de anlisis, aparecern cuatro paneles:

El panel superior izquierdo resume el tamao de cada muestra y su rango. El


panel superior derecho muestra un grfico de dispersin de los datos,

ampliado a continuacin:

Observad que muchas de las observaciones aparecen una encima de otra en


lneas verticales. Para aliviar este problema, se hace doble clic en el panel grfico
para maximizarlo y se presiona
el botn Separar de la barra de herramientas de anlisis y se aade una pequea
cantidad de
separacin horizontal moviendo el botn deslizante un poco hacia la derecha:

Se desplaza una pequea cantidad de puntos aleatoriamente en la direccin


horizontal, haciendo que los puntos individuales se observen ms fcilmente:

12.2 Anlisis de la varianza


El primer paso cuando se comparan varias muestras es habitualmente ejecutar un
anlisis de la varianza simple (ANOVA). El anlisis ANOVA se utiliza para
contrastar la hiptesis de igualdad de medias poblacionales eligiendo entre las dos
hiptesis siguientes:
Hiptesis nula: Cemento = Concreto = Hormign = Hormign Armado
Hiptesis alternativa: Las medias no son iguales.
Donde j representa la media de la poblacin de la cual hemos tomado la muestra
j-sima. El rechazo de la hiptesis nula indicar que las muestras provienen de
poblaciones con medias diferentes.
La salida del procedimiento ANOVA est contenida en la tabla ANOVA, que se
muestra inicialmente en el panel inferior izquierdo de la ventana de anlisis:

El anlisis de la varianza descompone la variabilidad de los datos observados en


dos componentes: una componente entre grupos, que cuantifica las diferencias
entre aparatos hechos de diferentes materiales, y una componente dentro de
grupos, que cuantifica las diferencias de los aparatos hechos con el mismo
material. Si se estima la variabilidad entre grupos y es significativamente mayor
que la variabilidad dentro de grupos, es evidente que las medias de los grupos no
son similares.

El valor clave en la tabla ANOVA es el P-valor. P-valores pequeos (menores que


0.05 operando al 5% de nivel de significacin) llevan al rechazo de la hiptesis de
igualdad de medias. En el ejemplo actual, hay una pequea duda de si las
muestras son significativamente diferentes.

Tambin muestra los resultados de un modelo ANOVA en formato grfico. Este


Grfico ANOVA se muestra por defecto en el panel inferior derecho:

A lo largo de la parte inferior del grfico hay un diagrama de puntos de los residuos
del modelo. En el ANOVA simple, los residuos son iguales a las diferencias entre
cada observacin y la media de todas las observaciones de ese grupo. En el
ejemplo actual, la variabilidad observada en los residuos es indicativa de la
variabilidad natural entre las resistencias de los materiales a estudiar.
Representados por encima de la lnea central estn escaladas las desviaciones

de las medias de los grupos respecto de la media total de las n = 60


observaciones. Este grupo de desviaciones est escalado de modo que su
variabilidad pueda ser comparada con la de los residuos. Grupos cuyos puntos
estn demasiado lejos probablemente provengan de una distribucin con
extensin similar a la de los residuos como corresponde a poblaciones diferentes.
En la figura, el Hormign Armado parece estar bastante separado de los otros
grupos. La separacin de las otras tres medias es menos clara. Una comparacin
ms formal de las medias de las cuatro muestras se describe en la seccin
siguiente.

12.3 Comparando medias


Si el P-valor en la tabla ANOVA es pequeo, entonces la media de la muestra debe
ser examinada, para determinar qu medias son significativamente diferentes unas
de otras. Un grfico habitual para esta finalidad es Grfico de medias disponible en
el cuadro de dilogo Tablas y Grficos:

El grfico de medias muestra cada media de la muestra, junto con un intervalo de


confianza a su alrededor. La interpretacin de los intervalos depende del tipo de
intervalo representado, el cual puede ser cambiado utilizando Opciones de
ventana. Los dos intervalos ms habitualmente utilizados son:
1. Intervalos LSD de Fisher LSD (Least Significant Difference): Estos intervalos
estn escalados de modo que un par de muestras tiene medias
significativamente diferentes si los intervalos no se solapan en la direccin
vertical. Mientras la posibilidad de declarar incorrectamente dos muestras con
media diferente con este mtodo se fija en el 5%, haciendo comparaciones de
ms de dos pares de muestras la probabilidad de error es considerablemente
superior.

2. Intervalos HSD de Tukey (Honestly Significant Difference). Estos intervalos


estn escalados para controlar el error del experimento como mucho con una
tasa del 5%. Usando el mtodo de Tukey, no se declararn incorrectamente
que ningn par de medias sea significativamente diferente cuando realmente
no los son en ms de 5% de los anlisis que se hagan.
Los intervalos de la figura anterior utilizan el mtodo de Tukey. Ya que el intervalo
para la muestra Hormign Armado no solapa ningn otro intervalo, la media de la
muestra Hormign Armado difiere significativamente de la de las otras tres
muestras. La muestra Hormign tambin es significativamente diferente de la
muestra Cemento, ya que sus intervalos no se solapan. La muestra Concreto, sin
embargo, no es significativamente diferente de las muestras Hormign o Cemento.
El mismo anlisis puede ser mostrado en forma tabular seleccionando Pruebas de
Mltiples Rangos del cuadro de dilogo Tablas y Grficos:

La seccin inferior de la salida muestra cada par de medias. La columna


Diferencia muestra la media simple del primer grupo menos la del segundo. La
columna +/- Lmites muestra un intervalo de confianza para la diferencia. Cualquier
par de medias para el que el valor absoluto de la diferencia exceda el lmite
presenta diferencia estadsticamente significativa al nivel de confianza
seleccionado y es representado por un * en la columna Sig. En el ejemplo actual,
los seis pares de medias muestran diferencias significativas.
La seccin superior de la salida presenta las muestras en grupos homogneos,
presentando la letra X en columnas. Un grupo homogneo es aqul para el que no
hay diferencias significativas. En este caso, todas las muestras son un grupo
homogneo en s mismo, ya que todos son significativamente diferentes.
12.4 Comparando Medianas
Cuando existen valores atpicos, deben utilizarse procedimientos no paramtricos
como una alternativa a los anlisis estndar de la varianza seleccionando los test
de Kruskal-Wallis y Friedman en la caja de dilogo Tablas. Estos test comparan las
medianas de las muestras en lugar de las medias:
Hiptesis nula: las medianas son todas iguales
Hiptesis alternativa: las medianas no son todas iguales
Este tipo de test puede ser utilizado seleccionando Opciones de ventana. Hay dos
tipos de test:
1. Test de Kruskal-Wallis apropiado cuando cada columna contiene una muestra
aleatoria de su poblacin. En tal caso, las filas no tienen significado intrnseco.
2. Test de Friedman apropiado cuando cada fila representa un bloque. Variables
tpicas de bloque son da de la semana, turnos, o localizacin de la produccin.
En este ejemplo, las filas no tienen significado, por lo que es apropiado el test de
Kruskal-Wallis:

La entrada importante de la tabla anterior es el P-valor. Ya que el P-valor es

grande (mayor que 0.05), la hiptesis alternativa se rechaza).

Se pueden comparar tambin pares de medianas seleccionando Grfico de caja y


bigotes del cuadro de dilogo Tablas y Grficos y utilizando Opciones de ventana
para aadir muescas:

El rango cubierto por cada muesca muestra el intervalo de confianza estimado


para la mediana de cada grupo. Vemos que las 3 muestras son diferentes y
varan bastante entre si esto se debe a la diferencia entre los materiales.
12.6 Grficos de los residuos
Siempre que se ajusta un modelo estadstico a los datos, es importante examinar
los residuos del modelo ajustado. En este anlisis, hay un residuo correspondiente
a cada uno de los n = 60 definidos como la diferencia entre la resistencia de los

materiales y la resistencia media de todos los materiales


La caja de dilogo Grficos contiene una entrada para generacin automtica de
grficos de residuos. En la seccin Opciones de ventana, se pueden representar
residuos por grupos, contra valores predichos, o un orden de fila definido en la
hoja de datos. El grfico siguiente muestra los residuos contra valores predichos
de resistencia:

En este tipo de grficos, debe observar lo siguiente:


1. Outliers residuos aislados respecto de los dems. Tales puntos necesitarn
ser investigados posteriormente para determinar cundo existe una causa
asignable que explique su comportamiento inusual.
2. Heteroscedasticidad un cambio sistemtico en las varianzas de los valores
predichos creciente o decreciente. Esta condicin aparece tpicamente
mediante una apariencia en forma de embudo en el grfico necesitando una
transformacin de las observaciones originales tomando logaritmos de los
datos antes de ejecutar el anlisis. Procedimientos tales como Test de los

rangos mltiples no trabajarn adecuadamente cuando la variabilidad dentro de


grupos difiera significativamente entre los grupos.
Si se desea, los residuos pueden ser guardados como una columna de la hoja de
datos presionando el botn Guardar resultados en la barra de herramientas de
anlisis.

Tutorial 13
Ajustando modelos lineales y no lineales, seleccionando el
mejor modelo, representando residuos y mostrando
resultados.

Una de las secciones ms amplias de STATGRAPHICS Centurion XVI es el


conjunto de procedimientos que ajustan modelos de regresin estadstica. En un
modelo de regresin, una variable respuesta Y se expresa en funcin de una o
ms variables predictoras X, ms un ruido (o error). En la mayora de los casos
(sin embargo no en todos), la forma funcional en los coeficientes desconocidos es
lineal, de modo que el modelo se expresa como sigue donde el subndice i
representa la i-sima observacin en la muestra de datos, los son los
coeficientes desconocidos del modelo y
es una desviacin aleatoria,
habitualmente con distribucin normal de media 0 y desviacin tpica .
Dado un conjunto de datos con una variable respuesta Y y una o ms
posibles variables predictoras, la finalidad del anlisis de la regresin es
construir un modelo que:
1. describa las relaciones que existen entre las variables de tal manera que sea
posible
predecir Y para valores conocidos de las X.
2. contiene las X necesarias para generar buenas predicciones.

13.1 Anlisis de la correlacin


Una herramienta habitual para comenzar el anlisis de la regresin es el
procedimiento Anlisis de variables mltiple. Este procedimiento se obtiene del
men principal de dos formas:

1. Si usa el men clsico, seleccione Describir Datos numricos Anlisis de


variables mltiples.

Le damos aceptar
..

El panel superior izquierdo lista las variables de entrada, mientras que el panel
central izquierdo muestra el resumen de estadsticos. Hay un total de 93 filas en
el archivo de datos que tienen informacin completa en todas las variables a
analizar.
El grfico matricial de la derecha muestra los grficos X-Y para cada par de
variables

Para interpretar el grfico, observe la etiqueta de una variable tal como precio. La
variable indicada se muestra en el eje vertical de todos los grficos de su fila y en
el eje horizontal de todos los grficos de su columna. Cada par de variables se
muestra de este modo dos veces, una vez por encima de la diagonal y otra vez por

debajo.
En el grfico anterior se han aadido alisados robustos LOWESS maximizando el
panel y utilizando el botn Alisado/Rotacin de la barra de herramientas de
anlisis. Del mayor inters es la fila superior de grficos, que muestra Precio
graficada contra cada una de las 6 variables predictoras potenciales. Todas las
variables estn claramente correlacionadas con el precio, algunas de forma no
lineal. Hay tambin mucha correlacin entre las variables predictoras
y. por lo tanto, presencia de multicolinealidad, lo cual sugiere que algunas
combinaciones diferentes de variables pueden ser igualmente buenas para
predecir Y.
La tabla siguiente muestra la matriz de coeficientes de correlacin estimados
para cada par de variables en el anlisis:

La tabla muestra los coeficientes de correlacin para cada par de variables, el


nmero de observaciones utilizadas en la estimacin y un P-valor. Un coeficiente
de correlacin r es un nmero entre -1 y +1, que mide la intensidad de la relacin
lineal entre las dos variables. Los valores de mxima correlacin son -1
(correlacin negativa) y +1 (correlacin positiva). El signo de la correlacin indica
su direccin. Un valor positivo indica que Y aumenta cuando X aumenta. Una
correlacin negativa indica que Y disminuye cuando X aumenta.
Para determinar cundo un par de variables est efectivamente correlacionado, se
calcula el P-valor de su coeficiente de correlacin (test del coeficiente de
correlacin). Si el P-valor es menor o igual que 0.05 la correlacin lineal de las dos
variables es estadsticamente significativa al 5% de nivel de confianza.
La fila superior muestra la correlacin entre el precio y los 6 predictores. La ms
fuerte se produce con el dimetro que es 0,9070. El signo positivo indica que el
precio y el dimetro son directamente proporcionales.
13.2 Regresin simple
El primer modelo estadstico que se ajustar ser la lnea recta de la forma:
Si usa el men clsico, seleccione Relacionar Un Factor Regresin
simple.

Despus del men Opciones y del cuadro de dilogo Tablas y Grficos,


la ventana inicial tiene cuatro paneles mostrando informacin acerca
del modelo ajustado y de los residuo

Entre los muchos estadsticos de la tabla anterior, los ms importantes son los
siguientes:
Coeficientes: coeficientes del modelo estimado. El modelo ajustado que se
utilizar para la prediccin es:
Precio = 0,166667 + 0,597222*Longitud
R-cuadrado: el porcentaje de variabilidad en Y que ha sido explicado por el

modelo. En este caso, la regresin lineal contra longitud explica cerca del 21.1944
% de la variabilidad en Precio
P-Valor del modelo: Un P-valor mayor 0.05. No hay una relacin
estadsticamente significativa entre Precio y Longitud con un nivel de confianza del
95,0% ms.

El grfico muestra la lnea de regresin por mnimos cuadrados y dos conjuntos


de lmites. Los lmites interiores son intervalos de confianza al 95% para el valor
medio de Y dado un X. Esto indica la calidad de la estimacin de los puntos de la
lnea de regresin, supuesto que la relacin es lineal. A mayor tamao de muestra
para la estimacin, intervalos ms estrechos. Las lneas exteriores son lmites de
prediccin al 95% para nuevas observaciones. Se estima que el 95% de
observaciones adicionales, similares a las de este ejemplo, caern entre las
bandas.

13.3 Ajustando un modelo no lineal


El procedimiento Regresin simple incluye la posibilidad de ajustar una amplia
variedad de modelos no lineales. Para evaluar la mejora relativa que pueden
aportar varios modelos, seleccione
Comparacin de modelos alternativos del cuadro de dilogo Tablas y Grficos.
Esto ajustar los posibles modelos y los listar en orden decreciente de R
cuadrado:

Los modelos al principio de la lista explican el mayor porcentaje de la variacin


en la variable respuesta. R-cuadrado es slo un criterio que puede ayudar a

elegir el modelo. Modelos con valores de R-cuadrado ms bajo que le modelo del
principio de la lista pueden ser preferibles si son ms sensibles en el contexto de
los datos.
En el contexto actual, un modelo atractivo cercano al principio de la lista es el
modelo Recproco-Y. Este modelo toma la forma:

En l, el recproco del precio est expresado como una funcin lineal de la


longitud. Es frecuente que transformaciones de Y, X, o ambas puedan aventajar
a los mejores modelos.
Para ajustar el modelo Recproco-Y, presione el botn Opciones de anlisis y
seleccione Recproco-Y en el cuadro de dilogo. El ajuste resultante se muestra a
continuacin:

13.4 Examinando los residuos


Una vez que se ha ajustado un modelo razonable, hay que examinar los residuos
del ajuste. En general, un residuo puede ser observado a travs de la diferencia
entre el valor observado de Y y el valor predicho por el modelo:
residuo = Y observado Y predicho
El anlisis de Regresin Simple automticamente grafica los residuos frente a la
variable X:

Usando Opciones de ventana, puede elegir entre graficar residuos


simples o residuos estudentizados. Los residuos estudentizados se
obtienen dividiendo los residuos ordinarios por sus errores estndar
estimados. Un residuo estudentizado indica qu cantidad de error
estndar de los datos proviene del modelo ajustado.
STATGRAPHICS Centurion XVI calcula actualmente residuos
estudentizados borrados. Los residuos borrados se calculan eliminando
una observacin, reajustando el modelo, y determinando el nmero de
errores estndar que se separa del nuevo modelo ajustado. As se
observan los valores atpicos que tienen un gran impacto en el modelo
cuando se calculan los residuos.
La seleccin de Residuos atpicos en el cuadro de dilogo Tablas y
Grficos lista todos los residuos
estudentizados que son mayores que 2 en valor absoluto:

La tabla de residuos atpicos enlista todas las observaciones que tienen residuos
Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados
miden cuntas desviaciones estndar se desva cada valor observado de Precio

del modelo ajustado, utilizando todos los datos excepto esa observacin. En este
caso, hay un residuo Estudentizado mayor que 2, pero ninguno mayor que 3.

13.5 Regresin mltiple

Para mejorar el modelo, es necesario aadir otras variables predictoras.


Esto se logra ms
fcilmente utilizando anlisis de Regresin mltiple, que se define en el
men principal bajo:
1. Si usa el men clsico, seleccione Relacionar Factores mltiples
Regresin mltiple.
El cuadro de dilogo de entrada de datos tiene la siguiente forma

Para comenzar, los 6 predictores considerados en el procedimiento


Anlisis de mltiples variables discutidos anteriormente se introducirn
como variables independientes. La variable dependiente es el recproco
de precio, A continuacin se utiliza el men
Opciones y se muestra el cuadro de dilogo de Tablas y Grficos. El
resumen de anlisis resultante se muestra a continuacin

La salida muestra los resultados de ajustar un modelo de regresin lineal mltiple


para describir la relacin entre 1/Precio y 6 variables independientes. La ecuacin
del modelo ajustado es
1/Precio = -0,325862 + 0,0253801*Diametro - 0,000103178*Area 0,0323123*Longitud + 0,00062114*Peso + 0,00383068*Embalaje +
0,000159124*Pezo
Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una
relacin estadsticamente significativa entre las variables con un nivel de confianza
del 95,0%.
Un mtodo habitual para simplificar el modelo es ejecutar la regresin paso a
paso. En cada paso de la regresin, se aaden o eliminan variables de la
regresin una cada vez, con la finalidad de obtener un modelo que contiene slo
predictores significativos. La regresin paso a paso est
disponible en el cuadro de dilogo de Opciones de anlisis:

Hay dos opciones paso a paso:


1. Seleccin hacia adelante comienza con un modelo que contiene slo la
constante e

introduce variables de una en una que mejoran la significatividad del ajuste.


2. Seleccin hacia atrs comienza con todas las variables del modelo y las va
eliminando de
una en una hasta que el modelo resulta significativo.
En ambos mtodos, las variables eliminadas pueden ser introducidas en un
paso posterior si deben ser utilizadas como predictores, y las variables
introducidas pueden ser eliminadas posteriormente si no aportan suficiente
significatividad al modelo.
Ejecutando una regresin hacia atrs se obtienen los siguientes resultados:

La salida muestra los resultados de ajustar un modelo de regresin lineal mltiple


para describir la relacin entre 1/Precio y 6 variables independientes. La ecuacin
del modelo ajustado es
1/Precio = -0,0295753 + 0,00271017*Embalaje
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relacin
estadsticamente significativa entre las variables con un nivel de confianza del
95,0%.
Para graficar el modelo, puede:
Utilizar el procedimiento Grficos de superficie y contorno copiando la funcin a
graficar y definiendo sus propios ttulos y escalas1. Si usa el men clsico, seleccione Grficos Grficos de superficie y
contorno.
En el cuadro de dilogo de entrada de datos, introduzca el modelo, expresando las
dos variables
predictoras X e Y. El camino ms fcil es pegar la ecuacin generada por el
procedimiento
regresin mltiple, cambiando Potencia por X y Peso por Y:

Tutorial #5: Analizando datos de atributos


Tablas de frecuencias, tablas de contingencia y anlisis de Pareto
Cada uno de los primeros cuatro tutoriales trabajan con datos de variables, con las
observaciones numricas en una escala continua. Este tutorial examina un
conjunto de datos de atributos, en los cuales una observacin representa una
categora en la que se clasifica el atributo, en vez de una medicin numrica.

Los datos tienen n = 100 filas, correspondientes cada una a un defecto que fue
observado en el proceso de fabricacin. El archivo tambin indica el tipo de
defecto producido y donde se realiz el producto.
14.1 Resumiendo datos de atributos
Ignorando por un momento la instalacin en la que cada tem fue producido, los
datos de tipo de defecto pueden ser resumidos mediante:
seleccione Describir Datos categricos Tabulacin.
El cuadro de dilogo de entrada de datos espera una columna simple
conteniendo datos de atributos:

El procedimiento observa la columna, identificando cada valor nico. Aparece el


cuadro de
dilogo Tablas y Grficos y se genera una ventana de anlisis similar a la
siguiente:

El panel superior izquierdo muestra que hay 9 valores distintos en las n = 100 filas.
El grfico de barras y el grfico de sectores de la derecha ilustran las frecuencias
observadas de cada tipo de defecto, las cuales se tabulan en el panel inferior
izquierdo. El tipo ms comn de defecto es rea, que representa cerca del 12%
de todos los defectos.

14.2 Anlisis de Pareto


El procedimiento Tabulacin de frecuencias ordena los tipos de defecto en orden
alfabtico. Para
ordenarlos de ms a menos frecuentes, se utilice en su lugar el procedimiento
Anlisis de Pareto.
Este procedimiento es accesible mediante:
1. seleccione CEP Evaluacin de la calidad Anlisis de Pareto.

El procedimiento Anlisis de Pareto acepta datos en dos formatos:


1. Datos no tabulados en una columna, como en el ejemplo actual.
2. Datos que han sido agrupados por tipos de defectos. Aplicable si se tienen dos
columnas, una identificando los tipos de defectos y otra conteniendo el
nmero de veces que ocurre cada tipo de defecto.
La ventana de anlisis muestra ambas tablas resumen y el grfico de Pareto:

De particular inters es el grfico de Pareto de la derecha, que representa las


frecuencias de cada tipo de defecto de los ms comunes a los menos comunes.
Inicialmente, las etiquetas de las barras se solapan debido a su nmero y
longitud. Este puede resolverse mediante:
1. Doble clic en el grfico con el ratn para maximizar el panel en la ventana de
anlisis.
2. Presionando el botn Opciones grficas en la barra de herramientas de
anlisis, haciendo
clic en la solapa Eje-X, y marcando la casilla Rotar etiquetas de los ejes.
3. Despus de salir del cuadro de dilogo Opciones grficas, pueden ajustarse o
no
completamente a la pantalla. En caso negativo, haga clic con el ratn en la
parte principal del grfico y arrastrando sin levantarlo aumente su altura o
anchura, o arrastre el eje X para reducir el tamao del eje vertical.

Las barras verticales en el grfico de Pareto estn dibujadas con altura


proporcional al nmero de veces que ocurre cada defecto. La lnea por
encima de las barras es la frecuencia acumulada de izquierda a
derecha. Encima de cada barra se muestra el porcentaje de defectos
ocurridos en una determinada clase a clases lejanas de la izquierda.
El principio bsico de Pareto establece que la mayora de los defectos
son habitualmente debidos a un nmero pequeo de causas posibles. En
este caso, los 3 tipos de defectos ms frecuentes sobrepasan el 80% de
todos los defectos.

14.3 Tabulacin cruzada


El archivo de tambin contiene una identificacin de qu establecimientos
producen cada tem definitivo. Para resumir los datos para tipos de
defectos y establecimientos: seleccione Describir Datos categricos
Tabulacin cruzada.

Despus de los cuadros de dilogo de


Opciones y de Tablas y
Grficos, se genera la siguiente ventana de anlisis:

La tabla del panel inferior izquierdo tabula los datos para tipos de defectos y
establecimientos:

Como se muestra inicialmente, cada celda de la tabla muestra el nmero de filas


en el archivo de datos correspondiente a una combinacin particular fila-columna.
Tambin indica el porcentaje de toda la tabla representado por esta celda. Por
ejemplo, hay 23 tems contaminados producidos en la instalacin de Merida,
representando el 23 por ciento de todos los tems defectuosos en la muestra.
Opciones de ventana permite seleccionar otros tems para representar en cada
celda:

Una interesante eleccin para los datos actuales es mostrar Porcentajes de filas
en vez de
Porcentajes de tablas:

El porcentaje tabulado ahora indica el porcentaje que cada celda representa en su


fila. Por ejemplo, el 76.67% de todos los tems daados fueron producidos en
Merida, mientras que el 66.67% de todos los tems de defecto por material fueron
producidos en Tachira. Esto sugiere que algunos tipos de defectos pueden ocurrir
ms frecuentemente en un establecimiento que en otro, una hiptesis que ser
contrastada formalmente en la seccin siguiente.
Se muestran varios grficos que son tambin de ayuda. Por ejemplo, el
grfico de barras siguiente muestra los datos para defectos y
establecimientos:

La diferencia entre los establecimientos es evidente. Un grfico, denominado


Grfico de mosaico, es tambin muy informativo:

En este grfico, la altura de cada barra es proporcional al nmero total de


defectos de cada tipo. La anchura de las barras es proporcional al porcentaje
relativo de cada tipo de defecto en cada localizacin. Consecuentemente, el rea
total de cada rectngulo es proporcional a la frecuencia de la correspondiente
celda en la tabla de doble entrada.
Si lo desea, las frecuencias de celda pueden mostrase tambin en tres
dimensiones seleccionando
Grfico de rascacielos ( Skychart)en el cuadro de dilogo de Tablas y Grficos:

En un Skychart, la altura de cada barra representa la frecuencia de una


celda en la tabla de contingencia.

14.4 Comparando dos o ms muestras


Para determinar cundo o no las diferencias aparentes entre los establecimientos
de Texas y
Virgini son estadsticamente significativas, seleccione Test de Independencia del
cuadro de dilogo
Tablas y Grficos. Para una tabla de este tamao, el procedimiento muestra los
resultados del contraste de la chi-cuadrado:

El test de la chi-cuadrado de independencia se utiliza para decidir entre dos


hiptesis:
Hiptesis nula: clasificaciones de filas y columnas son independientes.
Hiptesis alternativa: clasificaciones de filas y columnas no son independientes
La independencia debe implicar que el tipo de defecto definido en un tem no tiene
nada que ver con el establecimiento en el cual este tem fue fabricado.
Para el test de la chi-cuadrado, un pequeo P-valor indica que las clasificaciones
de filas y columnas no son independientes. En este caso, el P-valor es menor que
0.05, indicando al 5% de nivel de significacin que la distribucin de tipos de
defectos es diferente en la Realizacin en Tchira que en la Realizacin en
Mrida. Tambin se muestra un mensaje de peligro, ya que algunas frecuencias de
celdas en la tabla de doble entrada son menores que 5. (Tcnicamente, el peligro
ocurre si la frecuencia esperada en alguna celda es menor que 5 asumiendo que
la hiptesis nula es cierta). Con celdas con frecuencias pequeas, el P-valor puede
ser poco formal.
Una solucin de este problema es agrupar todos los tipos de defectos
infrecuentes en una clase nica y reejucutar el test. Esto se hace fcilmente en
STATGRAPHICS Centurion XVI de la siguiente forma:

1. Volver a la hoja de datos y hacer clic en la cabecera de la columna Defectos


para seleccionarla.

2. Presionar el botn derecho del ratn y seleccionar Recodificar datos en el


men emergente.
3. Completar el cuadro de dilogo Recodificar datos como se muestra a
continuacin para combinar los tipos de defectos menos comunes en una clase
nica etiquetada Otros:

Las entradas del cuadro de dilogo


Recodificar datos instruyen al programa
para buscar los valores en la columna Defectos que caen en cada intervalo
definido. Una etiqueta que cae alfabticamente entre los lmites muestra cmo una
fila dada es recodificada a los valores especificados en la columna Nuevos
valores.
Despus de ejecutar la operacin de recodificacin, vuelva a la ventana de anlisis
Tabulacin cruzada. En respuesta al cambio en el conjunto de datos, el anlisis
ser automticamente actualizado. La nueva clase Otros tiene ahora una
frecuencia razonable, como muestra el Grfico de mosaico revisado:

Despus de la recodificacin, el test de la chi-cuadrado muestra an una diferencia


significativa entre los establecimientos de Tachira y Merida

Esta tabla muestra los resultados de la prueba de hiptesis ejecutada para


determinar si se rechaza, o no, la idea de que las clasificaciones de fila y columna
son independientes. Puesto que el valor-P es mayor o igual que 0,05, no se
puede rechazar la hiptesis de que filas y columnas son independientes con un
nivel de confianza del 95,0%. Por lo tanto, el valor observado de Defecto para un
caso en particular, pudiera no tener relacin con su valor en Realizado.

14.5 Tablas de contingencia


Para determinar cundo una instalacin produce ms tems defectuosos que
otra, necesitamos conocer la produccin total de cada instalacin. Supongamos
que la siguiente tabla describe producciones mensuales:

Sea 1 la proporcin de tems defectuosos de Mrida y 2 la


proporcin de tems defectuosos de Tchira. Las proporciones
estimadas vienen dadas por:
X1=57/7656=0.0074
X2=43/6876=0.0062
Basado en estos datos, se muestra que el porcentaje de tems defectuosos
producidos en Merida puede ser mayor que el porcentaje de tems defectuosos
producidos en Tachira. Para determinar cundo esta diferencia aparente es
estadsticamente significativa
Entonces seleccione
Tablas de contingencia del mismo men que Tabulacin cruzada. Introducir:

El anlisis mostrar un test de la chi-cuadrado de tablas 2 por 2:

Recordar que este contraste de la chi-cuadrado determina cundo o no las


clasificaciones de filas y columnas son independientes. En este caso, la
independencia implicar que cuando un tem fue defectuoso o no nada tiene que
ver con el establecimiento en el cual fue producido.
Ya que el P-valor en la tabla anterior es mayor que 0.05, la hiptesis de
independencia se afirma .

You might also like