Professional Documents
Culture Documents
En la siguiente imagen se muestra una tabla con los datos de perfiles de vigas
(acero y aluminio) con el que se realizara el siguiente tutorial
Deje en blanco el campo Seleccionar para analizar las 100 filas. Presione Aceptar.
La parte superior izquierda del panel indica que la muestra tiene n = 100 valores
situados entre
1,0 y 72 cm. La parte superior derecha del panel muestra un grfico de dispersin
de los datos, con los puntos aleatoriamente dispersos en la direccin vertical.
Tome nota que los puntos tienen ms densidad entre 20 y 40 cm, disminuyendo
fuera.
Los paneles inferiores muestran resmenes estadsticos y el grfico de caja y
bigotes, descrito en las secciones siguientes.
36.51
18.424
simple, que divide la caja en dos partes. Si los datos provienen de una
distribucin simtrica, esta lnea vertical debe pasar por el centro de la
caja.
El valor ms atpico est en la fila #6, que se destaca en rojo. Tiene un valor
estudentizado sin supresin (Studentized Value Without Deletion) de -1.92738. Los
valores estudentizados se calculan mediante:
Cuando se deciden las clases, hay que tener en cuenta el nmero de dgitos
significativos en los datos. Por ejemplo, las medidas de los perfiles fueron medidas
slo en las cercanas de la unidad es decir sin digito decimal. La anchura de los
intervalos correspondientes a las barras deben ser enteros mltiplos de1. Por esta
va, cada barra cubrir el mismo nmero de posibles mediciones. El grfico
siguiente muestra 25 intervalos entre 0 y 77cm
Este panel muestra los intervalos de confianza del 95,0% para la media y la
desviacin estndar de Perfiles. La interpretacin clsica de estos intervalos es
que, en muestreos repetidos, estos intervalos contendrn la media verdadera la
desviacin estndar verdadera de la poblacin de la que fueron extradas las
muestras, el 95,0% de las veces. En trminos prcticos, puede establecerse con
95,0% de confianza, que la media verdadera de Perfiles se encuentra en algn
lugar entre 32,8543 y 40,1657, en tanto que la desviacin estndar verdadera est
en algn lugar entre 16,1764 y 21,4027.
Ambos intervalos asumen que la poblacin de la cual proviene la muestra puede
representarse por la distribucin normal. Mientras que el intervalo de confianza
para la media es bastante robusto y no muy sensible a violaciones de este
supuesto, los intervalos de confianza para la desviacin estndar son muy
sensibles. Si los datos no provienen de una distribucin normal, el intervalo para
la desviacin estndar puede ser incorrecto. Para verificar si los datos provienen
de una distribucin normal, seleccione Resumen Estadstico de la lista de
Opciones Tabulares, escoja Grfica de Probabilidad Normal de la lista de
Opciones Grficas.
Seleccionando Opciones de panel, pueden ser requeridos intervalos de confianza
adicionales utilizando el mtodo bootstrap:
La caja Entrada indica la forma en que se introducirn los datos para las dos
muestras:
Datos en dos columnas los datos para cada muestra estn en columnas
diferentes.
Despus del cuadro Tablas y Grficos se presenta una ventana que contiene 4
paneles: un resumen de los datos, un histograma dual, un resumen estadstico de
cada grupo y un grfico
La desviacin tpica del acero es menor que la del aluminio, indicando que las
medidas del acero pueden ser menos variables que las del aluminio.
La mxima distancia vertical, denotada por DN, es igual aproximadamente a 0.95 para los
datos de las medidas de los materiales.
El P-valor es utilizado para determinar cundo las distribuciones son o no son
significativamente diferentes. Un pequeo P-valor nos lleva a la conclusin de que hay
una diferencia significativa.
Ya que el P-valor para esta muestra de datos es menor o igual que 0.05, hay una
diferencia significativa entre las distribuciones de las medidas del aluminio y el acero al
5% de nivel de significacin.
Peligro: Si los datos se redondean, el test puede no ser fiable ya que la funcin de
distribucin acumulativa emprica (CDF) puede tener saltos en pasos largos. Cuando
sea posible, es mejor confiar en una comparacin de parmetros seleccionados de
distribuciones tales como la media, la desviacin tpica o la mediana.
En este caso, los datos han sido situados en varias columnas de la hoja de datos.
En
el
muestra
archivo de la
de datos, las
observaciones
han sido situadas en cuatro columnas de nombres Cemento, Concreto, Hormign,
Hormign Armado
Cuando se presiona Aceptar, aparece el cuadro de dilogo Tablas y Grficos. Se
aceptan las caractersticas por defecto en este tutorial.
Cuando se abre la ventana de anlisis, aparecern cuatro paneles:
ampliado a continuacin:
A lo largo de la parte inferior del grfico hay un diagrama de puntos de los residuos
del modelo. En el ANOVA simple, los residuos son iguales a las diferencias entre
cada observacin y la media de todas las observaciones de ese grupo. En el
ejemplo actual, la variabilidad observada en los residuos es indicativa de la
variabilidad natural entre las resistencias de los materiales a estudiar.
Representados por encima de la lnea central estn escaladas las desviaciones
Tutorial 13
Ajustando modelos lineales y no lineales, seleccionando el
mejor modelo, representando residuos y mostrando
resultados.
Le damos aceptar
..
El panel superior izquierdo lista las variables de entrada, mientras que el panel
central izquierdo muestra el resumen de estadsticos. Hay un total de 93 filas en
el archivo de datos que tienen informacin completa en todas las variables a
analizar.
El grfico matricial de la derecha muestra los grficos X-Y para cada par de
variables
Para interpretar el grfico, observe la etiqueta de una variable tal como precio. La
variable indicada se muestra en el eje vertical de todos los grficos de su fila y en
el eje horizontal de todos los grficos de su columna. Cada par de variables se
muestra de este modo dos veces, una vez por encima de la diagonal y otra vez por
debajo.
En el grfico anterior se han aadido alisados robustos LOWESS maximizando el
panel y utilizando el botn Alisado/Rotacin de la barra de herramientas de
anlisis. Del mayor inters es la fila superior de grficos, que muestra Precio
graficada contra cada una de las 6 variables predictoras potenciales. Todas las
variables estn claramente correlacionadas con el precio, algunas de forma no
lineal. Hay tambin mucha correlacin entre las variables predictoras
y. por lo tanto, presencia de multicolinealidad, lo cual sugiere que algunas
combinaciones diferentes de variables pueden ser igualmente buenas para
predecir Y.
La tabla siguiente muestra la matriz de coeficientes de correlacin estimados
para cada par de variables en el anlisis:
Entre los muchos estadsticos de la tabla anterior, los ms importantes son los
siguientes:
Coeficientes: coeficientes del modelo estimado. El modelo ajustado que se
utilizar para la prediccin es:
Precio = 0,166667 + 0,597222*Longitud
R-cuadrado: el porcentaje de variabilidad en Y que ha sido explicado por el
modelo. En este caso, la regresin lineal contra longitud explica cerca del 21.1944
% de la variabilidad en Precio
P-Valor del modelo: Un P-valor mayor 0.05. No hay una relacin
estadsticamente significativa entre Precio y Longitud con un nivel de confianza del
95,0% ms.
elegir el modelo. Modelos con valores de R-cuadrado ms bajo que le modelo del
principio de la lista pueden ser preferibles si son ms sensibles en el contexto de
los datos.
En el contexto actual, un modelo atractivo cercano al principio de la lista es el
modelo Recproco-Y. Este modelo toma la forma:
La tabla de residuos atpicos enlista todas las observaciones que tienen residuos
Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados
miden cuntas desviaciones estndar se desva cada valor observado de Precio
del modelo ajustado, utilizando todos los datos excepto esa observacin. En este
caso, hay un residuo Estudentizado mayor que 2, pero ninguno mayor que 3.
Los datos tienen n = 100 filas, correspondientes cada una a un defecto que fue
observado en el proceso de fabricacin. El archivo tambin indica el tipo de
defecto producido y donde se realiz el producto.
14.1 Resumiendo datos de atributos
Ignorando por un momento la instalacin en la que cada tem fue producido, los
datos de tipo de defecto pueden ser resumidos mediante:
seleccione Describir Datos categricos Tabulacin.
El cuadro de dilogo de entrada de datos espera una columna simple
conteniendo datos de atributos:
El panel superior izquierdo muestra que hay 9 valores distintos en las n = 100 filas.
El grfico de barras y el grfico de sectores de la derecha ilustran las frecuencias
observadas de cada tipo de defecto, las cuales se tabulan en el panel inferior
izquierdo. El tipo ms comn de defecto es rea, que representa cerca del 12%
de todos los defectos.
La tabla del panel inferior izquierdo tabula los datos para tipos de defectos y
establecimientos:
Una interesante eleccin para los datos actuales es mostrar Porcentajes de filas
en vez de
Porcentajes de tablas: