Professional Documents
Culture Documents
Y ** * * * * * b0 Correlacin positiva * b1 *
* * * * * * * * * * *
* * * * *
Correlacin negativa
X Sin correlacin
Pgina 2 de 15
El trmino de error es la diferencia entre los valores reales observados Yi y los valores estimados por la ecuacin de la recta. Se trata de que estos sean mnimos, para lo cual se utiliza el mtodo de mnimos cuadrados.
Pgina 3 de 15
Y *
* X
Las frmulas resultado de la minimizacin de lo cuadrados del error se aplicarn en el siguiente ejemplo por claridad. Se tienen los siguientes supuestos: 1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresin poblacional 2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad) en caso contrario se tiene (Heteroscedasticidad) 3. Los errores o residuos son independientes: No se muestra algun patrn definido. El coeficiente de Correlacin r desarrollado por Carl Pearson es un indicador de la fuerza de la relacin entre las variables X y Y, puede asumir valores entre -1 y 1 para correlacin negativa y positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presin tiene una correlacin positiva con el rendimiento de una caldera, se deben buscar soluciones al problema mediante acciones asociadas con la variable presin; de lo contrario, sera necesario buscar la solucin por otro lado. Pgina 4 de 15
Pgina 5 de 15
Y Yest = 4.4 + 1.08 X Yi = 23 * Desviacin no explicada Error = (Yi - Yest) = 1.32 Variacin total (YiYmedia)=5.1 3 Desviaci explicada (Yest-Ymedia) = 3.81 Ymedia =17.87
X = 16
Ejemplo:
Se sospecha
mantenimiento preventivo est relacionado con su nmero. Calcular el coeficiente de correlacin y graficar. Los datos de tiempo tomados para n = 25 servicios se muestran a continuacin: X Servicios 2 8 11 10 8 Y Tiempo 9.95 24.45 31.75 35.00 25.02 (Xi-X)*(YiY) 119.07667 2 1.099872 7.499472 10.502272 0.963072 (Xi-X)^2 38.9376 0.0576 7.6176 3.0976 0.0576 (Yi-Y)^2 10.919 364.1533 21.0021 7.3832 35.6075 16.1026 9 28.336 2 37.044 3 34.141 6 28.336 0.9408 15.102 2 28.029 2 0.7369 10.996 Yest Error
Pgina 6 de 15
2 16.725 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 51.612672 91.433472 121.26067 2 -3.558928 0.367872 50.679872 21.989472 48.568672 108.40627 2 31.303072 47.245472 470.01427 2 135.62547 2 10.379072 118.68667 2 107.12707 2 194.67667 2 241.75147 2 15.462272 17.9776 38.9376 38.9376 0.5776 0.0576 17.9776 7.6176 14.1376 38.9376 17.9776 17.9776 148.1771 214.7045 377.6337 21.9286 2.3495 142.8694 63.4763 166.8541 301.8142 54.5057 124.1620 3 10.919 9 10.919 9 31.238 9 28.336 2 16.725 3 37.044 3 39.947 0 10.919 9 16.725 3 16.725 3 63.168 6 8.0172 34.141 6 48.655 1 48.655 1 51.557 8 54.460 5 22.530
9 0.0181 11.972 1 1.7422 47.456 3 0.6991 0.1258 0.0020 4.0121 0.5477 24.252 3 1.3564 34.005 2 5.2111 0.6216 4.2646 14.251 2 6.5649 4.7068 0.1606
138.2976 1,597.3771 52.4176 3.0976 45.6976 45.6976 60.2176 76.7376 5.0176 350.9178 34.7770 308.2553 251.1337 629.3676 761.6054 47.6486
Pgina 7 de 15
7 19.628 5 206 X X promedio 21.15 725.82 Y 25.540272 10.4976 62.1385 0 2.3164 220.09 26 SSE
Sxx
Syy
Si todos los puntos estuvieran completamente sobre la recta la ecuacin lineal sera y = a + bx. Como la correlacin no siempre es perfecta, se calculan a y b de tal forma que se minimice la distancia total entre puntos y la recta. Los clculos tomando las sumas de cuadrados siguientes se muestran a continuacin: Sxy = 2027.71 Sxx Syy = 698.56 = 6105.94
b1 = 1 =
( Xi X )(Yi Y ) = S S ( Xi X )
2
XY XX
= 2.902704421
b0 = 0 =
1 X i n
= Y X = 5.114515575
Pgina 8 de 15
El coeficiente de determinacin r2 y el coeficiente de correlacin r se calculan a continuacin: SSE ( SST SSE ) SSR = = = 0.9639 SST SST SST
r2 = 1
El coeficiente de determinacin indica el porcentaje de la variacin total que es explicada por la regresin.
r = r 2 = 0.9816 El coeficiente de correlacin proporciona el nivel de ajuste que tienen los puntos a la lnea recta indicando el nivel de influencia de una variable en la otra. El factor de correlacin r es un nmero entre 1 (correlacin negativa evidente) y +1 (correlacin positiva evidente), y r = 0 indicara correlacin nula. El coeficiente de correlacin r = 0.98 por lo cual tenemos suficiente evidencia estadstica para afirmar que el tiempo de atencin esta relacionado con el nmero de servicios atendidos. USO DE EXCEL En el men Herramientas seleccione la opcin Anlisis de datos. Datos de ejemplo 6.
2.
1.
4. Seleccione Resumen de estadsticas. 5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que este en blanco ( a partir de est celda sern insertados los resultados).
Resumen Estadsticas de la regresin Coeficiente de 0.98181177 correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones 8 0.96395436 8 0.96238716 7 3.09341962 7 25 Promedio ANLISIS DE VARIANZA Grados de libertad Regresin Residuos Total 1 23 24 Suma de de cuadrad Valor crtico de F 4.24118E18
Cuadrados os F 5885.8520 5885.852 615.0800 69 069 220.09263 9.569244 48 6105.9447 04 Estadstic Probabili 992 898
Coeficientes Error tpico ot dad Inferior 95% 5.11451557 1.1458041 4.463691 0.000177 2.74423916 Intercepcin XServicios 5 2.90270442 1 27 004 215 1 0.1170407 24.80080 4.24118E 2.66058724 19 825 -18 9
Pgina 10 de 15
En la grfica
tiempo de atencin aumenta. USO DE MINITAB Para determinar la funcin de regresin y correlacin en Minitab se siguen los pasos siguientes (despus de cargar los datos correspondientes a X y a Y en las columnas C1 y C2): Stat >Regresin ... Indicar la columna de Respuestas Y y la de predictores X y aceptar con OK. Observar el valor del coeficiente de correlacin y de determinacin. Para obtener la lnea de mejor ajuste de la regresin, se procede como sigue en Minitab: Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X, seleccionar si se quiere ajustar con los datos con una lnea, una funcin cuadrtica o cbica y aceptar con OK. Observar el mayor valor del coeficiente de correlacin que indica el mejor ajuste. Pgina 11 de 15
En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X. En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals La grfica de residuos debe apegarse a la recta y tener siempre un valor P value >0.05.
Fi tted L i ne P l ot
Y Tiempo = 5.115 + 2.903 X Servicios
Regression Analysis: Y Tiempo versus X Servicios The regression equation is Y Tiempo = 5.115 + 2.903 X Servicios S = 3.09342 R-Sq = 96.4% R-Sq(adj) = 96.2% Analysis of Variance Source DF SS MS F P Regression 1 5885.85 5885.85 615.08 0.000 Error 23 220.09 9.57 Total 24 6105.94 La regresin tiene una r^2 de 96.4% y la influencia de una variable X en Y es significativo. Los intervalos de confianza para la media y el intervalo de prediccin para un punto especfico X son los siguientes:
Sy = Se
1 ( Xi X ) 2 + n SCx
*
Pgina 13 de 15
EJERCICIOS: 1. La energia consumida en un proceso depende del ajuste de mquinas que se realice, realizar una regresin cuadrtica con los datos siguientes y responder las preguntas. Cons_energ a Y 21.6 4 1.8 1 1 0.8 3.8 7.4 4.3 36.2 Ajuste Mq. X 11.15 15.7 18.9 19.4 21.4 21.7 25.3 26.4 26.7 29.1
a) Trazar un diagrama de dispersin b) Obtener la ecuacin de regresin lineal y cuadrtica y comparar c) Estimar el consumo de energa para un ajuste de mquina de 20 con regresin cuadrtica d) Obtener los intervalos de prediccin y de confianza para un ajuste de mquina de 20 e) Obtener el coeficiente de correlacin y de determinacin 2. En base al porcentaje de puntualidad se trata de ver si hay correlacin con las quejas en una lnea area. Las quejas son por cada 100000 pasajeros. %puntos Quejas X Y 81.8 0.21 76.6 0.58 Pgina 14 de 15
Aerolinea A B
C D E F G H
a) Trazar un diagrama de dispersin b) Obtener la ecuacin de regresin lineal c) Estimar las quejas para un porcentaje de puntualidad de 80% d) Obtener los interalos de prediccin y de confianza para una altura de 63" e) Obtener el coeficiente de correlacin y de detemrinacin
Pgina 15 de 15