You are on page 1of 15

UNIVERSIDAD

NACIONAL
MAYOR DE SAN
E.A.P.: INGENIERIA MECANICA DE FLUIDOS

CURSO: ESTADISTICA

TEMA: REGRESION LINEAL SIMPLE Y NO LINEAL

SEMESTRE ACADEMICO: 2015 - I

INTEGRANTES:

Bazan Carhuaricra, Joseline Maura


Marca Pacheco, Cristhian Erick
Mendoza Velit, Milagros del Carmen
Rossello Churquipa, Veronica Ruth
Vergara Calderon, Eva Cecilia.

2015

ANLISIS DE CORRELACIN
El anlisis de correlacin es un grupo de tcnicas estadsticas usadas
para medir la fuerza de la asociacin entre dos variables.
Un diagrama de dispersin es una grfica que representa la relacin
entre dos variables.
La variable dependiente (Y) es la variable que se predice o calcula.
La variable independiente (X) proporciona las bases para el clculo.
Es la variable de prediccin.
El coeficiente de correlacin (r)
El coeficiente de correlacin (r) es una medida de la intensidad de la
relacin lineal entre dos variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin perfecta y fuerte.
Los valores cerca de 0.0 indican la correlacin dbil.
Los valores negativos indican una relacin inversa y los valores
positivos indican una relacin directa.

Frmula para r
Calculamos el coeficiente de correlacin de las frmulas siguientes.

( X X )(Y Y )

(n 1) s x s y

n (X

n(XY ) (X )(Y )
2

) (X ) 2 n Y 2 Y

Coeficiente de determinacin (r2)


El coeficiente de determinacin (r2) es la proporcin de la variacin total en
la variable dependiente (y) que se explica por la variacin en la variable
independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de la relacin entre las
variables.

ANLISIS DE REGRESIN
En anlisis de regresin utilizamos la variable independiente (X) para
estimar la variable dependiente (Y).
Si las dos variables X e Y se relacionan segn un modelo de lnea recta, se
habla de regresin lineal simple: Y =a+b X
Cuando las variables X e Y se relacionan segn una lnea curva, se habla de
regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin
parablica, exponencial, potencial, etc.

REGRESION LINEAL
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala del intervalo.
El criterio de mnimos cuadrados se utiliza para determinar la
ecuacin.

La ecuacin de regresin es: Y' = a + bX, donde:


Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.

a es la ordenada de la interseccin con el eje Y cuando X = 0. Es el


valor estimado de Y cuando X=0
b es la pendiente de la recta, o el cambio promedio en Y' para cada
cambio de una unidad en X.
El principio de mnimos cuadrados se utiliza para obtener a y b. Las
ecuaciones para determinar a y b son:

REGRESION NO LINEAL
FUNCIN EXPONENCIAL, POTENCIAL
El problema de ajustar un modelo potencial, de la forma Y = AX b y uno
exponencial Y = A B X se reduce al de la funcin lineal, con solo tomar
logaritmos.

Modelo potencial
Ser aquella en la que la funcin de ajuste sea una funcin potencial del
tipo:
y = a. xb
En este caso se resuelve linealizando la funcin tomando logaritmos ya que:
log y = log a + b log x

Considerando las nuevas variables Y = log y X= log x resolveramos la


regresin lineal entre ellas de forma que si el resultado fuera: Y= A +BX
La solucin final quedara como a= anti log A y b= B
Modelo exponencial
Ser aquella en la que la funcin de ajuste ser una funcin exponencial del
tipo
y = a.bx
La regresin exponencial aunque no es lineal es linealizable tomando
logaritmos ya que haciendo el cambio de variable
v = log y tendremos que la funcin anterior nos generara:
Y= log y = log (a.bx) = log a + x log b
La solucin de nuestro problema vendra de resolver la regresin lineal
entre X e Y. Obteniendo
Y = A + B x; obviamente la solucin final ser:
a = anti log A y b = anti log B.

FUNCION PARABLICA
Desarrollaremos la regresin Y/X y debe quedar claro que la regresin X/Y
resultara anloga.
Supongamos para simplificar que los datos no estn agrupados por
frecuencias.
En tal caso, obtener la funcin parablica y = a+ bx +c x2 se llevar a cabo
determinado los valores de los tres parmetros a, b, c que minimicen:
y (a, b, c) = (y - (a+bx+cx2))2
Igualando a cero las tres derivadas parciales se obtendr las ecuaciones
normales, que convenientemente manipuladas acaban siendo:

y =na+b x +c x2

/ n es el nmero de datos.

xy=a x+ b x 2+ c x 3
x 2 y =a x 2+ b x 3+ c x 4
Sistema de ecuaciones del que se pueden despejar los valores de los
coeficientes de regresin sea a, b y c. As formamos la ecuacin

Ejemplos de los tipos de regresiones:


1.- REGRESION LINEAL SIMPLE
Ejercicio:
Se desea estudiar si la resistencia de una mezcla de cemento es
explicada por el tiempo de frage de dicha mezcla. Para ello se tom
una muestra de 12 mezclas obtenindose la siguiente informacin:
TIEMPO
(MIN)
RESISTENCI
A

10

15

20

12

13

15

12

14

20

19

18

64

81.7

76.2

68.
5

66.6

77.9

82.2

74.2

70

76

83.2

85.3

Haga un anlisis de correlacin y regresin e interprete sus


resultados.
Desarrollo:
Primero determinemos las variables dependientes (Y) e
independientes (X):
X= Nmero de das de frage Y=Resistencia de una mezcla
de cemento
Segn nuestras variables graficamos los puntos de dispersin:

A partir de aqu realizamos el anlisis de correlacin:


Para eso armamos la siguiente tabla:

10

64

100

4096

XY
640

15
20
8
12
13
15
12
14
20
19
18

81.7
76.2
68.5
66.6
77.9
82.2
74.2
70
76
83.2
85.3

225
400
64
144
169
225
144
196
400
361
324

X2

6674.89
5806.44
4692.25
4435.56
6068.41
6756.84
5505.64
4900
5776
6922.24
7276.09
=

Y2

1225.5
1524
548
799.2
1012.7
1233
890.4
980
1520
1580.8
1535.4

XY

176
905.8
489
2752
68910.36
Para el anlisis necesitamos hallar el coeficiente de Pearson (r):

r=

cov ( x , y)
Sx S y

Hallamos la covarianza:

cov ( x , y )=

XY X Y

cov (x , y )>0

Como la

13489
(14.67)(75.48) = 16.79
12

podemos decir que la correlacin entre

las variables X e Y es de manera directa, quiere decir que si la


variable X aumenta o disminuye la variable Y tambin lo har.
Hallamos las desviaciones de las variables:

S X=

SY =

X 2 X 2
n

Y2 2
Y
n

2752
(14.67)2 = 3.77
12

68910.36
(75.48)2 = 6.69
12

Ahora podemos hallar el coeficiente de Pearson:

r=

cov ( x , y)
=
Sx S y

Sabemos que:

16.79
= 0.66
(3.77)(6.69)

-1 r 1

Vemos que nos sali r=0.66, como nuestro coeficiente es


positivo nos reafirma que la correlacin es directa. Pero vemos
que el valor est muy alejado del 1 lo que nos dice que el grado

=13

de la correlacin es dbil quiere decir que la intensidad de la


relacin lineal de los puntos no es muy fuerte.
Deducimos entonces que existe una dbil correlacin directa
entre el tiempo de frage del cemento con su resistencia.
Hallamos el coeficiente de determinacin:

r 2=0.4356
Entonces:

r 2 100=43.56

Esto quiere decir que el tiempo de frage del cemento hace


variar un 43.56% a su resistencia. Existen otras variables que
estn influenciando en un 56.44% a la variacin de la
resistencia.

Ahora realizamos el anlisis de regresin, para eso hallaremos


la recta que pase ms cerca de todos los puntos.

Y^ = a^ + b^ x
^
b=

n XY X Y
2

n X X

( 1.194 14.67 ) =57.96


a^ =Y b^ X=75.48

Y^ =57.96+1.194 x

12 13489( 176 905.8 )


=1.194
12 2752176 2

La pendiente de la recta me sali 1.194 esto me indica que por


cada tiempo de frage la resistencia aumenta en 1.194.

2.- REGRESION NO LINEAL


Ejercicio:
Una empresa requiere conocer cul es el porcentaje de desgaste de
las piezas mecnicas de una turbina de gas respecto al tiempo de uso
(horas), de lo cual se obtuvo una muestra de 39 datos:
TIEMPO
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
6500

DESGASTE
(%)
8.01
10.32
11.96
13.28
14.405
15.39
16.28
17.09
17.84
18.54
19.19
19.81
20.39

TIEMPO
7000
7500
8000
8500
9000
9500
10000
10500
11000
11500
12000
12500
13000

DESGASTE
(%)
20.95
21.48
21.99
22.49
22.96
23.41
23.86
24.28
24.703
25.106
25.49
25.87
26.25

TIEMPO
13500
14000
14500
15000
15500
16000
16500
17000
17500
18000
18500
19000
20000

DESGASTE
(%)
26.61
26.96
27.31
27.65
27.98
28.31
28.63
28.94
29.25
29.55
29.84
30.14
30.708

Ajustar a un modelo determinado e interpretar.


Desarrollo:
Primero determinemos las variables dependientes (Y) e
independientes (X):
X= Tiempo de uso (horas)
Y=Desgaste de porcentual (%)
Segn nuestras variables graficamos los puntos de dispersin:

Segn la grfica, que sali de manera curveada, decimos que


nuestra regresin ser del tipo no lineal.

Realizaremos el anlisis de correlacin entre las variables:

500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
6500

8.01
10.32
11.96
13.28
14.40
15.39
16.28
17.09
17.84
18.54
19.19
19.81
20.39

XY
4005
10320
17940
26560
36000
46170
56980
68360
80280
92700
105545
118860
132535

Y2
64.1601
106.5024
143.0416
176.3584
207.36
236.8521
265.0384
292.0681
318.2656
343.7316
368.2561
392.4361
415.7521

X2
250000
1000000
2250000
4000000
6250000
9000000
12250000
16000000
20250000
25000000
30250000
36000000
42250000

7000
7500
8000
8500
9000
9500
10000
10500
11000
11500
12000
12500
13000
13500
14000
14500
15000
15500
16000
16500
17000
17500
18000
18500
19000
20000

20.95
21.48
21.99
22.49
22.96
23.41
23.86
24.28
24.703
25.106
25.49
25.87
26.25
26.61
26.96
27.31
27.65
27.98
28.31
28.63
28.94
29.25
29.55
29.84
30.14
30.708

390500

146650
161100
175920
191165
206640
222395
238600
254940
271733
288719
305880
323375
341250
359235
377440
395995
414750
433690
452960
472395
491980
511875
531900
552040
572660
614160

XY

883.38

438.9025
461.3904
483.5601
505.8001
527.1616
548.0281
569.2996
589.5184
610.238209
630.311236
649.7401
669.2569
689.0625
708.0921
726.8416
745.8361
764.5225
782.8804
801.4561
819.6769
837.5236
855.5625
873.2025
890.4256
908.4196
942.981264

Y2
=

10105702

21359.5131
1

49000000
56250000
64000000
72250000
81000000
90250000
100000000
110250000
121000000
132250000
144000000
156250000
169000000
182250000
196000000
210250000
225000000
240250000
256000000
272250000
289000000
306250000
324000000
342250000
361000000
400000000

X2

515475000
0

n=39 --------> (nmero de datos)

Para el anlisis necesitamos hallar el coeficiente de Pearson (r):

r=

cov ( x , y)
Sx S y

Hallamos la covarianza:

cov ( x , y )=

XY X Y
n

10105702 390500 883.38


(
)(
) =
39
39
39

32322.47
Como la

cov (x , y )>0

decimos que la correlacin entre las

variables X e Y es de manera directa.


Hallamos las desviaciones de las variables:

X 2 X 2

S X=

SY =

Y2 2
Y
n

5154750000 390500 2
(
) = 5649.47
39
39

21359.51 883.38 2
(
) = 5.88
39
39

Ahora podemos hallar el coeficiente de Pearson:

r=

cov ( x , y)
=
Sx S y

Sabemos que:

32322.47
= 0.973
(5649.47)(5.88)

-1 r 1

Nuestro coeficiente es positivo nos reafirma que la correlacin


es directa. Y al ser muy cercano al 1 decimos que es de fuerte
intensidad.
Entonces existe una fuerte correlacin directa entre el tiempo
de uso de una turbina y el desgaste de sus piezas mecnicas.
Hallamos el coeficiente de determinacin:

r 2=0.95
Entonces:

r 2 100=95

Esto quiere decir que el tiempo de uso de la turbina hace variar


un 95% al desgaste. Existen otras variables que estn
influenciando en un 5% a la variacin del desgaste

A partir de aqu realizamos el anlisis de regresin:

log X

log Y

log X log Y

log X

500
1000
1500
2000
2500
3000

8.01
10.32
11.96
13.28
14.40
15.39

2.69
3
3.17
3.30
3.39
3.47

0.90
1.01
1.07
1.12
1.15
1.18

2.44
3.04
3.42
3.70
3.93
4.12

7.28
9
10.08
10.89
11.54
12.09

3500
4000
4500
5000
5500
6000
6500
7000
7500
8000
8500
9000
9500
10000
10500
11000
11500
12000
12500
13000
13500
14000
14500
15000
15500
16000
16500
17000
17500
18000
18500
19000
20000

16.28
17.09
17.84
18.54
19.19
19.81
20.39
20.95
21.48
21.99
22.49
22.96
23.41
23.86
24.28
24.703
25.106
25.49
25.87
26.25
26.61
26.96
27.31
27.65
27.98
28.31
28.63
28.94
29.25
29.55
29.84
30.14
30.708

390500

883.38

3.54
3.60
3.65
3.69
3.74
3.77
3.81
3.84
3.87
3.90
3.92
3.95
3.97
4
4.02
4.04
4.06
4.07
4.09
4.11
4.13
4.14
4.16
4.17
4.19
4.20
4.21
4.23
4.24
4.25
4.26
4.27
4.301

1.21
1.23
1.25
1.26
1.28
1.29
1.30
1.32
1.33
1.34
1.35
1.36
1.36
1.37
1.38
1.39
1.39
1.40
1.41
1.41
1.42
1.43
1.43
1.44
1.44
1.45
1.45
1.46
1.46
1.47
1.47
1.47
1.48

log X

logY

= 151.58

=
52.12
Para eso armamos la siguiente tabla:

El modelo a usar ser el potencial:


Del cual se deduce:
Y queda:

4.29
4.44
4.57
4.69
4.79
4.90
4.99
5.08
5.16
5.23
5.31
5.38
5.44
5.51
5.57
5.62
5.68
5.73
5.78
5.83
5.88
5.93
5.97
6.02
6.06
6.10
6.14
6.18
6.22
6.25
6.29
6.32
6.39

12.56
12.97
13.34
13.68
13.99
14.27
14.53
14.78
15.01
15.23
15.44
15.63
15.82
16
16.16
16.33
16.48
16.63
16.78
16.92
17.05
17.19
17.31
17.43
17.55
17.67
17.78
17.89
18
18.1
18.27
18.307
18.49

log X logY log X 2


=

204.56

^
Y^ = a^ X b

log Y =log a+b log X

Y =a + b log X

Entonces podemos usar las siguientes formulas:

= 594.59

log X

2
n log X ( 2)
=

n ( log X log Y log X log Y )


^
b=

39 ( 204.56 ) (151.58 52.12)


2
= 0.364
39 ( 594.59 )(151.58)
a^ =log Y b^ log X
=
log

52.12
39

151.58
39
(0.364)
)= -0.08

a^ = 0.83

Y^ =0.83 X 0.364

Interpretamos:
La tasa de crecimiento R es:

^
b=R+1

R=0.3641=0.636
R 100=0.636 100=63.6
Quiere decir que el porcentaje del desgaste de las piezas por
hora es de

63.6 .

You might also like