You are on page 1of 14

INDICE

INTRODUCCIN

Pg.
3

REGRESIN Y CORRELACIN
Enunciado

del 4

problema.
Primera pregunta: Variable independiente y dependiente, diagrama de
dispersin

.
Segunda pregunta: Estadstico de la lnea de regresin y grafica de la
lnea.

.
Tercera

pregunta:

Coeficiente

de

correlacin

de 8

Pearson...
CONCLUSIONES.

12

..
BIBLIOGRAFA.. 13

INTRODUCCIN
En la prctica, a menudo se encuentra que existe una relacin entre dos (o
ms) variables es posible expresar esta relacin en forma matemtica
determinando una ecuacin que relacione las variables. Para obtener tal ecuacin
es necesario hacer una recopilacin de datos que muestran los valores que
corresponden a las variables. Luego, es necesario graficar los puntos en un
sistema de coordenadas rectangular. Al conjunto de puntos resultante se le llama
diagrama de dispersin.
El problema general es encontrar ecuaciones de curvas de aproximacin
que ajusten a ciertos conjuntos de datos, a este procedimiento se le conoce como
ajuste de curvas. En la prctica, el diagrama de dispersin sugiere el tipo de
ecuacin que mejor aproxima a los puntos.
Uno de los propsitos principales del ajuste de curvas es estimar una de las
variables (la variable dependiente) a partir de otra (la variable independiente). A
este proceso de estimacin se acostumbra llamarlo regresin. Si se va a estimar Y
a partir de X por medio de alguna ecuacin, sta se denomina ecuacin de
regresin de Y en X, y la curva correspondiente, curva de regresin de Y en X.
Generalmente, ms de una curva de cierto tipo parecer ajustarse al
conjunto de datos. Para evitar juicios individuales cuando se construyen las rectas,
parbolas u otras curvas de aproximacin, es necesaria la definicin de la recta o
parbola de mejor ajuste, donde se debe tomar en cuenta la distancia o diferencia
que hay entre el punto y el segmento de la curva que pasa cerca de l, que se
conoce a veces como una desviacin, error o residuo, la cual puede ser positiva,
negativa o cero.

REGRESIN Y CORRELACIN
Problema. Como director de personal de una compaa, es su
responsabilidad asegurar la equidad en los niveles de sueldo con base en el
mrito. En otras palabras, el nivel de sueldo debera aproximarse al grado
educativo. Lo siguiente son los niveles de sueldo y aos de educacin de 15
empleados, quienes han laborado en la compaa por cinco aos.
Aos de Educacin
12
12
11
16
16
18
17
16
12
10
12
19
18
14
13
Tabla 1

Sueldo $
22.500
17.900
16.500
29.500
34.500
42.600
45.800
24.000
22.300
14.000
13.700
54.000
34.000
25.000
21.400

a.- Decida cul es la variable independiente y cul es la dependiente y trace


el diagrama de dispersin.
Se resalta que:
-

La variable independiente proporciona las bases para el clculo. Es decir, es la


variable de prediccin. Esta se representa con la variable X.
La variable dependiente es la variable que se predice o calcula. Su representacin
viene dada por la variable Y.
En este sentido, se analiza que la variable dependiente es, en este caso, el
nivel de sueldo, debido a que este se basa en el mrito del empleado. Por lo tanto,
la variable independiente es el grado educativo, por ser el elemento fundamental
para calcular el sueldo; es decir, es lo que se conoce del empleado.

Un diagrama de dispersin es una grfica que representa la relacin entre dos


variables. Los valores de las variables se pueden representar grficamente en un
3

plano cartesiano, ubicando en el eje horizontal o abscisa los valores de la


variable X y en el eje vertical u ordenada, los valores de la variable Y.
Tomando en cuenta los valores de la Tabla 1, y la eleccin lgica de la
variable dependiente (en el eje Y) e independiente (en el eje X), se obtiene el
siguiente diagrama de dispersin.

Diagrama de Dispersin
60,000
50,000
40,000
Sueldo $

30,000

Relacin

20,000
10,000
0
8

10

12

14

16

18

20

Aos de eduacin

b.- Calcule el estadstico de la lnea de regresin y trace la lnea.


La regresin es el mtodo que permite estudiar la relacin entre dos o ms
variables, buscando un objetivo final de predecir o estimar el valor de una variable
con base en el valor de otra variable conocida.
El mtodo que se utiliza regularmente para obtener la recta de regresin se le
conoce como mtodo de los mnimos cuadrados. La ecuacin de la recta estimada
est dada por:
y = a + bx
Donde:

2
X

X 2
n
Y X 2 X ( X Y )
a=

Se trata pues de una dependencia funcional entre las dos variables. Una (X)
que es la variable independiente, y Y, que ser la variable dependiente. Se habla
as de una regresin de Y sobre (o en funcin de) X.
Visualizando las formulas, es necesario calcular valores requeridos para
completar la ecuacin:
Aos de
Educacin
(X)

Sueldo

X2

Y2

(Y)

XY

12

22.500

144

506250000

270000

12

17.900

144

320410000

214800

11

16.500

121

272250000

181500

16

29.500

256

870250000

472000

16

34.500

256

1190250000

552000

18

42.600

324

1814760000

766800

17

45.800

289

2097640000

778600

16

24.000

256

576000000

384000

12

22.300

144

497290000

267600

10 10

14.000

100

196000000

140000

11 12

13.700

144

187690000

164400

12 19

54.000

361

2916000000

1026000

13 18

34.000

324

1156000000

612000

14 14

25.000

196

625000000

350000

15 13

21.400

169

457960000

278200

417.700

3228

13683750000

6457900

=
216

Tabla 2
En esta ecuacin el valor de a (que puede ser negativo, positivo o igual a
cero) es llamado el intercepto; en tanto que el valor de b (el cual puede ser
negativo o positivo) se denomina la pendiente o coeficiente de regresin.
En este sentido, se obtiene que a y b es igual a:
a=

417700. ( 3228 ) 216.(6457900)


=26400,68
15. ( 3228 )216 2

b=

15. ( 6457900 )216.(417700)


=3767,2
15. ( 3228 )216 2

Por consiguiente, la recta es y= 3767,2x 26400,68.


Otro mtodo, es resolviendo el sistema de ecuaciones de las ecuaciones
generales:

y =an+b x
xy=a x+ b x 2
Por lo tanto, sustituyendo los valores obtenemos:
15 a+216 b=417700

216 a+3228 b=6457900

Resolviendo el sistema de ecuaciones por el mtodo de sustitucin se logra:

1 15 a+216 b=417700
2 216 a+ 3228b=6457900
Despejando a de la ecuacin 1 queda:
417700216 b
15

a=

Entonces, al sustituir a en la ecuacin 2 y despejando b calculamos:


216

b
( 417700216
)+ 3228b=6457900
15

90223200 46656 b

+ 3228 b=6457900
15
15
60148803110,4 b+3228 b=6457900
6014880+117,6 b=6457900

b=

64579006014880
=3767,2
117,6

Por consiguiente, sustituyendo el valor obtenido de b en cualquiera de las dos


ecuaciones principales se obtiene que:
15 a+ ( 216.(3767,2) )=417700
a=

417700813715,2
=26400,6
15

Grfica de la lnea de regresin


60,000
50,000
f(x) = 3767.18x - 26400.68
R = 0.81

40,000
Sueldo

Relacin

30,000

Linear (Relacin)

20,000
10,000
0
8

10

12

14

16

18

20

Aos de eduacin

Para obtener los puntos exactos por donde pasa la recta solo hay que darle
valores a X para conseguir los de Y.
c.- Calcule el coeficiente de correlacin de Pearson.
El coeficiente de correlacin (r) es una medida de la intensidad de la relacin
lineal entre dos variables.
Caractersticas:
-

Requiere datos de nivel de razn.

Puede tomar cualquier valor de -1 a 1 [-1 r 1].

Cuando la correlacin es igual a -1 o 1 se obtiene la correlacin perfecta


y fuerte.
Los valores cerca de 0 indican la correlacin dbil.
Los valores negativos indican una relacin inversa y los valores positivos
indican una relacin directa.

Cuando r es negativo, ello significa que al aumentar los valores de la variable


independiente disminuyen los valores de la variable dependiente, o viceversa (se
trata entonces de una correlacin negativa, correspondiente a un valor negativo
de la pendiente b en el anlisis de regresin).
Cuando r es positivo, en cambio, esto significa que una variable se
incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo de la
pendiente b en el anlisis de regresin). En el grfico de dispersin, los puntos
8

tienen forma ascendente y por lo tanto la recta de ajuste tendr una pendiente
positiva.
Para interpretar el coeficiente de correlacin utilizamos la siguiente escala:
Valor

Significado

-1

Correlacin negativa grande y perfecta

-0,9 a -0,99

Correlacin negativa muy alta

-0,7 a -0,89

Correlacin negativa alta

-0,4 a -0,69

Correlacin negativa moderada

-0,2 a -0,39

Correlacin negativa baja

-0,01 a -0,19

Correlacin negativa muy baja

Correlacin nula

0,01 a 0,19

Correlacin positiva muy baja

0,2 a 0,39

Correlacin positiva baja

0,4 a 0,69

Correlacin positiva moderada

0,7 a 0,89

Correlacin positiva alta

0,9 a 0,99

Correlacin positiva muy alta

La ecuacin de la correlacin de Pearson viene dada por:

nx Y 2( 2)

( 2 ) x
X 2
nx

nx XY X Y
r=

Sustituyendo los valores de la Tabla 2, se calcula:


r=

15 x 6457900216 x 417700

(15 x 3228( 216 ) ) x (15 x 13683750000( 417700 ) )


2

=0,9018

Otro mtodo para calcular la correlacin de Pearson es mediante la frmula:


r=

xy
x. y

Donde:
xy=

XY x
n

. y
x

2 , donde x = X
()
n

x=
y

2 ,donde y = y
()
n
n
y =
2

Sustituyendo valores:

10

x =

216
417700
=14,4 y =
=27846,66667
15
15

x=

3228
(14,4)2=2,8
15

13683750000
( 27846,66667)2=11696,71558
15

y=

xy =

r=

6457900
14,427846,66667=29534,66662
15

29534,66662
=0,9017
2,811696,71558

Con los resultados obtenidos se puede asegurar que la ecuacin de la recta


es una muy buena estimacin, dado que el coeficiente de correlacin de Pearson
es de 0,9018 lo cual arroja o determina un tipo de alta correlacin positiva entre
las variables sueldo y aos de educacin.

Regresin y Correlacin
60,000
50,000
f(x) = 3767.18x - 26400.68
R = 0.81

40,000
Sueldo

Relacin

30,000

Linear (Relacin)

20,000
10,000
y= bx +a

0
8

10

12

14

16

18

20

Aos de educacin

11

CONCLUSIONES
Se determin que el coeficiente de correlacin lineal r puede ser positivo
o negativo. Si r es positivo, y tiende a aumentar con x (la pendiente de la recta es
positiva), mientras que si r es negativo, y tienden a decrecer con x (la pendiente es
negativa). El signo se toma en cuenta automticamente.
La dispersin de puntos alrededor de la recta o curva de regresin indica
que, para cierto valor de X, existen varios valores de Y distribuidos alrededor de la
recta o curva. Esta idea de distribucin lleva naturalmente al reconocimiento de
que existe una conexin entre ajuste de curvas y probabilidad. La conexin se
establece al introducir las variables aleatorias X y Y, que pueden tomar los
diversos valores mustrales x y y, respectivamente. Por ejemplo, X y Y pueden
representar estaturas y pesos de hombres adultos en una poblacin de la cual se
toman muestras. Entonces, se supone que X y Y tienen una funcin de
probabilidad o funcin de densidad conjunta f(x,y), de acuerdo con el hecho de
que se consideran discretas o continuas.

12

BIBLIOGRAFA
Probabilidad y Estadstica, Schaum. 2009. Murray R. Spiegel, John Schiller,
R. Alu Srinivasan. Tercera Edicin. Editorial McGraw-Hill.
Internet:

http://www.inpahu.edu.co/tecnologias/Estadistica/analisis.html
http://www.fao.org/docrep/003/x6845s/x6845s02.htm
http://www.slideshare.net/lexoruiz/regresin-lineal-y-correlacin
http://www.monografias.com/trabajos85/coeficiente-correlacion-karlpearson/coeficiente-correlacion-karl-pearson.shtml#ixzz35VdfCgwn

13

14

You might also like