You are on page 1of 14

INTRODUCCIÓN

El objetivo es analizar el grado de la relación existente entre variables utilizando modelos


matemáticos y representaciones gráficas. Así pues, para representar la relación entre dos o más
variables desarrollaremos una ecuación que permitirá estimar una variable en función de la otra.

Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de
un determinado producto?, ¿cómo representamos que la bajada de temperaturas implica un
aumento del consumo de la calefacción?,... A continuación, estudiaremos dicho grado de relación
entre dos variables en lo que llamaremos análisis de correlación.

Para representar esta relación utilizaremos una representación gráfica llamada diagrama de
dispersión y, finalmente, estudiaremos un modelo matemático para estimar el valor de una variable
basándonos en el valor de otra, en lo que llamaremos análisis de regresión.

CONCEPTOS

 Correlación Lineal

En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos
variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las
notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al
problema consistiría en dibujar en el plano R2 un punto por cada alumno: la primera coordenada
de cada punto sería su nota en estadística, mientras que la segunda sería su nota en
matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la
existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.

Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo


dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si
consideramos un periodo de tiempo de 10 años, una posible representación sería situar un
punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en
euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de
su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de
relación existente entre ambas variables.

En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El
parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo
valor oscila entre –1 y +1 :
Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlación
tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a –1
cuando la correlación tiende a ser lineal inversa. Es importante notar que la existencia de correlación
entre variables no implica causalidad. ¡Atención!: si no hay correlación de ningún tipo entre dos v.a.,
entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos
dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume
el análisis del coeficiente de correlación entre dos variables.
Objetivos

Proporcionar elementos para:

• Construir e interpretar diagramas de dispersión

• Calcular e interpretar, en el contexto propio, el coeficiente de correlación r de


Pearson

• Hacer e interpretar inferencias sobre el coeficiente de correlación r de


Pearson entre dos variables

• Calcular e interpretar la recta de regresión por mínimos cuadrados para una


muestra de puntos dados

• Hacer inferencias sobre la estimación y los parámetros de la recta de


regresión.

• Identificar y transformar en lineales las funciones intrínsecamente lineales


más comunes.

• Calcular e interpretar la regresión multilineal.


Análisis de regresión lineal simple

Si se trata de predecir o explicar el comportamiento de una variable Y, a la que


se denomina dependiente o variable respuesta, en función de otra variable X
denominada independiente o regresora, Y =f(X), estamos frente a un problema
de análisis de regresión lineal simple; pero si deseamos investigar el grado de
asociación entre las variables X e Y estamos frente a un problema de análisis de
correlación.

Diagrama de dispersión

Denominado también diagrama de nube de puntos.

Este tipo de gráfico se utiliza para visualizar la relación entre las variables y, a
partir de dicha relación, observar en qué medida se mantiene el incremento o
disminución de una variable a partir del aumento de otra variable.

Para su construcción, se trazan en el plano cartesiano los ejes de la abscisa (X) y


de la ordenada (Y). En el eje X se colocan los valores de una de las variables y,
en el eje Y, los valores de la otra variable. En la intersección correspondiente a
cada valor de X y a cada valor de Y se coloca un punto, y así tendremos la nube
de puntos.

a) Relacióó n lineal pósitiva b) Relacióó n lineal negativa


Método de mínimos cuadrados

Ajustar una función de regresión significa encontrar, la función que exprese con
mayor precisión la relación entre las variables X e Y. Gráficamente será aquella
función que mejor se adecue a la nube de puntos. En este sentido, es
recomendable como primer paso construir el diagrama de dispersión o
diagrama de nube de puntos para, luego de analizar su forma, decidir por el
tipo de función matemática (modelo) o la ecuación de regresión que exprese la
relación entre las variables X e Y. Luego, se estiman los parámetros del modelo,
para lo cual existen varios métodos, siendo el más usado el método de
mínimos cuadrados. Intentamos describir la dependencia de una variable Y
sobre una variable independiente X. Emplearemos la ecuación de regresión a
fin de apoyar la hipótesis que postula la posible causalidad de los cambios de Y
mediante los cambios en X; para propósitos de predicción de Y en función de X;
y para propósitos de explicación de parte de la variación de Y por X utilizando la
última variable como control estadístico. Los estudios de los efectos de la
temperatura en el rendimiento académico, el contenido de nitrógeno en el
suelo sobre la tasa de crecimiento de una planta, la edad de un estudiante
sobre su presión sanguínea, la dosis de un insecticida sobre la mortalidad de
una población de insectos, el número de horas de estudio sobre el rendimiento
académico, son ejemplos típicos de regresión para los propósitos señalados.

El método de mínimos cuadrados garantiza que la recta que representa el


comportamiento del conjunto de datos es la recta L, donde la suma de los
cuadrados de las diferencias de las ordenadas i y de los puntos observados (X 1,
Y2), y de las ordenadas de los puntos están en la
recta:

, sea mínimo. Esto es, se trata de obtener los valores de a


y b de tal manera que el valor de la suma de cuadrados de los residuos, SSE,
sea mínimo. Es decir:

Donde:
yi : son los valores observados de la variable dependiente Y ,

ŷi : son los valores estimados de Y ,

b : es la pendiente de la recta, llamada también coeficiente de regresión, para


predecir la variable Y ,

a : es la constante o intercepto

Entonces la ecuación de regresión estimada se expresa como:

Recta de regresióó n
para predecir Y

Según el método de mínimos cuadrados, se demuestra que ậ y Ƃ valores de a y


b que hacen mínima la SSE, satisfacen el denominado sistema de ecuaciones
normales:

Resolviendo el sistema se deducen los siguientes valores para las constantes a y


b, denominados valores estimados de los coeficientes de regresión:
La recta de regresión nos permite, basándonos en los datos de la muestra,
estimar un valor de la variable Y que denotaremos con ŷ i correspondiente a un
valor dado xi de la variable X.

Para ello es suficiente reemplazar el valor de xi en la recta de regresión y


encontraremos el correspondiente valor estimado ŷi.
Análisis de correlación lineal

La correlación lineal mide el grado de la asociación lineal entre dos variables


denotadas con X e Y. Analizando el diagrama de dispersión o nube de puntos
podemos visualizar el tipo de correlación lineal entre las variables involucradas.

Tipos de correlación lineal

Correlación positiva o directa

Las variables X e Y están correlacionadas positivamente o su variación está en


razón directa; es decir, el aumento de la medida de la variable X implica el
aumento de la medida de la variable Y.

Correlación negativa o inversa

Se dice que las variables X e Y están correlacionadas negativamente o su


variación está en razón inversa, cuando el aumento de la medida de la variable
X implica la disminución de la medida de la variable Y, o la disminución de la
medida de la variable X implica el aumento de la variable Y.

Coeficiente de correlación de
Pearson (r)
Existen numerosos coeficientes de correlación en Estadística. El más común de
ellos es el denominado coeficiente de correlación producto-momento, cuya
formulación se debe a Karl Pearson. El coeficiente de correlación de Pearson se
utiliza en el análisis de información cuantitativa, cuando se desea medir el
grado de asociación lineal entre dos variables cuantitativas.

Sus valores varían entre –1 y 1. El valor +1 indica que entre X e Y existe una
correlación lineal directa y perfecta; el valor –1, una correlación lineal inversa y
perfecta. El valor 0 indica ausencia de correlación lineal. Para obtener este
coeficiente hay una gran variedad de expresiones matemáticas que son
equivalentes, destacando las siguientes:

a) Para puntuaciones directas o datos originales:

b) para puntuaciones Z (puntuaciones tipificadas):

donde:

Propiedades
El valor de r se encuentra entre –1 y +1, de donde se deduce que:

a) Si r > 0, existe correlación directa o correlación positiva,

b) Si r < 0, existe correlación inversa o correlación negativa.

En la interpretación clásica del coeficiente de correlación se deduce, por


ejemplo, que si:

a) 0 ≤ r < 0,20, la correlación es muy baja,

b) 0, 20 ≤ r < 0, 40, existe una correlación baja,

c) 0, 40 ≤ r < 0,70, existe una moderada correlación positiva,

d) 0,70 ≤ r <1,00, existe de moderada a buena correlación positiva,

e) r = 1, 00, existe una perfecta correlación positiva,

f) -1,0 ≤ r < -0,70, existe de moderada a buena correlación inversa,

g) r = -1,00, existe una perfecta correlación inversa.

Ejemplos:
El volumen de producción de minería mensual enero 2015 – julio 2015 de
estaño (x) y molibdeno (y) está dado por la siguiente tabla.

x
2
xy y
2
Mólibdenó
Meses Estanñ ó(x) (Y)

Eneró

Febreró

Marzó

Abril

Mayó

Junió

Julió

Recta de regresión

Sustituyendo los valores con la fórmula:


Para el cálculo de a

Recta de regresión: y= a+bx

y= 1.38 + 0.2466x

Coeficiente de correlación

Con los valores de la tabla anterior sustituimos en la siguiente fórmula:


Conclusiones:

1) El análisis de regresión se utiliza para visualizar la relación que hay entre


dos variables.
2) El diagrama de dispersión sirve para observar en qué medida se
mantiene el incremento o disminución de una variable.
3) La correlación lineal mide el grado de la asociación lineal entre dos
variables.

Bibliografía:

 a) LIND, Douglas y MARCHAL, William y MASON, Robert. Estadística para


administración y economía. Alfa omega. Colombia 11ava edición. 2004
Cap.13 y 14.

Marco Teórico
A fin de facilitar la comprensión del presente trabajo definiremos algunos conceptos básicos.
Análisis de Correlación.- Es el conjunto de técnicas estadísticas empleado para medir la
intensidad de la asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la
relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un
diagrama de dispersión.
Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es “Y”
Variable Independiente.- es la variable que proporciona las bases para el cálculo. Cuya
representación es: X1,X2,X3.......
Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de
variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos
variables.
El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno,
indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en
cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más
cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre
ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre
ambas variables.
Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las
estimaciones.
Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.
Ecuación de regresión Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...
Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de
regresión, minimizando la suma de los cuadrados de las distancias verticales entre los
valores verdaderos de “Y” y los valores pronosticados “Y”.

You might also like