Professional Documents
Culture Documents
Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de
un determinado producto?, ¿cómo representamos que la bajada de temperaturas implica un
aumento del consumo de la calefacción?,... A continuación, estudiaremos dicho grado de relación
entre dos variables en lo que llamaremos análisis de correlación.
Para representar esta relación utilizaremos una representación gráfica llamada diagrama de
dispersión y, finalmente, estudiaremos un modelo matemático para estimar el valor de una variable
basándonos en el valor de otra, en lo que llamaremos análisis de regresión.
CONCEPTOS
Correlación Lineal
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos
variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las
notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al
problema consistiría en dibujar en el plano R2 un punto por cada alumno: la primera coordenada
de cada punto sería su nota en estadística, mientras que la segunda sería su nota en
matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la
existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.
En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El
parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo
valor oscila entre –1 y +1 :
Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlación
tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a –1
cuando la correlación tiende a ser lineal inversa. Es importante notar que la existencia de correlación
entre variables no implica causalidad. ¡Atención!: si no hay correlación de ningún tipo entre dos v.a.,
entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos
dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume
el análisis del coeficiente de correlación entre dos variables.
Objetivos
Diagrama de dispersión
Este tipo de gráfico se utiliza para visualizar la relación entre las variables y, a
partir de dicha relación, observar en qué medida se mantiene el incremento o
disminución de una variable a partir del aumento de otra variable.
Ajustar una función de regresión significa encontrar, la función que exprese con
mayor precisión la relación entre las variables X e Y. Gráficamente será aquella
función que mejor se adecue a la nube de puntos. En este sentido, es
recomendable como primer paso construir el diagrama de dispersión o
diagrama de nube de puntos para, luego de analizar su forma, decidir por el
tipo de función matemática (modelo) o la ecuación de regresión que exprese la
relación entre las variables X e Y. Luego, se estiman los parámetros del modelo,
para lo cual existen varios métodos, siendo el más usado el método de
mínimos cuadrados. Intentamos describir la dependencia de una variable Y
sobre una variable independiente X. Emplearemos la ecuación de regresión a
fin de apoyar la hipótesis que postula la posible causalidad de los cambios de Y
mediante los cambios en X; para propósitos de predicción de Y en función de X;
y para propósitos de explicación de parte de la variación de Y por X utilizando la
última variable como control estadístico. Los estudios de los efectos de la
temperatura en el rendimiento académico, el contenido de nitrógeno en el
suelo sobre la tasa de crecimiento de una planta, la edad de un estudiante
sobre su presión sanguínea, la dosis de un insecticida sobre la mortalidad de
una población de insectos, el número de horas de estudio sobre el rendimiento
académico, son ejemplos típicos de regresión para los propósitos señalados.
Donde:
yi : son los valores observados de la variable dependiente Y ,
a : es la constante o intercepto
Recta de regresióó n
para predecir Y
Coeficiente de correlación de
Pearson (r)
Existen numerosos coeficientes de correlación en Estadística. El más común de
ellos es el denominado coeficiente de correlación producto-momento, cuya
formulación se debe a Karl Pearson. El coeficiente de correlación de Pearson se
utiliza en el análisis de información cuantitativa, cuando se desea medir el
grado de asociación lineal entre dos variables cuantitativas.
Sus valores varían entre –1 y 1. El valor +1 indica que entre X e Y existe una
correlación lineal directa y perfecta; el valor –1, una correlación lineal inversa y
perfecta. El valor 0 indica ausencia de correlación lineal. Para obtener este
coeficiente hay una gran variedad de expresiones matemáticas que son
equivalentes, destacando las siguientes:
donde:
Propiedades
El valor de r se encuentra entre –1 y +1, de donde se deduce que:
Ejemplos:
El volumen de producción de minería mensual enero 2015 – julio 2015 de
estaño (x) y molibdeno (y) está dado por la siguiente tabla.
x
2
xy y
2
Mólibdenó
Meses Estanñ ó(x) (Y)
Eneró
Febreró
Marzó
Abril
Mayó
Junió
Julió
Recta de regresión
y= 1.38 + 0.2466x
Coeficiente de correlación
Bibliografía:
Marco Teórico
A fin de facilitar la comprensión del presente trabajo definiremos algunos conceptos básicos.
Análisis de Correlación.- Es el conjunto de técnicas estadísticas empleado para medir la
intensidad de la asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la
relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un
diagrama de dispersión.
Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es “Y”
Variable Independiente.- es la variable que proporciona las bases para el cálculo. Cuya
representación es: X1,X2,X3.......
Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de
variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos
variables.
El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno,
indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en
cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más
cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre
ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre
ambas variables.
Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las
estimaciones.
Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.
Ecuación de regresión Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...
Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de
regresión, minimizando la suma de los cuadrados de las distancias verticales entre los
valores verdaderos de “Y” y los valores pronosticados “Y”.