Analisis Correlacional y Regresion Simple

ANALISIS CORRELACIONAL Y REGRESION SIMPLE
 Fundamentación teórica
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian
la relación lineal existente entre dos variables.
La correlación cuantifica como de relacionadas están dos variables, mientras que la

regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de la
otra. El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según qué
variable se considere dependiente de la otra (lo cual no implica causa-efecto.
Por norma general, los estudios de correlación lineal preceden a la generación de

modelos de regresión lineal. Primero se analiza si ambas variables están correlacionadas
y, en caso de estarlo, se procede a generar el modelo de regresión.
 Coeficiente de correlación
El Coeficiente de correlación es una medida que permite conocer el grado de asociación

lineal entre dos variables cuantitativas (X, Y).
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que toman
dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal que el
conjunto de puntos representados se aproxima a una recta.
De otra forma, la podemos definir como el número que mide el grado de intensidad y el
sentido de la relación entre dos variables.
El coeficiente de correlación de Pearson viene definido por la siguiente expresión:

Ejemplo:
Tengamos las siguientes puntuaciones en las variables X (inteligencia) e Y(rendimiento

académico):
Calcular el coeficiente de correlación de Pearson:
a) en puntuaciones directas,
b) Puntuaciones diferenciales y
c) puntuaciones estandarizadas
 Coeficiente de determinación
El coeficiente de determinación r 2 o coeficiente de correlación múltiple al cuadrado,

es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo
datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el
cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:
El coeficiente de determinación, se define como la proporción de la varianza total de la

variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.

Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable
que estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos
ajustado estará el modelo y, por tanto, menos fiable será.
Ejemplo
Cómo podemos ver en el gráfico, la relación es positiva. A más partidos jugados, como
es lógico, más goles anota en la temporada. El ajuste, según el cálculo del R cuadrado,
es de 0.835. Lo cual quiere decir que es un modelo cuyas estimaciones se ajustan
bastante bien a la variable real. Aunque técnicamente no sería correcto, podríamos decir
algo así como que el modelo explica en un 83.5% a la variable real.
 Prueba de significancia del coeficiente de correlación
La prueba de significación del coeficiente de correlación de Pearson puede plantearse:
Bilateral (a doble cola) si se contrasta la hipótesis nula de ausencia de asociación lineal

sin especificar de antemano en la hipótesis alternativa la dirección o sentido de la
asociación, en caso de que ésta exista.
Unilateral (a una sola cola) si se contrasta la hipótesis nula especificando de antemano

en la hipótesis alternativa la dirección de la asociación. Si se desea un contraste
unilateral es necesario activar la opción correspondiente.
Valor p ≤ α: La correlación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, entonces usted puede

concluir que la correlación es diferente de 0.
Valor p > α: La correlación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, entonces usted no puede concluir

que la correlación es diferente de 0.
 Ecuación de regresión
La ecuación de regresión es una representación algebraica de la línea de regresión.

Ingrese el valor de cada predictor en la ecuación para calcular el valor de respuesta
medio. A diferencia de la regresión lineal, una ecuación de regresión no lineal puede
tomar muchas formas diferentes.
Ejemplo
Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44

kilos.
1 Hallar la ecuación de la recta de regresión de la edad sobre el peso.
2 ¿Cuál sería el peso aproximado de un niño de seis años?

2, si x= 6 años
 Error estándar de estimación
El error estándar es una estimación de cuánto varía el valor de una estadística de prueba
de muestra a muestra. Es una medida de la incertidumbre de la estadística de prueba. El
error estándar podría abreviarse como error Es.
El error estándar se calcula tomando la desviación estándar de la distribución de

muestreo para la estadística de prueba. La distribución de muestreo es la distribución de
todas las muestras posibles.
El error estándar de estimación se calcula mediante la siguiente fórmula:
Ejemplo
Tomamos una ecuación de la recta de regresión de y sobre x:
y = 0.2854x + 2.7388
Para calcular el error de estimación, construimos la tabla auxiliar:
Por tanto, debemos hacer las sustituciones necesarias:
 Intervalos de confianza e intervalos de predicción
Intervalos de confianza
Se construyen intervalos de confianza para los parámetros poblacionales. Supongamos

que tenemos una muestra aleatoria X = {X1, . . . , Xn} de una población F(x|θ), con θ
fijo pero desconocido. Un intervalo de confianza 100(1 − α)% para θ está formado por
dos estadísticos L(X) y U(X) tales que
P (L(X) ≤ θ ≤ U(X)) ≥ 1 – α
Intervalos de predicción
Se construyen intervalos de confianza para variables aleatorias. Supongamos que

tenemos una muestra aleatoria X de una población F(x|θ) y se quiere predecir el valor
de una nueva observación Xnew a partir de la información de la muestra observada.
Formalmente Xnew ⊥ X por lo que toda la información sobre Xnew se obtiene del
hecho que viene de un población F(x|θ). Como θ es desconocido, es encontrar dos
estadísticos, funciones de X cuya distribución no dependa de los parámetros
desconocidos. Un intervalo de confianza está formado por dos estadísticos Lp(X) y
Up(X) tales que
P (Lp(X) ≤ Xnew ≤ Up(X)) ≥ 1 – α
APLICACION ESTADISTICA EN LA PRODUCTIVIDAD
 Diagrama de control para la proporción y el número de elementos que no se

ajustan
Un gráfico de control es una herramienta utilizada para distinguir las variaciones

debidas a causas asignables o especiales a partir de las variaciones aleatorias inherentes
al proceso. Las variaciones aleatorias se repiten casualmente dentro de los límites
predecibles.
Las variaciones debidas a causas asignables o especiales indican que es necesario

identificar, investigar y poner bajo control algunos factores que afectan al proceso.
La construcción de gráficos de control está basada en la estadística matemática. Los

gráficos de control emplean datos de operación para establecer límites dentro de los
cuales se espera hacer observaciones futuras, si el proceso demuestra no haber sido
afectado por causas asignables o especiales.
Ejemplo
Procedimiento para hacer un gráfico de control
Seleccionar la característica objeto de análisis en el gráfico de control.
Seleccionar el tipo apropiado de gráfico de control.
Decidir el subgrupo (una pequeña recopilación de artículos, en el marco de los cuales

las variaciones se deben probable y únicamente al azar), sus dimensiones, y la
frecuencia de muestreo del subgrupo.
Recolectar y registrar datos sobre 20 ó 25 subgrupos por lo menos, o utilizar datos

registrados previamente.
Calcular estadísticamente las características de cada muestra del subgrupo.
Calcular los límites de control sobre la base de las estadísticas de las muestras de
subgrupos.
Construir un gráfico y plotear las estadísticas del subgrupo.

Examinar el ploteo por si hay puntos fuera de los límites de control y patrones que
indiquen la presencia de causas asignables o especiales.
Decidir las acciones a tomar en el futuro.
 Diagrama de control: un diagrama de control para el numero de ocurrencias

por unidad
Consideremos el caso en el cual cada elemento de la muestra puede tener un número de

diferentes defectos. La variable de interés es el número de defectos por unidad.
Utilizaremos la siguiente notación:
c = Número de defectos en una muestra de producto.
cbarra= El promedio de una serie de conteos de defectos c de varias muestras.
cprima= El valor estándar o verdadero valor promedio de defectos por muestra.
Se inspeccionan todas las unidades de la muestra, se registran el número de defectos c.
Para la aplicación del gráfico de control c, suponemos que lo siguiente se cumple:
La probabilidad de que ocurra un defecto es, p, un valor muy pequeño. Además de que
los defectos ocurren en forma independiente, es decir, el que ocurra un defecto no
afecta la probabilidad de que ocurran los siguientes defectos.
Las muestras tienen las mismas áreas de oportunidad para los defectos, es decir, las
piezas deben ser del mismo tipo y tamaño. Esto es, no considerar piezas de diferente
tamaño, unas demasiado grandes y otras demasiado pequeñas. No considerar números
variables n de tamaño de muestra.
El número de defectos es bastante mayor al parámetro c.
Todos los defectos están bien definidos.

 Diagrama de control para la media y el intervalo R
Supongamos que la característica de la calidad estudiada, X, se distribuye según una
Normal con parámetros µ y σ. Es bien conocido que, para una muestra de tamaño n, la
Media muestral X¯ se distribuye según una Normal con parámetros µ yσ(n)1/2
.En el caso en el que µ y σ sean parámetros conocidos, los límites del grafico de control
Vienen dados por
Cuando los parámetros poblaciones son desconocidos, se estiman a partir de m

muestras piloto como sigue:
 Diagrama de control para valores individuales
Los gráficos de control son un método eficaz para decidir si un proceso está
estadísticamente bajo control o no. Disponemos de una variedad de diferentes gráficos
de control que se pueden utilizar para alcanzar diferentes objetivos.
La herramienta de gráficos individuales permite utilizar los siguientes tipos de gráficos
solos o en combinación:
X Individual
Rango móvil (MR moving range)
Un gráfico X individual es útil para el seguimiento de la media móvil de un proceso de

producción. Los mean shifts resultan fácilmente visibles en los diagramas.
Un gráfico MR (diagrama de rango móvil, moving range diagram) es útil para analizar
la variabilidad de la producción. Las grandes diferencias en la producción, provocadas
por el uso de diferentes líneas de producción, serán fácilmente visibles.
Nota 1. Si lo que quiere es investigar cambios más pequeños en la media (mean shifts),
puede utilizar también tablas individuales tipo CUSUM, que normalmente se emplean
más que las tablas de control individuales, ya que permiten detectar mejor este tipo de
cambios.
Nota 2: Si usted tiene más de una medición para cada punto de tiempo, por favor utilice
los gráficos de control para los subgrupos.
Nota 3: Si tiene mediciones en valores cualitativos (por ejemplo de acuerdo, en

desacuerdo, conforme, no conforme), utilice los gráficos de control para atributos.
Además de los gráficos de control, están disponibles funciones conectadas:
Transformación de Box-Cox
Capacidad de procesamiento
Pruebas de normalidad
Las gráficas de control de x individuales pueden construirse para observaciones
individuales provenientes de una línea de producción, estas graficas es utilizan
principalmente cuando las muestras de tamaño mayor a 1 resulten ser demasiado
costosas, inconvenientes o demasiado caras. También son utilizadas cuando la
producción es demasiado baja por lo que es más conveniente utilizar esta grafica de
control para datos individuales o de rangos móviles.

Analisis Correlacional y Regresion Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Correlacional y Regresion Simple

Uploaded by

Copyright:

Available Formats

ANALISIS CORRELACIONAL Y REGRESION SIMPLE

La correlación cuantifica como de relacionadas están dos variables, mientras que la

Por norma general, los estudios de correlación lineal preceden a la generación de

El Coeficiente de correlación es una medida que permite conocer el grado de asociación

El coeficiente de correlación de Pearson viene definido por la siguiente expresión:

Tengamos las siguientes puntuaciones en las variables X (inteligencia) e Y(rendimiento

Calcular el coeficiente de correlación de Pearson:

El coeficiente de determinación r 2 o coeficiente de correlación múltiple al cuadrado,

El coeficiente de determinación, se define como la proporción de la varianza total de la

Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.

 Prueba de significancia del coeficiente de correlación

La prueba de significación del coeficiente de correlación de Pearson puede plantearse:

Bilateral (a doble cola) si se contrasta la hipótesis nula de ausencia de asociación lineal

Unilateral (a una sola cola) si se contrasta la hipótesis nula especificando de antemano

Valor p ≤ α: La correlación es estadísticamente significativa

Si el valor p es menor que o igual al nivel de significancia, entonces usted puede

Si el valor p es mayor que el nivel de significancia, entonces usted no puede concluir

La ecuación de regresión es una representación algebraica de la línea de regresión.

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44

1 Hallar la ecuación de la recta de regresión de la edad sobre el peso.

2 ¿Cuál sería el peso aproximado de un niño de seis años?

 Error estándar de estimación

El error estándar se calcula tomando la desviación estándar de la distribución de

El error estándar de estimación se calcula mediante la siguiente fórmula:

Tomamos una ecuación de la recta de regresión de y sobre x:

Por tanto, debemos hacer las sustituciones necesarias:

 Intervalos de confianza e intervalos de predicción

Se construyen intervalos de confianza para los parámetros poblacionales. Supongamos

Se construyen intervalos de confianza para variables aleatorias. Supongamos que

P (Lp(X) ≤ Xnew ≤ Up(X)) ≥ 1 – α

APLICACION ESTADISTICA EN LA PRODUCTIVIDAD

 Diagrama de control para la proporción y el número de elementos que no se

Un gráfico de control es una herramienta utilizada para distinguir las variaciones

Las variaciones debidas a causas asignables o especiales indican que es necesario

La construcción de gráficos de control está basada en la estadística matemática. Los

Seleccionar la característica objeto de análisis en el gráfico de control.

Seleccionar el tipo apropiado de gráfico de control.

Decidir el subgrupo (una pequeña recopilación de artículos, en el marco de los cuales

Recolectar y registrar datos sobre 20 ó 25 subgrupos por lo menos, o utilizar datos

Calcular estadísticamente las características de cada muestra del subgrupo.

Construir un gráfico y plotear las estadísticas del subgrupo.

Decidir las acciones a tomar en el futuro.

 Diagrama de control: un diagrama de control para el numero de ocurrencias

Consideremos el caso en el cual cada elemento de la muestra puede tener un número de

Utilizaremos la siguiente notación:

c = Número de defectos en una muestra de producto.

cbarra= El promedio de una serie de conteos de defectos c de varias muestras.

cprima= El valor estándar o verdadero valor promedio de defectos por muestra.

Se inspeccionan todas las unidades de la muestra, se registran el número de defectos c.

Para la aplicación del gráfico de control c, suponemos que lo siguiente se cumple:

El número de defectos es bastante mayor al parámetro c.

Todos los defectos están bien definidos.

Supongamos que la característica de la calidad estudiada, X, se distribuye según una

Media muestral X¯ se distribuye según una Normal con parámetros µ yσ(n)1/2

Vienen dados por

Cuando los parámetros poblaciones son desconocidos, se estiman a partir de m

 Diagrama de control para valores individuales

Rango móvil (MR moving range)

Un gráfico X individual es útil para el seguimiento de la media móvil de un proceso de

Nota 3: Si tiene mediciones en valores cualitativos (por ejemplo de acuerdo, en

Además de los gráficos de control, están disponibles funciones conectadas:

You might also like