You are on page 1of 11

Proyecto Diseño de experimentos

1. Regresión lineal simple


El objetivo principal de un modelo de regresión es tratar de explicar la relación que existe entre una variable
dependiente o variable respuesta y un conjunto de variables independientes o variables explicativas) X1 …, Xn.
En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la variable respuesta Y
y una única variable explicativa X.
El modelo de regresión lineal simple tiene la siguiente expresión:

En donde  es la ordenada en el origen es decir, el valor que toma Y cuando X vale cero,  es la pendiente de la
recta, e indica cómo cambia Y al incrementar X en una unidad, y  una variable que incluye un conjunto grande
de factores, cada uno influye en la respuesta pero en una magnitud muy pequeña , llamada error. X y Y son
variables aleatorias, por lo que no se puede asumir una relación lineal exacta entre ellas.

Mediante las técnicas de regresión de la variable Y sobre la variable X, se busca una función que sea una buena
aproximación de una nube de puntos (xi, yi), mediante una curva del tipo:

Para hacer una estimación del modelo de regresión lineal simple, se busca una recta de la forma:

Y que esta se ajuste a la nube de puntos


Para poder lograr esto, se utiliza el método de los mínimos cuadrados. Este método consiste en minimizar la
suma de los cuadrados de los errores:

La suma de los cuadrados de las diferencias entre los valores reales observados (yi) y los valores estimados .
Mediante este método se obtienen las expresiones para a y b =

Donde x e y denotan las medias muestrales de X e Y, es la varianza muestral de X y Sxy es la covarianza


muestral entre X y Y.
Todos estos parametros se calculan como:

El coeficiente de regresión
El coeficiente de regresión da información sobre el comportamiento de la variable Y frente a la variable X:

 Si b y/x =0, para cualquier valor de X la variable Y es constante (es decir, no cambia).
 Si b y/x es mayor a 0, indica que, al aumentar el valor de X, también aumenta el valor de Y.
 Si b y/x es menor a 0, indica que, al aumentar el valor de x, el valor de y disminuye.

El coeficiente de correlación
Viene dado por la expresión

Mide la dependencia lineal que existe entre las dos variables en estudio, su cuadrado se denomina coeficiente de
determinación.

Propiedades

 No tiene dimensión, y siempre toma valores de [-1,1]


 Si las variables son independientes, entonces r=0, pero el inverso no tiene que ser cierto
 Si existe una relación lineal exacta entre X y Y, entonces r valdría 1 (relación directa), o -1 (relación inversa)
 Si r es mayor a 0, indica una relación directa entre las variables (es decir que si aumenta el valor de X, también
aumenta Y)
 Si r es menor a 0 la correlación entre las variables es inversa ( si aumentamos una la otra disminuye)
Proyecto
La Base de datos escogida para el proyecto es la Cadena Productiva Cacao-Área, producción y rendimiento para el
2018, la base de datos nos muestra por cada departamento: el municipio, el periodo, área sembrada, área cosechada, la
producción y finalmente el rendimiento.

Estos atributos se relacionan de tal forma que se pueden estudiar los resultados de la producción final de cacao con las
diferentes variables que esta acompaña, con respecto a la localización de la siembra y la cosecha, el rendimiento para la
productividad, etc.

Para el estudio de la Cadena productiva del cacao, usaremos el modelo de regresión lineal para probar la relación que
existe entre algunas de las variables. Comparar la producción del cultivo entre 2017 y 2018, entre los principales
departamentos como un medio para conocer el desarrollo de la producción de cacao en el país, tomando en cuenta
variables como: área sembrada, rendimiento, área cosecha y producción.

Variables

Área sembrada -producción

Área sembrada -rendimiento

> summary(cacao2017)
DEPARTAMENTO MUNICIPIO PERIODO A\u0081rea Sembrada
Length:510 Length:510 Min. :2017 Min. : 1.0
Class :character Class :character 1st Qu.:2017 1st Qu.: 45.0
Mode :character Mode :character Median :2017 Median : 137.5
Mean :2017 Mean : 433.8
3rd Qu.:2017 3rd Qu.: 401.5
Max. :2017 Max. :18600.0
A\u0081rea Cosechada Produccion Rendimiento
Min. : 0.0 Min. : 0.00 Min. :0.0000
1st Qu.: 28.0 1st Qu.: 14.25 1st Qu.:0.5000
Median : 87.5 Median : 48.00 Median :0.5000
Mean : 351.4 Mean : 177.80 Mean :0.5459
3rd Qu.: 303.5 3rd Qu.: 159.00 3rd Qu.:0.6000
Max. :14000.0 Max. :6540.00 Max. :1.3000

> names(cacao2017)
[1] "DEPARTAMENTO" "MUNICIPIO" "PERIODO"
[4] "A\u0081rea Sembrada" "A\u0081rea Cosechada" "Produccion"
[7] "Rendimiento"
> cor(`Area Sembrada`,Rendimiento)
[1] -0.06503224
> cor(`Area Sembrada`,Produccion)
[1] 0.9098104
> cor.test(`Area Sembrada`,Rendimiento,alternative = "greater",conf.level = 0.99)

Pearson's product-moment correlation

data: Area Sembrada and Rendimiento


t = -1.4689, df = 508, p-value = 0.9288
alternative hypothesis: true correlation is greater than 0
99 percent confidence interval:
-0.1668657 1.0000000
sample estimates:
cor
-0.06503224
R/podemos ver que el coeficiente de correlación entre las variables es -0.06503, lo cual
nos indica que la relación es perfectamente negativa

> cor.test(`Area Sembrada`,Produccion,alternative = "greater", conf.level = 0.99)

Pearson's product-moment correlation


data: Area Sembrada and Produccion
t = 49.409, df = 508, p-value < 2.2e-16
alternative hypothesis: true correlation is greater than 0
99 percent confidence interval:
0.890245 1.000000
sample estimates:
cor
0.9098104
R/ podemos ver que el coeficiente de correlación entre las variables es 0.909810, es deci
r que la relación entre las variables es perfectamente positiva, cuanto mas área sembrada
de cacao haya, mayor será la produccion.
> cor(`Area Cosechada`,Produccion)
[1] 0.9340713
> cor(`Area Cosechada`,Rendimiento)
[1] -0.05952638
> cor.test(`Area Cosechada`,Produccion,alternative = "greater",conf.level = 0.99)

Pearson's product-moment correlation

data: Area Cosechada and Produccion


t = 58.957, df = 508, p-value < 2.2e-16
alternative hypothesis: true correlation is greater than 0
99 percent confidence interval:
0.9195473 1.0000000
sample estimates:
cor
0.9340713
R/podemos ver que el coeficiente de correlación entre las variables es 0.93407, lo que no
s indica una relación perfectamente positiva, es decir que hay mayor produccion si hay ma
yor área cosechada.

> cor.test(`Area Cosechada`,Rendimiento,alternative = "greater",conf.level = 0.99)

Pearson's product-moment correlation

data: Area Cosechada and Rendimiento


t = -1.344, df = 508, p-value = 0.9102
alternative hypothesis: true correlation is greater than 0
99 percent confidence interval:
-0.1614874 1.0000000
sample estimates:
cor
-0.05952638
R/ podemos observar que el valor del coeficiente de relación entre las variables es de
-0.05952638 es decir que la relación entre las variables es perfectamente negativa, lo cu
al nos indica que a mayor área cosecha menor rendimiento.
0 5000 15000 0 2000 5000

2500
PERIODO

1500
15000

rea Sembrada

0 5000

10000
rea Cosechada

0 4000
5000

Produccion
2000
0

1.2
0.8
Rendimiento

0.4
0.0
1500 2500 0 4000 10000 0.0 0.4 0.8 1.2

Para el 2018

> names(cacao2018)
[1] "DEPARTAMENTO" "MUNICIPIO" "PERIODO"
[4] "Area Sembrada" "A\u0081rea Cosechada" "Produccion"
[7] "Rendimiento"

> cor.test(`Area Sembrada`,Rendimiento, alternative = "greater",conf.level = 0.99)


Pearson's product-moment correlation

data: Area Sembrada and Rendimiento


t = -1.6071, df = 1126, p-value = 0.9458
alternative hypothesis: true correlation is greater than 0
99 percent confidence interval:
-0.1167001 1.0000000
sample estimates:
cor
-0.04783937
R/podemos ver que el coeficiente de correlación entre las variables es-0.04783937
, lo cual nos indica que la relación es perfectamente negativa, es decir que a mayor área
sembrada , menor será el rendimiento.
> cor.test(`Area Sembrada`,Produccion)

Pearson's product-moment correlation

data: Area Sembrada and Produccion


t = 84.206, df = 1126, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9205004 0.9365449
sample estimates:
cor
0.9289577
R/podemos ver que el coeficiente de correlación entre las variables es 0.93407, lo que no
s indica una relación perfectamente positiva, es decir que hay mayor produccion si hay ma
yor área sembrada.

0 5000 15000 0 2000 5000

2018.0
2016.0 2017.0
PERIODO
15000

Area Sembrada
0 5000

15000
rea Cosechada

5000
0
5000

Produccion
2000
0

1.5
1.0

Rendimiento
0.5
0.0

2016.0 2017.0 2018.0 0 5000 15000 0.0 0.5 1.0 1.5

Anova de un factor para la producción de cacao del año 2017

summary(AnovaModel.2)
Df Sum Sq Mean Sq F value Pr(>F)
DEPARTAMENTO 25 0 0 0 1
Residuals 484 101553776 209822

with(tabla1, numSummary(errores, groups=DEPARTAMENTO, statistics=c("mean", "sd")))


mean sd data:n
ANTIOQUIA 6.991646e-13 198.16797 66
ARAUCA -5.014719e-13 1398.46659 7
BOLIVAR 1.110067e-12 307.04442 20
BOYACA -4.474664e-13 132.81062 20
CALDAS -5.391243e-13 152.00921 16
CAQUETA 9.992007e-14 59.95498 16
CASANARE 1.847527e-14 21.30459 15
CAUCA -1.543947e-13 91.07020 24
CESAR -3.257175e-13 169.46766 19
CHOCO -1.713629e-14 92.87630 25
CORDOBA -4.183999e-14 148.92289 9
CUNDINAMARCA 1.515365e-15 257.19261 31
GUAINIA -1.056932e-13 16.26346 2
GUAVIARE -1.687539e-13 51.88690 4
HUILA -6.972201e-14 135.56972 36
LA GUAJIRA -3.463896e-14 70.47340 8
MAGDALENA 5.613288e-14 189.98763 5
META -7.605850e-14 167.86244 27
NARIÑO -5.684342e-14 601.03150 21
NORTE DE SANTANDER -1.078360e-14 283.18929 25
PUTUMAYO -5.209105e-14 292.63202 9
QUINDIO -2.609252e-13 64.67118 9
RISARALDA 3.140488e-13 269.76000 10
SANTANDER -1.832549e-13 1259.62416 44
SUCRE 2.211564e-13 21.06283 8
TOLIMA -3.367062e-13 201.62758 34

 Test de normalidad

Shapiro-Wilk normality test

data: errores
W = 0.46074, p-value < 2.2e-16

 Test de levene

Levene's Test for Homogeneity of Variance (center = "mean")

Df F value Pr(>F)

group 25 6.5359 < 2.2e-16 ***

484

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Test de Durbin-Watson

Durbin-Watson test

data: errores ~ DEPARTAMENTO

DW = 0.91089, p-value < 2.2e-16

alternative hypothesis: true autocorrelation is not 0\

 Transformación box-cox
> summary(powerTransform(AnovaModel.2, family="bcnPower"))

bcnPower transformation to Normality

Estimated power, lambda


Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
Y1 -0.3584 -0.33 -0.4182 -0.2986

Estimated location, gamma


Est gamma Std Err. Wald Lower Bound Wald Upper Bound
Y1 88.5185 9.0237 70.8319 106.205

Likelihood ratio tests about transformation parameters


LRT df pval
LR test, lambda = (0) 144.8294 1 0
LR test, lambda = (1) 2449.7585 1 0

R/ como podemos observar en las pruebas realizadas anteriormente, los errores de los datos para el caso
de la producción de cacao del año 2017 no cumplen con ninguno de los supuestos, por lo tanto es
necesario realizar una transformación box-cox

Anova de un factor para la producción de cacao del año 2018

summary(AnovaModel.4)
Df Sum Sq Mean Sq F value Pr(>F)
Departamento 29 0 0 0 1
Residuals 1100 229442660 208584
510 observations deleted due to missingness

> with(tabla4, numSummary(errores2, groups=Departamento, statistics=c("mean",


"sd")))
mean sd data:n
AMAZONAS 3.877817e-11 7.884584 6
ANTIOQUIA 2.439478e-15 216.117181 129
ARAUCA -4.895782e-12 1272.255961 14
BOLIVAR -3.047326e-13 290.896024 40
BOYACA -4.261662e-13 144.740293 41
CALDAS -3.521384e-14 144.175444 33
CAQUETA -1.445552e-12 68.677102 32
CASANARE -3.368547e-13 31.436112 33
CAUCA -5.900871e-13 74.046655 45
CESAR 2.411777e-13 161.907699 38
CHOCO 1.684791e-14 99.335188 50
CORDOBA -3.758397e-13 172.411516 19
CUNDINAMARCA -1.732094e-13 264.851776 60
GUAINIA -4.449774e-13 28.478062 4
GUAVIARE 1.234568e-13 62.056282 8
HUILA -2.037741e-14 134.962416 72
LA GUAJIRA -3.359951e-13 58.787754 16
MAGDALENA 1.225686e-13 161.468151 11
META -3.487694e-14 173.976323 54
NARIÑO -2.762519e-14 789.233050 43
NORTE DE SANTANDER -9.400269e-14 278.577028 51
PUTUMAYO 8.919100e-14 435.636384 18
QUINDIO -1.652012e-13 76.960307 18
RISARALDA -1.978198e-13 266.679638 19
SANTANDER -6.175363e-14 1314.423944 88
SUCRE -3.271450e-13 22.476019 15
TOLIMA 6.321251e-14 193.913773 68
VALLE DEL CAUCA -6.163831e-14 41.265405 92
VAUPES -3.589906e-13 5.188127 4
VICHADA -2.455366e-13 154.816827 9

 Test de normalidad

Shapiro-Wilk normality test

data: errores2

W = 0.43031, p-value < 2.2e-16

 Test de levene

Levene's Test for Homogeneity of Variance (center = "mean")

Df F value Pr(>F)
group 29 11.717 < 2.2e-16 ***
1100
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Test de Durbin-Watson

Durbin-Watson test
data: errores2 ~ Departamento

DW = 0.93132, p-value < 2.2e-16

alternative hypothesis: true autocorrelation is not 0

 Transformación box-cox

bcnPower transformation to Normality


Estimated power, lambda
Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
Y1 -0.3522 -0.33 -0.392 -0.3124
Estimated location, gamma
Est gamma Std Err. Wald Lower Bound Wald Upper Bound
Y1 74.3361 5.7378 63.0901 85.5822
Likelihood ratio tests about transformation parameters
LRT df pval
LR test, lambda = (0) 328.9704 1 0
LR test, lambda = (1) 5864.7465 1 0

R/ como podemos observar nuevamente en las pruebas realizadas anteriormente, los errores de los
datos para el caso de la producción de cacao del año 2018 no cumplen con ninguno de los supuestos, por
lo tanto es necesario realizar una transformación box-cox.

Anova de dos factores con una sola muestra por grupo

Tolima Santander Huila Cundinamarca Arauca Antioquia


2018 6655 42622 5373 23531 10516 10996
2017 6063 22888 4456 21571 9927 9366

Para construir el cuadro necesario para el anova de dos factores se hizo la suma de la producción de todos
los municipios de un mismo departamento tanto para los datos de 2018 como p-ara los de 2017
Análisis de varianza de dos factores con una sola muestra por grupo

RESUMEN Cuenta Suma Promedio Varianza


2018 6 99693 16615.5 203710045.9
2017 6 74271 12378.5 62537640.3

Tolima 2 12718 6359 175232


Santander 2 65510 32755 194715378
Huila 2 9829 4914.5 420444.5
Cundinamarca 2 45102 22551 1920800
Arauca 2 20443 10221.5 173460.5
Antioquia 2 20362 10181 1328450

ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 53856507 1 53856507 1.858694309 0.230953853 6.607890974
Columnas 1186361173 5 237272234.6 8.188732927 0.018803813 5.050329058
Error 144877258 5 28975451.6

Total 1385094938 11

Bibliografía

http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-
DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

You might also like