Professional Documents
Culture Documents
Muchas veces las decisiones se basan en la relacin entre dos o ms variables.Ejemplos Dosis de fertilizantes aplicadas y rendimiento del cultivo. La relacin entre la radiacin que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observados en dichas parcelas. Relacin entre tamao de un lote de produccin y horas -hombres utilizadas para realizarlo. Distinguiremos entre relaciones funcionales y relaciones estadsticas
Ejemplo 1 Parcela
1 2 3
Dosis
75 25 130
Rendimiento(kg/h)
150 50 260
Horas hombre
73 50 128 170 87
Nota: La mayor parte de los punto no caen directamente sobre la lnea de relacin estadstica. Esta dispersin de punto alrededor de la lnea representa la variacin aleatoria
Figura 3 Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen satelital
Nota: se trata de un terreno rugoso donde varan notablemente las condiciones de observacin del sensor, para corregir errores geomtricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la relacin estadstica es de tipo curvilnea.
Conceptos bsicos
Anlisis de Regresin: Es un procedimiento estadstico que estudia la relacin funcional entre variables.Con el objeto de predecir una en funcin de la/s otra/s. Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas para medir la intensidad de la relacin entre dos variables Diagrama de Dispersin: Es un grfico que muestra la intensidad y el sentido de la relacin entre dos variables de inters. Variable dependiente (respuesta, predicha, endgena): es la variable que se desea predecir o estimar Variables independientes (predictoras, explicativas exgenas). Son las variables que proveen las bases para estimar. Regresin simple: interviene una sola variable independiente Regresin mltiple: intervienen dos o ms variables independientes. Regresin lineal: la funcin es una combinacin lineal de los parmetros. Regresin no lineal: la funcin que relaciona los parmetros no es una combinacin lineal
Grfico de dispersin
Los diagramas de dispersin no slo muestran la relacin existente entre variables, sino tambin resaltan las observaciones individuales que se desvan de la relacin general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
- Valores de -1 1 indican correlacin perfecta. - Valor igual a 0 indica ausencia de correlacin. - Valores negativos indican una relacin lineal inversa y valores positivos indican una relacin lineal directa
Ausencia de Correlacin
Modelos de Regresin
Un modelo de regresin, es una manera de expresar dos ingredientes esenciales de una relacin estadstica: - Una tendencia de la variable dependiente Y a variar conjuntamente con la variacin de la o las X de una manera sistemtica - Una dispersin de las observaciones alrededor de la curva de relacin estadstica Estas dos caractersticas estn implcitas en un modelo de regresin, postulando que: - En la poblacin de observaciones asociadas con el proceso que fue muestreado, hay una distribucin de probabilidades de Y para cada nivel de X. - Las medias de estas distribuciones varan de manera sistemtica al variar X.
Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X
Anlisis de Regresin
Objetivo: determinar la ecuacin de regresin para predecir los valores de la variable dependiente (Y) en base a la o las variables independientes (X). Procedimiento: seleccionar una muestra a partir de la poblacin, listar pares de datos para cada observacin; dibujar un diagrama de puntos para dar una imagen visual de la relacin; determinar la ecuacin de regresin.
Datos de la muestra
x x1 x2 . . . xn y y1 y2 . . . yn
Ecuacin de regresin
E(y) = 0+ 1x
Parmetros desconocidos
0.1 b0 y b1
proporcionan estimados
0 y 1
Estadsticos de la muestra
b0.b1
Seccin C
No hay relacin
Seccin B
a = (Y)/n - b.(X)/n
Homocedasticidad o igual variancia de i. No autocorrelacin entre las perturbaciones. La covariancia entre i y Xi es cero. El nmero de observaciones n debe ser mayor que el nmero de parmetros a estimar. Variabilidad en los valores de X. El modelo de regresin est correctamente especificado. No hay relaciones lineales perfectas entre las explicativas.
Yi - i = ei
Por tanto, las desviaciones son los residuales Y la suma de cuadrados es:
La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parmetros. Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de
(Yi - Yi)
La medida de la variacin total SC
tot,
(Yi - Yi)
Podemos descomponerla en
(Yi - Y) = (i - Y) + (Yi - i) T R E
(T): desviacin total (R): es la desviacin del valor ajustado por la regresin con respecto a la media general (E): es la desviacin de la observacin con respecto a la lnea de regresin Si consideremos todas las observaciones y elevamos al cuadrado para que los desvos no se anulen
(SC tot): Suma de cuadrados total (SC reg): Suma de cuadrados de la regresin
(SCer): Suma de cuadrados del error Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del anlisis de variancia.
Coeficiente de Determinacin
Coeficiente de Determinacin, R2 - es la proporcin de la variacin total en la variable dependiente Y que es explicada o contabilizada por la variacin en la variable independiente X. - El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y varia entre 0 y 1.
Clculo del R a travs de la siguiente frmula R = [(c - Y)]/[(o - Y)] Inferencia en Regresin
Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parmetros de regresin (prueba de hiptesis e intervalos de confianza), ya que los estimadores de 0 y 1 pueden cambiar su valor si cambia la muestra. Por lo tanto debemos conocer la distribucin de los estimadores para poder realizar prueba de hiptesis e intervalos de confianza
Ejemplo
Se desean comparar los rendimientos predichos a partir de la informacin obtenida por 3 sensores sobre los rendimientos reales por parcelas de lotes de maz. Los rendimientos (Y) y el los rindes predichos de 4 sensores se presentan a continuacin