You are on page 1of 15

El mtodo de mnimos cuadrados

Curso de Estadstica TAE, 2005 J.J. Gmez-Cadenas

Mnimos cuadrados y mxima verosimilitud


Teorema del lmite central Una medida y, puede considerarse como un variable aleatoria, distribuida gausianamente entorno a su valor verdadero , siempre que el error total sea la suma de un nmero grande de contribuciones pequeas. Considerar un conjunto y1,y2,...yN de variables aleatorias independientes relacionadas con otra variable xi que se asume conocida sin error. Cada yi tiene un valor medio i (desconocido) y una varianza i2 (conocida) Las N medidas de yi pueden considerarse como la medida de un vector aleatorio N-dimensional con pdf
g(y1,..., yn ; 1,..., N , ,..., ) =
2 1 2 N i =1 N

(yi i )2 exp( ) 2 2 i2 2 i 1

Suponer adems que el valor verdadero de las yi es una funcin de la variable x que depende de un vector de parmetros desconocido en principio.

= (xi ; ), = (1 ,..., m )

El objetivo del mtodo de mnimos cuadrados es estimar el vector de parmetros . Adems, el mtodo permite evaluar la bondad con la que la funcin (x,) ajusta los datos experimentales. Para establecer el mtodo tomamos logaritmos en la pdf que describe los datos:
1 (yi i )2 log(g) = log exp( ) = A + log L( ) 2 2 i2 i =1 2 i
N

2 N 1 (y (xi ; )) log L( ) = i 2 i =1 i2

1 A = log 2 i2 i =1
N

El principio de mxima verosimilitud establece que la pdf conjunta de las medidas (y por lo tanto la verosimilitud L) es mxima para los parmetros autnticos. Por lo tanto, para encontrar los parmetros maximizamos log L() o bien minimizamos la cantidad: 2 N (yi (xi ; )) 2 ( ) = i2 i =1 Si las medidas no son independientes, pero pueden describirse por una pdf conjunta gausiana, con matriz de covarianza conocida, la definicin anterior se generaliza a:
( ) =
2

i, j =1

1 (yi (xi ; )) V (y j (x j ; ))
N

( )

Que reduce a la expresin anterior si la matriz de covarianza es diagonal (medidas independientes)

Ajuste por mnimos cuadrados en el caso lineal


En el caso ms general, un problema de ajuste se reduce a uno de minimizacin (del chi2). Sin embargo, cuando (x;) es una funcin lineal de los parmetros el problema puede tratarse analticamente. Se trata del caso:
m (x; ) = a j (x) j j =1

donde aj(x) son funciones de x. NB: Requerimos que (x;) sea lineal en los parmetros, no que las funciones aj(x) sean lineales en x. Por ejemplo:

x 2 (x; ) = e 1 + sin(x) 2 + x 3 lineal en 2 (x; ) = x 1 + 2 + no lineal en

El valor de la funcin (x;) en un punto dado xi es: m m (xi ; ) = a j (xi ) j = Aij j , Aij = a j (xi )
j =1 j =1

En este caso, la expresin general:


( ) =
2

i, j =1

1 (yi (xi ; )) V (y j (x j ; ))
N

( )

reduce a (en notacin matricial): T 1 T 1 2 ( ) = ( y ) V ( y ) = ( y A ) V ( y A ) Para encontrar los parmetros minimizamos el chi2
T 1 T 1 ( ) = 2(A V y A V A ) = 0
2

Si ATV-1A no es singular podemos resolver para los parmetros

= (AT V 1 A)1 AT V 1y = By
Es decir los parmetros son funciones lineales de las medidas y.

Para encontrar la matrix de covarianza de los parmetros propagamos errores

T 1 1 T 1 = (A V A) A V y = By U = BVBT = (AT V 1 A)1

Si (x;) es lineal en el chi2 es cuadrtico en . Expandiendo en Taylor entorno a los parmetros (en el mnimo la derivada se anula):
1 m 2 2 2 ( ) = ( ) + 2 i, j =1 i j
2

( i i )( j j )

= ( ) +
2

i, j =1

1
ij

Por lo tanto :

2 ( ) = 2 ( ) + 1 = min + 1
2

Corresponde a los contornos en el espacio de parmetros cuyas tangentes se separan una desviacin estndar de los parmetros estimados en el mnimo

Ejemplo: Ajuste a un polinomio

Calidad de un ajuste
Si en nuestro problema: Los datos yi, i=1,2,...N son gausianos la hiptesis (x;) es lineal en los parmetros i, i=1,2,...,m La pdf que describe la hiptesis (el modelo ) (x;) ) es correcta: Entonces el 2min sigue una distribucin Chi2 con nd = N-m grados de libertad El valor-P o nivel de confianza es, por definicin:
+

P=

f (z;nd )dz

Donde f(z;nd) es la distribucin Chi2 con nd grados de libertad.

Ajuste al polinomio con 2 parmetros

Simulacin MC del ajuste a 2 parmetros. 26.3 % de las veces el ajustes tendr un c2min ms alto.

Ajuste al polinomio con 1 parmetro

Calidad del ajuste vs errores pequeos


El hecho de que un ajuste arroje errores pequeos no implica que el ajuste sea bueno (ni al contrario) Curvatura del 2 cerca del mnimo --> tamao del error (estadstico) Valor del c2min --> calidad del ajuste Si en el ajuste polinmico del ejemplo movemos los puntos para alinearlos ms e concordancia con la hiptesis de una recta con pendiente nula (manteniendo el tamao de los errores)

La varianza del estimador (su error estadstico) nos dice: Si el experimento se repite muchas veces cual es la dispersin entorno al valor estimado q. No nos dice si la hiptesis es correcta. El valor-P (nivel de confianza, probablidad del c2) nos dice: Si la hiptesis es correcta y el experimento se repite muchas veces, que fraccin de los sucesos arrojar igual o peor acuerdo entre los datos y la hiptesis, de acuerdo con el c2min. Un valor pequeo de P implica que la hiptesis es falsa o bien que hay errores sistemticos que no se han tomado en cuenta.

Mnimos cuadrados con datos binados


Considerar un histograma con N bines y n entradas al que queremos ajustar un cierto modelo (es decir una hipottica pdf f(x; q)

Ajuste por mnimos cuadrados: Minimiza la cantidad: 2 2 2 N N N (y i ( )) (y i ( )) (y npi ( )) 2 ( ) = i = i = i 2 i i ( ) npi ( ) i =1 i =1 i =1 Alternativamente (Mnimos cuadrados modificado) 2 2 2 N N N (y i ( )) (y i ( )) (y npi ( )) 2 ( ) = i = i = i i2 yi yi i =1 i =1 i =1

MCM se usa muy a menudo (es ms cmodo) pero el problema es que el c2min resultante no tiene porqu estar distribuido c2 (podemos perder la capacidad de decidir sobre la calidad del ajuste

Combinacin de medidas por mnimos cuadrados


Suponer que una cantidad de valores desconocido l ha sido medida N veces (en N experimentos diferentes), resultando en yi, si, i=1,2,...,N independientes. Puesto que l es el mismo para todos los experimentos, l(x) = cte y por tanto:
(yi )2 ( ) = i2 i =1
N 2

(y ) = 2 i 2 = 0 = i i =1
2 N

yi / i2 i =1
N

1/2 j j =1

Que no es sino la media pesada de las medidas. La varianza se obtiene a partir de la segunda derivada:

V[ ] =

1 1/2 j =1 j
N

Cuando las medidas yi no son todas independientes, pero la matriz de covarianza V se conoce, el procedimiento se generaliza fcilmente. Partiendo de:
( ) =
2

i, j =1

(y

)Vij1 (y j )

Y repitiendo el procedimiento de cancelar la derivada obtenemos:


N

= wi yi , wi
i =1

Vij1 j =1 V
1 kl

w
i =1

=1

k,l =1

La varianza se obtiene anlogamente:

V[ ] =

i, j =1

wiVij w j V[ ] = wT Vw
N

You might also like