You are on page 1of 48

Cota Inferior de Cramer Rao

Tratamiento Estadstico de Se
nales
Pablo Muse, Ernesto L
opez & Lus Di Martino
{pmuse,elopez}@fing.edu.uy

Departamento de Procesamiento de Se nales


Instituto de Ingeniera El
ectrica
Facultad de Ingeniera

Curso 2015
Repaso
Objetivo: Estimacion de parametros
Encontrar un buen estimador de los parametros de una se nal
discreta.
Dado el conjunto de N datos {x[0], x[1], . . . x[N 1]} que
dependen de un parametro desconocido ,
Se quiere estimar a partir de los datos
Se define un estimador de , = g (x[0], x[1], . . . x[N 1])

Condiciones sobre el estimador


En media conduzca al valor verdadero del parametro,
E() = Estimador insesgado
La variabilidad del estimador sea lo menor posible
= min var()
Estimador de varianza mnima

Estimador insesgado de varianza mnima (MVU)


Cota Inferior de Cramer-Rao (CRLB)
La Cota Inferior de Cramer-Rao establece una cota inferior teorica en la
varianza de un estimador insesgado:
CRLB(), para todo estimador insesgado .
var()

Utilidad practica
Permite afirmar si un estimador insesgado es el estimador MVU.
Este es el caso si el estimador alcanza la cota para todos los valores
posibles del par
ametro desconocido,
= CRLB(), para todo valor de
var()
Provee una referencia contra la cual comparar el desempe
no de
cualquier estimador insesgado.
Indica la imposibilidad fsica de encontrar un estimador insesgado
con varianza menor que la cota. Esto es u til en estudios de
viabilidad.

La teora permite ademas determinar si existe un estimador que alcanza


la cota.
Descripcion intuitiva de la CRLB

Dependencia de la PDF de los datos con el parametro


Toda la informacion esta contenida en los datos observados y en la
funcion de densidad de probabilidad (PDF) de esos datos.
Por lo tanto, la precision de la estimacion depende directamente de
la PDF.
No se puede esperar una estimaci
on con mucha precisi
on si la PDF
depende debilmente del par
ametro.
An
alogamente, no se puede esperar una estimaci
on precisa si el
modelo depende debilmente del parametro.

Cuanto mayor es la influencia del parametro desconocido sobre la PDF,


mejor debera poder estimarse.
Descripcion intuitiva de la CRLB

Ejemplo: dependencia de la PDF con el parametro


Se quiere estimar el nivel de DC (parametro A) en WGN cuando se
observa una sola muestra,

x[0] = A + w[0], donde w[0] = N (0, 2 )

Se espera que la estimacion sea mejor si 2 es peque


no.
Un buen estimador insesgado es

A = x[0]

La varianza del estimador es


= 2 .
var(A)

La precision del estimador mejora a medida que 2 decrece.


Descripcion intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parametro
Se considera la PDF para dos valores distintos de varianza
 
1 1 2
pi (x[0]; A) = p exp 2 (x[0] A) , con i = 1, 2.
2i2 2i

Se observa la PDF para x[0] = 3 fijo en funcion del parametro


desconocido. Se consideran los valores 1 = 1/3 y 2 = 1.

Definici
on: cuando la PDF es vista como una funcion del parametro
desconocido con x fijo, se denomina funcion de verosimilitud.

p1(x[0]=3;A) con 1=1/3 p2(x[0]=3;A) con 2=1

1 1

0.5 0.5

0 0
0 2 4 6 0 2 4 6
A A
Descripcion intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parametro
con 1 = 1/3, los valores de A > 4 tienen una probabilidad de
 
A x[0]
Pr {A > 4 | x[0] = 3} = 1 = 1 (3) 0.0013
1
con 2 = 1, los valores de A > 4 tienen una probabilidad de
 
A x[0]
Pr {A > 4 | x[0] = 3} = 1 = 1 (1) 0.1587
2

p1(x[0]=3;A) con 1=1/3 p2(x[0]=3;A) con 2=1

1 1

0.5 0.5

0 0
0 2 4 6 0 2 4 6
A A
Descripcion intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parametro
Si x N (, 2 ) Pr{|x | 3} 0.9973.
Valores de A en el intervalo x[0] 3i son viables. Valores fuera de
ese intervalo tienen una probabilidad muy peque na.
Con 1 = 1/3, los candidatos viables son A [2, 4]
Con 2 = 1, los candidatos viables son A [0, 6]

Observaciones
La funcion de verosimilitud p2 (x[0] = 3; A) tiene una dependencia
mas debil del parametro A que p1 (x[0] = 3; A) por lo que los
candidatos viables de A se encuentran en un intervalo mas amplio.
Intuitivamente, la agudeza de la funcion de verosimilitud
determina la precision con la cual es posible estimar el parametro
desconocido.
Una forma de medir la agudeza de la funcion de verosimilitud es a
traves del opuesto de la derivada segunda respecto al parametro
(curvatura) en el pico.
Descripcion intuitiva de la CRLB
Derivada segunda del logaritmo de la funcion de verosimilitud
La funcion de verosimilitud es
 
1 1
p(x[0]; A) = exp 2 (x[0] A)2
2 2 2
El logaritmo de la funcion de verosimilitud es
1
ln p(x[0]; A) = ln 2 2 2 (x[0] A)2
2
Tomando la derivada primera,

ln p(x[0]; A) 1
= 2 (x[0] A).
A
y el opuesto de la derivada segunda queda,

2 ln p(x[0]; A) 1
= 2.
A2
Descripcion intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parametro
2 ln p(x[0]; A) 1 La curvatura crece a medida que la
= 2 varianza del ruido 2 decrece.
A2
Teniendo en cuenta que el estimador es A = x[0], y por lo tanto su
= 2 , para este ejemplo particular se cumple que
varianza es var(A)

= 1
var(A) 2
ln A
p(x[0];A)
2

En este ejemplo, la derivada segunda no depende de los datos (x[0]),


pero en general lo hara. Por lo tanto, una medida mas apropiada de
la curvatura es
Mide la curvatura promedio de la
 2
 funci
on de verosimilitud logartmica.
ln p(x[0]; A)
E La esperanza se toma sobre los datos
A2
(x[0] en este caso), resultando en una
funci
on u
nicamente de A.
Descripcion intuitiva de la CRLB

Resumen
Se dispone de un conjunto de datos y un modelo de los datos que
depende de un parametro desconocido que se quiere estimar.
El modelo impone una PDF de los datos, la cual depende del
parametro desconocido.
Si se considera la PDF como funci on del par
ametro manteniendo
fijos los datos, la funci
on se denomina funci
on de verosimilitud.
Cuanto mas fuerte es la dependencia de la funcion de verosimilitud
con el parametro, este puede estimarse con mayor precision.
Una forma de medir la dependencia de la funcion de verosimilitud
con el parametro es a traves de la concavidad (opuesto de la
derivada segunda respecto al parametro).
Cuanto mayor es la concavidad, mayor es la dependencia con el
par
ametro y mejor puede estimarse el par
ametro.
El estimador del parametro tendra menor varianza cuanto mayor esa
la concavidad de la funcion de verosimilitud.
Cota Inferior de Cramer-Rao
Teorema: Cota Inferior de Cramer-Rao, parametro escalar
Hipotesis: La PDF p(x; ) satisface la condici
on de regularidad,
 
ln p(x; ) La esperanza se toma sobre
, E =0 (1)
los datos x.

Tesis:
1. La varianza de todo estimador insesgado cumple que
La derivada se eval
ua en el
1
var() 2
  (2) valor verdadero de .
ln p(x; )
E La esperanza se toma sobre
2 los datos x.
2. Existe un estimador que alcanza la cota para todo si y solo si

ln p(x; )
= I()(g(x) ) para alguna funcion I y g (3)

1
Este estimador, que es el MVU, es = g(x) y su varianza es .
I()
CRLB. Consideraciones.
Esperanza de las derivadas de la funcion de verosimilitud
La esperanza se toma respecto a los datos x,
 2  Z 2
ln p(x; ) ln p(x; )
E 2
= p(x; )dx
2

La esperanza reconoce el hecho de que la funcion de verosimilitud y


sus derivadas son variables aleatorias por depender de los datos
observados x.
La cota depende en general del parametro desconocido .
CRLB. Consideraciones.
Condicion de regularidad
  Z
ln p(x; ) ln p(x; )
E = p(x; )dx
(a) Regla de la cadena
Z
(a) p(x; ) (b) Cambio del orden de
= dx integraci
on y

Z diferenciaci
on
(b)
= p(x; )dx
Z
(c) , p(x; )dx = 1.
(c)
=0
La condicion de regularidad se cumple si es posible cambiar el
oreden de integracion y diferenciaci
on.
Esto es cierto en general salvo cuando el soporte de p(x; ) depende
del parametro desconocido .
se deduce de la regla de integraci
on de Leibniz (ver apendice I)

Ejercicio: Demostrar que en el caso en que x U [0, ] no se cumple la condici


on de regularidad y
por lo tanto no es posible calcular la CRLB.
Ejemplo I

CRLB para muestra de DC en WGN


Estimar A a partir de x[0] = A + w[0] donde w[0] = N (0, 2 ).
= 2 .
Eligiendo A = x[0], se tiene que var(A)
Las derivadas primera y segunda de la funcion de verosimilitud son,

ln p(x[0]; A) 1
= 2 (x[0] A) (4)
A [visto en la p
agina 9]
2
ln p(x[0]; A) 1
= 2 (5)
A2
Aplicando la ecuacion 2 de la cota de Cramer-Rao se tiene que
2
var(A) A.

No existe un estimador insesgado de varianza menor a 2


Conclusion: Como el estimador elegido es insesgado y alcanza la
CRLB para todo A, es el estimador MVU.
Ejemplo I
CRLB para muestra de DC en WGN
En el caso de no haber descubierto a A = x[0] como estimador, se
podra emplear la segunda parte del teorema de la CRLB.
De la ecuacion 3 del teorema La derivada de la funcion de
de la cota de Cramer-Rao verosimiltud es (ec. 4)
ln p(x; ) ln p(x[0]; A) 1
= I()(g(x) ) = 2 (x[0]A)
A
Identificando terminos
Se concluye que
A = g(x[0]) = x[0] es el estimador MVU.
=A = 1 = 2
var(A)
I()
1
I() = 2 Como el estimador alcanza la cota, se

cumple la ecuaci
on 2 con igualdad, y
g(x[0]) = x[0]
 2 
ln p(x[0]; A)
I() = E
A2
Ejemplo II
CRLB para nivel de DC en WGN
Como generalizacion del ejemplo anterior, en este caso se observan
m
ultiples muestras del nivel de continua en WGN,

x[n] = A + w[n] con n = 0, 1, . . . , N 1 y w[n] N (0, 2 ) n

Se quiere determinar la CRLB de A.


La funcion de verosimilitud es
N
Y 1  
1 1 2
p(x; A) = exp 2 (x[n] A)
n=0 2 2 2
" N 1
#
1 1 X 2
= N exp 2 (x[n] A) .
(2 2 ) 2 2 n=0

Tomando el logaritmo queda,

h N
i N 1
1 X
ln p(x; A) = ln (2 2 ) 2 2 (x[n] A)2 (6)
2 n=0
Ejemplo II
CRLB para nivel de DC en WGN
Aplicando la derivada primera se tiene que
( )
ln p(x; A) h N
i 1
N
X 1
= ln (2 2 ) 2 2 (x[n] A)2
A A 2 n=0
N 1
1 X
= (x[n] A)
2 n=0
N 1
!
N 1 X
= 2 x[n] A
N n=0
N
= x A)
( (7)
2
y diferenciando nuevamente,

2 ln p(x; A) N
= 2
A2
Ejemplo II
CRLB para nivel de DC en WGN
Teniendo en cuenta que la derivada segunda es constante,
empleando la ecuacion 2 se obtiene la CRLB,

1 2
var(A)   = . (8)
2 ln p(x; A) N
E
A2
Ademas, asociando los terminos de la ecuacion 7 con los de la
ecuacion 3 se llega a que
A = x
(media muestral) alcanza la CRLB y por lo tanto es el
estimador MVU.
La ecuaci
on 8 se cumple con igualdad,

= 1 2
var(A) = .
I(A) N

La varianza del estimador es inversamente proporcional a la cantidad


de datos observados.
Ejemplo III
Estimacion de fase
Se quiere estimar la fase de una sinusoide contaminada con WGN,

x[n] = A cos(2f0 n + ) + w[n] con n = 0, 1, . . . , N 1,

donde w[n] N (0, 2 ) para todo n.


La derivada del logaritmo de la funcion de verosimilitud es (ejercicio)
N 1  
ln p(x; ) A X A
= 2 x[n] sin(2f0 n + ) sin(4f0 n + 2) .
n=0 2
(9)
 2  2 2
ln p(x; ) NA 2
Ademas E = var()
2 2 2 N A2
No se cumple la condici
on para alcanzar la cota porque la ecuacion 9
no se puede expresar en la forma de la ecuacion 3.
Es posible que de todas formas exista un estimador MVU, pero
mediante el teorema de Cramer-Rao no es posible determinar su
existencia ni encontrarlo.
Estimador eficiente
Definicion
Un estimador que es insesgado y alcanza la cota de Cramer-Rao para
todos los valores del parametro desconocido se dice que es eficiente.

Obsevacion
Un estimador MVU puede ser o no ser eficiente.

1 es eficiente y MVU 1 es MVU pero no eficiente

Ninguno alcanza la CRLB.


1 alcanza la CRLB y por lo tanto La varianza de 1 es menor que la
es el MVU. de los otros estimadores
insesgados. Es el MVU.
Informacion de Fisher
Definicion
 
La informacion de Fisher para 2 ln p(x; )
I() = E (10)
los datos x se define como: 2

= 1 1
Cuando un estimador alcanza la var()  =
2 ln p(x; ) I()
CRLB, su varianza es: E
2
Propiedades
I() tiene las propiedades de una medida de informacion:
Es no-negativa. Esto puede verse a partir de la siguiente igualdad:
-Ejercicio, ver Apendice 3A
 2  " 2 # en [Kay, 1993]
ln p(x; ) ln p(x; )
E =E -Ejercicio: calcular la CRLB
2 para nivel de DC en WGN
Es aditiva para observaciones independientes
Si I() es la informacion de N
observaciones IID y i() de una u
nica I() = N i()
observacion
Informacion de Fisher
Aditividad para observaciones IID
La densidad de probabilidad de N observaciones IID cumple que
N
Y 1
p(x; ) = p(x[0], x[1], . . . , x[N 1]; ) = p(x[n]; ).
n=0

La informacion de Fisher es entonces


  N
X 1  2 
2 ln p(x; ) ln p(x[n]; )
I() = E = E = N i(),
2 n=0
2
 
2 ln p(x[n]; )
con i() = E la informacion de Fisher de una
2
muestra.
La CRLB al observar N muestras IID es N veces menor que al observar
una muestra (como en los ejemplos I y II)
Independencia No Independencia Dependencia completa
I() = N i() I() < N i() I() = i()
CRLB general para senales en WGN
Se derivara la CRLB para el caso de una se nal s[n; ] con AWGN,
frecuente en la practica.
Sea una se nal determinstica con un parametro desconocido
observada en AWGN,
x[n] = s[n; ] + w[n] con n = 0, 1, . . . , N 1 y w[n] N (0, 2 ) n
La funcion de verosimilitud es
" N 1
#
1 1 X
p(x; ) = N exp 2 (x[n] s[n; ])2
(2 2 ) 2 2 n=0
Tomando el logaritmo queda
h N
i N 1
1 X
ln p(x; ) = ln (2 2 ) 2 2 (x[n] s[n; ])2
2 n=0
Diferenciando una vez se tiene que
N 1
ln p(x; ) 1 X s(n; )
= 2 (x[n] s[n; ])
n=0
CRLB general para senales en WGN
Una segunda diferenciacion resulta en
N 1
"  2 #
2 ln p(x; ) 1 X 2 s(n; ) s(n; )
= 2 (x[n] s[n; ])
2 n=0 2

y tomando el valor esperado,


 2  N 1
"  2 #
ln p(x; ) 1 X 2 s(n; ) s(n; )
E = 2 (E(x[n]) s[n; ])
2 n=0 2
N 1  2
(a) 1 X s(n; )
= 2 ,
n=0

en donde en (a) se empleo que E(x[n]) = s[n; ].


La CRLB es por lo tanto

2 Se obtiene una mejor estimacion


var()  
1 s(n; ) 2
NP cuando la se
nal cambia mas
n=0 rapidamente con el parametro.
(11)
CRLB general para senales en WGN

Ejemplo: Estimacion de la frecuencia de una sinusoide


Se considera una se
nal sinusoidal en AWGN y se quiere estimar su
frecuencia.
Sea la se
nal

x[n] = s[n; ] + w[n] con n = 0, 1, . . . , N 1 y w[n] N (0, 2 ) n

donde
1
s[n; f0 ] = A cos(2f0 n + ) con 0 < f0 <
2
con la amplitud A y la fase conocida.
Usando la ecuacion 11, la CRLB es

2
var(f0 ) NP
1
2
A2 [2nsen(2f0 n + )]
n=0
CRLB general para senales en WGN
Ejemplo: Estimacion de la frecuencia de una sinusoide

Observaciones

En la precision del estimador hay frecuencias preferidas.


Cuando f0 0, CRLB . Esto es porque para f0 0,
pequenos cambios en f0 no alteran la se nal significativamente.
Mediante la teora de Cramer-Rao, se encontr o una cota de la
varianza del estimador, pero no es posible encontrar el estimador en
este ejemplo.

x 10
4 Estimacion de frecuencia, N = 10, = 0, SNR = 0 dB
4

3
CRLB

1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Frecuencia
Transformacion de parametros
Ejemplo: potencia de DC en WGN
En el Ejemplo II se vio que x es un estimador eficiente de A.
Podra ocurrir que no interese el signo de A y en cambio interese por
ejemplo, la potencia A2 de la se nal.
Surgen las preguntas:
x2 es un buen estimador de A2 ?
1.
2. Como obtener la CRLB de A2 ?

2 como estimador de A2 : estudio del sesgo.


1. x

Como x es un estimador eficiente 2 = E 2 (
E x x) + var (
x)
de A y la CRLB(A) = 2 /N , 2
= A2 + (12)
N (A, 2 /N )
x N
6= A2

2 ni siquiera es un estimador insesgado de A2


x

Una transformacion no lineal destruye la eficiencia de un estimador.


Transformacion de parametros
Ejemplo: potencia de DC en WGN
2. Calculo de la CRLB de A2
Teorema: La CRLB del estimador de = g() es

2
g
 2
g
)
var(  2 = CRLB() (13)
ln p(x; )
E
2
Ver demostraci
on en Ap
endice 3A en [Kay, 1993]

En el caso del ejemplo, = g(A) = A2 y por lo tanto,

c2 ) (2A)2 4A2 2
var(A = (14)
N/ 2 N

Observaci
on: Al emplear la ecuacion 13, la CRLB queda en general
expresada en funcion del valor del parametro .
Transformacion de parametros
Eficiencia bajo transformaciones lineales
Se supone que es un estimador eficiente de y se quiere estimar
g() = a + b.
d = g()
Como estimador se elige g() = a + b.

Esperanza Varianza CRLB


 2
  g
d = E(a + b)
E g()  
  d
var g()
var d = var(a + b)
g() I()
= aE() +b
 2
= a + b
= a2 var() g
= var()

= g()

= a2 var()
 
d = g().
El estimador transformado es insesgado, ya que E g()

Tambien es eficiente, ya que la varianza coincide con la CRLB.


Las transformaciones lineales mantienen la eficiencia de los estimadores
Transformacion de parametros
Sesgo y eficiencia asintoticos
La eficiencia es aproximadamente mantenida bajo transformaciones no
lineales si el conjunto de datos es suficientemente grande

=
Estimador asintoticamente insesgado: lim E()
N
= CRLB()
Estimador asintoticamente eficiente: lim var()
N

Ejemplo: potencia de DC en WGN


2 es un estimador sesgado de A2 .
Previamente se vio que x
Sin embargo, la esperanza es (ecuacion 12)

2
x2 ) = A2 +
E( A2
N N

2 es un estimador asintoticamente insesgado de A2


x
Transformacion de parametros
Ejemplo: potencia de DC en WGN
N (A, 2 /N ) es posible evaluar la varianza,
Ademas, como x

x2 ) = E(
var( x4 ) E 2 (
x2 )

Observacion: Si N (, 2 ), los momentos segundo y cuarto son


respectivamente,

E( 2 ) = 2 + 2
var( 2 ) = E( 4 ) E 2 ( 2 )
E( 4 ) = 4 + 62 2 + 3 4
= 42 2 + 2 4
Demostraci
on: ejercicio.

4A2 2 2 4 4A2 2
x2 ) =
var( + 2 x2 )
= CRLB(
N N N N

2 es un estimador asintoticamente eficiente de A2


x
Transformacion de parametros
Linealidad estadstica de una transformacion no lineal
A medida que crece N , la PDF de x se concentra alrededor de la
media A. Los valores observados de x
estan en un intervalo peque
no
en torno de A.
En ese intervalo pequeno, la transformacion no lineal es
aproximadamente lineal.
Los valores de x
en la regi
on no lineal ocurren raramente.
N pequeo N grande
Transformacion de parametros
Linealidad estadstica de una transformacion no lineal
Formalmente, esto se puede ver linealizando la transformacion g en
A,
dg(A)
g(x) g(A) + x A).
(
dA
Con esta aproximacion, se cumple que
 2
dg(A)
var [g(
x)] = var(
x) (15)
dg(A) dA
E [g(
x)] = g(A) + x) A)
(E ( 2
dA = (2A)2
= g(A) N
4A2 2
= A2 =
N
El estimador es asintoticamente El estimador alcanza la CRLB
insesgado asintoticamente
La linealizacion conduce a un estimador asintoticamente eficiente.
La ecuacion 15 provee intuici
on de la forma de la ecuacion 13.
Transformacion de parametros

Resumen
Una transformacion lineal de un estimador eficiente mantiene la
eficiencia.
El estimador transformado es un estimador eficiente del par
ametro
transformado.
Una transformacion no lineal de un estimador eficiente destruye la
eficiencia, e incluso puede hacerlo sesgado.
Sin embargo, el estimador transformado no linealmente es
asintoticamente insesgado y eficiente.
Cuando la cantidad N de datos crece, el estimador tiende a ser
insesgado y eficiente.
Extension a vector de parametros
Se estudiara la extensi
on de los resultados al caso en que hay mas de
un parametro desconocido.
T
Se desea estimar el vector de parametros = [1 2 . . . p ] .
Asumiendo que el estimador es insesgado, la CRLB para un vector
de parametros establece una cota en la varianza de cada elemento,
 
var(i ) I1 () ii ,

donde I() es la matriz de informacion de Fisher p p.


La matriz de informacion de Fisher se define como
 2 
ln p(x; ) i = 1, 2, . . . , p
[I()]ij = E , con (16)
i j j = 1, 2, . . . , p

en donde al evaluar esta ecuacion hay que emplear el valor verdadero


de .
Notar que en el caso escalar (p = 1), I() = I(), con I() definida
en la ecuacion 10, obteniendo la CRLB escalar.
Ejemplo IV

CRLB para nivel de DC en WGN


Como extension del Ejemplo II, se considera la observacion de N
muestras del nivel de continua en WGN,

x[n] = A + w[n] con n = 0, 1, . . . , N 1 y w[n] N (0, 2 ) n

pero ahora, ademas de desconocerse A tambien se desconococe 2 .


 T
ametros es = A 2 , y p = 2.
En este caso, el vector de par

La matriz de informacion de Fisher 2 2 es,


 2   2 
ln p(x; ) ln p(x; )
E 2
E 2
I() =  2 A   2 A  ,
ln p(x; ) ln p(x; )
E E
2 A 2 2
simetrica y definida positiva.
Ejemplo IV
CRLB para nivel de DC en WGN
La funcion de verosimilitud logartmica, al igual que en el ejemplo II
(ecuacion 6), es
N 1
N N 1 X
ln p(x; ) = ln 2 ln 2 2 (x[n] A)2 .
2 2 2 n=0

y las derivadas son (ejercicio),

2 ln p(x; ) N
2
= 2
A
N 1
2 ln p(x; ) 1 X
= (x[n] A)
A 2 4 n=0
N 1
2 ln p(x; ) N 1 X
= (x[n] A)2
2 2 2 4 6 n=0
Ejemplo IV
CRLB para nivel de DC en WGN

N
Tomando el opuesto de la 2 0
I() = N .
esperanza, se construye la 0
matriz de Fisher, 2 4

Como en este caso la matriz de 2


Fisher es diagonal, es facil de var(A)
N
invertir, conduciendo a que la 2 4
cota de Cramer-Rao es var(2 )
N
Observaciones
La CRLB de A es la misma que en el caso en que 2 es conocido
(ejemplo II).
Analogamente, se puede ver que la CRLB de 2 es la misma si A es
conocido (ejercicio).
Lo anterior se debe a que la matriz de Fisher es diagonal.
Extension a vector de parametros
Teorema: Cota Inferior de Cramer-Rao, parametro vectorial
Hipotesis: La PDF p(x; ) satisface la condici
on de regularidad,
 
ln p(x; )
, E =0 La esperanza se toma respecto
a los datos x.
Tesis:
1. La matriz de covarianza de todo estimador insesgado cumple que
 2 
1 ln p(x; )
C I () 0, donde [I()]ij = E (17)
i j
I() es la matriz de informaci
on de Fisher
0 se interpreta en el sentido de matriz semidefinida positiva
La derivada se eval
ua en el valor verdadero de .
La esperanza se toma respecto a los datos x.
2. Existe un estimador que alcanza la cota C = I1 () si y solo si
o n g : RN Rp y
para alguna funci
ln p(x; )
= I()(g(x) ) (18) alguna matriz I p p.

= g(x) con matriz de covarianza I1 , MVU.
Ese estimador es
Extension a vector de parametros

Consecuencias
Como en una matriz semidefinida positiva todos los elementos de la
diagonal son no negativos, la ecuacion 17 implica que
 
C I1 () ii 0

Por lo tanto, la varianza de cada elemento del vector estimador


cumple que    
var(i ) = C ii I1 () ii . (19)
Si se cumple la condici
on de la ecuacion 18, la ecuacion 19 se
cumple con igualdad,
 
var(i ) = I1 () ii .

= g(x) es eficiente y por lo tanto MVU.


El estimador

Ver la definici
on de la matrix de covarianza en el apendice en pag. 45
Apendice I
Distribucion de probabilidad
La distribuci
on de probabilidad (CDF, Cumulative Distribution
Function) de una variable aleatoria real X se define como

FX (x) = Pr {X x} .

Se puede expresar como la integral de la PDF pX (x) como

Z pX (x) = N (0, 1)
x
1
FX (x) = pX (u) du.

0.5

Si X N (0, 1), la CDF se


3 x
denomina funcion ,
3
(x)
Z x 1
1 2
(x) = eu /2 du,
2 0.5

y sus valores estan


3 x
tabulados. 3
Apendice I

Distribucion de probabilidad
Si X es una variable aleatoria con X N (, 2 ), se cumple que
 
x
Pr {X x} =

Notar que la transformacion de la variable aleatoria
x
x =

hace que X N (0, 1).
Apendice II

Regla de Integracion de Leibniz


!
Z b() Z b()
d f (x, )
dx + f b(), b () f a(), a ()
 
f (x, ) dx =
d a() a()

De la regla surge que el orden de derivacion y integraci


on puede cambiarse
si los lmites de integraci
on no dependen de ,

a() = a
a () = b () = 0,
b() = b
y Z b  Z b
d f (x, )
f (x, ) dx = dx.
d a a
Apendice III
Covarianza
La covarianza entre dos variables aleatorias X y Y se define como
 
cov(X, Y ) = E (X E[X])(Y E[Y ])
= E[XY ] E[X]E[Y ].

Es una medida de la dependencia entre variables aleatorias.

Definicion: dos variables aleatorias X y Y se dicen no


correlacionadas si
cov(X, Y ) = 0.

Independencia: si dos variables aleatorias X y Y son


independientes se cumple que cov(X, Y ) = 0,

cov(X, Y ) = E[XY ] E[X]E[Y ] (Lo recproco no es


= E[X]E[Y ] E[X]E[Y ] cierto.)
= 0.
Apendice III

Matriz de Covarianza
 T
Sea el vector de variables aleatorias X = X1 X2 . . . Xn , la matriz
de covarianza se define como
h i
T
C = E (X E[X]) (X E[X])

donde la esperanza de un vector y una matriz con entradas


aleatorias se define como la esperanza de las entradas.
Apendice III
Matriz de Covarianza

E[(X1 1 )(X1 1 )] E[(X1 1 )(X2 2 )] E[(X1 1 )(Xn n )]




E[(X2 2 )(X1 1 )] E[(X2 2 )(X2 2 )] E[(X2 2 )(Xn n )]


C=

.. .. ..

..

. . . .


E[(Xn n )(X1 1 )] E[(Xn n )(X2 2 )] E[(Xn n )(Xn n )]
var(X1 ) cov(X1 , X2 ) cov(X1 , Xn )


cov(X2 , Xn )

cov(X2 , X1 ) var(X2 )

=

.. .. ..

..

. . . .


cov(Xn , X1 ) cov(Xn , X2 ) var(Xn )
Referencias I

Kay, S. M. (1993).
Fundamentals of Statistical Signal Processing, Volume I: Estimation
Theory, chapter 3.
Prentice Hall, 1st edition.

You might also like