Professional Documents
Culture Documents
teora de distribuciones
Tema 1
Itziar Aretxaga
Conceptos bsicos de la inferencia estadstica
Definiciones:
Espacio de la muestra () es el conjunto de los posibles valores de un
experimento
Evento (A) es el conjunto de valores tomados por el experimento dentro
del espacio de la muestra. El evento complementario es A
c
A
Variable aleatoria x(A
i
) es una funcin definida en el espacio de N posibles
eventos A
i
.
Funcin de distribucin o probabilidad acumulada, F, es la probabilidad de
que cuando se mide un valor de la variable aleatoria x, ste sea menor o
igual a x. F es una funcin monotnicamente creciente.
Si x es , entonces F()=0, F()=1.
Probabilidad discreta, P
r
, de una variable discreta r, es la frecuencia con
que ocurre r.
Densidad de probabilidad, o funcin de frecuencia, o funcin diferencial de
probabilidad, P(x), de una variable continua x, es P(x)=dF/dx, de manera
que la probabilidad de que x tome un valor entre x y x+dx sea P(x)dx.
Ejemplos de distribuciones de probabilidad
discreta, densidades de probabilidad y
funciones acumuladas de probabilidad:
Probabilidad discreta, en funcin de
una variable unidimensional,
representada como un histograma
de encasillado irregular.
Probabilidad discreta
representada como un
histograma bidimensional de
encasillado regular
Probabilidad discreta y su
correspondiente probabilidad
acumulada
Densidad de probabilidad
(Figs. Stuart & Ord, Kendalls Advanced Theory of Statistics)
Axiomas de probabilidad (Kolmogorov):
0 P(A) 1
P() = 1, P() = 0
si AB A B = P(A U B) = P(A) + P(B)
Ejemplo: clculo de la probabilidad de que en una tirada de una moneda, salga o guila o sol.
AS = , P(A U S) = P(A) + P(S)= + = 1
Independencia:
si P(A|B) = P(A) P(AB)=P(A)P(B)
Ejemplo: clculo de la probabilidad de que en dos tiradas de una moneda, salgan dos guilas
P(AA) = =
Probabilidad condicional:
P(A|B) = P(AB) / P(B)
Ejemplo: clculo de la probabilidad de que en dos tiradas de una moneda, dada una primera
guila, salga otra guila P(A|A) = P(AA)/P(A) = / =
Conceptos bsicos de la inferencia estadstica
Teorema de Bayes
P(B|A)P(A)
P(A|B) = P(B|A) P(A)/P(B) =
P(B|A)P(A) + P(B|A
c
)P(A
c
)
de lo que se deduce (aunque resulta filosficamente controvertido),
P(H|X) P(X|H) P(H)
Funcin posterior Funcin de probabilidad Funcin a priori
ste es el fundamento de la inferencia bayesiana, que deriva la
probabilidad de que una hiptesis H sea cierta, dado un conjunto de
observaciones X.
Ejemplo:
Supongamos que el 90% de las estrellas de un cmulo estelar se encuentran en la secuencia
principal. Hemos diseado un mtodo de clasificacin estelar, segn el cual, el 95% de las
estrellas de secuencia principal son reconocidas como tales, y el 93% de las estrellas que no lo
son, tambin son reconocidas como no pertenecientes a la secuencia principal. Cul es la
probabilidad de que nuestra clasificacin reconozca una estrella como de secuencia principal, y
que sta realmente lo sea?
P(X|H) = 0.95 P(X
c
|H
c
) = 0.93 P(H)=0.90
P(H|X) = 0.95 x 0.90 / (0.95 x 0.90 + 0.07 x 0.10) = 0.9919, es decir, 99.2%
Esperanza (x) de una variable aleatoria x es el valor que esperamos
adopte en promedio.
si la distribucin es discreta
si la distribucin es continua
Esperanzas de uso comn:
media
variancia
la desviacin estndar es
covariancia
Propiedad de la covariancia:
Si x e y son independientes cov(x,y)=0.
Ntese que una covariancia nula no indica necesariamente independencia.
) (x x x c > <
Esperanzas
) ( ) (
1
i
N
i
i
x P x x
=
c
dx x P x x ) ( ) (
}
c
) ( ) ( ) ) ( (
2 2 2 2
x x x x c c c o =
) ( ) ( ) ( )) )( (( ) , ( y x xy y y x x y x c c c c = cov
Momentos de una distribucin
1
er
momento: describe el valor central. Se define como
media si la distribucin es continua.
Otras medidas del valor central son
mediana
moda x
mod
es el valor para el cul la distribucin toma su mximo absoluto
}
=
dx x xP x x
N
x
N
i
i
) (
1
1
o
+
+
par es si
impar es si
N x x
N x
x
N N
N
) ( 2 / 1
2 / ) 1 ( 2 /
2 / ) 1 (
med
dx
dF
x f = ) (
(Fig. Roe, Probability and Statistics in Experimental Physics)
siguen un orden alfabtico
Momentos de una distribucin
2
o
momento: describe la anchura de la distribucin. Se define como
variancia,
2
:
1/N se debe reemplazar por 1/(N1) si la media de x no se conoce a priori,
como en las estimaciones experimentales.
Otras medidas de la anchura de la distribucin:
anchura a media altura, FWHM=ab, tal que P(a)=P(b)=P
max
/2.
Para una gaussiana FWHM=2.3556
desviacin absoluta media,
x
:
que es ms robusta frente a valores
que se devan mucho de x
mod
.
intervalo R x
max
x
min,
nivel de confianza al 68.3% [a,b] tal que y el intervalo
[a,b] es mnimo.
cuartiles [a,b] tal que
}
=
dx x P x x x x
N
N
i
i
) ( ) ( ) (
1
2 2
1
2 2
o o o
dx x P x x x x
N
x
N
i
i x
) (
1
1
}
=
A A o
683 . 0 ) ( =
}
b
a
dx x P
} }
= =
b
a
dx x P dx x P 25 . 0 ) ( 25 . 0 ) ( y
FWHM
(Wall J.V., 1979, Q. Jr. R. Astr. Soc., 20, 138)
Ejemplo:
Momentos de una distribucin
Los momentos de orden superior son menos robustos y, por lo tanto, menos
utilizados
3
er
momento: describe la asimetra de la distribucin.
asimetra (skewness)
4
o
momento: describe el aplanamiento de la distribucin.
kurtosis
En general:
}
dx x P x x m
x x
N
m
N
i
i
) ( ) (
) (
1
3
3
3
1
3
3
o
o
}
dx x P x x m
x x
N
m
N
i
i
) ( ) (
) (
1
4
4
4
1
4
4
o
o
}
dx x P x x m
x x
N
m
k
k
k
N
i
k
i
k
) ( ) (
) (
1
1
o
o
(Figs. Press et al., Numerical Recipes)
Se suele medir en una escala que
toma 3 como su cero, ya que ste
es el valor de la kurtosis de una
distribucin normal estndar
Distribuciones habituales: binomial
Definicin: variable de Bernouilli es aqulla cuyo espacio de muestra slo
contiene dos resultados.
x 1 0
P(x) p q1p
Distribucin: si en n intentos se obtienen k aciertos, la distribucin de
probabilidad del nmero de aciertos viene dada por
P(k) = ( ) p
k
q
nk
donde ( )
Momentos de la distribucin:
media <x> =
i
x
i
P(x
i
) = np
variancia
2
(x) =
i
(x
i
<x>)
2
P(x
i
) = npq
Ejemplo: Supongamos que la probabilidad de encontrar una estrella de masa m
*
>10 M
en un
cmulo estelar joven es del 4%. Cul es la probabilidad de que en una muestra escogida al azar,
entre 10 miembros del cmulo encontremos 3 estrellas con m
*
>10 M
?
p=0.04
n=10 P(3)=10! / 3! / 7! x 0.04
3
x 0.96
7
= 0.006, es decir 0.6%
k=3
n
k
n
k
n!
k! (n-k)!
(Fig. Hyperstat Online Textbook)
n=4
k=x=2
p=0.5
Distribuciones habituales: poissoniana
Definicin: proceso poissoniano es aqul compuesto de eventos discretos
que son independientes en el espacio y en el tiempo.
Distribucin: si el nmero de eventos esperados, ,
en un intervalo de extensin h es = h ( da la
tasa de eventos por unidad de h), entonces la
probabilidad de que ocurran n eventos en h viene
dada por
Momentos de la distribucin:
media <x> =
i
x
i
P(x
i
) = = h
variancia
2
(x) =
i
(x
i
<x>)
2
P(x
i
) = = h
Ejemplo: La seal promedio recibida de una fuente es de 10 cuentas
por segundo. Calcular la probabilidad de recibir 7 cuentas en un segundo dado.
h=1 P(7)=10
7
x e
10
/ 7! = 0.09, es decir 9%
n=7 A comparar con la probalidad en el mximo, si te parece baja:
=10 P(10)=10
10
x e
10
/ 10! = 0.125, es decir 12.5%
Moraleja: las probabilidades poissonianas para un nmero de eventos dado, son siempre
pequeas, incluso en el mximo de la distribucin de probabilidad. Si se desea discutir si el
nmero de eventos es tpico, se debe comparar con la media y la variancia.
n
e
n!
P(n) =
(Fig. Carnegie Mellon, Biological Sci.)
Distribuciones habituales: gaussiana
Propiedades: es la distribucin ms utilizada en las ciencias porque
1. muchas variables aleatorias se pueden aproximar por una distribucin
gaussiana (vase el teorema central del lmite)
2. es fcil de utilizar matemticamente
Distribucin:
La distribucin normal estndar: =0 y =1.
Momentos de la distribucin:
media <x> = xP(x)dx =
variancia
2
(x) = (x )
2
P(x)dx =
2
Significancias habituales:
1: P( x +) = 0.683 (La integral de la distribucin
2: P(2 x +2) = 0.955 est tabulada en todos los
3: P(3 x +3) = 0.997 libros de estadstica bsica)
Ejemplos: perfil de las lneas de emisin en un espectro unidimensional, perfil radial de objetos
puntuales en una imagen ptica (patrn de dispersin de una imagen puntual),
(
=
2
2
) (
2
1
exp
2
1
) (
o
t o
x
x P
(Fig. Univ. of Georgia, Hyperphysics)
Ejemplo: distribucin de brillo de
una estrella, patrn de dispersin
de una fuente puntual
(Aretxaga et al. 1999, MNRAS)
Teorema central del lmite
Si para cada nmero entero n, las observaciones x
1
,x
2
,...,x
n
se derivan de
forma independiente de una distribucin cualquiera de media y variancia
2
, entonces la suma S
n
=x
1
+x
2
+ ... +x
n
es asintticamente gaussiana, en el
sentido que
donde (z) es una distribucin normal estndar.
El teorema tambin se cumple, en trminos menos restrictivos, si las x
i
se derivan de ciertas i distribuciones, que pueden ser diferentes entre s.
En este caso, se deben cumplir varios criterios. Uno de los ms comunes
es el criterio de Lindeberg:
donde es un nmero prefijado
arbitrariamente. Entonces el teorema es cierto si
es decir, si la suma no est dominada por fluctuaciones individuales.
) (
2
lim
z z
n
n S
P
n
n
|
o
=
|
|
.
|
\
|
s
= >
= s
=
n k x x
n k x x x
y k k
y k k k
k
,..., 1 , 0
,..., 1 ,
co
co
si
si
Sea
1 / ) ... (
2
2 1
+ + +
n
y n
o
ste es uno de los teoremas ms utilizados en CC Fsicas. Debido a l las
distribuciones poissonianas y binomiales se pueden aproximar por una
gaussiana para nmeros grandes de eventos. Tambin la adicin de
nmeros generados por cualquier otra distribucin forma una distribucin
aproximadamente normal.
Aplicaciones del teorema central del lmite
(Fig. Roe, Probability and Statistics in Experimental Physics)
Existen situaciones fsicas en las que las condiciones para el uso del
teorema central del lmite no se cumplen, y por lo tanto una aplicacin
ciega del mismo lleva a resultados erroneos.
Ejemplo: scattering mltiple de una partcula (Byron P. Roe, 2001, Probability and
Statistics in Experimantal Physics, Springer.)
El proceso de scattering simple resulta en
El proceso de scattering mltiple, sin embargo, da
Excepciones a la aplicacin del teorema
3
) (
u
u
u u
dL d K
dL d f
dL d dL d f u o u u u ) 2 / exp( ) (
2 2
(Fig. Roe, Probability and Statistics in Experimental Physics)
Distribucin gaussiana multidimensional
En dos dimensiones, la distribucin centrada en (0,0) tiene la forma:
donde es el coeficiente de correlacin, definido por
Los momentos caractersticos son:
En general, en p dimensiones, la distribucin gaussiana centrada en
viene dada por:
donde x es el vector de la muestra (de p dimensiones), es su valor
medio, y es la matriz de correlacin entre las variables x
Ejemplo: clculo de las probabilidades de propiedades intrnsecas atribuibles a galaxias (u otros
objetos) a travs de mapas color-color
Ejemplo: distribucin de redshift derivado de un diagrama color-color
(Aretxaga et al. 2003,MNRAS)
Distribuciones habituales: chi-cuadrado
Definicin: sea
2
=z
1
2
+z
2
2
+...+z
f
2
, donde z
i
son nmeros generados
independientemente a partir de una distribucin normal estndar.
Distribucin: la densidad de probabilidad de
2
con f grados de libertad, se
puede deducir de la distribucin normal, y resulta ser
Momentos de la distribucin:
media <
2
> = xP(x)dx = f
variancia
2
(
2
) = (x f)
2
P(x)dx = 2f
momento k m
k
=f (f+2)...(f+2k2)=<(
2
)
k
>
Propiedades:
1. es una distribucin frecuentemente utilizada para medir desviaciones de
medidas experimentales respecto de un modelo adoptado.
2. cuando , donde (x) es la
distribucin normal estandar. La aproximacin es buena para f 30.
) 2 / exp(
2 ) 2 / (
1
2
1
) (
2
1
2
2
2
_
_
_
|
|
.
|
\
|
I
=
f
f
P
) ( 2 / ) (
2
x f f f | _ entonces
(Fig. Univ. of Arkansas, Community College at Hope)
Distribuciones habituales: F
Definicin: sean y
1
,y
2
,...,y
m
e w
1
,w
2
,...,w
n
dos conjuntos de nmeros
independientes derivados de distribuciones normales estndar. Se define la
distribucin F como
Distribucin: la densidad de probabilidad de F viene dada por
que normalmente se expresa
Propiedades: es una distribucin frecuentemente utilizada para comparar
dos conjuntos de datos y su representacin de un modelo. Un valor muy
grande o muy pequeo de F indica qu distribucin se ajusta mejor a los
datos. Sin embargo es til estudiar el valor de
2
para corroborar que ambas
presentan un ajuste razonable.
=
=
n
m
n w
m y
F
1
2
1
2
/
/
v
v
( ) ( )( ) 2
1
2
1 / 2 / 2 /
2
) (
n m
m
n Fm m n
F
n
m n m
F P
+
+ I I
|
.
|
\
|
|
.
|
\
|
+
I
=
( ) ( )( )
2 / ) (
1 2 /
1
2
1 2 / 2 /
2
) (
n m
m
m
x m n
x
n m
x P
+
+ I I
|
.
|
\
|
+
I
=
v
v
2
2
w
y
x
(Fig. NIST/SEMATECH Engineering Statistics Handbook)
(m,n)
Distribuciones habituales: t Student
Definicin: sea x
1
,x
2
,...,x
n
un conjunto de datos independientes derivados
de una distribucin gaussiana de media 0 y variancia
2
. Se define t
Distribucin: la densidad de probabilidad de t viene dada por
y la de t
2
por la distribucin F con m=1.
Propiedades: se utiliza frecuentemente para comparar muestras de una
distribucin que se cree que es aproximadamente gaussiana, pero cuya
variancia se desconoce.
P.D.: Student era el sednimo de W.S. Gosset (1876-1937), un pionero estadista que trabaj en la
Cervecera Guinness de Dubln como qumico, y public sus resultados bajo seudnimo para
escapar de la poltica de la compaa, que prohiba publicar a los empleados.
n
i
i
n x
x
t
1
2
/
( )
( )
2 / ) 1 (
2
1
2 /
2 / ) 1 ( 1
) (
+
|
|
.
|
\
|
+
I
+ I
=
n
n
t
n
n
n
t P
t
(Figs. Eric W. Weisstein)
Distribuciones habituales: log normal
Distribucin: la densidad de probabilidad de una variable log x distribuda
segn una funcin gaussiana es
Momentos de la distribucin:
media <x> = xP(x)dx = exp(+
2
/2)
variancia
2
(x) = (x <x>)
2
P(x)dx = (exp
2
1) exp(2+
2
)
Ejemplo: fotomultiplicadores, que convierten seales dbiles de fotones en seales elctricas.
Sea n
0
=a
0
el nmero inicial de e
\
|
=
2
2
2
2
) (log
exp
1
2
1
) (
o
to
x
x
x P
Clculo de errores
En Astronoma se trabaja continuamente con distribuciones de medidas
(flujo, nmero de objetos, ...)
El error asociado a una cantidad =(x,y,..,) dependiente de las variables
x,y,..., si stas no estn correlacionadas, y su variancia es pequea, se
puede aproximar en primer orden por
Si los errores estn correlacionados, y las variancias son pequeas, viene
dado por
Si estas condiciones no se cumplen, entonces hay que recurrir a un Monte
Carlo (vase tema 2) para calcular los errores.
(Kendalls Advanced Theory of Statistics I: Distribution Theory, Stuart & Oed, Edward Arnold
Publ., seccin 10.5)
+
|
|
.
|
\
|
c
c
+
|
.
|
\
|
c
c
=
2
2
2
2
2
y x
y x
o
u
o
u
o
u
) , cov(
1 ,
2
j i ij ij
j
N
j i
i
x x C C
x x
=
|
.
|
\
|
c
c
|
.
|
\
|
c
c
=
c
c
c
c
=
=
donde
x x
u u u u
o
u
C
,
Clculo de errores
Ejemplo: clculo del flujo emitido por una lnea espectral.
Flujo entre a y b: L=
i
l
i
= 1050 x 3 + 1100 x 2+ 1300 = 6650
L
2
=
i
l
i
= L
Determinacin del nivel de continuo: c=1/N
i
c
i
= 1/10
1
10
1000 = 1000 L=650 100
c
2
= 1/N
2
i
ci
2
= 1/N
2
i
c
i
= c/N
Continuo bajo la lnea: C = 1000 x 6 = 6000 ;
C
2
=
6
2
c
2
= 3600
Lnea: L = L C = 6650 6000 = 650;
L
2
=
L
2
+
C
2
= 6650 + 3600
+
|
|
.
|
\
|
c
c
+
|
.
|
\
|
c
c
=
2
2
2
2
2
y x
y x
o
u
o
u
o
u
1150
1000
1050
1100
1200
a b
flujo
Ejemplo de aplicacin erronea del clculo de propagacin de errores
(Byron P. Roe, 2001, Probability and Statistics in Experimental Physics, Springer)
Algunas veces, los efectos no lineales en la propagacin de errores hace que las frmulas
anteriores dejen de funcionar.
En 1983 F. James revis los datos de un experimento en el que se haba encontrado una masa
no nula para el neutrino e
\
|
=
2
2
1 2 ) (
Anlisis de identidad de dos distribuciones
Test de t-Student: Tienen dos distribuciones la misma media?
Suposiciones: las muestras estn derivadas de distribuciones gaussianas
con la misma variancia. Por lo tanto, el test es paramtrico.
Estrategia: medir el nmero de desviaciones estndar que las separa
(err = /N)
Mtodo: sean las muestras A {x
i
}, i=1,...,N
A
de media x
A
B {x
i
}, i=1,...,N
B
de media x
B
e igual variancia
2
.
Se definen s
D
y t
La probabilidad de que t tome un valor as de grande o ms viene dada
por la distribucin t-Student con n N
A
+N
B
grados de libertad, donde un
valor pequeo significa que la diferencia es muy significante.
Esta funcin est tabulada en los libros de estadstica bsica, y se puede
encontrar codificada en la mayora de las bibliotecas de programacin.
2 / 1
1 1
2 2
1 1
2
) ( ) (
(
(
|
|
.
|
\
|
+
+
+
= =
B A B A
N
i
N
i
B i A i
D
N N N N
x x x x
s
A B
D
B A
s
x x
t
( )
2
) 1 (
2
1
) 2 / (
2 / ) 1 ( 1
) , (
+
} |
|
.
|
\
|
+
I
+ I
=
n
t
t
n
x
dx
n
n
n
n t P
t
(Press et al., Numerical Recipes)
Anlisis de identidad de dos distribuciones
Variante del test de t-Student: Tienen dos distribuciones la misma
media?
En el caso de que las variancias de las dos muestras sean diferentes,
A
2
B
2
, se definen t y n
donde n no tiene por qu ser un nmero entero.
La probabilidad de que t sea as de grande o ms viene aproximadamente
dada por la misma distribucin P(t,n) anterior.
2 / 1 2 2
) / / (
B B A A
B A
N N
x x
t
o o +
( )
1
) / (
1
) / (
/ /
2 2 2 2
2
2 2
B
B B
A
A A
B B A A
N
N
N
N
N N
n
o o
o o
(Press et al., Numerical Recipes)
Anlisis de identidad de dos distribuciones
Test F: Tienen dos distribuciones diferente variancia?
Suposiciones: las distribuciones son gaussianas. El test es, por lo tanto,
paramtrico.
Estrategia: se analiza el cociente de las variancias y su desviacin de la
unidad.
Mtodo: sean las muestras A {x
i
}, i=1,...,N
A
de media x
A
y variancia
A
2
B {x
i
}, i=1,...,N
B
de media x
B
y variancia
B
2
Se define F
A
2
/
B
2
, donde
A
>
B.
La significancia de que la variancia de la distribucin A sea mayor que la de
la distribucin B viene dada por la distribucin F con n
A
N
A
1 y n
B
N
B
1
grados de libertad en el numerador y denominador:
donde
La distribucin F est tabulada en los libros de estadstica bsica, y se
encuentra codificada en la mayora de las bibliotecas de programacin.
( )
1
2
0
1
2
) 1 (
) 2 / ( ) 2 / (
2 / ) (
2 ) , (
I I
+ I
=
}
A B
n x n
B A
B A
B A
t t dt
n n
n n
n n F P
2 / 2 /
2 /
A B
B
n F n
n
x
+
KS
( ) D N N
e e
/ 11 . 0 12 . 0 + +
Anlisis de identidad de dos distribuciones
Test Kolmogorov-Smirnov: Son dos distribuciones diferentes?
Suposiciones: las distribuciones son continuas. El test no es paramtrico,
lo que lo hace muy eficaz. Es un test muy popular en Astronoma.
Estrategia: medir la desviacin mxima de las distribuciones acumuladas.
Mtodo: sean las muestras
A {x
i
}, i=1,...,N
A
B {x
i
}, i=1,...,N
B
Se define la distribucin acumulada S
N
(x) 1/N
i
f(x
i
) , donde
f(x
i
) { para cada muestra. La diferencia mxima entre ellas
viene dada por D max |S
A
(x)S
B
(x)|
La significancia de que las dos distribuciones
difieran viene dada aproximadamente por
donde
y N
e
=N
A
N
B
/(N
A
+N
B
). La expresin es buena
para N
e
4 (Stephens 1970) .
Anlisis de identidad de dos distribuciones
El test de Kolmogorov-Smirnov no es muy sensible si la diferencia mxima
entre las distribuciones acumuladas ocurre en los extremos de las
mismas.
Para solucionar este problema, se introdujo una variante del test.
Test de Kuiper: Son dos distribuciones diferentes?
Suposiciones y estrategia: las mismas que K-S.
Mtodo: se definen las diferencias mximas por exceso, D
+
, y por
defecto, D
, y la diferencia combinada
D D
+
+ D
= max [ S
A
(x) S
B
(x) ] + max [ S
B
(x) S
A
(x) ] .
La significancia con la que las dos distribuciones difieren viene dada por
P
KP
= 2
j
(4j
2
2
1) exp(2j
2
2
) ,
donde [ N
e
+ 0.155 + 0.24 / N
e
] D y N
e
N
A
N
B
/(N
A
+N
B
)
Anlisis de identidad de una distribucin observada con una distribucin
terica: tanto KS y KP se pueden aplicar a una sola distribucin para
estudiar si se deriva de una distribucin terica P(x). La estrategia es la
misma, y las ecuaciones son vlidas, substituyendo S
B
(x) por P(x) y
haciendo N
e
=N
A
.
(Press et al., Numerical Recipes)
QSOs: 85%
RQ QSOs: 39%
RL QSOs: 99.5%
(Aragn-Salamanca et al. 1996, MNRAS, 281, 945)
Ejemplo: distribucin de galaxias dbiles entorno a QSOs
Anlisis de identidad de dos distribuciones
Test Kolmogorov-Smirnov multidimensional: (Peacock 1983, MNRAS, 202,
615; Fasano & Franceschini 1987, MNRAS, 225, 155)
Dificultad: en una dimensin, K-S es independiente de cmo se ordenan los
datos, pero en N dimensiones, existe ms de una forma de ordenarlos.
Estrategia: se consideran las cuatro posibles acumulaciones de los n datos
de una muestra siguiendo los ejes de coordenadas. En 2D, se considera el
nmero de datos de la muestra que cae en cada cuadrante
(x<X
i
, y<Y
i
), (x<X
i
, y>Y
i
), (x>X
i
, y<Y
i
), (x>X
i
, y>Y
i
) , i=1,...,n,
y se compara con la distribucin padre o la distribucin de comparacin. Se
define D
BKS
como la diferencia normalizada ms grande de entre todos los
cuadrantes y todos los puntos.
En 3D, de igual manera,
(x<Xi, y<Y
i
, z<Z
i
), (x<X
i
, y<Y
i
, z>Z
i
), (x<X
i
, y>Y
i
, z>Z
i
),
(x>X
i
, y<Y
i
, z<Z
i
), (x>X
i
, y<Y
i
, z>Z
i
), (x>X
i
, y>Y
i
, z>Z
i
), i=1,...,n.
Significancia: formalmente no existe una expresin rigurosa que d la
probabilidad de que las dos distribuciones difieran. Se han realizado
diversos Monte Carlos con distribuciones en el plano y el espacio que
presentan diferentes niveles de correlacin. Fasano & Franceschini (1987)
proveen de tablas y expresiones polinomiales para calcular la diferencia
crtica Z
n
D
BKS
N
e
que rechaza la identidad de las dos distribuciones, dados
n, CC (coeficiente de correlacin) y SL (el nivel de significancia).
Anlisis de identidad de dos distribuciones
Clculo de la dependencia de la
diferencia crtica entre dos
distribuciones 2D con el coeficiente
de correlacin de los puntos, el
nmero de puntos y el nivel de
confianza escogido para rechazar la
hiptesis nula de identidad (Fasano &
Franceschini 1987).
Modelos de correlacin entre los datos explorados
y x
y x
CC
o o
) , cov(
=
=
+
+
+
+
= =
on
on on
0 on
off on
on off
on
off on
on of
0
on on
on
)! (
)! (
) / 1 (
)! (
)! (
) / 1 (
,
!
) (
) | (
N
j
j
i
f
i
N
i
sT i
i
j N
j N N
T T
i N
i N N
T T
C
i
e sT T
C N s p
Se debe resaltar que ste es un clculo ambiguo bajo la inferencia frecuentista, aunque hay
algunas publicaciones con aproximaciones no libres de inconsistencias (OMorgain, 1973,
Nature, 241, 376; Cherry et al. 1980, ApJ, 242, 1257)
Ejemplo: medida en la que b n (Kraft et al. 1991, ApJ, 374,344) inconsistencias de los
clculos frecuentistas.
Supngase que b de conoce por un mtodo alternativo con una gran precisin
Clculo frecuentista para constreir s:
Existen muchos mtodos propuestos que no son correctos desde el punto de vista del
planteamiento real del problema (vase Kraft et al.). Lo que s es correcto, es calcular los
lmites de confianza (CL) de un s+b dado, con la funcin de probabilidad
y substraer a estos el b previamente determinado.
Clculo bayesiano:
No existe ninguna ambigedad en el planteamiento del problema. Se deben calcular los CL de
la densidad de la probabilidad posterior P(s| n,b)
El intervalo de s para diferentes valores de CL, n, b se encuentra tabulado, aunque es simple
calcularlo al resolver los CL con la expresin anterior.
b s
n b s
b
N b
N N
s
N s
N N n
n
b s e
N
s e
N
s e
n P
b
b s
s
+ =
+
= =
+
donde ,
!
) (
! !
) (
) (
,
!
) (
!
) (
) (
1
0
n
b n e
i
b e
nb s P
n b s n
i
i b
+
(
=
+