Professional Documents
Culture Documents
MONOGRAFÍA
Para optar el Título de Licenciado en Estadística
AUTOR
LIMA – PERÚ
2005
36
3.1.1 HISTORIA
Conteos en el tiempo:
Conteos en el espacio:
La ley de los eventos raros establece que el número total de eventos seguirá una
distribución de Poisson si un evento puede ocurrir en cualquier punto del tiempo o
espacio bajo observación pero la probabilidad de ocurrencia en un punto determinado es
pequeña (Cameron y Trivedi, 1998). De hecho, tal como indica King (1988)
habitualmente se asume que el mecanismo generador de datos que produce recuento de
eventos es, con independencia de su probabilidad de ocurrencia, Poisson.
tales como visitar al doctor en cierto año. En todas estas situaciones de interés
práctico la variable respuesta en un estudio observacional o experimental es un conteo.
a) La variable respuesta
Cuando los conteos tienen un límite superior muy pequeño (por ejemplo, el
número de jugadores lesionados en una escuadra de 24 es a lo más 24), los conteos de
39
En todos los casos de una regresión de Poisson los valores de la variable son
discretos, digamos 0,1,2,… sin un límite superior; sesgados hacia la izquierda e
intrínsecamente heterocedásticos, es decir con una varianza que se incrementa
paralelamente con la media.
µy e − µ
f ( y ,µ) = ,y = 0,1,2,3,... y µ> 0
y!
( y − µ) / µ1 / 2 ~ N (0,1) (III.4)
desviación estándar µ.
41
*Enlace Identidad: g ( µ) = µ
Sin embargo, estas funciones de enlace pueden ser problemáticas para las
p
predicciones de µi , ya que g ( µˆ i ) = ∑ x ij βˆ j podría ser negativo.
j =1
ε ~ Poisson ( µ) .
42
ηi = βT xi .
g ( µi ) = log( µi )
xip β p
= e xi 1β1 ....e
= g −1 ( xi 1 β1 )... g −1 ( xip βp )
Con este modelo las funciones de las covariables tienen un efecto multiplicativo
sobre la respuesta media µ.
Los elementos básicos para plantear un modelo de regresión Poisson son: una
variable respuesta Y basada en conteos, para la que s e asume una distribución Poisson y
un conjunto de variables explicativas X1 ,..., X p , que determinan las condiciones
43
Si por ejemplo, nos interesara determinar qué variables están relacionadas con el
número de quejas que reciben los médicos a lo largo de un año, deberíamos tomar en
cuenta como una variable de “exposición o control” el número de consultas que realizó
cada médico a lo largo del año. La variable log(t ) , donde t es el número de consultas,
actúa como un offset, esto es, influye en la respuesta media directamente, ya que es
lógico asumir que a más consultas, puede existir mayor número de quejas.
El modelo será:
p
log( E( Yi )) = log( ti ) + ∑ xi j βj i = 1, 2,..., n (III.7)
j =1
Dado que un cambio de una unidad en log(t ) provoca un cambio de una unidad
La ecuación del Modelo de Regresión Poisson que permite obtener los valores
de conteo esperados, incorporando a la variable offset es:
µi = t i exp( xi β) , (III.8)
donde ti es un vector columna que contiene los valores de exposición para cada unidad
de observación.
44
3.4.2 EQUIDISPERSIÓN
n
V ( βˆ ) = ( ∑ xi xi 'yˆi ) −1 , (III.11)
i =1
Para una variable explicativa binaria denotada por una variable indicadora
( X j = 0 si el factor está ausente o X j = 1 si está presente), el riesgo relativo para la
E (Y / X = 1)
RR = = eβ (III.13)
E(Y / X = 0)
Similarmente, para una variable explicativa continua X k , un incremento de una
∑(y i −µ
ˆ i ) = 0 , por tanto la función desvío se expresa en su forma más usual como
i =1
n
ˆ ) = 2∑ y i log( y i / µ
D ( y ;µ ˆ i ) , donde y es el número de eventos, n es el número de
i =1
χn2− p , donde n-p es el número de grados de libertad del modelo, siendo n el número de
los regresores.
n
( yi − µˆ i )2
X2 = ∑ (III.16)
i =1 V (µˆi )
Esta estadística se usa como una medida de bondad de ajuste, ya que se calcula a partir
de los datos y del modelo ajustado.
Poisson por:
n
Λ RV = 2∑ yi ln( µˆ oi / µˆ i ) . (III.17)
i =1
3.4.5.5 LA ESTADÍSTICA F
El análisis de los residuos del ajuste del modelo nos va a permitir explorar la
adecuación del modelo. Como ya se vio en el capítulo anterior en la sección (2.1.5.2.1)
esperamos que los residuos tengan un comportamiento aleatorio con media cero y
varianza constante y que además no existan datos atípicos. Los residuos más
utilizados en el MRP son por ejemplo el Residual Pearson, el cual es:
yi − µˆi
ri p = ; i = 1,2,..., n (III.19)
µˆi
3.4.7 LA SOBREDISPERSIÓN
sobredispersión ocurre cuando V (Y ) > E(Y ) , es decir σ 2 > 1 . Cuando existe exceso de
variación en los datos, las estimaciones de los errores estándar pueden resultar sesgadas,
pudiendo presentarse errores en las inferencias a partir de los parámetros del modelo de
regresión (Krzanowski, 1998).
caso, sería más conveniente modelar el número de ocurrencias a través de una Binomial
Negativa. La interpretación de los resultados sería la misma que en el caso de la
Regresión Poisson.
capítulo anterior y se aleja de la extensión del presente trabajo, sin embargo existen
ejemplos de esta clase de aplicación, los cuales son presentados en McCullagh y Nelder
(1991). De esta manera, la estimación pasa a ser semiparamétrica o robusta pero hay
que tener cuidado con estas estimaciones pues pueden ser en general “inconsistentes e
ineficientes” según Winkelmann (2000, p.84).