You are on page 1of 13

CONFIABILIDAD I TRABAJO FINAL 1 ZENAIDA MARTINEZ JERNIMO

ANLISIS DE DATOS CENSURADOS DE UNA POBLACIN La siguiente base de datos es el tiempo de supervivencia en meses de cada paciente y un censurar la informacin. CENSOR = 1 si el dato no es censurada y CENSOR = 0 si el dato es correcto-censurado. Este conjunto de datos es proporcionada por David W. Hosmer & Stanley Lemeshow, Applied Survival Analysis, Wi-ley Interscience, 1999.
TIME 5 6 8 3 22 1 7 9 3 12 2 12 1 15 34 1 4 19 3 2 2 6 60 7 60 CENSOR 1 0 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 0 0 1 0 1 0 0 0 TIME 11 2 5 4 1 13 3 2 1 30 7 4 8 5 10 2 9 36 3 9 3 35 8 1 5 CENSOR 1 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 TIME 11 56 2 3 15 1 10 1 7 3 3 2 32 3 10 11 3 7 5 31 5 58 1 2 1 CENSOR 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 0 1 0 1 0 0 1 TIME 3 43 1 6 53 14 4 54 1 1 8 5 1 1 2 7 1 10 24 7 12 4 57 1 12 CENSOR 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0

Algunos de los pacientes sobrevivan en el momento en que los datos fueron recogidos, y los pacientes tienen una vida que no ha fallado, la cual estar censurada por la derecha. times, es la variable que representa ya sea un tiempo de falla o un tiempo en meses de cada paciente. La variable censor es igual a 0 si el valor de la vida tuvo su tiempo de falla, y es igual a 1 si el valor es un tiempo de censura. Ahora se elegir un modelo, para lo cual nos apoyaremos de programa visto en clase selecciondemodelos.r

CONFIABILIDAD I TRABAJO FINAL 2 ZENAIDA MARTINEZ JERNIMO Criterio de Informacin Bayesiana Supone una correccin del criterio de verosimilitud considerando el nmero de parmetros estimados y el nmero de datos. Se prefiere el modelo con el menor nmero de BIC. Realizando un ajuste para diferentes modelos Weibull, gamma, exponencial, Log-normal.
Para nuestros datos obtenemos lo siguiente: > CIBW #Para Distribucin Weibull [1] 167.2368 > CIBG #Para Distribucin Gamma [1] 167.0435 > CIBE #Para Distribucin Exponencial [1] 166.0036 > CIBLN #Para Distribucin Log-normal [1] 167.6615 Dado el BIC, podemos concluir que el modelo que mejor ajusta a nuestros datos es el de la Distribucin Exponencial, debido a que cuenta con el menor BIC=169.4145. Anlisis de acuerdo a las pruebas de bondad de ajuste. Nuestra regla de decisin es rechazar el modelo
W es inferior al nivel de significatividad dado ( cuando el p-valor asociado al valor estadistico

, para lo cual comenzaremos probando:

pchisq(W, df=1, lower.tail = F) [1] 0.1436185 Por lo que podemos no rechazar la hiptesis nula, es decir aceptamos que nuestro modelo sea exponencial a que sea Weibull, con esto podemos concluir que nuestros datos se pueden ajustar a un modelo de Distribucin Exponencial.

pchisq(W, df=1, lower.tail = F); [1] 0.112027 Por lo que podemos no rechazar la hiptesis nula, es decir aceptamos que nuestro modelo sea exponencial a que sea Gamma, con esto podemos concluir que nuestros datos se pueden ajustar a un modelo de Distribucin Exponencial. Ajustar grficamente los modelos tericos.

CONFIABILIDAD I TRABAJO FINAL 3 ZENAIDA MARTINEZ JERNIMO


Exponencial

Cuantiles teoricos

0
0

20

40

60

80

100

120

10

20

30 Cuantiles emp

40

50

60

Lognormal

Cuantiles teoricos

0
0

50

100

150

10

20

30 Cuantiles emp

40

50

60

CONFIABILIDAD I TRABAJO FINAL 4 ZENAIDA MARTINEZ JERNIMO


Gamma
80 Cuantiles teoricos 0
0

20

40

60

10

20

30 Cuantiles emp

40

50

60

Weibull
100 Cuantiles teoricos 0
0

20

40

60

80

10

20

30 Cuantiles emp

40

50

60

La distribucin exponencial, es la que se puede ver que se ajusta pero tambin la gamma y las otras, como en la prueba Criterio de Informacin Bayesiana el menor nmero de BIC no tiene mucha diferencia con las otras, esto se puede observar tambin en estas grficas , que coincide con la conclusin obtenida a travs de pruebas de hiptesis.
Despus de haber ajustado los cuatro modelos y de haber realizado las dos pruebas de hiptesis de la exponencial contra los otros modelos, podemos escoger el modelo exponencial, en funcin del criterio de Informacin Bayesiano.

CONFIABILIDAD I TRABAJO FINAL 5 ZENAIDA MARTINEZ JERNIMO


Estimador de Kaplan-Meier.

El procedimiento de Kaplan-Meier (estimador no paramtrico) es usado de forma muy amplia un muchos campos experimentales en donde aparecen de una forma u otra datos de duracin y supervivencia. Este proceso es una forma conveniente de estimar la funcin de supervivencia o confiabilidad a partir de unos datos empricos con valores censurados.
time: los puntos de tiempo en la curva. n.risk: el nmero de sujetos en situacin de riesgo en el tiempo t-0, n.event: si el argumento tiempo falta, entonces esta columna es el nmero de eventos que se produjeron en el momento t. De lo contrario, es el nmero acumulado de acontecimientos que se han producido desde la ltima vez que aparece hasta el tiempo t +0. survival: es la estimacin de la confiabilidad en el tiempo t+0, la siguiente columna es su respectivo error estndar y sus intervalos de confianza.

Con el programa visto en clase Kaplan-Meier.r:

time n.risk n.event survival std.err lower 99% CI upper 99% CI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 100 83 73 61 56 49 46 39 35 32 28 25 21 20 19 3 0.9700 0.0171 1 0.9583 0.0205 2 0.9321 0.0270 1 0.9168 0.0306 2 0.8840 0.0373 1 0.8660 0.0406 1 0.8472 0.0439 1 0.8254 0.0478 1 0.8019 0.0520 3 0.7267 0.0627 3 0.6488 0.0702 2 0.5969 0.0736 1 0.5685 0.0754 1 0.5401 0.0768 2 0.4832 0.0785 0.87391 0.85641 0.81582 0.79148 0.74273 0.71656 0.69013 0.65852 0.62483 0.52725 0.43860 0.38490 0.35562 0.32751 0.27442 0.993 0.988 0.976 0.968 0.950 0.940 0.929 0.916 0.902 0.853 0.797 0.757 0.735 0.712 0.664

CONFIABILIDAD I TRABAJO FINAL 6 ZENAIDA MARTINEZ JERNIMO 22 30 31 32 34 35 36 43 53 54 57 58 16 14 13 12 11 10 9 8 7 6 4 3 1 0.4530 0.0792 1 0.4207 0.0799 1 0.3883 0.0800 1 0.3559 0.0796 1 0.3236 0.0787 1 0.2912 0.0772 1 0.2589 0.0751 1 0.2265 0.0723 1 0.1942 0.0689 1 0.1618 0.0645 1 0.1213 0.0598 1 0.0809 0.0517 0.24699 0.21797 0.19052 0.16455 0.14005 0.11701 0.09545 0.07547 0.05715 0.04068 0.02131 0.00789 0.639 0.611 0.583 0.554 0.523 0.492 0.460 0.426 0.391 0.355 0.315 0.271

La correspondiente grfica de funcin de supervivencia y de riesgo, se muestra a continuacin:

0.0
0

0.2

0.4

0.6

0.8

1.0

10

20

30

40

50

60

De acuerdo al modelo seleccionado

, se estim los prametros:

CONFIABILIDAD I TRABAJO FINAL 7 ZENAIDA MARTINEZ JERNIMO


Por mxima Verosimilitud: ajusteW; $minimum [1] 162.6316 $estimate [1] 29.50962 1.18284 $gradient [1] -2.600461e-08 2.162553e-07 $hessian [,1] [,2] [1,] 0.05942174 0.1953325 [2,] 0.19533252 59.4347245 $code [1] 1 $iterations [1] 11

Por lo que

CORRIDA EN R.

CONFIABILIDAD I TRABAJO FINAL 8 ZENAIDA MARTINEZ JERNIMO #___________________________________DATOS_______________________ 0=datos censurados, 1=datos no censurados. times<c(5,6,8,3,22,1,7,9,3,12,2,12,1,15,34,1,4,19,3,2,2,6,60,7,60,11,2,5,4,1,13,3,2,1,30,7,4, 8,5,10,2,9,36,3,9,3,35,8,1,5,11,56,2,3,15,1,10,1,7,3,3,2,32,3,10,11,3,7,5,31,5,58,1,2,1,3,43, 1,6,53,14,4,54,1,1,8,5,1,1,2,7,1,10,24,7,12,4,57,1,12); censor<c(1,0,1,1,1,0,1,1,1,1,0,1,1,1,1,1,1,0,0,1,0,1,0,0,0,1,0,1,0,0,1,0,0,0,1,0,0,0,0,1,0,0,1,0 ,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,0,0,0,1,0,0,1,0,0,0,1,0,1,0,0,1,0,1,0,1,1,0,1,0,0,0,0,0,0,0,0,0,1,0 ,0,0,0,1,0,0); #____________________________AJUSTE WEIBULL____________________ #ingresar el nombre de los elementos #t=tiempos #c=vector de lavariable indicadora de censura mloglW <- function(theta,t,c){ #funcin {log(L(theta)) alpha <- theta[1]; eta <- theta[2]; log1 <- log(prod((dweibull(t, shape=eta, scale = alpha))^c)* prod((pweibull(t, shape=eta, scale = alpha, lower.tail = F))^(1-c))); return(-log1); #nuestros mtodos hacen minimizaciones en lugar de maximizaciones } fun<-function(eta,datos) { f<-(mean(datos)/gamma(1/eta+1))^2*(gamma(2/eta+1)-(gamma(1/eta+1))^2)-var(datos); return(f) } #Estimacion de eta por el mtodo de momentos

CONFIABILIDAD I TRABAJO FINAL 9 ZENAIDA MARTINEZ JERNIMO #uniroot=calcula las raices de la funcion con respecto al primer argumento eta. eta.mom <- uniroot(fun,c(0.02,100),datos=times)$root #uniroot busca la raiz de la funcin fun en el intervalo [0,100] alpha.mom <- mean(times)/gamma(1/eta.mom+1); eta.mom; alpha.mom; #Estimacin mxima verosimilitud. ajusteW <- nlm(mloglW,c(alpha.mom,eta.mom),hessian = TRUE, t = times,c=censor); ajusteW; #p=2 porque tenemos dos parmetros. p <- 2; #Criterio de informacin bayeisna. CIBW <- mloglW(ajusteW$estimate,t=times,c=censor)+(p/2)*log(length(times)); #_________________________AJUSTE GAMMA______________________________ mloglG <- function(theta,t,c){ lambda <- theta[1]; rho <- theta[2]; log1 <- log(prod((dgamma(t, shape=rho, rate = lambda))^c)* prod((pgamma(t, shape=rho, rate = lambda, lower.tail = F))^(1-c))); return(-log1); }

#Estimacion de lambda y rho por el metodo de momentos.

CONFIABILIDAD I TRABAJO FINAL 10 ZENAIDA MARTINEZ JERNIMO lambda.mom <- mean(times)/var(times); rho.mom <- (mean(times))^2/var(times); #Estimacin mxima verosimilitud. ajusteG <- nlm(mloglG,c(lambda.mom,rho.mom),hessian = TRUE, t = times,c=censor); ajusteG; p <- 2; #Criterio de informacin bayeisna. CIBG <- mloglG(ajusteG$estimate,t=times,c=censor)+(p/2)*log(length(times)); #______________AJUSTE EXPONENCIAL___________________________________ mloglE <- function(lambda,t,c){ r <- sum(censor); log1 <- log(prod((dexp(t,rate=lambda))^c)* prod((pexp(t,rate=lambda,lower.tail=F))^(1-c))); return(-log1); } #Estimacin mxima verosimilitud ajusteE <- nlm(mloglE,1/mean(times),hessian = TRUE, t = times, c=censor); ajusteE; #1/mean(times) #suma(censor)/(sum(times)) p <- 1; #Criterio de informacin bayeisna. CIBE <- mloglE(ajusteE$estimate,t=times,c=censor)+(p/2)*log(length(times));

#_____________________________AJUSTE LOGNORMAL____________________

CONFIABILIDAD I TRABAJO FINAL 11 ZENAIDA MARTINEZ JERNIMO mloglLN <- function(theta,t,c){ mu <- theta[1]; sigma <- theta[2]; log1 <- log(prod((dlnorm(t, meanlog=mu, sdlog = sigma))^c)* prod((plnorm(t, meanlog=mu, sdlog = sigma, lower.tail = F))^(1-c))); return(-log1); } ##Estimacin mxima verosimilitud. ajusteLN <- nlm(mloglLN,c(mean(log(times)),sd(log(times))),hessian = TRUE, t = times, c=censor); ajusteLN; p <- 2; #Criterio de informacin bayeisna. CIBLN <- mloglLN(ajusteLN$estimate,t=times,c=censor)+(p/2)*log(length(times)); #COMPARACIONES # CIBW CIBG CIBE CIBLN

#Prueba hipotesis Ho: Exponencial Ha:Weibull.

CONFIABILIDAD I TRABAJO FINAL 12 ZENAIDA MARTINEZ JERNIMO W <- -2*(-ajusteE$minimum+ajusteW$minimum); pchisq(W, df=1, lower.tail = F)

#Prueba hipotesis Ho: Exponencial Ha:Gamma. W <- -2*(-ajusteE$minimum+ajusteG$minimum); pchisq(W, df=1, lower.tail = F); #GRAFICAS. #qqexponencial qqplot(times[censor==1],rexp(sum(censor),ajusteE$estimate),xlab='Cuantiles emp', ylab='Cuantiles teoricos',,main='Exponencial') abline(0,1) #qqlog qqplot(times[censor==1],rlnorm(sum(censor), ajusteLN$estimate[1],ajusteLN$estimate[2]), xlab='Cuantiles emp',ylab='Cuantiles teoricos',main='Lognormal') abline(0,1) #qqgamma qqplot(times[censor==1],rgamma(sum(censor), shape=ajusteG$estimate[2], rate=ajusteG$estimate[1]),xlab='Cuantiles emp',ylab='Cuantiles teoricos',main='Gama') abline(0,1) #qqweibull qqplot(times[censor==1],rweibull(sum(censor), shape=ajusteW$estimate[2], scale=ajusteW$estimate[1]),xlab='Cuantiles emp',ylab='Cuantiles teoricos',main='Weibull') abline(0,1) # ESTIMADOR DE KAPLAN-MEIER

CONFIABILIDAD I TRABAJO FINAL 13 ZENAIDA MARTINEZ JERNIMO # Calcula el estimador de K-M para los datos library(survival) ?survfit fit <- survfit(Surv(times, censor) ~ 1,type=c("kaplan-meier"),error=c("greenwood"), conf.type='log-log',conf.int=0.99);

# nombres de las variables almacenadas en fit names(fit); # Resumen de fit summary(fit) # Grafica de del KM plot(fit) abline(h=0) ### Para calcular R^(t) para t=7450, 8500 y 11500 summary(fit, times = c(7450, 8500 , 11500)) #ESTIMADORES DE LOS PARMETROS. #ESTIMACIN MXIMA VEROSIMILITUD. ajusteW <- nlm(mloglW,c(alpha.mom,eta.mom),hessian = TRUE, t = times,c=censor); ajusteW;

You might also like