Truncamiento

Ahora discuto una situacin donde la variable de respuesta no es binaria o necesariamente entera pero tiene rango limitado.
Esta situacin es un poco ms complicada, porque las restricciones en el rango de una variable dependiente limitada (LDV) puede no ser obvia. Debemos comprender el contexto en el que se generaron los datos, y hay que identificar las restricciones. LDVS modelado por OLS podra ser engaoso. Truncamiento. Algunos LDVs son generados por procesos de truncamiento. Para truncamiento, la muestra se extrae de un subconjunto de la poblacin de manera que slo ciertos valores son incluidos en la muestra. Nos faltan observaciones tanto en la variable de respuesta como en las variables explicativas. Por ejemplo, puede ser que tengamos una muestra de individuos que tienen un diploma de escuela secundaria, una experiencia universitaria o ms ttulos universitarios.la muestra se ha generado a travs de entrevistas a los que terminaron la escuela secundaria. esta es una muestra truncada, con relacin a la poblacin, ya que excluye a todas las personas que no han terminado la escuela secundaria. No es probable que los individuos excluidos tengan las mismas caractersticas que los de nuestra muestra.Por ejemplo podramos esperar que el promedio o ingreso medio de los que abandonaron la escuela sea menor que el de los graduados. El efecto de truncar la distribucin de una variable aleatoria es claro. El valor esperado o la media de la variable aleatoria truncada se aleja del punto de truncamiento, y la varianza se reduce. Estadstica descriptiva sobre los niveles de la educacin en nuestra muestra lo dejan claro: con el ao mnimo de educacin establece en 12, el nivel de educacin media es ms alta de lo que sera si se incluyeran a los que abandonan la escuela secundaria, y la varianza ser menor. En la subpoblacin definida por una muestra truncada, no tenemos informacin sobre las caractersticas de los que fueron excluidos. Por ejemplo nosotros no conocemos si la proporcin de las minoras de los que no terminaron la escuela secundaria excede la proporcin de las minoras en la poblacin. No se puede utilizar una muestra de esta poblacin truncado para hacer inferencias acerca de la poblacin sin corregir para las personas excluidas, no siendo seleccionados al azar de la poblacin en general. Aunque podra parecer que podramos utilizar estos datos truncados para hacer inferencias sobre la subpoblacin, ni siquiera podemos hacer eso. Una regresin estimada a partir de la subpoblacin dar coeficientes que estn sesgados a la baja. Si se trata de una distribucin normal truncada, donde se observa slo si supera r, podemos definir.
10.3.1
---------- pagina 261------------
ao. trucantion superior se puede manejar un poco con la opcin (#), por ejemplo, podemos tener una muestra de individuos cuyo ingreso se registra hasta $ 200.000. podemos especificar truncamiento inferior y superior mediante la combinacin de las opciones. en el siguiente ejemplo, se considera una muestra de mujeres casadas del conjunto de datos laborsub cuyas horas de trabajo (Whrs) se truncan de abajo en cero. otras variables de inters son el nmero de nios en edad preescolar (K16), el nmero de nios en edad escolar (K618), la edad (wa), y los aos de educacin (nosotros).
para ilustrar las consecuencias de ignorar el truncamiento, ajustamos un modelo de horas trabajadas con MCO, incluyendo slo las mujeres que trabajan.
que ahora vuelva a montar el modelo con truncreg, teniendo en cuenta que 100 de las 250 observaciones tienen cero Whrs registrados:
---------- pagina 262------------ algunas de las estimaciones de los coeficientes de regresin atenuadas no son ms que un medio tan grande como sus homlogos de truncreg. el parmetro signa-cons, comparable a la raz MSE en la regresin OLS, es considerablemente mayor en la regresin truncada, lo que refleja su tendencia a la baja en una muestra truncada. podemos utilizar las estimaciones de los coeficientes y effectes marginales de truncreg para hacer inferencias sobre la poblacin total, mientras que no hay que utilizar los resultados del modelo de regresin mal especificado para cualquier propsito.
10.3.2 censura censura es otro mecanismo comn que restringe la gama de variables dependientes. censura se produce cuando una variable de respuesta se establece en un valor arbitrario cuando la variable est ms all del punto de censura. en el caso truncada, observamos que ni el dependiente ni las variables explicativas para las personas cuyo yi se encuentra en la regin de truncamiento. por el contrario, cuando los datos son censurados nosotros no observamos el valor de la variable dependiente para las personas cuyo yi est ms all del punto de la censura, pero s observar los valores de las variables explicativas. un ejemplo comn de censura es "top codificacin", que se produce cuando una variable que toma el valor de x, o ms, se registra como x. por ejemplo, muchos hogares serveys cdigo de arriba report una utilidad de $ 150.000 o $ 200.000.
hay una cierta discusin en la literatura acerca de cmo interpretar algunos LDVS que parecen ser censurado. Como Wooldrige (2002) seala, la censura es un problema con la forma en que se registran los datos, no la forma en que se generaron. por ejemplo, en el ejemplo de arriba codificacin anterior, si los administradores de la encuesta no eligieron superior de cdigo de los datos, no seran censurados los datos. en contraste, algunos resultado LDVS de soluciones de esquina a problemas de eleccin. Por ejemplo, la cantidad que un individuo pasa en un coche nuevo en un ao determinado puede ser cero o positivo. Wooldrige (2002) sostiene que esta LDV es una solucin de esquina, no una variable censurada.Tambin muestra que el objeto de inters para un modelo de solucin de esquina puede ser diferente de la de un modelo censurado. Afortunadamente, tanto la censura y las motivaciones de esquina solucin dan lugar a la misma estimador ML. Por otra parte, las mismas herramientas postestimation stata se pueden utilizar para interpretar los resultados de los modelos censurados y solucin de esquina. Una solucin al problema con la censura a 0 fue propuesto por primera vez por Tobin (1985) como el modelo de regresin censurado; se dio a conocer como "probit de Tobin" o el modelo Tobit. El modelo se puede expresar en trminos de una variable latente: Yi* = xiB + ui Yi = O if yi<0 Yi*if Yi*>0 Yi contiene tambin ceros para los no compradores o una cantidad de dinero positivo para aquellos que optaron por comprar un coche el ao pasado. El modelo combina aspectos de la fot probit binomial que distincin de yi = 0 versus yi> 0 y el modelo de regresin para E [yi | yi> 1, xi]. Por supuesto, podramos contraer todas las observaciones positivas sobre el yi y tratar esto como un probit binomial (o logit) problema de estimacin, pero al hacerlo se deseche la informacin sobre la cantidad de dlares gastados por los compradores. Del mismo modo podramos tirar las observaciones yi = 0, pero le habra quedado con una distribucin truncado con los diversos problemas que crea. Para tener en cuenta toda la informacin de Yi correctamente, hay que ajustar el modelo con el mtodo de estimacin Tobit, que utiliza la mxima probabilidad de combinar los componentes probit y de regresin de la funcin de log-verosimilitud. podemos expresar la probabilidad de registro de una observacin dada como donde (.) = 1 si su argumento es verdadero y es cero en caso contrario. Podemos escribir la funcin de probabilidad, suponiendo Li sobre la muestra, como la suma de la probabilidad probit para aquellas observaciones con yi = 0 y la probabilidad de regresin para estas observaciones con Yi> 0
Podemos definir modelos tobit con un umbral distinto de cero. Podemos especificar la censura desde abajo en cualquier punto en la escala y con la opcin de ll (#) para censurar izquierda. Del mismo modo, la formulacin Tobit estndar puede utilizar un umbral superior (censura desde arriba, o la censura de la derecha) usando la opcin ul (#) para especificar el lmite superior. Comando de Stata Tobit tambin es compatible con el modelo Tobit dos lmite donde las observaciones de y son censurados desde la izquierda y la derecha, indicando tanto las opciones ul (#) y ll (#) . Incluso con un punto de censura, las predicciones del modelo de tobit son complejas, ya que es posible que queramos calcular la regresin como xb a predecir, pero tambin podramos calcular la probabilidad predicha que y (condicionada x) cae dentro de un intervalo determinado (que pueden ser de composicin abierta de la izquierda o la derecha). Podemos hacer lo mismo con el (a, b) Opcin de pr, donde los argumentos a, b especifican los lmites del intervalo, (.) El cdigo de valor faltante se toma en el sentido de infinito (de cualquier signo). otra opcin predicen, e (a, b), calcula la E [XI ter + ui <b]. ltima Ystar la opcin (a, b) calcula la prediccin a partir de (10.8) una prediccin censurado, donde se toma en cuenta el umbral. Los efectos marginales del modelo Tobit tambin son complejos. Los coeficientes estimados son los efectos marginales de un cambio en la XI y *, la variable latente no observable pero esa informacin no suele ser til. El efecto sobre la y es observable donde a, b se definen como anteriormente para predecir. Por ejemplo, para censurar la izquierda en cero, a = 0, b = + infinito. Dado que la probabilidad es en la mayora de la unidad (y se reducir en una proporcin ms grande de proporciones censurados), el efecto marginal de xj es atenuada del coeficiente reportado hacia cero. Un aumento en una variable explicativa con un coeficiente positivo implica que es menos probable que un individuo censurado a la izquierda sea censurado. La probabilidad predicha de un valor distinto de cero se incrementar. Para un individuo sin censura, un aumento de la xi implicar que E [y | y <0] aumentar. As, por ejemplo, una disminucin en la tasa de inters hipotecario permitir a ms personas ser compradores de vivienda (ya que muchos prestatarios ingresos calificaran para un prstamo hipotecario a tasas de inters ms bajas). y permitir que los compradores de vivienda precalificados comprar una casa ms cara. El efecto marginal captura la combinacin de esos efects. Dado que los compradores de vivienda recin titulados compraran la casa ms barata, el efecto de la tasa de inters ms baja en el precio medio al que se venden casas incorporar ambos efectos. Esperamos que aumentar el precio medio de las transacciones, pero a causa de la atenuacin, por una cantidad menor que el componente de la funcin de regresin del modelo indicara.
Podemos calcular los efectos marginales con mfx o, para los efectos medios marginales, con margeff de Bartus Para ver un ejemplo emprico, volvemos a utilizar la base de datos womenwk para ilustrar probit binomial y logit. Generamos el registro del salario (lw) para las mujeres que trabajan y establecer FLM igual a lw para las mujeres y cero para las mujeres que no trabajan. En primer lugar, ajustar el modelo con MCO, ignorando la naturaleza censurada de la variable de respuesta: ------cuadro pagina 265--------------------------Reparando el modelo como Tobit y que indica que la lwf se deja censurado en cero con la opcin ll () ---cuadro---Las estimaciones Tobit de lwf muestran, efectos positivos y significativos para la edad, el estado civil, el nmero de nios, y el nmero de aos de educacin. Esperamos que cada uno de estos factores para aumentar la probabilidad de que una mujer va a trabajar, as como aumentar su salario condicionado a la situacin laboral. Tras la estimacin Tobit, primero generamos los efectos marginales de cada variable explicativa sobre la probabilidad de que un individuo tendr un registro positivo (salario) mediante la opcin pr (a, b) de predecir. -------cuadro pag 266--A continuacin, calcular el efecto marginal de cada variable explicativa sobre el salario diario era de esperar, ya que el individuo no ha sido censurado (es decir, estaba trabajando). Estos efectos, a diferencia de los coeficientes estimados de regresin, tomen debidamente en cuenta la naturaleza censurada de la variable de respuesta. ----cuadro--Dado que el modelo Tobit tiene un componente probit, sus resultados son sensibles al supuesto de homocedasticidad. Los errores estndar robustos no estn disponibles para el comando tobit , aunque bootstrap o errores estndar jackknife se pueden calcular con la opcin vce. El modelo Tobit impone la restriccin de que el mismo conjunto de factores x determinar tanto si una observacin es censurada (por ejemplo, si un individuo comprar un coche) y el valor de una observacin noncensured (cuanto gasta un comprador en el coche).
Por otra parte, el efecto marginal est obligado a tener el mismo signo en ambas partes del modelo. Una generalizacin del modelo de Tobit, a menudo se denomina el modelo Heckit (despus de que James Heckman), se puede relajar esta restriccin y permitir diferentes factores que entran en las dos partes del modelo. podemos incluir este modelo Tobit generalizado con el comando heckman de stata, como se describe en la siguiente seccin de este captulo. 10.4 modelos de muestra de seleccin y truncamiento incidental. Para truncamiento, la muestra extrada de un subconjunto de la poblacin y no contiene observaciones sobre las variables dependientes o independientes de cualquier otro grupo de la poblacin. Por ejemplo, una muestra truncada podra incluir slo las personas con una direccin postal permanente y excluye a las personas sin hogar. Por truncamiento incidental, la muestra es representativa de toda la poblacin, pero las observaciones de la variable dependiente se truncan segn una regla cuyos errores estn correlacionados con los errores de la ecuacin de inters. No observamos y debido al resultado de alguna otra variable, que genera el indicador de seleccin, s. Para entender la cuestin de la seleccin de la muestra, considere un modelo de poblacin en el que la relacin entre y y un conjunto de factores explicativos x puede ser escrito como un modelo lineal con el error u aditivo. Ese error se asume para satisfacer el supuesto condicional de media cero de (4.2). Ahora consideramos que observamos slo algunas de las observaciones yi-por cualquier razn-y la variable indicadora si es igual a 1 cuando se observa tanto Yi y Xi y es cero en caso contrario. Si nos limitamos a correr una regresin en las observaciones Yi= XiB + Ui en la muestra completa, las observaciones con valores perdidos de Yi (o cualquier elemento de Xi) sern retirados del anlisis. Podemos reescribir esta regresin como ---formula--El estimador OLS b ^ de (10,10) se obtendrn los mismos clculos como el de (10.9). Ellos sern imparciales y consistentes si el trmino siui error tiene media cero y no est correlacionado con cada elemento de Xi. Para la poblacin, estas condiciones se pueden escribir como porque s ^ 2 = s. Esta condicin difiere de la de una ecuacin de regresin estndar (sin seleccin), donde la suposicin-condicional de media cero correspondiente slo requiere que E [Xu] = 0. En la presencia de la seleccin, el proceso de error u debe ser correlacionada con sx.
Tenga en cuenta la fuente de la muestra de indicador si de seleccin. Si ese indicador es puramente una funcin de las variables explicativas en x, se tiene seleccin de la muestra exgena. si las variables explicativas en x no estn correlacionados con u, al igual que el producto sx. OLS regresin estimada en un subconjunto producir estimaciones insesgadas y consistentes. Por ejemplo, si el gnero es una de las variables explicativas, se puede estimar regresiones separadas para hombres y mujeres sin ninguna dificultad. Hemos seleccionado una submuestra basado en las caractersticas observables, por ejemplo, si identifica el conjunto de observaciones para las hembras. Tambin podemos considerar la seleccin de una submuestra aleatoria. Si la muestra total es una muestra aleatoria de la poblacin y el uso de comandos de ejemplo de Stata para dibujar un 10%, 20% o 50% submuestra, las estimaciones de esa submuestra ser consistente, siempre y cuando las estimaciones de la muestra total son consistentes . En este caso, si se establece al azar. Si se establece por regla general, como si = 1 si yi <c, entonces como en la seccin 10.3.1, las estimaciones MCO estar sesgado e inconsistente. Podemos reescribir la regla como si = 1 si ui <(cXI ter), que deja claro que si debe estar correlacionada con ui. Como puede observarse, hay que utilizar el modelo de regresin truncada para obtener estimaciones consistentes. Pag 268 Truncamiento incidental significa que observamos Yi basada no en su valor, sino en el resultado observado de otra variable. Por ejemplo, observamos salario por hora cuando individuo participa en la fuerza laboral. Podemos imaginar colocar una probit binomial o modelo logit que predice la probabilidad del individuo de la participacin. En esta circunstancia, si se establece en cero o uno basado en los factores subyacentes a dicha decisin. Dnde se supone que los factores explicativos de x satisfacen la hiptesis condicional de media cero E [xu] = 0. La funcin I (.) Es igual a 1 si su argumento es verdadero y es cero en caso contrario. Observamos yi si si = 1. La funcin de seleccin contiene un conjunto de factores explicativos z, el cual debe ser un superconjunto de x. Para nosotros, para identificar el modelo, z contiene toda x, pero tambin debe contener ms factores que no aparecen en x1 se supone que el trmino de error en la ecuacin de seleccin, v, a tener un-condicional media cero: E [zv] = 0, lo que implica que E [XV] = 0. Suponemos que v sigue una distribucin normal estndar.
1
como se discute Wooldridge (2006), cuando Z contiene las mismas variables que x los parmetros se identifican tericamente, pero esta identificacin es por lo general demasiado dbil para ser aplicado en la prctica.
Truncamiento incidental surge cuando existe una correlacin distinta de cero entre u y v Si estos dos procesos se distribuyen normalmente con cero significa, la expectativa condicional E [u | v] = pv, donde p es la correlacin de u y v A partir de (10.11 ) No podemos observar v, s, pero es una relacionada con v por (10.2). La ecuacin (10.13) se convierte a continuacin La esperanza condicional E [v | z, s] por si = 1, el caso de observabilidad, no es ms que lambda, la tasa de mortalidad infantil se define en la seccin 10.3.1 Por lo tanto, debemos aumentar (10,11) con ese trmino: Si p = 0, estimaciones MCO de la muestra truncada por cierto no estimar consistentemente B menos que se incluya el trmino IMR. A la inversa, si p = 0, que OLS regresin proporciona estimaciones consistentes. el trmino IMR incluye los parmetros poblacionales desconocidos r, cosa que puede ser instalado por un modelo probit binomial

Truncamiento

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Truncamiento

Uploaded by

Copyright:

Available Formats

Ahora discuto una situacin donde la variable de respuesta no es binaria o necesariamente entera pero tiene rango limitado.

---------- pagina 261------------

You might also like