5 votos

Tobit frente a OLS

Hay una variable dependiente que se mide en £ y puede adoptar la forma de £0-£100.000. Se trata del valor del pago realizado. Si adopta la forma de £0, significa que no se ha efectuado ningún pago (porque no se ha autorizado). Si adopta la forma de cualquier número entre £0,01 y £100.000 significa que el pago fue autorizado por esa cantidad.

Nos interesa ver cómo varía el valor del pago en función de otra información que tengamos (variables independientes).

Una de las propuestas que se plantean es utilizar un modelo Tobit con un límite inferior de 0. No he trabajado antes explícitamente con un modelo Tobit, pero no veo por qué es apropiado. Los pagos no pueden ser negativos. No hay censura en 0 - esos puntos en 0 son simplemente aquellos en los que no se han realizado pagos.

Mi intuición es eliminar todas las observaciones en las que el pago realizado es de 0 libras esterlinas y simplemente ejecutar el MCO en las observaciones en las que la variable dependiente es de 0,01 a 100.000 libras esterlinas.

¿Es justificable el enfoque de Tobit? ¿Es tan sencillo como aplicar el método OLS a un conjunto de datos truncados?

Editar - Para aclarar - mi preocupación sobre si el modelo Tobit es apropiado se basa en mi confusión sobre si las respuestas de £0 son "soluciones de esquina". Entiendo, como ejemplo no relacionado, que alguien puede decidir no hacer ninguna donación (0€) o hacer una donación (>0€). Se trata de una decisión tomada con respecto a sus preferencias/opiniones. Sin embargo, un £0 en mi escenario es simplemente una entrada para representar el hecho de que no se ha realizado un pago.

Edit2 - Para aclarar más:

Son muchas las solicitudes de pago que nos llegan. Todas ellas son de entre 0,01 y 100.000 libras esterlinas. Para ser pagados, tienen que ser autorizados. Sólo se autoriza un subconjunto de las solicitudes. Las que no autorizamos reciben un pago de 0 libras.

Así que tenemos 2 campos:

  1. Pagos solicitados: también serán de 0,01 £ a 100.000 £. Nadie solicitará nunca un pago de 0 libras, ya que sería ilógico
  2. Pago efectuado: tendrá la forma de 0,01 £ - 100.000 £ para los pagos que autorizamos y la forma de 0 £ para los pagos que no autorizamos. Esta variable es el centro de nuestro análisis, ya que queremos comprender cómo varía el valor del pago efectuado según la información que tenemos sobre la solicitud (es decir, quién la solicitó, en qué departamento está, para qué fue la solicitud).

Los pagos se solicitan pero no se autorizan porque no cumplen los criterios de elegibilidad que tenemos en la empresa. Por poner un ejemplo algo relacionado: alguien puede solicitar un pago de 50 libras para reembolsar un gasto en el que ha incurrido. Sin embargo, esto quedaría fuera de nuestros criterios de elegibilidad y, por lo tanto, no autorizaríamos el pago y el pago realizado sería de 0€.

Esto me sugiere lo siguiente:

Las entradas de £0 en el campo de pagos realizados se deben a nuestros criterios de elegibilidad como empresa. Las entradas de £0,01 - £100.000 en el campo de pago realizado se deben a la información que tenemos sobre el propio pago.

El ejemplo típico que veo para las "soluciones de esquina" son las donaciones benéficas de un individuo. En este caso, la decisión de dar 0 libras o >0 libras son decisiones tomadas con respecto a las características del individuo.

Así pues, tengo curiosidad por saber si el enfoque de la "solución de esquina" sigue siendo aplicable a mi escenario. Las características que determinan el tamaño del pago realizado y las características que determinan si autorizamos los pagos no son necesariamente las mismas características.

5voto

Andy Puntos 10250

En este caso estás ignorando que un pago entre 0,01€ y 100.000€ no es la única opción, sino que no comprar, es decir, 0€ es una opción en sí misma también. Se trata de dos mecanismos de selección distintos, de los cuales el primero es continuo (el valor del pago) y el segundo es discreto (la decisión de sí o no comprar). Se puede representar esto suponiendo que ambos procesos se extraen de la misma variable latente continua $y_i^*$ que depende linealmente de sus variables explicativas $x_i$ , $$y_i^* = x_i'\beta + \epsilon_i$$ con $\epsilon_i \sim N(0,\sigma^2)$ errores iid. La variable que se observa está censurada por debajo de cero $$ y_i = \begin{cases} y_i^* \;\text{if}\; y_i^* > 0 \\ 0 \;\:\;\text{if}\; y_i^* \leq 0 \end{cases} $$ donde el caso cero se denomina generalmente solución de esquina. Esta variable es una mezcla del mencionado proceso de valores continuos de pago por encima de cero con densidad $$f(y_i|x_i)=\sigma \phi\left[\frac{(y_i - x_i'\beta)}{\sigma}\right]$$ y el proceso de elección discreta de pagar o no, $$ P(y_i=0|x_i) = P(y_i^*\leq 0|x_i) = \Phi\left(\frac{-x_i'\beta}{\sigma}\right) $$

En su modelo de regresión no estimará el efecto parcial $\beta_k$ para una determinada variable explicativa $x_k$ pero en su lugar obtendrá $$ \frac{\partial E(y_i^*|x_i)}{\partial x_{ik}} = \beta_k \Phi\left(\frac{x_i'\beta}{\sigma}\right) $$

Si te interesa saber cómo se llega a esta conclusión, toma la mezcla de $y_i$ y obtener la expectativa condicional para $E(y_i|x_i)$ - en realidad, esto se incluye más abajo si sigue leyendo. A continuación, aplicar el teorema de Frisch-Waugh para obtener el coeficiente $\beta_k$ para una determinada variable explicativa $x_k$ . Esto también debería demostrarse en los libros de texto de econometría como Wooldridge (2010).

McDonald y Moffitt (1980) han demostrado que este efecto parcial puede descomponerse como $$ \frac{\partial E(y_i^*|x_i)}{\partial x_{ik}} = \frac{\partial E(y_i^*|y_i^*>0,x_i)}{\partial x_{ik}}P(y_i^*>0) + \frac{\partial P(y_i^*>0)}{\partial x_{ik}}E(y_i^*|y_i^*>0,x_i) $$ que es el efecto sobre la expectativa condicional de los valores totalmente observados más el efecto sobre la probabilidad de ser totalmente observado. Si se truncan los datos a propósito excluyendo todas las observaciones nulas de la regresión, se deja la segunda parte de este efecto parcial en el término de error, lo que da lugar a un problema de endogeneidad que sesgará los resultados.

Si no se excluyen los casos nulos de los datos, la regresión seguirá estando sesgada porque cuando se ejecuta la regresión $$y_i = x_i'\beta + u_i$$ la expectativa condicional $E(y_i|x_i) = x_i'\beta\Phi\left(\frac{x_i'\beta}{\sigma}\right) + \sigma \phi \left(\frac{x_i'\beta}{\sigma}\right)$ no es una función lineal de $x_i$ .

El modelo Tobit resuelve esto mediante la búsqueda de la solución de la probabilidad logarítmica de la variable de mezcla $y_i$ . Nótese que el modelo Tobit sólo es una solución a este problema si el término de error se distribuye normalmente y es homocedástico. Sin embargo, también hay métodos semiparamétricos que pueden tratar este caso si la normalidad de los residuos no es un supuesto creíble.

Si quiere saber más sobre el modelo Tobit, le recomiendo el capítulo correspondiente del libro de Wooldridge (2010). Si no, también hay algunas excelentes diapositivas de conferencias como Blundell (2014) .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X