Estoy haciendo algunas regresiones sobre ganancias reales en función de algunas variables diferentes y esto salió:
¿Esto es porque las ganancias no pueden ser negativas?
Estoy haciendo algunas regresiones sobre ganancias reales en función de algunas variables diferentes y esto salió:
¿Esto es porque las ganancias no pueden ser negativas?
Usted puede responder a la pregunta por sí mismo con la simple matemática. Si se observan $y \ge 0$ $\hat y$ denota equipada $y$, luego residual $e = y - \hat y$ debe $\ge -\hat y$. La línea de $e = - \hat y$ es, pues, un límite inferior sobre los residuos. A pesar de su poco convencional eje de la elección, está claro que sus datos siguen el juego.
El problema subyacente es de suponer que el uso de un estándar modelo lineal en los datos no se ajustan a tales. Una manera de avanzar es un log-lineal o de Poisson () modelo: (fortuitamente, pero afortunadamente para el OP como un Programa de usuario) hay un Stata ricos explicación en esta publicación del blog. El anuncio debe ser de gran interés para muchos usuarios de las estadísticas, sin embargo.
P. S. Un estándar residual de la trama de los residuos en el eje vertical y equipada o previstos en el eje horizontal. La elección de los ejes no es aquí una convención arbitraria. Una línea horizontal que indica cero residuos es el natural de la línea de referencia, como indica el comportamiento de la coincidencia de un modelo perfecto. Como han subrayado a menudo por J. W. Tukey y de otros, la mejor de las referencias son lineales, y las mejores referencias lineales son horizontales, en el sentido de ser más fácil que pensar. En Stata hay un built-in post-estimación rvfplot
para usar después de la regress
.
P. P. S. El gráfico banderas de Stata usuario. Naturalmente, el uso de Stata es bastante secundaria de aquí a la pregunta principal.
Hay dos aspectos principales que veo en la trama que espero que usted podría preguntarse acerca de.
(Me tomé la libertad de cambiar su parcela sobre la forma en que estoy más acostumbrado a buscar en ellos, con la cantidad aleatoria en el eje.)
El primer aspecto es lo que parece duro el límite inferior de los valores de y (que es de suponer que 0), como usted sugiere.
La segunda es la forma de abanico ("$<$") en los residuos. Los dos están relacionados con los temas.
La propagación parece ser lineal en la media - de hecho, me imagino proporcional a ella, pero es un poco difícil de decir de esta parcela, ya que su modelo se parece también sesgada a 0.
En ese caso, la varianza es proporcional al cuadrado de la media, lo que sugiere tomar los registros, que trabaja con el registro de ganancias sería una bonita opción común) o el ajuste de un modelo con varianza proporcional a medio cuadrado (tales como Gamma GLM).
[No estoy de acuerdo con Nick en este - Poisson-como el modelo es inadecuado; un cuasi-Poisson tiene varianza proporcional a la media o la desviación estándar proporcional a la raíz cuadrada de la media, por lo que su residuales de la trama sería más parabólico. Este otro no. Como es común con los datos financieros, la desviación estándar es aproximadamente proporcional a la media-de hecho sería algo sorprendente si no fuera, ya que implicaría que sería importa si usted trabajó en dólares o miles de dólares]
Si usted tiene exacto de ceros en los datos, ninguna de estas sugerencias sería adecuado (al menos no sin alguna modificación), pero también hay cero-inflado de los modelos.
Trabajando con un modelo más apropiado para la varianza es probable que mejorar otros aspectos de su modelo.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.