10 votos

Resultados de la regresión tienen límite superior inesperado

Yo trato de predecir un balance score y probado diferentes métodos de regresión. Una cosa que he notado es que la predicción de los valores parecen tener algún tipo de límite superior. Es decir, el saldo real es de $[0.0, 1.0)$, pero mis predicciones superior en alrededor de $0.8$. El siguiente gráfico muestra la real contra de la predicción de equilibrio (predicción de la regresión lineal):

actual vs predicted

Y aquí hay dos gráficas de distribución de los mismos datos:

initial distribution

Desde mi predictores son muy sesgada (datos de usuario con el poder de la ley de distribución), he aplicado un Box-Cox de transformación, que los cambios de los resultados a la siguiente:

actual vs predicted after Box-Cox transformation

distribution after Box-Cox transformation

A pesar de los cambios de la distribución de las predicciones, hay todavía que el límite superior. Así que mis preguntas son:

  • ¿Cuáles son las posibles razones para tales límites superiores en los resultados de la predicción?
  • ¿Cómo puedo arreglar las predicciones se corresponde con la distribución de los valores reales?

Bonus: Desde la distribución después de la Box-Cox transformación parece seguir las distribuciones de la transformación de los predictores, es posible que esto está directamente relacionado? Si es así, hay una transformación que se puede aplicar, para adaptarse a la distribución de los valores reales?

Edit: he utilizado una regresión lineal simple con 5 predictores.

1voto

Paul Robinson Puntos 3226

Su var dep se limita entre 0 y 1 así OLS no es totalmente apropiado, te sugiero por ejemplo regresión beta y puede haber otros métodos. Pero en segundo lugar, después de su transformación box-cox, dices que tus predicciones son limitadas, pero el gráfico no muestra.

0voto

Łukasz Bownik Puntos 2170

Mientras que hay una gran cantidad de enfoque en el uso de regresiones que obedecer los límites de la 0/1, y esto es razonable (y ¡importante!), la pregunta específica de por qué su LPM no predice los resultados de la mayor de 0,8 me parece un poco diferente de la pregunta.

En cualquier caso, se nota un patrón en los residuos, es decir, su modelo lineal se ajusta a la cola superior de la distribución de mal. Esto significa que hay algo que no lineales sobre el modelo correcto.

Soluciones que tienen en cuenta también la 0/1 obligado de los datos: probit, logit, y la beta de la regresión. Esta obligado es crítica y debe ser abordado para que su obra sea riguroso, dado su relativamente cerca de la 1 de la distribución, y por lo tanto el gran número de respuestas sobre el tema.

Generalmente, sin embargo, el problema es que un LPM supera la 0/1 obligado. Este no es el caso aquí! Si usted no está preocupado con la 0/1 atado y activamente desea una solución que puede ser equipado con una (x x)^-1(x i), luego de considerar que tal vez el modelo no está aplicándose de manera lineal. Ajuste del modelo como una función de x^2, de los productos cruzados de las variables independientes, o los registros de las variables independientes pueden ayudar a mejorar su ajuste y, posiblemente, mejorar el poder explicativo de su modelo, por lo que se estima que para valores superiores a 0.8.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X