Yo trato de predecir un balance score y probado diferentes métodos de regresión. Una cosa que he notado es que la predicción de los valores parecen tener algún tipo de límite superior. Es decir, el saldo real es de $[0.0, 1.0)$, pero mis predicciones superior en alrededor de $0.8$. El siguiente gráfico muestra la real contra de la predicción de equilibrio (predicción de la regresión lineal):
Y aquí hay dos gráficas de distribución de los mismos datos:
Desde mi predictores son muy sesgada (datos de usuario con el poder de la ley de distribución), he aplicado un Box-Cox de transformación, que los cambios de los resultados a la siguiente:
A pesar de los cambios de la distribución de las predicciones, hay todavía que el límite superior. Así que mis preguntas son:
- ¿Cuáles son las posibles razones para tales límites superiores en los resultados de la predicción?
- ¿Cómo puedo arreglar las predicciones se corresponde con la distribución de los valores reales?
Bonus: Desde la distribución después de la Box-Cox transformación parece seguir las distribuciones de la transformación de los predictores, es posible que esto está directamente relacionado? Si es así, hay una transformación que se puede aplicar, para adaptarse a la distribución de los valores reales?
Edit: he utilizado una regresión lineal simple con 5 predictores.