1 votos

la regresión lineal predice un nivel inferior al esperado

Estoy tratando de predecir el GPA del primer trimestre para los estudiantes universitarios en base a una serie de factores de entrada (gpa de la escuela secundaria, prueba de nivel, año). Este no es el modelo general sino uno más simple. Las notas del primer trimestre están en el intervalo de 0 a 4, sin embargo las predicciones del modelo lineal OLS (estoy usando sklearn) nunca van más allá de 3,6 (ver imagen). ¿Se trata de algún tipo de problema que se me escapa? Ciertamente, hay datos en el conjunto de entrenamiento con el primer término GPA que está entre 3,6 y 4,0. No esperaba un rendimiento perfecto, pero esto es impar para mí. enter image description here

enter image description here

1 votos

¿Puede mostrarnos los gráficos de diagnóstico del modelo?

0 votos

Creo que la distancia de los cocineros es incorrecta porque tuve que calcularla yo mismo porque no encontré ninguna función fuera de statsmodels que la implemente y no he escrito pruebas o comparado con la salida de R, statsmodels, etc.

0 votos

Sólo con mirar el primer gráfico (de diagnóstico) puede ver que su modelo es fu****. Su variable dependiente está limitada a 0 y 4, por lo que un modelo lineal normal no es válido. Busque la regresión beta. Además, ¿tiene medidas repetidas en sus datos? Es decir, ¿algunos estudiantes tienen más de una puntuación? ¿Hay algún tipo de correlación?

3voto

George Puntos 191

Las predicciones de este tipo no incluyen el "error" de tu modelo: es decir, esperas que aunque tu modelo sea muy bueno, un alumno con alguna combinación de predictores no sea exactamente la predicción, sino que esté por encima o por debajo. La única forma de obtener una predicción de 4 sería si una combinación de predictores diera una estimación que el promedio de GPA para esa combinación observada sería 4. Si el promedio de GPA para esa combinación observada es de 3,6 con un rango de 3,0-4,0, su modelo predeciría 3,6 incluso si esperara que alguna fracción tuviera 4,0; su mejor conjetura para cada estudiante individual es el valor esperado la media. Si en lugar de eso, imaginó sus predicciones como distribuciones de probabilidad encontrarías que estos incluyen 4.0.

Sin embargo, parece que su modelo en sí no es muy bueno: hay mucha diferencia entre sus predicciones y los resultados y muy poca pendiente entre ellos en relación con la varianza.

0 votos

Sí, estoy de acuerdo en que el modelo no es muy bueno. Supongo que me quedé atascado en el valor máximo de predicción, y preguntándome por qué no sería más alto que tratar de afinar en algo que sea predictivo.

0 votos

@Krause Me hace mucha falta una cita formal del argumento que expones claramente, sobre que la varianza de las predicciones es menor que la de las obs. Me he esforzado por encontrar un documento(s) pero hasta ahora sin éxito. ¿Sugerencias, por favor? ¿Tiene el concepto un nombre en el que pueda buscar? Gracias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X