Estoy tratando de predecir el GPA del primer trimestre para los estudiantes universitarios en base a una serie de factores de entrada (gpa de la escuela secundaria, prueba de nivel, año). Este no es el modelo general sino uno más simple. Las notas del primer trimestre están en el intervalo de 0 a 4, sin embargo las predicciones del modelo lineal OLS (estoy usando sklearn) nunca van más allá de 3,6 (ver imagen). ¿Se trata de algún tipo de problema que se me escapa? Ciertamente, hay datos en el conjunto de entrenamiento con el primer término GPA que está entre 3,6 y 4,0. No esperaba un rendimiento perfecto, pero esto es impar para mí.
Sí, estoy de acuerdo en que el modelo no es muy bueno. Supongo que me quedé atascado en el valor máximo de predicción, y preguntándome por qué no sería más alto que tratar de afinar en algo que sea predictivo.
1 votos
¿Puede mostrarnos los gráficos de diagnóstico del modelo?
0 votos
Creo que la distancia de los cocineros es incorrecta porque tuve que calcularla yo mismo porque no encontré ninguna función fuera de statsmodels que la implemente y no he escrito pruebas o comparado con la salida de R, statsmodels, etc.
0 votos
Sólo con mirar el primer gráfico (de diagnóstico) puede ver que su modelo es fu****. Su variable dependiente está limitada a 0 y 4, por lo que un modelo lineal normal no es válido. Busque la regresión beta. Además, ¿tiene medidas repetidas en sus datos? Es decir, ¿algunos estudiantes tienen más de una puntuación? ¿Hay algún tipo de correlación?
0 votos
Sí, esto es lo que yo pensaba también y comprobaré la regresión beta. los estudiantes deberían tener una única puntuación aunque algunas sean medias (por ejemplo, la variable de salida es el GPA del primer semestre que es la media de varias puntuaciones).