Estoy entrenando a un RandomForestRegressor
Modelar con Scikit-Learn para modelar un proceso físico. El conjunto de datos tiene las siguientes propiedades:
- 450'000 muestras, 42 características
- Prueba de entrenamiento dividida en 80/20
Al calcular la puntuación de la prueba, obtengo un valor R2 de la prueba de 0,985 y un prueba RMSE de 0,71 . He visualizado los resultados en el siguiente gráfico (y_pred vs. y_test):
[UPDATE1] se ha añadido una figura con s=1 y alfa = 0,1
[UPDATE2] se ha añadido el histograma con los residuos
Tengo mis sospechas sobre el alto valor de la prueba R2. Aunque el gráfico indica un ajuste relativamente bueno, el valor de prueba y el de predicción no coinciden "perfectamente". No tengo mucha intuición sobre qué esperar del valor R2 en este caso.
¿Alguien tiene una idea, si un R2 tan alto es plausible? ¿Existe alguna comprobación de cordura (además de utilizar un conjunto de pruebas) que pueda aplicar para verificar mis resultados? Gracias.