1 votos

¿Existe algún tipo de comprobación de cordura para un valor R2 elevado?

Estoy entrenando a un RandomForestRegressor Modelar con Scikit-Learn para modelar un proceso físico. El conjunto de datos tiene las siguientes propiedades:

  • 450'000 muestras, 42 características
  • Prueba de entrenamiento dividida en 80/20

Al calcular la puntuación de la prueba, obtengo un valor R2 de la prueba de 0,985 y un prueba RMSE de 0,71 . He visualizado los resultados en el siguiente gráfico (y_pred vs. y_test):

enter image description here

[UPDATE1] se ha añadido una figura con s=1 y alfa = 0,1 enter image description here

[UPDATE2] se ha añadido el histograma con los residuos

enter image description here

Tengo mis sospechas sobre el alto valor de la prueba R2. Aunque el gráfico indica un ajuste relativamente bueno, el valor de prueba y el de predicción no coinciden "perfectamente". No tengo mucha intuición sobre qué esperar del valor R2 en este caso.

¿Alguien tiene una idea, si un R2 tan alto es plausible? ¿Existe alguna comprobación de cordura (además de utilizar un conjunto de pruebas) que pueda aplicar para verificar mis resultados? Gracias.

1voto

David Puntos 41

Nick Cox hizo un buen comentario: en algunos conjuntos de datos, es fácil (y podemos esperar) obtener un buen rendimiento.

En caso de que esperemos que haya alguna trampa en el proceso, porque desde el conocimiento del dominio sabemos que las características no son tan indicativas para el objetivo. Puede comprobar algunos fuga de datos problemas.

Por ejemplo, los datos de entrenamiento y los datos de prueba se superponen, y existen características de engaño muy fuertes.

Un post relacionado se puede encontrar aquí, y la respuesta en ese post puede ser muy útil en su caso.

¿Cómo puedo detectar rápidamente las variables tramposas en grandes datos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X