¿Existe algún tipo de comprobación de cordura para un valor R2 elevado?

Question

¿Existe algún tipo de comprobación de cordura para un valor R2 elevado?

Preguntado el 12 de Mayo, 2020: Cuando se hizo la pregunta
95 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy entrenando a un RandomForestRegressor Modelar con Scikit-Learn para modelar un proceso físico. El conjunto de datos tiene las siguientes propiedades:

450'000 muestras, 42 características
Prueba de entrenamiento dividida en 80/20

Al calcular la puntuación de la prueba, obtengo un valor R2 de la prueba de 0,985 y un prueba RMSE de 0,71 . He visualizado los resultados en el siguiente gráfico (y_pred vs. y_test):

[UPDATE1] se ha añadido una figura con s=1 y alfa = 0,1

[UPDATE2] se ha añadido el histograma con los residuos

Tengo mis sospechas sobre el alto valor de la prueba R2. Aunque el gráfico indica un ajuste relativamente bueno, el valor de prueba y el de predicción no coinciden "perfectamente". No tengo mucha intuición sobre qué esperar del valor R2 en este caso.

¿Alguien tiene una idea, si un R2 tan alto es plausible? ¿Existe alguna comprobación de cordura (además de utilizar un conjunto de pruebas) que pueda aplicar para verificar mis resultados? Gracias.

Preguntado el 12 de Mayo, 2020 por lux7

Answer 1

1 Respuestas

Answer 2

1voto

David Puntos 41

Nick Cox hizo un buen comentario: en algunos conjuntos de datos, es fácil (y podemos esperar) obtener un buen rendimiento.

En caso de que esperemos que haya alguna trampa en el proceso, porque desde el conocimiento del dominio sabemos que las características no son tan indicativas para el objetivo. Puede comprobar algunos fuga de datos problemas.

Por ejemplo, los datos de entrenamiento y los datos de prueba se superponen, y existen características de engaño muy fuertes.

Un post relacionado se puede encontrar aquí, y la respuesta en ese post puede ser muy útil en su caso.

¿Cómo puedo detectar rápidamente las variables tramposas en grandes datos?

Respondido el 12 de Mayo, 2020 por David (41 Puntos )

¿Existe algún tipo de comprobación de cordura para un valor R2 elevado?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Existe algún tipo de comprobación de cordura para un valor R2 elevado?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: