2 votos

Bondad del modelo de regresión con muy alta $R^2$ y un RMSE muy bajo

He modelado una regresión lasso para un conjunto de características. El modelo parece sospechosamente muy bueno. El $R^2$ se trata de $0.98$ y el $RMSE$ es $0.03$ para la $y$ (el valor previsto) oscila entre 1 y 3000.

Un resultado tan bueno me hace pensar que hay algo mal, dado que hice las pruebas en un conjunto separado que nunca se utilizó en el método (excepto en las pruebas)

¿cómo puedo asegurarme de que el modelo es realmente bueno y de que no hay nada mal hecho?

4voto

icelava Puntos 548

Si realmente has utilizado un conjunto de entrenamiento independiente, entonces las cosas deberían ir bien. Algunas cosas puede simplemente modelizarse y predecirse bastante bien. (Véase la astronomía. Somos realmente bueno para predecir dónde estará Júpiter dentro de unos meses. Lo cual es bueno, porque si no, las sondas se lo perderían).

Por supuesto, hay algunas advertencias. Por ejemplo, puede que haya ejecutado cientos de modelos, cada uno de ellos modelado en los datos de entrenamiento y evaluado en datos de prueba independientes, y ahora se pregunte por qué el modelo con mejores resultados es tan bueno. Esto sería simplemente un caso de "sobreajuste al conjunto de prueba" y, por supuesto, no debería esperar este buen rendimiento con datos realmente nuevos.

O puede que haya utilizado un predictor que, de hecho, sólo esté disponible cuando disponga de los nuevos datos de prueba. Por ejemplo, hace poco un colega mío obtuvo predicciones extremadamente buenas al pronosticar el número de unidades vendidas en una tienda minorista. Sospechaba, y resultó que había incluido inadvertidamente como predictor las ventas en dólares, que, por supuesto, están muy correlacionadas con las ventas por unidad, pero no están disponibles. antes de son las ventas por unidad.

Del mismo modo, una vez mejoré increíblemente mis previsiones de ventas. Entonces me di cuenta de que uno de mis predictores, Volumen de todas las materias primas (ACV) era esencialmente un agregado de la cifra que yo preveía y, por supuesto, no estaría disponible con antelación para la previsión real.

A veces se utiliza la información meteorológica para mejorar las previsiones de ventas. Lo cual está muy bien, pero en realidad deberían utilizar la información meteorológica para mejorar las previsiones de ventas. previsiones no actual porque el tiempo real a dos días vista aún no se conoce cuando pronosticamos las ventas a dos días vista. Un error de este tipo puede hacer que tus predicciones parezcan mucho mejores de lo que realmente serán en un entorno de producción.

(Por cierto, en alemán esto se conoce como mentir en el propio bolsillo (mentir en el propio bolsillo).

Así pues, yo me fijaría en si sus predictores son realmente "honestos" o si ha husmeado en los datos sin darse cuenta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X