Si realmente has utilizado un conjunto de entrenamiento independiente, entonces las cosas deberían ir bien. Algunas cosas puede simplemente modelizarse y predecirse bastante bien. (Véase la astronomía. Somos realmente bueno para predecir dónde estará Júpiter dentro de unos meses. Lo cual es bueno, porque si no, las sondas se lo perderían).
Por supuesto, hay algunas advertencias. Por ejemplo, puede que haya ejecutado cientos de modelos, cada uno de ellos modelado en los datos de entrenamiento y evaluado en datos de prueba independientes, y ahora se pregunte por qué el modelo con mejores resultados es tan bueno. Esto sería simplemente un caso de "sobreajuste al conjunto de prueba" y, por supuesto, no debería esperar este buen rendimiento con datos realmente nuevos.
O puede que haya utilizado un predictor que, de hecho, sólo esté disponible cuando disponga de los nuevos datos de prueba. Por ejemplo, hace poco un colega mío obtuvo predicciones extremadamente buenas al pronosticar el número de unidades vendidas en una tienda minorista. Sospechaba, y resultó que había incluido inadvertidamente como predictor las ventas en dólares, que, por supuesto, están muy correlacionadas con las ventas por unidad, pero no están disponibles. antes de son las ventas por unidad.
Del mismo modo, una vez mejoré increíblemente mis previsiones de ventas. Entonces me di cuenta de que uno de mis predictores, Volumen de todas las materias primas (ACV) era esencialmente un agregado de la cifra que yo preveía y, por supuesto, no estaría disponible con antelación para la previsión real.
A veces se utiliza la información meteorológica para mejorar las previsiones de ventas. Lo cual está muy bien, pero en realidad deberían utilizar la información meteorológica para mejorar las previsiones de ventas. previsiones no actual porque el tiempo real a dos días vista aún no se conoce cuando pronosticamos las ventas a dos días vista. Un error de este tipo puede hacer que tus predicciones parezcan mucho mejores de lo que realmente serán en un entorno de producción.
(Por cierto, en alemán esto se conoce como mentir en el propio bolsillo (mentir en el propio bolsillo).
Así pues, yo me fijaría en si sus predictores son realmente "honestos" o si ha husmeado en los datos sin darse cuenta.