Previsibilidad
Tienes razón en que se trata de una cuestión de previsibilidad. Ha habido algunos artículos sobre la previsibilidad en el La revista del IIF orientada a los profesionales Previsión . (Revelación completa: soy editor asociado).
El problema es que la previsibilidad ya es difícil de evaluar en casos "sencillos".
Algunos ejemplos
Suponga que tiene una serie temporal como ésta pero no habla alemán:
¿Cómo modelaría el gran pico de abril y cómo incluiría esta información en las previsiones?
A no ser que supieras que esta serie temporal es la de las ventas de huevos en una cadena de supermercados suiza, que alcanza su punto máximo justo antes de calendario occidental Pascua no tendrías ninguna oportunidad. Además, como la Semana Santa se desplaza en el calendario hasta seis semanas, cualquier previsión que no incluya la específico fecha de la Semana Santa (suponiendo, por ejemplo, que se trata de un pico estacional que se repetiría en una semana concreta del año siguiente) estaría probablemente muy equivocado.
Del mismo modo, suponga que tiene la línea azul de abajo y que quiere modelar lo que ocurrió el 28-02-2010 de forma tan diferente a los patrones "normales" del 27-02-2010:
De nuevo, sin saber lo que ocurre cuando toda una ciudad llena de canadienses ve un partido de la final olímpica de hockey sobre hielo por televisión, no tienes ninguna posibilidad de entender lo que ha ocurrido aquí, y no podrás predecir cuándo se repetirá algo así.
Por último, mira esto:
Se trata de una serie temporal de ventas diarias en un cash and carry tienda. (A la derecha, tienes una tabla sencilla: 282 días tuvieron cero ventas, 42 días vieron ventas de 1... y un día vio ventas de 500). No sé qué artículo es.
A día de hoy, no sé qué pasó ese día con las ventas de 500. Mi mejor conjetura es que algún cliente hizo un pedido anticipado de una gran cantidad de cualquier producto y lo recogió. Ahora bien, sin saber esto, cualquier previsión para este día en particular estará muy lejos. Por el contrario, supongamos que esto ocurrió justo antes de la Semana Santa, y tenemos un algoritmo tonto-inteligente que cree que esto podría ser un efecto de la Semana Santa (¿tal vez son huevos?) y pronostica alegremente 500 unidades para la próxima Semana Santa. Oh, Dios, ¿podría que ir mal.
Resumen
En todos los casos, vemos cómo la previsibilidad sólo puede entenderse bien una vez que tenemos un conocimiento suficientemente profundo de los factores probables que influyen en nuestros datos. El problema es que, a menos que conozcamos estos factores, no sabemos que podemos no conocerlos. Según Donald Rumsfeld :
[Hay cosas conocidas; hay cosas que sabemos que sabemos. También sabemos que hay cosas desconocidas; es decir, sabemos que hay cosas que no conocemos. Pero también hay incógnitas desconocidas; las que no sabemos que no conocemos.
Si la Pascua o la predilección de los canadienses por el hockey son incógnitas para nosotros, estamos atascados, y ni siquiera tenemos un camino a seguir, porque no sabemos qué preguntas debemos hacer.
La única manera de dominarlas es reunir conocimientos sobre el tema.
Conclusiones
De esto saco tres conclusiones:
- Usted siempre necesita incluir el conocimiento del dominio en su modelado y predicción.
- Incluso con el conocimiento del dominio, no está garantizado que obtenga suficiente información para que sus previsiones y predicciones sean aceptables para el usuario. Véase el valor atípico anterior.
- Si "sus resultados son miserables", puede que esté esperando más de lo que puede conseguir. Si está pronosticando un lanzamiento de moneda justo, entonces no hay forma de superar el 50% de precisión. Tampoco te fíes de las referencias externas de precisión de las previsiones.
El resultado final
Así es como yo recomendaría construir modelos - y darse cuenta de cuándo parar:
- Hable con alguien que tenga conocimientos sobre el tema si no los tiene.
- Identifique los principales impulsores de los datos que desea pronosticar, incluidas las interacciones probables, basándose en el paso 1.
- Construir los modelos de forma iterativa, incluyendo los impulsores en orden decreciente de fuerza según el paso 2. Evaluar los modelos mediante validación cruzada o una muestra retenida.
- Si la precisión de sus predicciones no aumenta, vuelva al paso 1 (por ejemplo, identificando las predicciones erróneas que no puede explicar y discutiéndolas con el experto en la materia), o acepte que ha llegado al final de las capacidades de sus modelos. Cómo delimitar el tiempo de su análisis de antemano ayuda.
Tenga en cuenta que no estoy abogando por probar diferentes clases de modelos si su modelo original se estanca. Por lo general, si se empezó con un modelo razonable, el uso de algo más sofisticado no producirá un gran beneficio y puede ser simplemente un "sobreajuste en el conjunto de pruebas". Lo he visto a menudo, y otras personas están de acuerdo .
2 votos
Este problema puede responderse en términos prácticos (como hizo @StephanKolassa) o en términos absolutos (algún tipo de teorema que demuestre que un modelo dado puede aprender un problema si se cumplen ciertas condiciones). ¿Cuál quieres?
7 votos
Esto se parece al clásico problema de detención de la informática? Supongamos que tenemos un algoritmo A de complejidad arbitraria que busca en los datos de entrada D modelos predictivos, y el algoritmo se detiene cuando encuentra un "buen" modelo para los datos. Sin añadir una estructura significativa a A y D, no veo cómo se puede saber si A se detendrá alguna vez dada la entrada D, cómo se puede saber si A tendrá éxito finalmente o seguirá buscando para siempre.
0 votos
@Superbest puede ser ambas cosas. Si tienes algo que añadir, no dudes en contestar. Nunca he oído hablar de un teorema que establezca algo sobre el tratamiento de los datos ruidosos multidimensionales de la vida real, pero si conoces uno que se aplique, entonces me interesaría leer tu respuesta.
5 votos
Basándose en la respuesta de @StephenKolassa, otra pregunta que se podría derivar de ésta es "¿En qué momento debo llevar mi trabajo hasta los expertos en la materia y discutir mis resultados (o la falta de ellos)?
1 votos
También hilo relacionado: stats.stackexchange.com/questions/28057/