(Esta pregunta podría parecer más adecuada para el SE de Filosofía. Espero que los estadísticos puedan aclarar mis ideas erróneas sobre las afirmaciones de Box y Shmueli, de ahí que la publique aquí).
George Box (de la fama de ARIMA) dijo:
"Todos los modelos son erróneos, pero algunos son útiles".
Galit Shmueli en su famoso artículo "Explicar o predecir" sostiene (y cita a otros que están de acuerdo con ella) que:
Explicar y predecir no es lo mismo, y algunos modelos explican bien, pero predicen mal.
Creo que estos dos principios son en cierto modo contradictorios.
Si un modelo no predice bien, ¿es útil?
Y lo que es más importante, si un modelo explica bien (pero no necesariamente predice bien), entonces tiene que ser cierto (es decir, no erróneo) de un modo u otro. Entonces, ¿cómo encaja eso con el "todos los modelos son erróneos" de Box?
Por último, si un modelo explica bien, pero no predice bien, ¿cómo puede ser siquiera científico? La mayoría de los criterios de demarcación científica (verificacionismo, falsificacionismo, etc...) implican que un enunciado científico tiene que tener poder predictivo, o coloquialmente: Una teoría o un modelo es correcto sólo si puede probarse empíricamente (o falsarse), lo que significa que tiene que predecir resultados futuros.
Mis preguntas:
- ¿Son realmente contradictorias la afirmación de Box y las ideas de Shmueli, o me estoy perdiendo algo, por ejemplo, puede un modelo no tener poder predictivo y aun así ser útil?
- Si las afirmaciones de Box y Shmueli son no contradictorio, entonces ¿qué significa que un modelo sea erróneo y no prediga bien, y aun así tenga poder explicativo? Dicho de otro modo: Si se elimina tanto la corrección como la capacidad de predicción, ¿qué queda de un modelo?
¿Qué validaciones empíricas son posibles cuando un modelo tiene poder explicativo, pero no predictivo? Shmueli menciona cosas como: utilizar el AIC para la explicación y el BIC para la predicción, etc,... pero no veo cómo eso resuelve el problema. Con los modelos predictivos, se puede utilizar el AIC, o el BIC, o el $R^2$ o $L1$ regularización, etc... pero, en última instancia, lo que determina la calidad del modelo son las pruebas fuera de muestra y el rendimiento en producción. Pero para los modelos que explican bien, no veo cómo ninguna función de pérdida puede evaluar realmente un modelo. En filosofía de la ciencia, existe el concepto de infradeterminación que parece pertinente en este caso: Para cualquier conjunto de datos dado, siempre se puede elegir juiciosamente alguna distribución (o mezcla de distribuciones) y función de pérdida $L$ de tal forma que se ajusten a los datos (y, por tanto, se pueda afirmar que los explican). Además, el umbral que $L$ debe estar bajo para que alguien pueda afirmar que el modelo explica adecuadamente los datos es arbitraria (algo así como los p-valores, ¿por qué es $p < 0.05$ y no $p < 0.1$ o $p < 0.01$ ?).
- Basándonos en lo anterior, ¿cómo se puede validar objetivamente un modelo que explica bien, pero no predice bien, ya que no es posible realizar pruebas fuera de muestra?