He leído innumerables posts en este sitio que están increíblemente en contra del uso de la selección por pasos de variables utilizando cualquier tipo de criterio ya sea basado en valores p, AIC, BIC, etc.
Entiendo por qué estos procedimientos son, en general, bastante pobres para la selección de variables. probablemente famoso post de gung aquí ilustra claramente por qué; en última instancia, estamos verificando una hipótesis en el mismo conjunto de datos que utilizamos para llegar a la hipótesis, lo que no es más que dragar datos. Además, los valores p se ven afectados por factores como la colinealidad y los valores atípicos, que sesgan mucho los resultados, etc.
Sin embargo, últimamente he estado estudiando bastante la previsión de series temporales y me he topado con el respetado libro de texto de Hyndman en el que menciona aquí el uso de la selección por pasos para encontrar el orden óptimo de los modelos ARIMA en particular. De hecho, en el forecast
en R el conocido algoritmo conocido como auto.arima
utiliza por defecto la selección por pasos (con AIC, no con valores p). También critica la selección de características basada en valores p, lo que concuerda con varias entradas de este sitio web.
En última instancia, siempre debemos validar de algún modo al final si el objetivo es desarrollar buenos modelos de previsión/predicción. Sin embargo, seguramente se trata de un cierto desacuerdo en lo que respecta al procedimiento en sí para las métricas de evaluación distintas de los valores p.
¿Alguien tiene alguna opinión sobre el uso del AIC por pasos en este contexto, pero también en general fuera de este contexto? Me han enseñado a creer que cualquier selección por pasos es pobre, pero para ser honesto, auto.arima(stepwise = TRUE)
me ha estado dando mejores resultados fuera de muestra que auto.arima(stepwise = FALSE)
pero quizás sea sólo una coincidencia.