24 votos

Stepwise AIC - ¿Existe controversia en torno a este tema?

He leído innumerables posts en este sitio que están increíblemente en contra del uso de la selección por pasos de variables utilizando cualquier tipo de criterio ya sea basado en valores p, AIC, BIC, etc.

Entiendo por qué estos procedimientos son, en general, bastante pobres para la selección de variables. probablemente famoso post de gung aquí ilustra claramente por qué; en última instancia, estamos verificando una hipótesis en el mismo conjunto de datos que utilizamos para llegar a la hipótesis, lo que no es más que dragar datos. Además, los valores p se ven afectados por factores como la colinealidad y los valores atípicos, que sesgan mucho los resultados, etc.

Sin embargo, últimamente he estado estudiando bastante la previsión de series temporales y me he topado con el respetado libro de texto de Hyndman en el que menciona aquí el uso de la selección por pasos para encontrar el orden óptimo de los modelos ARIMA en particular. De hecho, en el forecast en R el conocido algoritmo conocido como auto.arima utiliza por defecto la selección por pasos (con AIC, no con valores p). También critica la selección de características basada en valores p, lo que concuerda con varias entradas de este sitio web.

En última instancia, siempre debemos validar de algún modo al final si el objetivo es desarrollar buenos modelos de previsión/predicción. Sin embargo, seguramente se trata de un cierto desacuerdo en lo que respecta al procedimiento en sí para las métricas de evaluación distintas de los valores p.

¿Alguien tiene alguna opinión sobre el uso del AIC por pasos en este contexto, pero también en general fuera de este contexto? Me han enseñado a creer que cualquier selección por pasos es pobre, pero para ser honesto, auto.arima(stepwise = TRUE) me ha estado dando mejores resultados fuera de muestra que auto.arima(stepwise = FALSE) pero quizás sea sólo una coincidencia.

24voto

Ben Bolker Puntos 8729

Aquí se plantean varias cuestiones.

  • Probablemente, la cuestión principal es que la selección de modelos (ya sea utilizando valores p o AIC, por pasos o todos los subconjuntos o cualquier otra cosa) es principalmente problemática para inferencia (por ejemplo, obtener valores p con un error de tipo I adecuado, intervalos de confianza con una cobertura adecuada). Para predicción La selección del modelo puede, de hecho, elegir un punto mejor en el eje de compensación sesgo-varianza y mejorar el error fuera de la muestra.
  • Para algunas clases de modelos, el AIC es asintóticamente equivalente al error CV leave-one-out [véase, por ejemplo. http://www.petrkeil.com/?p=836 ], por lo que utilizar el AIC como un proxy computacionalmente eficiente para el CV es razonable.
  • La selección por pasos suele estar dominada por otra selección de modelos (o promediando ) (subconjuntos completos, si es factible desde el punto de vista informático, o métodos de reducción). Pero es sencillo y fácil de aplicar, y si la respuesta es suficientemente clara (algunos parámetros corresponden a señales fuertes, otros débiles, pocos intermedios), entonces dará resultados razonables. De nuevo, hay una gran diferencia entre inferencia y predicción. Por ejemplo, si tiene un par de predictores fuertemente correlacionados, elegir el incorrecto (desde el punto de vista de la "verdad"/causal) es un gran problema para la inferencia, pero elegir el que le da el mejor AIC es una estrategia razonable para la predicción (aunque fallará si intenta predecir una situación en la que la correlación de los predictores cambie...).

En resumen: para datos de tamaño moderado con una relación señal/ruido razonable, la selección por pasos basada en el AIC puede producir, en efecto, un predictivo véase un ejemplo en Murtaugh (2009).

Murtaugh, Paul A. "Rendimiento de varios métodos de selección de variables aplicados a datos ecológicos reales". Ecology letters 12, no. 10 (2009): 1061-1068.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X