28 votos

Paradoja en la selección de modelos (AIC, BIC, ¿explicar o predecir?)

Tras leer la obra de Galit Shmueli "Explicar o predecir" (2010) y algunas publicaciones sobre la selección de modelos mediante AIC y BIC, me desconcierta una aparente contradicción. Hay tres premisas,

  1. Elección del modelo basado en el AIC frente al BIC (fin de la p. 300 - principio de la p. 301): en pocas palabras, el AIC debe utilizarse para seleccionar un modelo destinado a predicción mientras que el BIC debe utilizarse para seleccionar un modelo de explicación . Además (no en el documento anterior), sabemos que bajo algunas condiciones BIC selecciona el verdadero modelo entre el conjunto de modelos candidatos; el modelo verdadero es lo que buscamos en la modelización explicativa (fin de la p. 293).
  2. Aritmética simple: AIC seleccionará un más grande que el BIC para muestras de tamaño 8 o superior (que satisfagan $\text{ln}(n)>2$ debido a las diferentes penalizaciones por complejidad en AIC frente a BIC).
  3. En verdadero (es decir, el modelo con los regresores correctos y la forma funcional correcta, pero con coeficientes imperfectamente estimados) puede no ser el mejor modelo de predicción (p. 307): un modelo de regresión con un predictor omitido puede ser un mejor modelo de predicción, ya que la introducción de un sesgo debido al predictor omitido puede verse compensada por la reducción de la varianza debida a la imprecisión de la estimación.

Los puntos 1. y 2. sugieren que los modelos más amplios pueden ser mejores para la predicción que los modelos más parsimoniosos. Por su parte, el punto 3. da una frente a ejemplo en el que un modelo más parsimonioso es mejor para la predicción que un modelo más grande y verdadero. Esto me parece desconcertante.

Preguntas:

  1. ¿Cómo puede explicarse/resolverse la aparente contradicción entre los puntos {1. y 2.} y 3.?
  2. A la luz del punto 3., ¿podría dar una explicación intuitiva de por qué y cómo un modelo más amplio seleccionado por AIC es realmente mejor para la predicción que un modelo más parsimonioso seleccionado por BIC?

No digo que haya una contradicción en Shmueli (2010), sólo intento comprender una aparente paradoja.

1voto

Joeri Sebrechts Puntos 7483

Intentaré explicar lo que ocurre con algunos materiales a los que me refiero y lo que he aprendido gracias a la correspondencia personal con el autor de los mismos.

http://homepages.cwi.nl/~pdg/presentations/RSShandout.pdf

Arriba hay un ejemplo en el que intentamos inferir un polinomio de 3er grado más ruido. Si observa el cuadrante inferior izquierdo, verá que, de forma acumulativa, el AIC supera al BIC en un horizonte de 1.000 muestras. Sin embargo, también puede ver que hasta la muestra 100, el riesgo instantáneo del AIC es peor que el del BIC. Esto se debe al hecho de que AIC es un mal estimador para muestras pequeñas (una solución sugerida es AICc). 0-100 es la región en la que el papel "Explicar o predecir" está demostrando sin una explicación clara de lo que está pasando. Además, aunque no queda claro en la imagen, cuando el número de muestras es grande (las pendientes son casi idénticas), el riesgo instantáneo del BIC supera al del AIC porque el modelo verdadero se encuentra en el espacio de búsqueda. Sin embargo, en este punto, las estimaciones ML están tan concentradas en torno a sus valores reales que el exceso de ajuste del AIC se vuelve irrelevante, ya que los parámetros adicionales del modelo están muy muy cerca de 0. Así que, como se puede ver en el cuadrante superior derecho, el AIC identifica de media un grado polinómico de ~3,2 (a lo largo de muchas simulaciones, a veces identifica un grado de 3, a veces de 4). Sin embargo, ese parámetro adicional es minúsculo, lo que hace que el AIC no tenga nada que envidiar al BIC.

Sin embargo, la historia no es tan sencilla. Hay varias confusiones en los artículos que tratan el AIC y el BIC. Hay que tener en cuenta dos situaciones:

1) El modelo que se busca es estático/fijo, y aumentamos el número de muestras y vemos qué ocurre con diferentes metodologías.

a) El modelo verdadero está en el espacio de búsqueda. Ya hemos tratado este caso.

b) El modelo verdadero no está en el espacio de búsqueda, pero puede aproximarse con la forma funcional que estamos utilizando. En este caso, el AIC también es superior.

http://homepages.cwi.nl/~pdg/presentaciones/RSShandout.pdf (página 9)

c) El modelo verdadero no está en el espacio de búsqueda y ni siquiera estamos cerca de acertar con una aproximación. Según el profesor Grunwald, no sabemos qué ocurre en este escenario.

2) El número de muestras es fijo, y variamos el modelo a buscar para comprender los efectos de la dificultad del modelo en diferentes metodologías.

El profesor Grunwald ofrece el siguiente ejemplo. La verdad es decir una distribución con un parámetro $\theta = \sqrt{(\log n) / n}$ donde n es el tamaño de la muestra. Y el modelo candidato 1 es $\theta = 0$ y el modelo candidato 2 es una distribución con un parámetro libre $\theta^*$ . El BIC siempre selecciona el modelo 1, sin embargo el modelo 2 siempre predice mejor porque la estimación ML está más cerca de $\theta$ que 0. Como se puede ver BIC no es encontrar la verdad y y también predecir peor al mismo tiempo.

También existe el caso no paramétrico, pero no tengo mucha información al respecto.

Mi opinión personal es que todos los criterios de información son aproximaciones y no se debe esperar un resultado correcto en todos los casos. También creo que el modelo que mejor predice es también el que mejor explica. Esto se debe a que cuando la gente utiliza el término "modelo" no se refiere a los valores de los parámetros, sino al número de parámetros. Pero si se piensa en él como una hipótesis puntual, entonces el contenido informativo de los parámetros adicionales protestados es prácticamente nulo. Por eso siempre elegiría el AIC en lugar del BIC, si sólo me quedan esas opciones.

1voto

Hoogendijk Puntos 45

No deben tomarse en el mismo contexto; los puntos 1 y 2 tienen contextos diferentes. Tanto para el AIC como para el BIC, lo primero que hay que explorar es qué combinación de parámetros en qué número produce los mejores índices (a algunos autores les dan ataques epilépticos cuando utilizo la palabra índice en este contexto. Ignórelos o busque índice en el diccionario). En el punto 2, AIC es el modelo más rico, donde más rico significa la selección de modelos con más parámetros, sólo a veces, porque con frecuencia el modelo óptimo AIC es el mismo número de parámetros modelo como BIC la selección. Es decir, si el AIC y el BIC seleccionan modelos que tienen el MISMO número de parámetros, entonces la afirmación es que el AIC será mejor para la predicción que el BIC. Sin embargo, podría ocurrir lo contrario si BIC llega al máximo con un modelo de menos parámetros seleccionado (pero sin garantías). Sober (2002) llegó a la conclusión de que el AIC mide la exactitud predictiva mientras que el BIC mide la bondad del ajuste, donde la exactitud predictiva puede significar predecir y fuera del rango de valores extremos de x. Cuando está fuera, con frecuencia un AIC menos óptimo con parámetros poco predictivos descartados predecirá mejor los valores extrapolados que un índice AIC óptimo a partir de más parámetros en su modelo seleccionado. Observo de paso que el AIC y el ML no obvian la necesidad de probar el error de extrapolación, que es una prueba separada para los modelos. Esto puede hacerse reteniendo valores extremos del conjunto de "entrenamiento" y calculando el error entre el modelo extrapolado "post-entrenamiento" y los datos retenidos.

Ahora BIC es supuestamente un menor error de predicción de los valores y dentro de los valores extremos del intervalo de x . La mejora de la bondad del ajuste suele producirse a costa del sesgo de la regresión (para la extrapolación), en la que el error se reduce introduciendo ese sesgo. Por ejemplo, a menudo se aplana la pendiente para dividir el signo de la media a izquierda y derecha. $f(x)-y$ residuos (piense en más residuos negativos por un lado y más residuos positivos por el otro) reduciendo así el error total. Así pues, en este caso nos preguntamos por el mejor valor de y dado un valor de x, y en el caso del AIC nos preguntamos más bien por la mejor relación funcional entre x e y. Una diferencia entre ambos es, por ejemplo, que el BIC, a igualdad de otras opciones de parámetros, tendrá un mejor coeficiente de correlación entre el modelo y los datos, y el AIC tendrá un mejor error de extrapolación medido como error del valor de y para un valor de x extrapolado dado.

El punto 3 es una afirmación a veces bajo ciertas condiciones

  • cuando los datos son muy ruidosos (grandes $σ$ );

  • cuando los verdaderos valores absolutos de los parámetros omitidos (en nuestro
    ejemplo $β_2$ ) son pequeñas;

  • cuando los predictores están muy correlacionados; y

  • cuando el tamaño de la muestra es pequeño o el rango de variables omitidas es pequeño.

En la práctica, la forma correcta de una ecuación no significa que el ajuste con ella arroje los valores correctos de los parámetros debido al ruido, y cuanto más ruido, mejor. Lo mismo ocurre con R $^2$ frente a R $^2$ y alta colinealidad. Es decir, a veces cuando se añade un parámetro ajustado R $^2$ se degrada mientras que R $^2$ mejora.

Me apresuro a señalar que estas afirmaciones son optimistas. Normalmente, los modelos son erróneos, y a menudo un modelo mejor aplicará una norma que no puede utilizarse con AIC o BIC, o se asume una estructura residual errónea para su aplicación, y se necesitan medidas alternativas. En mi trabajo, éste es siempre el caso.

1voto

leech Puntos 122

Leí "Explicar o predecir" (2010) de Shmueli hace un par de años por primera vez y fue una de las lecturas más importantes para mí. Varias grandes dudas vienen a resolver después de dicha lectura.

Me parece que las contradicciones que notas son menos relevantes de lo que parece. Intento responder a tus dos preguntas juntas.

Mi argumento principal es que tu punto 3 no aparece en la pag 307 (aquí están los detalles) sino al principio de la discusión - argumento de compensación sesgo-varianza (par 1.5; en particular al final de la pag 293). Tu punto 3 es el mensaje central del artículo . (Ver EDITAR)

Sus puntos 1 y 2 están relacionados con el subargumento de la selección del modelo . En esta fase no aparecen las principales diferencias prácticas entre los modelos explicativos y los predictivos. El análisis de los modelos predictivos debe implican datos fuera de muestra, en los modelos explicativos no es así.

En el marco predictivo, en primer lugar tenemos la estimación del modelo, después la selección del modelo, que es algo así como evaluar el ajuste de los (hiper)parámetros del modelo; al final tenemos la evaluación del modelo sobre nuevos datos.

En el marco explicativo, la estimación/selección/evaluación de modelos son mucho menos distinguibles. En este marco, la consideración teórica me parece mucho más importante que la distinción detallada entre BIC y AIC.

En Shmueli (2010) el concepto de modelo verdadero se entiende como resumen teórico que implica un significado causal sustancial. El objetivo es la inferencia causal. [Por ejemplo se puede leer: "la selección adecuada del modelo explicativo se realiza de forma restringida Un investigador podría optar por conservar una covariable causal que tenga una fuerte justificación teórica aunque sea estadísticamente insignificante." Pag 300]

Ahora, el papel del modelo verdadero en el debate de la inferencia causal es de mi gran interés y representa el núcleo de varias preguntas que abrí en esta web-comunidad. Por ejemplo, puedes leer:

Regresión y causalidad en econometría

Ecuación estructural y modelo causal en economía

Causalidad: Modelo causal estructural y DAG

Hoy mi opinión es que el concepto habitual de modelo verdadero es demasiado simplista para llevar a cabo una inferencia causal exhaustiva. En el mejor de los casos, podemos interpretarlo como un tipo muy particular de modelo causal estructural de Pearl.

Sé que, bajo ciertas condiciones, el método BIC nos permite seleccionar el modelo verdadero. Sin embargo, la historia que hay detrás de este resultado me parece demasiado pobre para una inferencia causal exhaustiva.

Por último, la distinción entre AIC y BIC no me parece tan importante y, lo que es más importante, no afecta al punto principal del artículo (su 3).

EDITAR : Para ser más claros. El mensaje principal del artículo es que la explicación y la predicción son cosas diferentes. Predicción y explicación (causalidad) son objetivos diferentes que implican herramientas diferentes. Confundirlas sin entender la diferencia es un gran problema. El equilibrio entre sesgo y varianza es el principal punto teórico que justifica la necesidad de distinguir entre predicción y explicación. En este sentido, tu punto 3 es el núcleo del artículo.

EDIT2 En mi opinión, lo cierto es que los problemas que aborda este artículo son demasiado amplios y complejos. Entonces, más que como de costumbre, conceptos como contradicción y/o paradoja deberían ser contextualizados. Para algunos lectores que lean tu pregunta pero no el artículo puede parecer que el artículo en absoluto, o al menos en su mayor parte, debe ser rechazado, hasta que alguien no resuelva la contradicción. Mi punto es que este no es el caso.

Baste decir que el autor podría simplemente omitir los detalles de la selección del modelo y el mensaje central seguiría siendo el mismo, sin duda. De hecho, el núcleo del artículo no es la mejor estrategia para conseguir un buen modelo de predicción (o explicación), sino mostrar que la predicción y la explicación son objetivos diferentes que implican métodos diferentes. En este sentido tus puntos 1 y 2 son menores y este hecho resuelve la contradicción (en el sentido anterior).

En el otro lado queda el hecho de que el AIC nos lleva a preferir la regresión larga en lugar de la corta y este hecho contradice el argumento al que se refiere su punto 3. En este sentido, la paradoja y la contradicción permanecen.

Tal vez la paradoja venga del hecho de que el argumento que subyace al punto 3, la compensación sesgo-varianza, es válido en datos de muestra finita; en muestra pequeña puede ser sustancial. En el caso de una muestra infinitamente grande, el error de estimación del parámetro desaparece, pero el posible término de sesgo no, entonces el modelo verdadero (en sentido empírico) se convierte en el mejor también en el sentido del error de predicción esperado. Ahora bien, las buenas propiedades de predicción del AIC se logran sólo asintóticamente, en muestras pequeñas puede seleccionar modelos que tienen demasiados parámetros y entonces puede aparecer el sobreajuste. En un caso como éste es difícil decir con exactitud en qué sentido importa el tamaño de la muestra.

Sin embargo, para hacer frente al problema de las muestras pequeñas, se desarrolló una versión modificada del AIC. Véase aquí: https://en.wikipedia.org/wiki/Akaike_information_criterion#Modification_for_small_sample_size

He hecho algunos cálculos como ejemplos y si estos están libres de error:

para el caso de 2 parámetros (como el caso en el ejemplo de Shmueli) si tenemos menos de 8 obs AIC penaliza más que BIC (como usted dice). Si tenemos más de 8 pero menos de 14 obs AICc penaliza más que BIC. Si tenemos 14 o más obs BIC es de nuevo el más penalizador

para el caso de 5 parámetros, si tenemos menos de 8 obs el AIC penaliza más que el BIC (como dices). Si tenemos más de 8 pero menos de 19 obs AICc penaliza más que BIC. Si tenemos 19 o más obs BIC es de nuevo el más penalizador

para el caso de 10 parámetros, si tenemos menos de 8 obs el AIC penaliza más que el BIC (como dices). Si tenemos más de 8 pero menos de 28 obs el AICc penaliza más que el BIC. Si tenemos 28 o más obs BIC es de nuevo el más penalizador.

Por último, permítanme señalar que si nos atenemos a las palabras de la autora, podemos leer que no sugiere explícitamente utilizar el AIC en la predicción y el BIC en la explicación (como se indica en el punto 1). Esencialmente dijo que en el modelo explicativo las consideraciones teóricas son relevantes y en la predicción no. Este es el núcleo de la diferencia entre estos dos tipos de selección de modelos. El AIC se presenta como una "métrica popular" y su popularidad se debe a la idea en la que se basa. Podemos leer: "Una métrica predictiva popular es el Criterio de Información de Akaike (AIC) en la muestra. Akaike derivó el AIC desde un punto de vista predictivo, en el que el modelo no pretende inferir con precisión la "distribución verdadera", sino predecir los datos futuros con la mayor exactitud posible".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X