Esta pregunta del hombre de las cavernas es popular, pero no hubo ningún intento de respuesta durante meses hasta que mi controvertido uno. Es posible que la respuesta real que se da a continuación no sea, en sí misma, controvertida, sino que simplemente las preguntas están "cargadas", porque el campo parece (a mí, al menos) estar poblado por acólitos del AIC y del BIC que preferirían utilizar OLS antes que los métodos de los demás. Por favor, miren todos los supuestos enumerados, y las restricciones impuestas a los tipos de datos y métodos de análisis, y por favor, comenten sobre ellos; arreglen esto, contribuyan. Hasta ahora, algunas personas muy inteligentes han contribuido, por lo que se está avanzando lentamente. Agradezco las contribuciones de Richard Hardy y GeoMatt22, las amables palabras de Antoni Parellada, y los valientes intentos de Cagdas Ozgenc y Ben Ogorek de relacionar la divergencia K-L con una divergencia real.
Antes de empezar, repasemos qué es el AIC, y una fuente para ello es Requisitos previos para la comparación de modelos AIC y otra es de Rob J Hyndman . En concreto, se calcula que el AIC es igual a
$$2k - 2 \log(L(\theta))\,,$$
donde $k$ es el número de parámetros del modelo y $L(\theta)$ la función de probabilidad. El AIC compara el equilibrio entre la varianza ( $2k$ ) y el sesgo ( $2\log(L(\theta))$ ) de las hipótesis de modelización. En Hechos y falacias de la AIC , punto 3 "El AIC no supone que los residuos sean gaussianos. Lo que ocurre es que la probabilidad gaussiana es la más utilizada. Pero si quieres usar alguna otra distribución, adelante". El AIC es la verosimilitud penalizada, cualquiera que sea probabilidad que decida utilizar. Por ejemplo, para resolver el AIC para residuos distribuidos por la t de Student, podríamos utilizar el solución de máxima probabilidad para la prueba de Student . El La logaritmo-verosimilitud suele aplicarse para el AIC se deriva de Probabilidad logarítmica gaussiana y dada por
$$ \log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu), $$
$K$ siendo la estructura de covarianza del modelo, $|D|$ el tamaño de la muestra; el número de observaciones en los conjuntos de datos, $\mu$ la respuesta media y $x$ la variable dependiente. Tenga en cuenta que, estrictamente hablando, no es necesario que el AIC corrija el tamaño de la muestra, porque el AIC no se utiliza para comparar conjuntos de datos, sino sólo modelos que utilizan el mismo conjunto de datos. Por lo tanto, no tenemos que investigar si la corrección del tamaño de la muestra se hace correctamente o no, pero tendríamos que preocuparnos por esto si pudiéramos generalizar de alguna manera el AIC para que fuera útil entre conjuntos de datos. Del mismo modo, se habla mucho de $K>>|D|>2$ para asegurar la eficiencia asintótica. Una visión minimalista puede consideran que el AIC es sólo un "índice", por lo que $K>|D|$ relevante y $K>>|D|$ irrelevante. Sin embargo, se ha prestado cierta atención a esto en forma de proponer un AIC alterado para $K$ no mucho más grande que $|D|$ llamado AIC $_c$ Véase el segundo párrafo de la respuesta a la pregunta 2. Esta proliferación de "medidas" no hace sino reforzar la idea de que el AIC es un índice. Sin embargo, se recomienda tener cuidado al utilizar la palabra "i", ya que algunos defensores del AIC equiparan el uso de la palabra "índice" con la misma afición que podría tener referirse a su ontogenia como extramatrimonial.
P1: Pero una pregunta es: ¿por qué deberíamos preocuparnos por este compromiso específico de aptitud-simplicidad?
Respuesta en dos partes. Primero la pregunta concreta. Sólo debería importarte porque así se definió. Si lo prefieres no hay razón para no definir un CIC; un criterio de información cavernícola, no será el AIC, pero el CIC produciría las mismas respuestas que el AIC, no afecta a la compensación entre la bondad de ajuste y la simplicidad del planteamiento. Habría que elegir y respetar cualquier constante que pudiera utilizarse como multiplicador del AIC, incluida una vez, ya que no existe una norma de referencia para imponer una escala absoluta. Sin embargo, adherirse a una definición estándar no es arbitrario en el sentido de que hay espacio para una y sólo una definición, o "convención", para una cantidad, como el AIC, que se define sólo en una escala relativa. Véase también la hipótesis nº 3 del AIC, más abajo.
La segunda respuesta a esta pregunta tiene que ver con la especificidad del compromiso del AIC entre la bondad del ajuste y la simplicidad de la postura, independientemente de cómo se haya elegido su multiplicador constante. Es decir, ¿qué es lo que realmente afecta al "equilibrio"? Una de las cosas que afectan a esto, es reajustar el grado de libertad para el número de parámetros en un modelo, esto llevó a definir un "nuevo" AIC llamado AIC $_c$ de la siguiente manera:
$$\begin{align}AIC_c &= AIC + \frac{2k(k + 1)}{n - k - 1}\\ &= \frac{2kn}{n-k-1} - 2 \ln{(L)}\end{align} \,,$$
donde $n$ es el tamaño de la muestra. Dado que la ponderación es ahora ligeramente diferente cuando se comparan modelos con diferentes números de parámetros, el AIC $_c$ selecciona los modelos de forma diferente que el propio AIC, y de forma idéntica al AIC cuando los dos modelos son diferentes pero tienen el mismo número de parámetros. Otros métodos también seleccionarán los modelos de forma diferente, por ejemplo, "El BIC [sic, Criterio de información bayesiano ] generalmente penaliza los parámetros libres más fuertemente que el criterio de información de Akaike, aunque depende..." El ANOVA también penalizaría los parámetros supernumerarios utilizando las probabilidades parciales de la indispensabilidad de los valores de los parámetros de forma diferente, y en algunas circunstancias sería preferible a Uso de AIC . En general, cualquier método de evaluación de la idoneidad de un modelo tendrá sus ventajas e inconvenientes. Mi consejo sería probar el rendimiento de cualquier método de selección de modelos para su aplicación a la metodología de regresión de datos con más ahínco que probar los propios modelos. ¿Hay alguna razón para dudar? Sí, hay que tener cuidado al construir o seleccionar cualquier prueba de modelo para seleccionar métodos que sean metodológicamente apropiados. El AIC es útil para un subconjunto de evaluaciones de modelos, para ello véase P3, a continuación. Por ejemplo, la extracción de información con el modelo A puede realizarse mejor con el método de regresión 1, y para el modelo B con el método de regresión 2, donde el modelo B y el método 2 a veces dan respuestas no físicas, y donde ninguno de los métodos de regresión es MLR, donde los residuos son una forma de onda de varios periodos con dos frecuencias distintas para cualquiera de los modelos y el revisor pregunta "¿Por qué no calculas el AIC?"
P3 ¿Cómo se relaciona esto con la teoría de la información :
Hipótesis de la MLR nº 1. El AIC se basa en los supuestos de aplicabilidad de la máxima verosimilitud (MLR) a un problema de regresión. Sólo hay una circunstancia en la que la regresión por mínimos cuadrados ordinarios y la regresión por máxima verosimilitud me han señalado como la misma. Sería cuando los residuos de la regresión lineal por mínimos cuadrados ordinarios (OLS) se distribuyen normalmente, y la MLR tiene una función de pérdida gaussiana. En otros casos de regresión lineal OLS, para la regresión OLS no lineal, y funciones de pérdida no gaussianas, MLR y OLS pueden diferir. Hay muchos otros objetivos de regresión que OLS o MLR o incluso la bondad del ajuste y, con frecuencia, una buena respuesta tiene poco que ver con cualquiera de ellos, por ejemplo, para la mayoría de problemas inversos . Hay intentos muy citados (por ejemplo, 1100 veces) de utilizar la generalización del AIC para la cuasi-verosimilitud, de modo que la dependencia de la regresión de máxima verosimilitud se relaja para admitir más funciones de pérdida generales . Además, la MLR para la t de Student, aunque no está en forma cerrada, es convergencia robusta . Dado que las distribuciones residuales de Student-t son más comunes y más generales que las condiciones gaussianas, además de incluirlas, no veo ninguna razón especial para utilizar el supuesto gaussiano para el AIC.
Hipótesis de la MLR nº 2. La MLR es un intento de cuantificar la bondad del ajuste. A veces se aplica cuando no es apropiado. Por ejemplo, para los datos de rango recortado, cuando el modelo utilizado no está recortado. La bondad de ajuste está muy bien si tenemos una cobertura de información completa. En las series temporales, no solemos disponer de información lo suficientemente rápida como para comprender plenamente qué acontecimientos físicos ocurren inicialmente o nuestros modelos pueden no ser lo suficientemente completos como para examinar datos muy tempranos. Más preocupante aún es que a menudo no se puede comprobar la bondad de ajuste en momentos muy tardíos, por falta de datos. Así, es posible que la bondad de ajuste sólo modele el 30% del área ajustada bajo la curva, y en ese caso, estamos juzgando un modelo extrapolado en función de dónde están los datos, y no estamos examinando lo que eso significa. Para extrapolar, tenemos que examinar no sólo la bondad del ajuste de las "cantidades", sino también las derivadas de esas cantidades a falta de la "bondad" de la extrapolación. Por lo tanto, las técnicas de ajuste como las B-splines encuentran su uso porque pueden predecir más suavemente lo que son los datos cuando se ajustan las derivadas, o alternativamente los tratamientos de los problemas inversos, por ejemplo, el tratamiento integral mal planteado en todo el rango del modelo, como la regularización adaptativa de Tikhonov por propagación de errores.
Otra preocupación complicada, los datos pueden decirnos qué debemos hacer con ellos. Lo que necesitamos para la bondad de ajuste (cuando sea apropiado), es tener los residuos que son distancias en el sentido de que una desviación estándar es una distancia. Es decir, la bondad de ajuste no tendría mucho sentido si un residuo que es el doble de una desviación estándar no tuviera también una longitud de dos desviaciones estándar. La selección de las transformaciones de los datos debe investigarse antes de aplicar cualquier método de selección/regresión de modelos. Si los datos tienen un error de tipo proporcional, normalmente tomar el logaritmo antes de seleccionar una regresión no es inapropiado, ya que entonces transforma las desviaciones estándar en distancias. Alternativamente, podemos alterar la norma a minimizar para acomodar el ajuste de los datos proporcionales. Lo mismo se aplicaría para la estructura del error de Poisson, podemos tomar la raíz cuadrada de los datos para normalizar el error, o alterar nuestra norma para el ajuste. Hay problemas que son mucho más complicados o incluso intratables si no podemos alterar la norma para el ajuste, por ejemplo, las estadísticas de recuento de Poisson de la desintegración nuclear cuando la desintegración del radionúclido introduce una asociación exponencial basada en el tiempo entre los datos de recuento y la masa real que habrían emanado esos recuentos si no hubiera habido desintegración. ¿Por qué? Si retrocedemos en la corrección de las tasas de recuento, ya no tenemos estadísticas de Poisson, y los residuos (o errores) de la raíz cuadrada de los recuentos corregidos ya no son distancias. Si entonces queremos realizar una prueba de bondad de ajuste de los datos corregidos por decaimiento (por ejemplo, AIC), tendríamos que hacerlo de alguna manera que es desconocida para mi humilde persona. Pregunta abierta a los lectores, si insistimos en utilizar MLR, ¿podemos alterar su norma para tener en cuenta el tipo de error de los datos (deseable), o debemos transformar siempre los datos para permitir el uso de MLR (no tan útil)? Tenga en cuenta que el AIC no compara los métodos de regresión para un solo modelo, sino que compara diferentes modelos para el mismo método de regresión.
Supuesto AIC nº 1. Parece que la MLR no se limita a los residuos normales, por ejemplo, véase esta pregunta sobre MLR y Student's-t . A continuación, vamos a suponer que la MLR es adecuada para nuestro problema, de modo que rastreamos su uso para comparar los valores del AIC en teoría. A continuación, suponemos que tenemos 1) información completa, 2) el mismo tipo de distribución de los residuos (por ejemplo, ambas normales, ambas de Student- t ) para al menos 2 modelos. Es decir, tenemos un accidente que dos modelos deben tener ahora el tipo de distribución de los residuos. ¿Podría ocurrir eso? Sí, probablemente, pero desde luego no siempre.
Supuesto AIC nº 2. El AIC relaciona el logaritmo negativo de la cantidad (número de parámetros en el modelo dividido por el Divergencia de Kullback-Leibler ). ¿Es necesaria esta suposición? En el funciones de pérdida generales papel se utiliza una "divergencia" diferente. Esto nos lleva a preguntarnos si esa otra medida es más general que la divergencia K-L, ¿por qué no la utilizamos también para el AIC?
La información no coincidente para el AIC de Divergencia de Kullback-Leibler es "Aunque ... a menudo se intuye como una forma de medir la distancia entre distribuciones de probabilidad, la divergencia de Kullback-Leibler no es una métrica verdadera". En breve veremos por qué.
El argumento K-L llega al punto en que la diferencia entre dos cosas el modelo (P) y los datos (Q) son
$$D_{\mathrm{KL}}(P\|Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q \,,$$
que reconocemos como la entropía de ''P'' relativa a ''Q''.
Supuesto AIC nº 3. La mayoría de las fórmulas que implican la divergencia de Kullback-Leibler se mantienen independientemente de la base del logaritmo. El multiplicador constante podría tener más significado si el AIC relacionara más de un conjunto de datos a la vez. En la actualidad, cuando se comparan métodos, si $AIC_{data,model 1}<AIC_{data,model 2}$ entonces cualquier número positivo que se multiplique seguirá siendo $<$ . Dado que es arbitrario, fijar la constante a un valor específico como cuestión de definición tampoco es inapropiado.
Supuesto AIC nº 4. Esto sería que el AIC mide la entropía de Shannon o información propia ." Lo que necesitamos saber es "¿Es la entropía lo que necesitamos para una métrica de la información?"
Para entender lo que es la "autoinformación", conviene normalizar la información en un contexto físico, cualquiera sirve. Sí, quiero que una medida de información tenga propiedades que sean físicas. Entonces, ¿qué aspecto tendría eso en un contexto más general?
La ecuación de energía libre de Gibbs ( $\Delta G = ΔH – TΔS$ ) relaciona el cambio de energía con el cambio de entalpía menos la temperatura absoluta por el cambio de entropía. La temperatura es un ejemplo de un tipo exitoso de contenido de información normalizado, porque si un ladrillo caliente y otro frío se ponen en contacto en un entorno térmicamente cerrado, entonces el calor fluirá entre ellos. Ahora bien, si nos lanzamos a ello sin pensar demasiado, diremos que el calor es la información. Pero ¿es la información relativa la que predice el comportamiento de un sistema? La información fluye hasta que se alcanza el equilibrio, pero ¿el equilibrio de qué? De la temperatura, eso es, no del calor como velocidad de las partículas de determinadas masas de partículas, no estoy hablando de la temperatura molecular, estoy hablando de la temperatura bruta de dos ladrillos que pueden tener masas diferentes, estar hechos de materiales diferentes, tener densidades diferentes, etc., y nada de eso tengo que saber, todo lo que necesito saber es que la temperatura bruta es la que se equilibra. Así, si un ladrillo está más caliente, entonces tiene más contenido de información relativa, y cuando está más frío, menos.
Ahora bien, si me dicen que un ladrillo tiene más entropía que el otro, ¿qué pasa? Eso, por sí mismo, no predice si ganará o perderá entropía cuando se ponga en contacto con otro ladrillo. Entonces, ¿es la entropía por sí sola una medida útil de la información? Sí, pero sólo si comparamos el mismo ladrillo consigo mismo, de ahí el término "autoinformación".
De ahí viene la última restricción: Para utilizar la divergencia K-L todos los ladrillos deben ser idénticos. Por lo tanto, lo que hace que el AIC sea un índice atípico es que no es portátil entre conjuntos de datos (por ejemplo, diferentes ladrillos), lo que no es una propiedad especialmente deseable que podría abordarse mediante la normalización del contenido de la información. ¿Es lineal la divergencia K-L? Quizás sí, quizás no. Sin embargo, eso no importa, no necesitamos asumir la linealidad para utilizar el AIC y, por ejemplo, la propia entropía no creo que esté relacionada linealmente con la temperatura. En otras palabras, no necesitamos una métrica lineal para utilizar los cálculos de entropía.
Una buena fuente de información sobre la AIC está en este tesis . En el lado pesimista esto dice: "En sí mismo, el valor del AIC para un conjunto de datos dado no tiene ningún significado". En el lado optimista esto dice, que los modelos que tienen resultados cercanos pueden ser diferenciados por el suavizado para establecer intervalos de confianza, y mucho más.