En la página 34 de su PRNN Brian Ripley comenta que "El AIC fue denominado por Akaike (1974) como 'Un criterio de información', aunque parece que se cree comúnmente que la A significa Akaike". De hecho, al presentar el estadístico AIC, Akaike (1974, p.719) explica que
"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".
Considerando esta cita como una predicción hecha en 1974, es interesante observar que en sólo cuatro años se propusieron dos tipos del estadístico BIC (IC bayesiano) por Akaike (1977, 1978) y Schwarz (1978). Spiegelhalter et al. (2002) tardaron mucho más más tiempo en llegar al DIC (Deviance IC). Aunque la aparición del criterio CIC no fue predicha por Akaike (1974), sería ingenuo creer que nunca fue contemplado. Fue propuesto por Carlos C. Rodríguez en 2005. (Nótese que el criterio CIC de R. Tibshirani y K. Knight el CIC (Criterio de Inflación de la Covarianza) es algo diferente).
Sabía que el EIC (Empirical IC) fue propuesto por gente de la Universidad de Monash en torno a 2003. Acabo de descubrir el Criterio de Información Enfocado (FIC). Algunos libros se refieren al CI de Hannan y Quinn como HIC, véase Por ejemplo, este ). Sé que debe haber GIC (IC Generalizado) y acabo de descubrir el Criterio de Inversión de la Información (IIC). Hay NIC, TIC y más.
Creo que podría cubrir el resto del alfabeto, por lo que no estoy preguntando dónde se detiene la secuencia AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC,... o qué letras del alfabeto no se han utilizado o se han utilizado al menos dos veces (por ejemplo, la E de EIC puede significar Extended o Empirical). Mi pregunta es más sencilla y espero que más útil en la práctica. ¿Puedo utilizar esas estadísticas indistintamente, ignorando los supuestos específicos bajo los que se derivaron, las situaciones específicas en las que se supone que son aplicables, etc.?
Esta pregunta está motivada en parte por lo que escriben Burnham y Anderson (2001):
...the comparison of AIC and BIC model selection ought to be based on their performance
properties such as mean square error for parameter estimation (includes prediction) and
confidence interval coverage: tapering effects or not, goodness-of-fit issues,
derivation of theory is irrelevant as it can be frequentist or Bayes.
El capítulo 7 de la monografía de Hyndman et al. sobre la suavización exponencial parece seguir el consejo de B-A al examinar el rendimiento de los cinco CI alternativos (AIC, BIC, AICc, HQIC, LEIC) en la selección del modelo que mejor pronostica (medido por una medida de error recientemente propuesta llamada MASE) para concluir que el AIC era una alternativa mejor con más frecuencia. (El HQIC fue declarado como el mejor selector de modelos sólo una vez).
No estoy seguro de cuál es el propósito útil de los ejercicios de investigación que tratan implícitamente todos ICc como si se derivaran para responder a una misma pregunta bajo conjuntos de supuestos equivalentes. En particular, no estoy seguro de la utilidad de investigar el rendimiento predictivo del criterio consistente para determinar el orden de una autorregresión (que Hannan y Quinn derivaron para secuencias estacionarias ergódicas) utilizándolo en el contexto de los modelos no estacionarios de suavización exponencial descritos y analizados en la monografía de Hyndman et al. ¿Me estoy perdiendo algo aquí?
Referencias:
Akaike, H. (1974), Una nueva mirada a la identificación del modelo estadístico, Transacciones del IEEE sobre Control Automático 19(6), 716-723.
Akaike, H. (1977), On entropy maximization principle, en P. R. Krishnaiah, ed., Aplicaciones de la estadística Vol. 27, Amsterdam: Holanda Septentrional, pp. 27-41.
Akaike, H. (1978), A Bayesian analysis of the minimum AIC procedure, Anales del Instituto de Matemática Estadística 30(1), 9-14.
Burnham, K. P. & Anderson, D. R. (2001) La información de Kullback-Leibler como base para la inferencia fuerte inference in ecological studies, Investigación sobre la vida silvestre 28, 111-119
Hyndman, R. J., Koehler, A. B., Ord, J. K. y Snyder, R. D. Previsión con alisamiento exponencial: el enfoque del espacio de estado. Nueva York: Springer, 2008
Ripley, B.D. Reconocimiento de patrones y redes neuronales . Cambridge: Cambridge University Press, 1996
Schwarz, G. (1978), Estimación de la dimensión de un modelo, Anales de Estadística 6(2), 461-464.
Spiegelhalter, D. J., Best, N. G., Carlin, B. P. y van der Linde, A. (2002), Bayesian measures of model complexity and t (con discusión), Revista de la Royal Statistical Society. Serie B (Metodología estadística) 64(4), 583-639.
9 votos
En conversación con Findley y Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Akaike reveló que el AIC fue utilizado por un asistente en su programa FORTRAN. Nombres de variables como IC implicaban por defecto cantidades enteras; un prefijo como A era suficiente para indicar al compilador que la cantidad era real. Aunque no pretendía "Akaike", se dio cuenta de que también significaba simplemente "an". (Por cierto, aunque esta referencia es, por así decirlo, un antídoto para una historia incorrecta, perpetúa el error ortográfico de Mallows como Mallow's).
0 votos
Esta pregunta hace pensar en el "diseño experimental alfabético": doe.soton.ac.uk/elearning/section3.6.jsp