Motivado por el reciente cambio de la estadística de selección de modelos por defecto en el paquete de previsión de R de AIC a AICc, tengo curiosidad por saber si este último es es realmente aplicable donde lo es el primero. Tengo una serie de preguntas al respecto respecto y aquí está la primera.
Sé que sustituir AIC por AICc en todas partes es lo que el conocido libro de (1) por Burnham y Anderson (no estadísticos), como resumido aquí , recomienda. A veces, los estadísticos más jóvenes hacen referencia al libro de forma acrítica; véanse, por ejemplo, los comentarios a esta entrada del blog de Rob Hyndman pero el estadístico Brian Ripley aconsejó de una manera radicalmente diferente:
“Burnham and Anderson (2002) is a book I would recommend people NOT read until
they have read the primary literature. I see no evidence that the authors have
actually read Akaike’s papers." [quoted from [AIC MYTHS AND MISUNDERSTANDINGS][4] by
Burnham-Anderson]
Se deduce de lo que Ripley escribe sobre la AIC y la teoría relacionada que la advertencia debe ser tomada en serio. Tengo una buena colección de los propios documentos de Akaike y el libro de Burnham-Anderson. Con el tiempo tendré mi propia opinión sobre la calidad del libro, pero también será útil saber lo que piensa al respecto la comunidad de estadísticos, tanto jóvenes como veteranos. En particular, ¿hay profesores de estadística (u otros buenos estudiantes de estadística) que hayan recomendado explícitamente el libro como un resumen útil de conocimientos sobre el uso del AIC para la selección de modelos?
Referencia:
(1) Burnham, K. P. & Anderson, D. R. Model selection and multimodel inference: a practical information-theoretic approach Springer, 2002
PS. En respuesta a la reciente "respuesta" en la que se afirma que "el Dr. Burnham es un doctor en estadística", me gustaría añadir esta aclaración. Sí, por sí mismo es un estadístico, miembro de la ASA y receptor de numerosos premios profesionales, incluyendo la Medalla al Logro Distinguido de la ASA. ¿Pero quién dice que no lo es? Todo lo que he dicho arriba es que como pareja de autores no son estadísticos y el libro refleja este hecho.
2 votos
El documento "Mitos y malentendidos de la AIC" puede encontrarse aquí . No lo había visto (aunque sí el comentario de Ripley).
0 votos
Gracias, el mismo enlace está en la pregunta pero no puedo editar la pregunta para mostrarlo. No he visto los comentarios originales de Ripley, aunque B-A menciona varios sitios web, así que cualquier enlace a los comentarios originales de Ripley también sería útil.
0 votos
El comentario original de Ripley: aquí (archivo alternativo si no funciona: aquí ). Aunque me fascina la pregunta y me encantaría que se debatiera, me pregunto si su alcance podría ser demasiado amplio para una pregunta de CV tal como está.
0 votos
Interesante. En cuanto a la 1ª frase de Ripley, Akaike, H. A Bayesian analysis of the minimum AIC procedure Annals of the Institute of Statistical Mathematics, Springer, 1978, 30, 9-14 escribió "Si la elección de un único modelo no es el único propósito del análisis de los datos, el promedio de los modelos con respecto a la probabilidad posterior aproximada C exp {(-1/2)AIC (k)} proporcionará una mejor estimación de la verdadera distribución de Y. En este tipo de aplicaciones, el 2k de la definición de AIC (k) puede modificarse de forma adaptativa... [cuestionando la segunda frase de Ripley en el comentario enlazado].
4 votos
La pregunta proporciona enlaces, pero creo que sería útil para los lectores que la propia pregunta diera alguna pista sobre lo que podría ser malo del contenido del libro de Burnham y Anderson. (Si lo que dicen es preciso, claro, útil, etc., entonces no importa si realmente han leído los documentos de Akaike). Además, me parece que el AIC y los métodos relacionados siguen siendo controvertidos; si es así, cualquier libro que los presente tendrá detractores. Y una sugerencia de que todo el mundo debe leer los documentos originales antes de leer un libro que aspira a proporcionar una introducción a un tema parece cuestionable.
0 votos
@Mars Supongo que si hubiera sabido lo que podría ser malo del libro B-A, habría hecho una pregunta diferente. Leeré lo que escriben sobre la información de Kullback-Leibler en la revista Wildlife Research 2001 de la editorial CSIRO y quizás el capítulo 2 de su libro, pero muy probablemente será otra pregunta. En cuanto a la lectura de los documentos originales de Akaike, la regla general es que se debe leer lo que se cita (creo que Rob Hyndman escribió una entrada en el blog sobre esto hace unos años).
7 votos
He leído los dos artículos principales de Akaike, y el de Schwarz sobre el BIC, y el libro de Burnham y Anderson (está en mi estantería ahora mismo), y también (como ves), la breve crítica de Ripley. Me gustaría mucho ver a Ripley explicar la crítica en detalle (sin las aspersiones sobre quién puede haber leído qué) - tal como están las cosas, no hay realmente nada sustantivo para que Burnham y Anderson respondan. Si hay algo en ello (y puede que lo haya, por lo que sé), merece más que unas pocas líneas en una lista de correo de ayuda de R.
2 votos
Los puntos de vista de @Gleb_b Ripley pueden deducirse de su libro de 1996 sobre el reconocimiento de patrones, al que se refería en ese post de la lista R, véase, por ejemplo, el capítulo 2. Los detalles matemáticos y los comentarios sobre otros aspectos del trabajo de Akaike (por ejemplo, qué significa la A en el AIC) me hacen pensar que entiende bien esta área y que ha leído más que unos pocos trabajos de Akaike.
0 votos
@Glen_b [continuación] Por otro lado, el libro B-A no rehúye ir en contra de lo generalmente aceptado. Por ejemplo, aunque los autores entienden que la K-L no es simétrica en el sentido de que la medida de f a g no es la misma que la medida de g a f (p.52), escriben (la misma p.52) que "La distancia K-L también ha sido llamada discrepancia K-L, divergencia, información y número. Trataremos estos términos como sinónimos, pero tenderemos a utilizar distancia o información en el material que sigue."
3 votos
Poniendo un dos centavos diferente: ¿Con qué frecuencia la AIC y la AICc dan consejos diferentes? Según mi experiencia, sugieren los mismos modelos.
0 votos
@Peter Flom Buen punto. Por ejemplo, la tabla 7.6 de la monografía de Rob Hyndman et al sobre Suavizado Exponencial informa de una comparación de cinco ICc diferentes (incluyendo el AIC y el AICc) sobre los datos de la competición M3 utilizando la medida de error MASE. Sólo para los modelos lineales, todos los pares de valores de MASE para AIC y AICc, excepto uno, son efectivamente idénticos hasta el primer decimal. En el caso de los modelos lineales y no lineales, la situación es diferente.
0 votos
@Hibernando, de acuerdo, es justo. Y por supuesto que tienes razón: hay que leer lo que se cita, salvo en los casos en que se aclare que lo que se leyó fue sólo una obra secundaria que cita la fuente original. Tal vez valga la pena mencionar el libro de Anderson de 2008, que proporciona una introducción más condensada y probablemente más fácil al AIC y a los métodos relacionados desde su punto de vista. Es un libro que dista mucho de ser perfecto, pero a mí me resultó útil. (No he estudiado B-A con detenimiento).
1 votos
@PeterFlom, he tenido casos en los que el AIC y el AICc indican modelos diferentes. Por lo general, cuando se trata de modelar la frecuencia anual con sólo 10 - 15 observaciones, me parece que no es raro que el AIC sugiera la binomial negativa pero el AICc indique la poisson. Cuando $n$ no es grande con respecto a $k$ Ese último término puede ser significativo. Cuando $n >> k$ Entonces hay poca diferencia, por lo que B&A recomiendan siempre el AICc.