Esta pregunta lleva más de un mes rondando por mi cabeza. El número de febrero de 2015 de Noticias de Amstat contiene un artículo del profesor de Berkeley Mark van der Laan que regaña a la gente por utilizar modelos inexactos. Afirma que, al utilizar modelos, la estadística es entonces un arte y no una ciencia. Según él, siempre se puede utilizar "el modelo exacto" y que el hecho de no hacerlo contribuye a una "falta de rigor ... Me temo que nuestra representación en la ciencia de los datos se está marginando".
Estoy de acuerdo en que corremos el peligro de quedar marginados, pero la amenaza suele provenir de quienes afirman (sonando mucho como el profesor van der Laan, al parecer) que no están utilizando un método aproximado, pero cuyos métodos son en realidad muy menos rigurosos que los modelos estadísticos cuidadosamente aplicados, incluso los erróneos.
Creo que es justo decir que el profesor van der Laan desprecia bastante a quienes repiten la cita de Box, tan utilizada, de que "todos los modelos son erróneos, pero algunos son útiles". Básicamente, tal y como yo lo leo, dice que todos los modelos son erróneos, y todos son inútiles. Ahora bien, ¿quién soy yo para estar en desacuerdo con un profesor de Berkeley? Por otro lado, ¿quién es él para desestimar con tanta displicencia las opiniones de uno de los verdaderos gigantes de nuestro campo?
El Dr. van der Laan afirma que "es un completo disparate afirmar que todos los modelos son erróneos, ... Por ejemplo, un modelo estadístico que no hace ninguna suposición es siempre verdadero". Y continúa: "Pero a menudo, podemos hacerlo mucho mejor que eso: Podemos saber que los datos son el resultado de $n$ experimentos idénticos e independientes". No veo cómo se puede saber eso excepto en un muestreo aleatorio muy estrecho o en entornos experimentales controlados. El autor señala su trabajo en el aprendizaje de máxima verosimilitud dirigida y en el aprendizaje basado en la pérdida mínima dirigida, que "integra el estado del arte en el aprendizaje automático/la estimación adaptativa de datos, todos los increíbles avances en la inferencia causal, los datos censurados, la eficiencia y la teoría del proceso empírico, al tiempo que proporciona una inferencia estadística formal." Suena muy bien.
También hay algunas afirmaciones con las que estoy de acuerdo. Dice que tenemos que tomarnos en serio nuestro trabajo, nuestro papel como estadístico y a nuestros colaboradores científicos. Muy bien, muy bien. Es ciertamente una mala noticia cuando la gente utiliza rutinariamente un modelo de regresión logística, o lo que sea, sin considerar cuidadosamente si es adecuado para responder a la pregunta científica o si se ajusta a los datos. Y veo muchos abusos de este tipo en las preguntas publicadas en este foro. Pero también veo usos eficaces y valiosos de modelos inexactos, incluso paramétricos. Y al contrario de lo que dice, rara vez me he "aburrido hasta la saciedad con otro modelo de regresión logística". Tal es mi ingenuidad, supongo.
Así que aquí están mis preguntas:
- ¿Qué inferencias estadísticas útiles pueden hacerse utilizando un modelo que no hace ninguna suposición?
- ¿Existe algún estudio de caso, con datos importantes y reales, sobre el uso de la máxima verosimilitud dirigida? ¿Son estos métodos ampliamente utilizados y aceptados?
- ¿Son realmente inútiles todos los modelos inexactos?
- ¿Es posible saber que tiene el modelo exacto ¿algo más que casos triviales?
- Si esto es demasiado opinable y, por tanto, off-topic, ¿dónde se puede discutir? Porque el artículo del Dr. van der Laan definitivamente necesita ser discutido.