53 votos

¿Son todos los modelos inútiles? ¿Es posible, o útil, cualquier modelo exacto?

Esta pregunta lleva más de un mes rondando por mi cabeza. El número de febrero de 2015 de Noticias de Amstat contiene un artículo del profesor de Berkeley Mark van der Laan que regaña a la gente por utilizar modelos inexactos. Afirma que, al utilizar modelos, la estadística es entonces un arte y no una ciencia. Según él, siempre se puede utilizar "el modelo exacto" y que el hecho de no hacerlo contribuye a una "falta de rigor ... Me temo que nuestra representación en la ciencia de los datos se está marginando".

Estoy de acuerdo en que corremos el peligro de quedar marginados, pero la amenaza suele provenir de quienes afirman (sonando mucho como el profesor van der Laan, al parecer) que no están utilizando un método aproximado, pero cuyos métodos son en realidad muy menos rigurosos que los modelos estadísticos cuidadosamente aplicados, incluso los erróneos.

Creo que es justo decir que el profesor van der Laan desprecia bastante a quienes repiten la cita de Box, tan utilizada, de que "todos los modelos son erróneos, pero algunos son útiles". Básicamente, tal y como yo lo leo, dice que todos los modelos son erróneos, y todos son inútiles. Ahora bien, ¿quién soy yo para estar en desacuerdo con un profesor de Berkeley? Por otro lado, ¿quién es él para desestimar con tanta displicencia las opiniones de uno de los verdaderos gigantes de nuestro campo?

El Dr. van der Laan afirma que "es un completo disparate afirmar que todos los modelos son erróneos, ... Por ejemplo, un modelo estadístico que no hace ninguna suposición es siempre verdadero". Y continúa: "Pero a menudo, podemos hacerlo mucho mejor que eso: Podemos saber que los datos son el resultado de $n$ experimentos idénticos e independientes". No veo cómo se puede saber eso excepto en un muestreo aleatorio muy estrecho o en entornos experimentales controlados. El autor señala su trabajo en el aprendizaje de máxima verosimilitud dirigida y en el aprendizaje basado en la pérdida mínima dirigida, que "integra el estado del arte en el aprendizaje automático/la estimación adaptativa de datos, todos los increíbles avances en la inferencia causal, los datos censurados, la eficiencia y la teoría del proceso empírico, al tiempo que proporciona una inferencia estadística formal." Suena muy bien.

También hay algunas afirmaciones con las que estoy de acuerdo. Dice que tenemos que tomarnos en serio nuestro trabajo, nuestro papel como estadístico y a nuestros colaboradores científicos. Muy bien, muy bien. Es ciertamente una mala noticia cuando la gente utiliza rutinariamente un modelo de regresión logística, o lo que sea, sin considerar cuidadosamente si es adecuado para responder a la pregunta científica o si se ajusta a los datos. Y veo muchos abusos de este tipo en las preguntas publicadas en este foro. Pero también veo usos eficaces y valiosos de modelos inexactos, incluso paramétricos. Y al contrario de lo que dice, rara vez me he "aburrido hasta la saciedad con otro modelo de regresión logística". Tal es mi ingenuidad, supongo.

Así que aquí están mis preguntas:

  1. ¿Qué inferencias estadísticas útiles pueden hacerse utilizando un modelo que no hace ninguna suposición?
  2. ¿Existe algún estudio de caso, con datos importantes y reales, sobre el uso de la máxima verosimilitud dirigida? ¿Son estos métodos ampliamente utilizados y aceptados?
  3. ¿Son realmente inútiles todos los modelos inexactos?
  4. ¿Es posible saber que tiene el modelo exacto ¿algo más que casos triviales?
  5. Si esto es demasiado opinable y, por tanto, off-topic, ¿dónde se puede discutir? Porque el artículo del Dr. van der Laan definitivamente necesita ser discutido.

20voto

EdM Puntos 5716

El artículo citado parece basarse en el temor de que los estadísticos "no formen parte intrínseca del equipo científico, y los científicos tengan naturalmente sus dudas sobre los métodos utilizados" y que "los colaboradores nos vean como técnicos a los que pueden dirigir para conseguir la publicación de sus resultados científicos." Mis comentarios sobre las preguntas planteadas por @rvl proceden de la perspectiva de un científico biológico no estadístico que se ha visto obligado a lidiar con cuestiones estadísticas cada vez más complicadas al pasar de la investigación de banco a la investigación traslacional/clínica en los últimos años. La pregunta 5 está claramente contestada por las múltiples respuestas que hay ahora en esta página; iré en orden inverso a partir de ahí.

4) No importa realmente si existe un "modelo exacto", porque incluso si existe probablemente no podré permitirme hacer el estudio. Considere esta cuestión en el contexto de la discusión: ¿Realmente necesitamos incluir "todos los predictores relevantes"? Incluso si pudiéramos identificar "todos los predictores relevantes", seguiría existiendo el problema de recopilar suficientes datos para obtener los grados de libertad necesarios para incorporarlos todos de forma fiable al modelo. Eso ya es bastante difícil en los estudios experimentales controlados, por no hablar de los estudios retrospectivos o poblacionales. Quizá en algunos tipos de "Big Data" eso sea menos problemático, pero lo es para mí y mis colegas. Siempre habrá la necesidad de "ser inteligente", como dijo @Aksakal un respuesta en esa página.

Para ser justos con el Prof. van der Laan, no utiliza la palabra "exacta" en el artículo citado, al menos en la versión actualmente disponible en línea del enlace . Habla de modelos "realistas". Es una distinción importante.

Por otra parte, el profesor van der Laan se queja de que "la estadística es ahora un arte, no una ciencia", lo cual es más que injusto por su parte. Considere la forma en que propone trabajar con los colaboradores:

... tenemos que tomarnos en serio los datos, nuestra identidad como estadísticos y nuestros colaboradores científicos. Tenemos que aprender todo lo posible sobre cómo se generaron los datos. Una vez que hemos planteado un modelo estadístico realista, tenemos que extraer de nuestros colaboradores qué estimación representa mejor la respuesta a su pregunta científica de interés. Esto supone mucho trabajo. Es difícil. Requiere una comprensión razonable de la teoría estadística. Es una empresa académica que merece la pena.

La aplicación de estos principios científicos a los problemas del mundo real parece requerir una buena dosis de "arte", como ocurre con el trabajo en cualquier empresa científica. He conocido a algunos científicos de gran éxito, a muchos más que no lo hicieron mal y a algunos fracasados. En mi experiencia, la diferencia parece estar en el "arte" de perseguir los objetivos científicos. El resultado puede ser ciencia, pero el proceso es algo más.

3) De nuevo, parte de la cuestión es terminológica; hay una gran diferencia entre un modelo "exacto" y los modelos "realistas" que busca el profesor van der Laan. Su afirmación es que muchos modelos estadísticos estándar son lo suficientemente irreales como para producir resultados "poco fiables". En concreto: "Los estimadores de un estimando definido en un modelo estadístico honesto no pueden estimarse de forma sensata basándose en modelos paramétricos". Esas son cuestiones que hay que probar, no una opinión.

Su propio trabajo reconoce claramente que los modelos exactos no siempre son posibles. Considere este manuscrito sobre los estimadores de máxima verosimilitud dirigidos (TMLE) en el contexto de las variables de resultado ausentes. Se basa en la suposición de que los resultados faltan al azar, lo que puede no ser comprobable en la práctica: "...suponemos que no hay factores de confusión no observados en la relación entre la falta... y el resultado". Este es otro ejemplo de la dificultad de incluir "todos los predictores relevantes". Sin embargo, un punto fuerte de la TMLE es que parece ayudar a evaluar el "supuesto de positividad" del apoyo adecuado en los datos para estimar el parámetro objetivo en este contexto. El objetivo es acercarse lo más posible a un modelo realista de los datos.

2) El TMLE ha sido discutido sobre la validación cruzada anteriormente. No me consta que se haya extendido su uso en datos reales. Google Scholar mostró hoy 258 citas de lo que parece ser el informe inicial pero a primera vista ninguno parecía estar en grandes conjuntos de datos del mundo real. El Artículo del Journal of Statistical Software sobre el paquete R asociado sólo muestra 27 citas de Google Scholar hoy. Sin embargo, esto no debe tomarse como una prueba del valor del TMLE. Su enfoque en la obtención de estimaciones fiables e insesgadas del "estimando" real de interés, que a menudo es un problema con las estimaciones de complemento derivadas de los modelos estadísticos estándar, parece potencialmente valioso.

1) La afirmación: "un modelo estadístico que no hace suposiciones es siempre verdadero" parece que pretende ser un hombre de paja, una tautología. Los datos son los datos. Asumo que hay leyes del universo que permanecen consistentes de un día para otro. El método TMLE presumiblemente contiene suposiciones sobre la convexidad en el espacio de búsqueda, y como se señaló anteriormente su aplicación en un contexto particular podría requerir suposiciones adicionales.

Incluso el profesor van der Laan estaría de acuerdo en que son necesarios algunos supuestos. Mi sensación es que le gustaría minimizar el número de supuestos y evitar los que no son realistas. La cuestión crucial es si eso requiere realmente renunciar a los modelos paramétricos, como él parece afirmar.

12voto

Andrew Bestic Puntos 121

Tal vez no entendí el punto, pero creo que hay que retroceder un poco.

Creo que su punto es el abuso de herramientas de fácil acceso sin mayor conocimiento. Esto también es cierto para una simple prueba t: simplemente alimentar el algoritmo con sus datos, obtener un p<0,05 y pensar, que su tesis es verdadera. Completamente equivocado. Por supuesto, tienes que saber más sobre tus datos.

Retrocediendo aún más: No hay nada como un modelo exacto ( físico aquí). Pero algunos coinciden muy bien con nuestras mediciones. El único exacto es la matemática. Que tiene nada que ver con la realidad o los modelos de la misma . Todo lo demás (y todo modelo de la realidad) es "erróneo" (como se cita tan a menudo).

Pero, ¿qué significa "malo" y útil? Juzgue usted mismo:

TODOS de nuestra alta tecnología actual (ordenadores, cohetes, radiactividad, etc.) se basa en estos modelos erróneos. Tal vez incluso calculados por simulaciones "erróneas" con modelos "erróneos".
-> Concéntrese más en lo "útil" en lugar de lo "incorrecto";)

Más explícitamente a sus preguntas:

  1. No lo sé, ¡lo siento!
  2. Sí. Un ejemplo: en la física de partículas, se quiere detectar ciertas partículas (digamos electrones, protones, etc.). Cada partícula deja un rastro característico en el detector (y por tanto en los datos), pero varía incluso para la misma partícula (por su naturaleza). Hoy en día, la mayoría de la gente utiliza el aprendizaje automático para lograr este objetivo (esto fue una enorme simplificación, pero es más o menos así) y hay un aumento en la eficiencia del 20%-50% en comparación con hacerlo estadísticas a mano .
  3. ¡Nadie ha reclamado esto realmente! ¡No saques conclusiones erróneas! (a: todo los modelos son inexactos y b: algunos son útiles. No confundas las cosas)
  4. No existe un modelo exacto ( excepto en matemáticas, pero no realmente en las estadísticas como tener puntos exactamente en una línea recta y "encajar" una línea a través de ella puede ser exacto... pero ese es un caso especial poco interesante que nunca ocurre).
  5. No lo sé :) Pero IMHO veo esto más como un "sólo porque todos los niños pueden usarlo, no todos deberían" y no lo usen en exceso a ciegas.

6voto

Sumit Puntos 101

En economía, se habla mucho de entender el "proceso de generación de datos". No estoy seguro de lo que significa exactamente un modelo "exacto", pero en economía podría ser lo mismo que un modelo "correctamente especificado".

Ciertamente, antes de intentar un modelo se quiere saber todo lo que se pueda sobre el proceso que generó los datos, ¿verdad? Creo que la dificultad proviene de a) que no tenemos ni idea de la verdadera DGP y b) que incluso si conociéramos la verdadera DGP podría ser intratable de modelar y estimar (por muchas razones.)

Así que se hacen suposiciones para simplificar las cosas y reducir los requisitos de estimación. ¿Se puede saber alguna vez si las suposiciones son exactamente correctas? Puedes obtener pruebas a favor de ellas, pero, en mi opinión, es difícil estar realmente seguro en algunos casos.

Tengo que filtrar todo esto en términos tanto de la teoría establecida como de la practicidad. Si se hace una suposición coherente con una teoría y esa suposición permite mejorar el rendimiento de la estimación (eficiencia, precisión, coherencia, lo que sea), no veo ninguna razón para evitarla, incluso si hace que el modelo sea "inexacto".

Francamente, creo que el artículo pretende estimular a quienes trabajan con datos para que reflexionen más sobre todo el proceso de modelización. Está claro que van der Laan hace suposiciones en su trabajo . En este ejemplo De hecho, van der Laan parece desechar cualquier preocupación por un modelo exacto y, en su lugar, utiliza una mezcla de procedimientos para maximizar el rendimiento. Esto me hace estar más seguro de que planteó la cita de Box con la intención de evitar que la gente la utilice como un escape del difícil trabajo de entender el problema.

Reconozcámoslo, el mundo está plagado de malos usos y abusos de los modelos estadísticos. La gente aplica ciegamente lo que sabe hacer y, lo que es peor, otros suelen interpretar los resultados de la forma más deseable. Este artículo es un buen recordatorio para tener cuidado, pero no creo que debamos llevarlo al extremo.

Las implicaciones de lo anterior para sus preguntas:

  1. Estoy de acuerdo con otros en este post que han definido un modelo como un conjunto de supuestos. Con esa definición, un modelo sin supuestos no es realmente un modelo. Incluso el análisis exploratorio de datos (es decir, sin modelos) requiere supuestos. Por ejemplo, la mayoría de la gente asume que los datos se miden correctamente.
  2. No sé sobre el TMLE, per se, pero en economía hay muchos artículos que utilizan la misma filosofía subyacente de inferir sobre un efecto causal en una muestra contrafactual no observada. En esos casos, sin embargo, recibir un tratamiento no es independiente de las demás variables del modelo (a diferencia de la TMLE), por lo que los economistas hacen un amplio uso de la modelización. Hay algunos casos de modelos estructurales, como este donde los autores convencieron a una empresa para que aplicara su modelo y obtuvieron buenos resultados.
  3. Creo que todos los modelos son inexactos, pero de nuevo, este término es un poco difuso. En mi opinión, este es el núcleo de la cita de Box. Replantearé mi interpretación de Box de la siguiente manera: "ningún modelo puede capturar la esencia exacta de la realidad, pero algunos modelos capturan una variable de interés, por lo que en ese sentido podría tener un uso para ellos".
  4. Ya he hablado de esto más arriba. En resumen, no lo creo.
  5. No estoy seguro. Me gusta aquí.

6voto

Jeff Bauer Puntos 236

Dicho artículo me parece un artículo honesto pero político, un polémica sincera . Como tal, contiene muchos pasajes apasionados que no tienen sentido científico, pero que sin embargo pueden ser eficaces para suscitar conversaciones y deliberaciones útiles sobre asuntos importantes.

Hay muchas respuestas buenas aquí, así que permítanme citar algunas líneas del artículo para mostrar que el Prof. Laan ciertamente no está utilizando ningún tipo de "modelo exacto" en su trabajo (y por cierto, ¿quién dice que el "modelo exacto" es un concepto equivalente al mecanismo real de generación de datos?)

Citas (la negrita es mía)

"Una vez que hemos planteado una realista modelo estadístico, tenemos que extraer de nuestros colaboradores qué estimand mejor representa el respuesta a su pregunta científica de interés. "

Comentario: "realista" está tan alejado de lo "exacto" como lo está Marte de la Tierra. Sin embargo, ambos orbitan alrededor del Sol, así que para algunos propósitos no importa qué planeta se elija. Para otros fines, sí importa. Además, "mejor" es un concepto relativo. "Exacto" no lo es.

"Estimadores de un estimando definido en un honesto modelo estadístico no puede ser sensiblemente estimado en base a modelos paramétricos...

Comentario: La honestidad es la mejor política, pero ciertamente no se garantiza que sea "exacta". Además, la "estimación sensata" parece ser un resultado muy diluido si se utiliza el "modelo exacto".

" En respuesta a tener que resolver estos difíciles problemas de estimación el mejor que podamos ...desarrollamos un enfoque estadístico general... "

Comentario: DE ACUERDO. Estamos "haciendo lo mejor que podemos". Como casi todo el mundo piensa en sí mismo. Pero "lo mejor que podemos" no es "exacto".

5voto

trish Puntos 31

En cuanto al punto 3, la respuesta, obviamente, es no. Casi todas las empresas humanas se basan en algún momento en un modelo simplificado: la cocina, la construcción, las relaciones interpersonales, todas implican que los humanos actúen sobre algún tipo de datos + suposiciones. Nadie ha construido nunca un modelo del que no pretendiera hacer uso. Afirmar lo contrario es una pedantería.

Es mucho más interesante y esclarecedor, y útil, preguntarse cuando los modelos inexactos son no útiles, por qué fracasan en su utilidad, y qué ocurre cuando confiamos en modelos que resultan no ser útiles. Cualquier investigador, ya sea en el mundo académico o en la industria, tiene que hacerse esa pregunta con astucia y a menudo.

No creo que la pregunta pueda responderse en general, pero los principios de la propagación de errores informarán la respuesta. Los modelos inexactos se rompen cuando el comportamiento que predicen no refleja el comportamiento en el mundo real. Entender cómo se propagan los errores a través de un sistema puede ayudar a comprender cuánta precisión es necesaria para modelar el sistema.

Por ejemplo, una esfera rígida no suele ser un mal modelo para una pelota de béisbol. Pero cuando estés diseñando un guante de catcher, este modelo te fallará y te llevará a diseñar algo equivocado. Tus suposiciones simplificadoras sobre la física del béisbol se propagan por tu sistema de guante de béisbol y te llevan a sacar conclusiones erróneas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X