60 votos

¿Estamos exagerando la importancia de la asunción y evaluación de modelos en una época en la que los análisis suelen ser realizados por profanos

Conclusión Cuanto más aprendo sobre estadística, menos me fío de los artículos publicados en mi campo; sencillamente, creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.


Soy un lego, por así decirlo. Tengo formación en biología, pero no tengo educación formal en estadística o matemáticas. Disfruto con R y a menudo me esfuerzo por leer (y entender...) algunos de los fundamentos teóricos de los métodos que aplico cuando investigo. No me sorprendería que la mayoría de la gente que hace análisis hoy en día no tenga una formación formal. He publicado alrededor de 20 artículos originales, algunos de los cuales han sido aceptados por revistas reconocidas y los estadísticos han participado con frecuencia en el proceso de revisión. Mis análisis suelen incluir análisis de supervivencia, regresión lineal, regresión logística y modelos mixtos. Nunca un revisor me ha preguntado por los supuestos, el ajuste o la evaluación del modelo.

Por lo tanto, nunca me he preocupado demasiado por los supuestos, el ajuste y la evaluación del modelo. Empiezo con una hipótesis, ejecuto la regresión y luego presento los resultados. En algunos casos me esforcé por evaluar estas cosas, pero siempre acabé con " bueno, no cumplió con todos los supuestos, pero confío en los resultados ("conocimiento de la materia") y son plausibles, así que está bien " y al consultar a un estadístico siempre parecían estar de acuerdo.

Ahora bien, he hablado con otros estadísticos y no estadísticos (químicos, médicos y biólogos) que realizan ellos mismos los análisis; parece que la gente no se preocupa demasiado por todos estos supuestos y evaluaciones formales. Pero aquí en CV, hay una abundancia de personas que preguntan sobre los residuos, el ajuste del modelo, las formas de evaluarlo, los valores propios, los vectores y la lista continúa. Permítanme ponerlo de esta manera, cuando lme4 advierte sobre grandes valores propios, realmente dudo que muchos de sus usuarios se preocupen por abordar eso...

¿Merece la pena el esfuerzo adicional? ¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y quizás ni siquiera los hayan evaluado? Probablemente se trata de un problema creciente, ya que las bases de datos son cada vez más grandes y existe la idea de que cuanto más grandes son los datos, menos importantes son los supuestos y las evaluaciones.

Podría estar absolutamente equivocado, pero así es como lo he percibido.

Actualización: Cita tomada de StasK (abajo): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

6voto

phoebus Puntos 6196

Dado que el CV está poblado de estadísticos y de personas curiosas, si no competentes, en materia de estadística, no me sorprenden todas las respuestas que hacen hincapié en la necesidad de comprender los supuestos. En principio, también estoy de acuerdo con estas respuestas.

Sin embargo, teniendo en cuenta la presión por publicar y el bajo nivel de integridad estadística actual, tengo que decir que estas respuestas son bastante ingenuas. Podemos decirle a la gente lo que debe hacer todo el día (es decir, comprobar su hipótesis), pero lo que se hacer depende únicamente de los incentivos institucionales. El propio OP afirma que consigue publicar 20 artículos sin entender el supuesto del modelo. Teniendo en cuenta mi propia experiencia, no me parece difícil de creer.

Por eso quiero hacer de abogado del diablo, respondiendo directamente a la pregunta del OP. No se trata en absoluto de una respuesta que promueva las "buenas prácticas", sino que refleja cómo se practican las cosas con una pizca de sátira.

¿Merece la pena el esfuerzo adicional?

No, si el objetivo es publicar, no vale la pena dedicar todo el tiempo a entender el modelo. Basta con seguir el modelo que prevalece en la literatura. De esta manera, 1) tu artículo pasará las revisiones más fácilmente, y 2) el riesgo de ser expuesto por "incompetencia estadística" es pequeño, porque exponerte a ti significa exponer a todo el campo, incluyendo a muchas personas de alto nivel.

¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y quizás ni siquiera los hayan evaluado? Probablemente se trata de un problema creciente, ya que las bases de datos son cada vez más grandes y existe la idea de que cuanto más grandes son los datos, menos importantes son los supuestos y las evaluaciones.

Sí, es probable que la mayoría de los resultados publicados no sean ciertos. Cuanto más me involucro en la investigación real, más creo que es probable.

5voto

marquisdecarabas Puntos 591

La respuesta corta es "no". Los métodos estadísticos se desarrollaron bajo una serie de supuestos que deben cumplirse para que los resultados sean válidos. Es lógico, pues, que si los supuestos no se cumplen, los resultados puede no es válido. Por supuesto, algunas estimaciones pueden seguir siendo robustas a pesar de las violaciones de los supuestos del modelo. Por ejemplo, el logit multinomial parece funcionar bien a pesar de las violaciones del supuesto IIA (véase la disertación de Kropko [2011] en la referencia más abajo).

Como científicos, tenemos la obligación de asegurarnos de que los resultados que exponemos son válidos, aunque a la gente del sector no le importe si se han cumplido los supuestos. Esto se debe a que la ciencia se basa en el supuesto de que los científicos harán las cosas de forma correcta en su búsqueda de los hechos. Nosotros confiar en nuestros colegas para comprobar su trabajo antes de enviarlo a las revistas. Nosotros confiar en que los árbitros revisen de forma competente un manuscrito antes de su publicación. Nosotros suponga que que tanto los investigadores como los árbitros sepan lo que hacen, para que los resultados de los trabajos que se publican en las revistas con revisión por pares sean fiables. Sabemos que esto no siempre es cierto en el mundo real, si nos basamos en la gran cantidad de artículos publicados en los que acabamos sacudiendo la cabeza y poniendo los ojos en blanco ante los resultados obviamente escogidos a dedo en revistas respetables (" Jama publicado este papel?").

Así que no, no se puede exagerar la importancia, sobre todo porque la gente confía en que usted -el experto- ha hecho su debida diligencia. Lo menos que puedes hacer es hablar de estas violaciones en la sección de "limitaciones" de tu artículo para ayudar a la gente a interpretar la validez de tus resultados.

Referencia

Kropko, J. 2011. Nuevos enfoques de la metodología de elección discreta y de la sección transversal de series temporales para la investigación política (disertación). UNC-Chapel Hill, Chapel Hill, NC.

3voto

Aksakal Puntos 11351

Si necesitas estadísticas muy avanzadas, lo más probable es que sea porque tus datos son un desastre, lo que ocurre con la mayoría de las ciencias sociales, por no hablar de la psicología. En los campos en los que se tienen buenos datos se necesita muy poca estadística. La física es un muy buen ejemplo.

Considere esta cita de Galileo sobre su famoso experimento de aceleración gravitacional:

Un trozo de moldura de madera o scantling, de unos 12 codos de largo, medio de ancho y tres dedos de grosor, y en su borde se colocó de un dedo de ancho; después de haber hecho esta ranura muy recta, lisa y pulida, se de un dedo de ancho; después de haber hecho esta ranura muy recta, lisa y pulida, y de haberla de pergamino, también tan liso y pulido como fuera posible, enrollamos una bola de bronce dura, lisa y muy redonda. Habiendo colocado de la tabla en posición inclinada, elevando uno de sus extremos uno o dos cubos por encima del otro. codos por encima del otro, hicimos rodar la bola, como acabo de decir, a lo largo del canal, observando, de una manera que se describirá más adelante, el tiempo necesario para hacer el descenso. Repetimos este experimento más de una vez de una vez para medir el tiempo con una exactitud tal que la desviación desviación entre dos observaciones no superara nunca la décima parte de un de pulso. Después de haber realizado esta operación y de asegurarnos de su fiabilidad, hicimos rodar la bola sólo un cuarto de la longitud del de la longitud del canal; y habiendo medido el tiempo de su descenso, lo encontramos precisamente a la mitad del anterior. A continuación probamos otras distancias, comparando el tiempo de la longitud total con el de la de la mitad, o de dos tercios, o de tres cuartos, o de cualquier fracción. cualquier fracción; en tales experimentos, repetidos un centenar de veces, siempre de los espacios recorridos, como los cuadrados de los tiempos, y esto de los tiempos, y esto era cierto para todas las inclinaciones del plano plano, es decir, del canal, a lo largo del cual hicimos rodar la bola. También de la bola. También observamos que los tiempos de descenso, para diversas inclinaciones del de la bola, se correspondían precisamente con la relación que, como veremos más adelante, el como veremos más adelante, el Autor había predicho y demostrado para ellos.

Para la medición del tiempo, empleamos un gran recipiente con agua en una posición elevada; al fondo de este recipiente se soldó un tubo de un tubo de pequeño diámetro que daba un fino chorro de agua que recogíamos en un que recogimos en un pequeño vaso durante el tiempo de cada descenso, ya sea de la longitud del canal o de una parte del mismo; el agua así recogida se pesaba de la misma; el agua asi recogida se pesaba, despues de cada descenso, en una balanza muy de los tiempos de las bajadas, y de los tiempos de las bajadas, y de los tiempos de las las diferencias y proporciones de los tiempos, y esto con tanta precisión que aunque la operación se repitió muchísimas veces, no hubo no hubo ninguna discrepancia apreciable en los resultados .

Observe el texto resaltado por mí. Esto es lo que son los buenos datos. Provienen de un experimento bien planificado y basado en una buena teoría. No necesitas estadísticas para extraer lo que te interesa. En aquella época no existía la estadística, ni tampoco los ordenadores. ¿El resultado? Una relación bastante fundamental, que aún se mantiene, y que puede ser probada en casa por un niño de sexto grado.

He robado la cita de esta impresionante página .

ACTUALIZACIÓN: Al comentario de @Silverfish, este es un ejemplo de estadísticas en la física experimental de partículas. Bastante básico, ¿no? Apenas supera el nivel de MBA. Nota, cómo les gusta $\chi^2$ :) ¡Tomen eso, estadísticos!

2voto

goodsamaritan Puntos 56

Esta cuestión parece ser un caso de integridad profesional.

El problema parece ser que: (a) no hay suficiente evaluación crítica del análisis estadístico por parte de los legos o (b) ¿un caso de conocimiento común es insuficiente para identificar un error estadístico (como un error de tipo 2)?

Conozco lo suficiente mi área de conocimiento como para solicitar la opinión de un experto cuando me acerco al límite de esa experiencia. He visto a gente utilizar cosas como la prueba F (y R-cuadrado en Excel) sin tener conocimientos suficientes.

Según mi experiencia, los sistemas educativos, en nuestro afán por promover la estadística, hemos simplificado en exceso las herramientas y subestimado los riesgos/límites. Es este un tema común que otros han experimentado y que explicaría la situación?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X