46 votos

Estadísticas publicadas en trabajos académicos

He leído un montón de/evolutivo ecológica de los artículos académicos, a veces con el objetivo de ver cómo las estadísticas están siendo utilizados "en el mundo real" fuera de los libros de texto. Normalmente tomo las estadísticas en papeles como el evangelio y el uso de los papeles para la ayuda en mi aprendizaje estadístico. Después de todo, si un trabajo se ha tomado años para escribir y que ha pasado a través de una rigurosa revisión por pares, entonces seguramente las estadísticas van a ser sólida como una roca? Pero en los últimos días, me he cuestionado mi suposición, y se preguntó con qué frecuencia el análisis estadístico publicado en trabajos académicos es sospechoso? En particular, se puede esperar que aquellos en campos tales como la ecología y la evolución han pasado menos tiempo de aprendizaje de la estadística y más tiempo de aprendizaje de sus campos.

¿Qué tan a menudo a la gente a encontrar sospecha de estadísticas en trabajos académicos?

40voto

AdamSane Puntos 1825

Después de todo, si un trabajo se ha tomado años para escribir y que ha pasado a través de una rigurosa revisión por pares, entonces seguramente las estadísticas van a ser sólida como una roca?

Mi experiencia de la lectura de los papeles que el intento de aplicar la estadística a través de una amplia variedad de áreas (ciencia política, la economía, la psicología, la medicina, la biología, las finanzas, la ciencia actuarial, la contabilidad, la óptica, la astronomía, y muchos, muchos otros) es que la calidad de los análisis estadísticos pueden estar en cualquier lugar en el espectro de excelente y bien hecho de un enorme disparate. He visto un buen análisis en cada una de las áreas que he mencionado, y bastante mal hecho el análisis en casi todos ellos.

Algunas revistas son en general bastante buenos, y algunos pueden ser más como jugar a los dardos con los ojos vendados - usted puede obtener la mayoría de ellos no demasiado terriblemente lejos de la meta, pero no va a ser una de las pocas en la pared, el suelo y el techo. Y tal vez el gato.

Yo no tengo planes de nomenclatura de cualquier culpables, pero he de decir que he visto carreras académicas construido en uso incorrecto de estadísticas (es decir, donde los mismos errores y malentendidos que se repetían en papel tras papel, a lo largo de más de una década).

Así que mi consejo es dejar que el lector tenga cuidado; no confían en que los editores y los revisores que saben lo que están haciendo. Con el tiempo usted puede obtener un buen sentido de que los autores en general puede ser invocado para no hacer nada demasiado sorprendente, y cuáles deben ser tratados especialmente con recelo. Usted puede obtener un sentido de que algunas revistas suelen tener nivel muy alto para sus estadísticas.

Pero incluso un típico buen autor puede cometer un error, o de los árbitros y editores no pueden recoger los errores que normalmente podrían encontrar; lo general una buena revista puede publicar un aulladores.

[A veces, incluso podrá ver muy mal los papeles de ganar premios o premios... lo cual no dice mucho de la calidad de la gente a juzgar el premio.]

No me gustaría adivinar cuál es la fracción de los "malos" stats yo podría haber visto (en diversas formas, y en cada etapa, desde la definición de la pregunta, el diseño del estudio, recolección de datos, administración de datos, ... a la derecha a través del análisis y conclusiones), pero no es casi lo suficientemente pequeño como para que me sienta cómodo.

Yo podría señalar algunos ejemplos, pero no creo que este es el foro adecuado para hacerlo. (Sería bueno si no fue un buen foro para que, en realidad, pero, de nuevo, es probable que llegar a ser altamente "politizada" con bastante rapidez, y pronto no sirven a su propósito.)

He pasado algún tiempo de la pesca de arrastre a través de la revista PLOS ONE ... y de nuevo, no va a punto en determinados documentos. Algunas cosas que he notado: se parece a una gran proporción de documentos han estadísticas en ellos, probablemente más de la mitad de tener pruebas de hipótesis. Los principales peligros que parece ser un montón de pruebas, ya sea con alta $\alpha$ como 0,05 en cada uno (lo que no es automáticamente un problema, siempre y cuando entendemos que muy pocos realmente minúsculo efectos pueden aparecer como importantes por el azar), o un increíblemente bajos individuales de nivel de significación, que se tiende a dar de baja potencia. También vi a un número de casos donde cerca de la mitad de una docena de diferentes pruebas fueron aparentemente aplicado a la resolución de exactamente la misma pregunta. Esto me parece en general una mala idea. En general, el nivel era bastante bueno a través de un par de docenas de artículos, pero en el pasado he visto absolutamente terrible papel.

[Tal vez yo podría disfrutar en tan sólo un ejemplo, indirectamente. Esta pregunta indaga acerca de uno haciendo algo muy dudoso. Está lejos de ser la peor cosa que he visto.]

Por otro lado, también veo (con más frecuencia) de los casos donde las personas se ven obligados a saltar a través de todos los tipos de pasos innecesarios para conseguir su análisis aceptada; perfectamente razonable cosas que hacer no son aceptados porque no hay una manera "correcta" de hacer las cosas de acuerdo a un revisor o un editor o un supervisor, o sólo en la afirmación de la cultura de un área en particular.

16voto

Nick Stauner Puntos 8220

Yo respeto a @Glen_b de la postura sobre la forma correcta de responder aquí (y ciertamente no pretende restarle valor), pero no puedo resistir que apunta a un particular entretenida ejemplo, que cerca de mi casa. En el riesgo de politización de las cosas y de hacer esta pregunta a propósito de un flaco favor, recomiendo Wagenmakers, Wetzels, Boorsboom, y Van Der Maas (2011). He citado esta en un post relacionados en las Ciencias Cognitivas beta SE (¿Cómo funciona la ciencia cognitiva explicar la intencionalidad a distancia y la función del cerebro en los receptores?), que considera otro ejemplo de "un dardo golpear al gato". Wagenmakers y colegas de los comentarios del artículo directamente en un verdadero "aulladores", aunque: que fue publicado en el JPSP (una de las mayores revistas de psicología) hace un par de años. También sostienen más en general, en favor del análisis Bayesiano y que:

Con el fin de convencer a una audiencia escéptica de una afirmación controvertida, lo que uno necesita para llevar a cabo estrictamente de confirmación con los estudios y analizar los resultados con las pruebas estadísticas que son conservadores, en lugar de liberal.

Probablemente no es necesario decir que esto no se exactamente que venir a través como predicando al coro. Por lo que vale, no es una refutación así (como parece que siempre hay entre Bayesians y frequentists; (Bem, Utts, & Johnson, 2011), pero me da la sensación de que no se exactamente jaque mate al debate.

La psicología como una comunidad científica ha sido un poco de una réplica del kick recientemente, en parte debido a este y otros de alto perfil deficiencias metodológicas. Otros comentarios de aquí a punto de los casos, similar a lo que fueron una vez conocido como el vudú correlaciones en la neurociencia social (¿cómo es que por políticamente incorrecto por CIERTO? el papel ha sido rebautizado; Vul, Harris, Winkielman, Y Pashler, 2009). Que también atrajo a su refutación, que usted puede comprobar hacia fuera para más debate altamente discutibles prácticas.

Incluso para los más entretenidos en la (más despersonalizada) gasto de (pseudo)los estadísticos que se comportan mal, consulte nuestra actualidad 8º-la mayoría-upvoted pregunta aquí en la CV con otro (lo admito) políticamente incorrecto título, "¿Qué son las estadísticas comunes pecados?" Su OP @MikeLawrence atributos de su inspiración para su estudio paralelo de la psicología y la estadística. Es uno de mis favoritos personales, y sus respuestas son muy útiles para evitar los innumerables escollos a cabo allí mismo.


En el lado personal, he pasado mucho de mi pasado cinco meses aquí en gran parte debido a que es increíblemente difícil conseguir sólida estadísticas sobre ciertos datos de la analítica de preguntas. Francamente, la revisión por pares a menudo no es muy riguroso en todos, especialmente en términos de estadística escrutinio de la investigación en la más joven de las ciencias con las preguntas complejas y un montón de epistémica complicaciones. Por tanto, he sentido la necesidad de asumir la responsabilidad personal para el pulido de los métodos en mi propio trabajo.

Mientras que la presentación de mi tesis doctoral, me dieron una idea de lo importante que es la responsabilidad personal de estadística escrutinio. Dos excepcionales psicólogos en mi alma mater intervino de que yo estaba cometiendo uno de los mayores pecados en mis interpretaciones de las correlaciones. Yo creía que a mí mismo por encima de él, y había enseñado universitarios sobre él varias veces ya, pero todavía seguía allí, y llamaron a cabo (al principio, gracias a los cielos). Fui allí porque la investigación que estuve revisando y replicar fue allí! Así terminé la adición de varias secciones para mi tesis de que los otros investigadores para la asunción de causalidad cuasi-experimental de los estudios longitudinales (a veces incluso de sección transversal de correlaciones) e ignorar las explicaciones alternativas antes de tiempo.

Mi tesis fue aceptada sin revisiones por parte de mi comité, que incluye otro excepcional psicométrico y el pronto-a-ser-el presidente de PAPS (que publica JPSP), pero para ser franco, una vez más, no estoy alardeando en diciendo esto. Desde entonces he conseguido meter varios conejo agujeros en mis propios métodos, a pesar de pasar el proceso de revisión externa perfectamente bien los revisores. Ahora he caído en la más profunda de las estadísticas en tratando de conectar con los métodos más adecuados para el modelado predictivo de Likert de calificaciones como SEM, IRT, y no paramétricos de análisis (ver pruebas de Regresión después de la reducción de dimensiones). Estoy optando voluntariamente a pasar años en un papel que probablemente podría publicar como está en su lugar...creo que incluso tengo un estudio de simulación a la izquierda para hacer antes de que pueda proceder a conciencia.

Sin embargo, quiero recalcar que esto es opcional – tal vez incluso con exceso de celo y un costoso lujo en medio de publicar o perecer cultura que a menudo hace hincapié en la cantidad sobre la calidad en la carrera de los archivos de trabajo. Mala aplicación de los modelos paramétricos para datos continuos a asunción-una violación de las distribuciones de los datos ordinales es muy común en mi campo, como es la mala interpretación y la tergiversación de la significación estadística (ver Complaciente arraigadas opiniones de los p-valores). Podría salirse con la suya (en el corto plazo)...y no es tan difícil hacerlo mejor que eso. Supongo que tengo varios años recientes de increíbles avances en I programas de agradecer que a pesar de! Aquí está la esperanza de que los tiempos están cambiando.


Referencias
· Bem, D. J., Utts, J., & Johnson, W. O. (2011). Debe psicólogos cambiar la forma de analizar sus datos? Revista de Personalidad y Psicología Social, 101(4), 716-719. Recuperado de http://deanradin.com/evidence/Bem2011.pdf.
· Vulnerabilidad, E., Harris, C., Winkielman, P., Y Pashler, H. (2009). Puzzlingly alta correlación en estudios de resonancia magnética funcional de las emociones, la personalidad y la cognición social. Perspectivas de la Ciencia Psicológica, 4(3), 274-290. Recuperado de http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf.
· Wagenmakers, E. J., Wetzels, R., Borsboom, D., & Van der Maas, H. (2011). ¿Por qué los psicólogos deben cambiar la forma de analizar sus datos: El caso de la isp. Revista de Personalidad y Psicología Social, 100, 426-432. Recuperado de http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf.

5voto

Ian Ringrose Puntos 151

Recuerdo que en la Universidad se pregunte por un par de último año de ciencias sociales de los estudiantes en diferentes ocasiones (uno de ellos tiene una 1ª) la manera de trabajar de un promedio para su proyecto que había tenido un puñado de puntos de datos. (Así que no tenían problema con el uso de software, sólo con el concepto de cómo hacer de las matemáticas con la calculadora.)

Se me acaba de dar en blanco se ve cuando se les pregunto qué tipo de promedio que querían.

Sin embargo, todos ellos sintieron la necesidad de poner algunas estadísticas en su informe, como fue el hecho cosa – espero que todos ellos han leído 101 papeles que habían estadísticas sin pensar acerca de lo que las estadísticas decir si nada.

Es claro que el investigador que les enseñó lo largo de los 3 años no se preocupa por la exactitud de las estadísticas suficiente para destilar cualquier comprensión en los estudiantes.

(Yo era un equipo de Sci estudiante en el momento. Estoy publicando esto como una respuesta como es un poco largo para un comentario.)

-7voto

Kevin Zink Puntos 81

Cualquier papel que refuta la nula hipótesis nula es inútil el uso de las estadísticas (la gran mayoría de lo que he visto). Este proceso puede proporcionar ningún tipo de información no proporcionada por el tamaño del efecto. Además se nos dice nada acerca de si un resultado significativo, es en realidad debido a que la causa teorizado por el investigador. Esto requiere reflexivo de la investigación de los datos para la evidencia de la confunde. Más a menudo, si está presente, el más fuerte de esta evidencia es aún tirado como "outliers".

Yo no estoy tan familiarizado con la evolución y la ecología, pero en el caso de la psicología y de la investigación médica que yo llamaría el nivel de estadística de la comprensión "gravemente confundida" y un "obstáculo para el progreso científico". La gente se supone que refutar algo predicho por la teoría, y no al revés (cero diferencia/efecto).

Ha habido miles de artículos escritos sobre este tema. Buscar NHST híbrido de controversia.

Editar: Y me refiero a la nill hipótesis nula significación de la prueba tiene un máximo de cero valor científico. Esta persona golpea el clavo en la cabeza:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

También: Paul Meehl. 1967. La teoría de las Pruebas en la Psicología y la Física: Una Paradoja Metodológica

Edit 3:

Si alguien tiene argumentos en favor de la utilidad de strawman NHST que no requieren pensamiento "rechazar la hipótesis de que la tasa de calentamiento es el mismo, pero lo que NO implica que la tasa de calentamiento no es el mismo" es una declaración racional, daría la bienvenida a sus comentarios.

Edit 4:

¿Qué Fisher, por medio de la siguiente cita? Sugiere que pensaba que "Si el modelo/teoría es incompatible con los datos, podemos decir que es falso, pero nada acerca de si no es Un verdadero"?

"es cierto que el interés de los tests estadísticos para científicos los trabajadores depende totalmente de su uso en el rechazo de las hipótesis que se lo juzga incompatible con las observaciones."

...

No sería, por tanto, mejoran la claridad con la que la pruebas de importancia son considerados si se entiende que el pruebas de significación, cuando se utiliza con precisión, son capaces de rechazar o invalidar las hipótesis, en la medida en que estos son desmentidas por la de datos; pero que nunca son capaces de establecer como sin duda, cierto

Karl Pearson y R. A. Fisher en Pruebas Estadísticas: Una De 1935 Cambio de la Naturaleza

Es que él asumía la gente sólo para invalidar hipótesis plausibles en lugar de strawmen? O estoy equivocado?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X