Conclusión Cuanto más aprendo sobre estadística, menos me fío de los artículos publicados en mi campo; sencillamente, creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.
Soy un lego, por así decirlo. Tengo formación en biología, pero no tengo educación formal en estadística o matemáticas. Disfruto con R y a menudo me esfuerzo por leer (y entender...) algunos de los fundamentos teóricos de los métodos que aplico cuando investigo. No me sorprendería que la mayoría de la gente que hace análisis hoy en día no tenga una formación formal. He publicado alrededor de 20 artículos originales, algunos de los cuales han sido aceptados por revistas reconocidas y los estadísticos han participado con frecuencia en el proceso de revisión. Mis análisis suelen incluir análisis de supervivencia, regresión lineal, regresión logística y modelos mixtos. Nunca un revisor me ha preguntado por los supuestos, el ajuste o la evaluación del modelo.
Por lo tanto, nunca me he preocupado demasiado por los supuestos, el ajuste y la evaluación del modelo. Empiezo con una hipótesis, ejecuto la regresión y luego presento los resultados. En algunos casos me esforcé por evaluar estas cosas, pero siempre acabé con " bueno, no cumplió con todos los supuestos, pero confío en los resultados ("conocimiento de la materia") y son plausibles, así que está bien " y al consultar a un estadístico siempre parecían estar de acuerdo.
Ahora bien, he hablado con otros estadísticos y no estadísticos (químicos, médicos y biólogos) que realizan ellos mismos los análisis; parece que la gente no se preocupa demasiado por todos estos supuestos y evaluaciones formales. Pero aquí en CV, hay una abundancia de personas que preguntan sobre los residuos, el ajuste del modelo, las formas de evaluarlo, los valores propios, los vectores y la lista continúa. Permítanme ponerlo de esta manera, cuando lme4 advierte sobre grandes valores propios, realmente dudo que muchos de sus usuarios se preocupen por abordar eso...
¿Merece la pena el esfuerzo adicional? ¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y quizás ni siquiera los hayan evaluado? Probablemente se trata de un problema creciente, ya que las bases de datos son cada vez más grandes y existe la idea de que cuanto más grandes son los datos, menos importantes son los supuestos y las evaluaciones.
Podría estar absolutamente equivocado, pero así es como lo he percibido.
Actualización: Cita tomada de StasK (abajo): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509