60 votos

¿Estamos exagerando la importancia de la asunción y evaluación de modelos en una época en la que los análisis suelen ser realizados por profanos

Conclusión Cuanto más aprendo sobre estadística, menos me fío de los artículos publicados en mi campo; sencillamente, creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.


Soy un lego, por así decirlo. Tengo formación en biología, pero no tengo educación formal en estadística o matemáticas. Disfruto con R y a menudo me esfuerzo por leer (y entender...) algunos de los fundamentos teóricos de los métodos que aplico cuando investigo. No me sorprendería que la mayoría de la gente que hace análisis hoy en día no tenga una formación formal. He publicado alrededor de 20 artículos originales, algunos de los cuales han sido aceptados por revistas reconocidas y los estadísticos han participado con frecuencia en el proceso de revisión. Mis análisis suelen incluir análisis de supervivencia, regresión lineal, regresión logística y modelos mixtos. Nunca un revisor me ha preguntado por los supuestos, el ajuste o la evaluación del modelo.

Por lo tanto, nunca me he preocupado demasiado por los supuestos, el ajuste y la evaluación del modelo. Empiezo con una hipótesis, ejecuto la regresión y luego presento los resultados. En algunos casos me esforcé por evaluar estas cosas, pero siempre acabé con " bueno, no cumplió con todos los supuestos, pero confío en los resultados ("conocimiento de la materia") y son plausibles, así que está bien " y al consultar a un estadístico siempre parecían estar de acuerdo.

Ahora bien, he hablado con otros estadísticos y no estadísticos (químicos, médicos y biólogos) que realizan ellos mismos los análisis; parece que la gente no se preocupa demasiado por todos estos supuestos y evaluaciones formales. Pero aquí en CV, hay una abundancia de personas que preguntan sobre los residuos, el ajuste del modelo, las formas de evaluarlo, los valores propios, los vectores y la lista continúa. Permítanme ponerlo de esta manera, cuando lme4 advierte sobre grandes valores propios, realmente dudo que muchos de sus usuarios se preocupen por abordar eso...

¿Merece la pena el esfuerzo adicional? ¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y quizás ni siquiera los hayan evaluado? Probablemente se trata de un problema creciente, ya que las bases de datos son cada vez más grandes y existe la idea de que cuanto más grandes son los datos, menos importantes son los supuestos y las evaluaciones.

Podría estar absolutamente equivocado, pero así es como lo he percibido.

Actualización: Cita tomada de StasK (abajo): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

33voto

AdamSane Puntos 1825

Bueno, sí, las suposiciones importan si no importaran en absoluto, no necesitaríamos hacerlas, ¿verdad?

La cuestión es cuánto importan: esto varía en función de los procedimientos y las suposiciones y de lo que se quiera afirmar sobre los resultados (y también de lo tolerante que sea el público con la aproximación -incluso la inexactitud- en tales afirmaciones).

Así, como ejemplo de una situación en la que un supuesto es crítico, considere el supuesto de normalidad en una prueba F de varianzas; incluso cambios bastante modestos en la distribución pueden tener efectos bastante dramáticos en las propiedades (nivel de significación real y potencia) del procedimiento. Si afirma que está realizando una prueba al nivel del 5% cuando en realidad es al nivel del 28%, en cierto sentido está haciendo lo mismo que mentir sobre cómo realizó sus experimentos. Si no crees que esas cuestiones estadísticas sean importantes, haz argumentos que no se basen en ellas. Por otro lado, si quieres utilizar la información estadística como apoyo, no puedes ir tergiversando ese apoyo.

En otros casos, los supuestos particulares pueden ser mucho menos críticos. Si estás estimando el coeficiente en una regresión lineal y no te importa si es estadísticamente significativo y no te importa la eficiencia, bueno, no importa necesariamente si se cumple el supuesto de homoscedasticidad. Pero si quieres decir que es estadísticamente significativo, o mostrar un intervalo de confianza, sí, ciertamente puede importar.

29voto

Eero Puntos 1612

Me he formado como estadístico, no como biólogo o médico. Pero hago bastante investigación médica (trabajando con biólogos y médicos), como parte de mi investigación he aprendido bastante sobre el tratamiento de varias enfermedades diferentes. ¿Significa esto que si un amigo me pregunta sobre una enfermedad que he investigado, puedo simplemente recetarle un medicamento que sé que se utiliza habitualmente para esa enfermedad en particular? Si hiciera esto (no lo hago), entonces en muchos casos probablemente funcionaría bien (ya que un médico se limitaría a recetar la misma medicación), pero siempre existe la posibilidad de que tengan una alergia/interacción de medicamentos/otra que un médico sabría preguntar, y que yo no y terminaría causando mucho más daño que bien.

Si haces estadística sin entender lo que estás asumiendo y lo que podría salir mal (o consultando con un estadístico en el camino que busque estas cosas) entonces estás practicando una mala práctica estadística. La mayor parte de las veces no habrá problemas, pero ¿qué pasa con las ocasiones en las que una suposición importante no se cumple, pero se ignora?

Trabajo con algunos médicos que son razonablemente competentes desde el punto de vista estadístico y pueden hacer gran parte de sus propios análisis, pero aun así me los pasan por alto. A menudo les confirmo que han hecho lo correcto y que pueden hacer el análisis por sí mismos (y suelen estar agradecidos por la confirmación), pero de vez en cuando hacen algo más complejo y cuando les menciono un enfoque mejor suelen pasarme el análisis a mí o a mi equipo, o al menos me hacen participar más activamente.

Así que mi respuesta a la pregunta del título es "No", no estamos exagerando, sino que deberíamos hacer más hincapié en algunas cosas para que los profanos sean más propensos a, al menos, volver a comprobar sus procedimientos/resultados con un estadístico.

Editar

Esta es una adición basada en el comentario de Adam más abajo (será un poco largo para otro comentario).

Adam, gracias por tu comentario. La respuesta corta es "no lo sé". Creo que se está avanzando en la mejora de la calidad estadística de los artículos, pero las cosas se han movido tan deprisa y de muchas formas diferentes que llevará un tiempo ponerse al día y garantizar la calidad. Parte de la solución es centrarse en los supuestos y las consecuencias de las violaciones en los cursos de introducción a la estadística. Es más probable que esto ocurra cuando las clases son impartidas por estadísticos, pero es necesario que ocurra en todas las clases.

Algunas revistas lo están haciendo mejor, pero me gustaría que un revisor estadístico específico se convirtiera en la norma. Hubo un artículo hace unos años (siento no tener la referencia a mano, pero fue en JAMA o en el New England Journal of Medicine) que mostraba una mayor probabilidad de ser publicado (aunque no es una diferencia tan grande como debería ser) en JAMA o NEJM si un bioestadístico o epidemiólogo era uno de los coautores.

Un artículo interesante que salió hace poco es: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 en el que se tratan algunos de los mismos temas.

19voto

StasK Puntos 19497

Mientras que Glen_b dio una gran respuesta Me gustaría añadir un par de centavos a eso.

Una de las consideraciones es si realmente quieres obtener la verdad científica, lo que requeriría pulir tus resultados y averiguar todos los detalles de si tu enfoque es defendible, frente a publicar en plan "ah bueno, de todas formas nadie comprueba estos valores propios en mi disciplina". En otras palabras, tendrías que preguntar a tu conciencia profesional interior si estás haciendo el mejor trabajo posible. Aludir a los escasos conocimientos estadísticos y a las prácticas estadísticas poco rigurosas en su disciplina no es un argumento convincente. Los revisores suelen ser, en el mejor de los casos, medianamente útiles si provienen de la misma disciplina con estos estándares laxos, aunque algunos puntos de venta de primera línea han iniciativas explícitas para aportar conocimientos estadísticos al proceso de revisión.

Pero incluso si usted es un cínico "publica o perece", la otra consideración es básicamente la seguridad de la reputación de su investigación. Si su modelo falla, y usted no lo sabe, se expone al riesgo de que lo rebatan quienes pueden venir a clavar el hacha en las grietas de las comprobaciones del modelo con instrumentos más refinados. Por supuesto, la posibilidad de que esto ocurra parece ser baja, ya que la comunidad científica, a pesar de los requisitos filosóficos nominales de reputación y reproducibilidad, rara vez se compromete a intentar reproducir la investigación de otra persona. (Participé en la redacción de un par de artículos que básicamente empezaban con "Dios mío, ¿han realmente escribir eso?", y ofreció una crítica y un perfeccionamiento de un planteamiento semiestructural publicado). Sin embargo, los fallos de los análisis estadísticos cuando se expone , a menudo hacen grandes y desagradables salpicaduras.

10voto

EdM Puntos 5716

La naturaleza de las violaciones de los supuestos puede ser una pista importante para futuras investigaciones. Por ejemplo, una violación del supuesto de riesgos proporcionales en el análisis de supervivencia de Cox podría deberse a una variable con un gran efecto en la supervivencia a corto plazo pero con poco efecto a largo plazo. Este es el tipo de información inesperada pero potencialmente importante que se puede obtener al examinar la validez de los supuestos en una prueba estadística.

Así que se hace un flaco favor, y no sólo a la literatura, si no se comprueban los supuestos subyacentes. A medida que las revistas de alta calidad empiecen a exigir una revisión estadística más sofisticada, se le pedirá con más frecuencia que lo haga. No querrá encontrarse en una situación en la que una prueba exigida por un revisor estadístico socave lo que usted creía que era un punto clave de su artículo.

10voto

cbeleites Puntos 12461

Responderé desde una perspectiva intermedia. No soy estadístico, soy químico. Sin embargo, he pasado los últimos 10 años especializándome en quimiometría = análisis estadístico de datos relacionados con la química.

Simplemente creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.

Probablemente sea así.


La versión corta:

Ahora sobre las suposiciones. En mi opinión, la situación es demasiado heterogénea como para tratarla en una sola declaración. Para juzgar si la violación es inofensiva o crítica, es necesario comprender tanto para qué se necesita exactamente el supuesto como de qué manera es probable que sea violado por la aplicación. Y para ello se necesitan tanto las estadísticas como el conocimiento de la aplicación.
Sin embargo, como profesional que se enfrenta a supuestos inalcanzables, también necesito algo más: Me gustaría tener una "segunda línea de defensa" que, por ejemplo, me permita juzgar si la violación está causando realmente problemas o si es inofensiva.


Versión larga:

  • Desde un punto de vista práctico, algunos supuestos típicos casi nunca se cumplen. A veces puedo formular suposiciones sensatas sobre los datos, pero a menudo los problemas se complican tanto desde el punto de vista estadístico que aún no se conocen las soluciones. A estas alturas creo que hacer ciencia significa que vas a chocar con las fronteras de lo que se conoce probablemente no sólo en tu disciplina particular, sino quizá también en otras disciplinas (aquí: la estadística aplicada).

  • Hay otras situaciones en las que se sabe que ciertas violaciones suelen ser inofensivas - por ejemplo, la normalidad multivariante con igual covarianza para el LDA es necesaria para demostrar que el LDA es óptimo, pero es bien sabido que la proyección sigue una heurística que a menudo funciona bien también si el supuesto no se cumple. Y que es probable que las violaciones causen problemas: También se sabe que las colas pesadas en la distribución conducen a problemas con LDA en la práctica.
    Desgraciadamente, estos conocimientos rara vez llegan a la redacción resumida de un artículo, por lo que el lector no tiene ni idea de si los autores se decidieron por su modelo después de considerar bien las propiedades de la aplicación así como del modelo o si simplemente eligieron cualquier modelo que encontraron.

  • A veces evolucionan enfoques prácticos (heurísticos) que resultan ser muy útiles desde un punto de vista práctico, aunque pasen décadas hasta que se comprendan sus propiedades estadísticas (estoy pensando en el PLS).

  • Lo otro que ocurre (y debería ocurrir más) es que se pueden controlar (medir) las posibles consecuencias de la violación, lo que permite decidir si hay un problema o no. Para la aplicación, quizás no me importe si mi modelo es óptimo mientras sea suficientemente bueno.
    En la quimiometría, nos centramos bastante en la predicción. Y esto ofrece una escapatoria muy agradable en caso de que no se cumplan los supuestos de la modelización: independientemente de esos supuestos, podemos medir si el modelo funciona bien. Desde el punto de vista de un practicante, yo diría que se puede hacer lo que se quiera durante la modelización si se hace y se informa de una validación honesta del estado del arte.
    Para el análisis quimiométrico de los datos espectroscópicos, estamos en un punto en el que no miramos los residuos porque sabemos que los modelos se sobreajustan fácilmente. En su lugar, nos fijamos en el rendimiento de los datos de prueba (y posiblemente en la diferencia con el rendimiento predictivo de los datos de entrenamiento).

  • Hay otras situaciones en las que, si bien no somos capaces de predecir con exactitud en qué medida la violación de un determinado supuesto conduce a la ruptura del modelo, sí podemos medir las consecuencias de las violaciones graves del supuesto de forma bastante directa.
    Siguiente ejemplo: los datos de los estudios con los que suelo trabajar son órdenes de magnitud inferiores a los tamaños de muestra que las reglas estadísticas recomiendan para los casos por variante (con el fin de garantizar estimaciones estables). Pero los libros de estadística no suelen preocuparse mucho por lo que hay que hacer en la práctica si no se puede cumplir este supuesto. Tampoco cómo medir si realmente se tiene problemas en este sentido. Pero: estas cuestiones se tratan en las disciplinas más aplicadas. Resulta que a menudo es bastante fácil medir directamente la estabilidad del modelo o, al menos, si sus predicciones son inestables (lea aquí en CV sobre la validación del remuestreo y la estabilidad del modelo). Y hay formas de estabilizar los modelos inestables (por ejemplo, el bagging).

  • Como ejemplo de la "segunda línea de defensa", consideremos la validación por remuestreo. La suposición habitual y más fuerte es que todos los modelos sustitutos son equivalentes a un modelo entrenado en todo el conjunto de datos. Si se viola esta suposición, obtenemos el conocido sesgo pesimista. La segunda línea es que al menos los modelos sustitutos son equivalentes entre sí, por lo que podemos agrupar los resultados de las pruebas.


Por último, pero no menos importante, me gustaría animar a los "científicos del cliente" y a los estadísticos a hablar más entre sí . El análisis de los datos estadísticos, en mi opinión, no es algo que pueda hacerse de forma unidireccional. En algún momento, cada parte tendrá que adquirir algunos conocimientos de la otra. A veces ayudo a "traducir" entre estadísticos y químicos y biólogos. Un estadístico puede saber que el modelo necesita regularización. Pero para elegir, por ejemplo, entre LASSO y una cresta, necesita conocer propiedades de los datos que sólo el químico, el físico o el biólogo pueden conocer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X