34 votos

¿Exploración de datos?

Muchas veces me he encontrado con advertencias informales contra el "espionaje de datos" (aquí está un ejemplo divertido ), y creo que tengo una idea intuitiva de lo que significa, aproximadamente, y de por qué puede ser un problema.

Por otro lado, el "análisis exploratorio de datos" parece ser un procedimiento perfectamente respetable en estadística, al menos a juzgar por el hecho de que un libro con ese título sigue siendo citado reverencialmente como un clásico.

En mi trabajo me encuentro a menudo con lo que me parece un "espionaje de datos" desenfrenado, o quizás sería mejor describirlo como "datos tortura ", aunque quienes lo hacen parecen ver la misma actividad como una "exploración" totalmente razonable y sin problemas.

Este es el escenario típico: se lleva a cabo un costoso experimento (sin pensar mucho en el análisis posterior), los investigadores originales no pueden discernir fácilmente una "historia" en los datos recogidos, se trae a alguien para que aplique alguna "magia estadística", y que, después de cortar en rodajas y en cubos los datos en todos los sentidos, finalmente consigue extraer de ellos alguna "historia" publicable.

Por supuesto, suele haber alguna "validación" en el informe/documento final para demostrar que el análisis estadístico es correcto, pero la descarada actitud de publicar a toda costa que hay detrás me hace dudar.

Por desgracia, mi limitada comprensión de lo que hay que hacer y lo que no hay que hacer en el análisis de datos me impide ir más allá de esas vagas dudas, por lo que mi respuesta conservadora es básicamente ignorar esos hallazgos.

Mi esperanza es que no sólo una mejor comprensión de la distinción entre exploración y fisgoneo/tortura, sino también, y lo que es más importante, una mejor comprensión de los principios y las técnicas para detectar cuándo se ha cruzado esa línea, me permitirá evaluar tales hallazgos de una manera que pueda dar cuenta razonablemente de un procedimiento analítico menos que óptimo, y así poder ir más allá de mi actual respuesta bastante simplista de incredulidad general.


EDIT: Gracias a todos por los interesantes comentarios y respuestas. A juzgar por su contenido, creo que no he explicado suficientemente bien mi pregunta. Espero que esta actualización aclare las cosas.

Mi pregunta aquí no se refiere tanto a lo que I debe hacer para no torturar mi datos (aunque esta es una cuestión que también me interesa), sino más bien: ¿cómo debo considerar (o evaluar) los resultados que Sé que es un hecho han llegado a través de esa "tortura de datos".

La situación se vuelve más interesante en aquellos casos (mucho más raros) en los que, además, estoy en condiciones de opinar sobre esos "hallazgos" antes de que se presenten para su publicación.

En este punto el más Lo que puedo hacer es decir algo así como "no sé cuánta credibilidad puedo dar a estas conclusiones, dado lo que sé sobre las suposiciones y los procedimientos que se utilizaron para obtenerlas". Esto es demasiado vago para que valga la pena siquiera decirlo. Querer ir más allá de esa vaguedad fue la motivación de mi post.

Para ser justos, mis dudas aquí se basan en algo más que en métodos estadísticos aparentemente cuestionables. De hecho, veo esto último más bien como consecuencia del problema más profundo: una combinación de una actitud arrogante hacia el diseño experimental junto con un compromiso categórico de publicar los resultados tal cual (es decir, sin más experimentos). Por supuesto, siempre se prevén proyectos de seguimiento, pero es simplemente fuera de toda duda que no salga ni un solo papel de, por ejemplo, "una nevera llena de 100.000 muestras".

La estadística sólo entra en escena como medio para cumplir este objetivo supremo. La única justificación para aferrarse a las estadísticas (que son secundarias en todo el escenario) es que un desafío frontal al supuesto de "publicación a toda costa" es simplemente inútil.

De hecho, sólo se me ocurre una respuesta eficaz en estas situaciones: proponer alguna prueba estadística (que no requiera experimentación adicional) que ponga realmente a prueba la calidad del análisis. Pero no tengo los conocimientos de estadística para ello. Mi esperanza (ingenua en retrospectiva) era averiguar qué podía estudiar que me permitiera proponer tales pruebas...

Mientras escribo esto se me ocurre que, si no existe ya, al mundo le vendría bien una nueva sub-rama de la estadística, dedicada a las técnicas para detectar y exponer la "tortura de datos". (Por supuesto, no me refiero a dejarme llevar por la metáfora de la "tortura": la cuestión no es la "tortura de datos" en sí, sino los "hallazgos" espurios a los que puede conducir).

24voto

Gmaster Puntos 21

Hay una distinción que a veces no recibe suficiente atención, a saber generación de hipótesis vs. comprobación de hipótesis o el análisis exploratorio frente a la prueba de hipótesis. Se le permiten todos los trucos sucios del mundo para llegar a su idea / hipótesis. Pero cuando luego la pongas a prueba, deberás matar sin piedad a tus queridos.

Soy un biólogo que trabaja con datos de alto rendimiento todo el tiempo, y sí, hago este "cortar y cortar" con bastante frecuencia. En la mayoría de los casos, el experimento realizado no fue cuidadosamente diseñado; o tal vez quienes lo planificaron no tuvieron en cuenta todos los resultados posibles. O la actitud general a la hora de planificar fue "veamos qué hay ahí". Acabamos con un producto caro, valioso y en sí mismo interesante conjuntos de datos a los que luego doy vueltas y vueltas para elaborar una historia.

Pero bueno, es sólo un cuento (posible hora de dormir). Después de haber seleccionado un par de ángulos interesantes -y aquí está el punto crucial- debe probarlo no sólo con conjuntos de datos independientes o muestras independientes, sino preferiblemente con un acercarse a un sistema experimental independiente.

La importancia de esto último -un montaje experimental independiente, no sólo un conjunto independiente de mediciones o muestras- suele subestimarse. Sin embargo, cuando probamos 30.000 variables en busca de diferencias significativas, a menudo ocurre que mientras muestras similares (pero diferentes) de la misma cohorte y analizadas con el mismo método no rechazan la hipótesis en la que nos basamos en el conjunto anterior. Pero entonces pasamos a otro tipo de experimento y a otra cohorte, y nuestras conclusiones resultan ser el resultado de un sesgo metodológico o tienen una aplicabilidad limitada.

Por eso, a menudo necesitamos varios trabajos de varios investigadores independientes para aceptar realmente una hipótesis o un modelo.

Por lo tanto, creo que esta tortura de datos está bien, siempre que se tenga en cuenta esta distinción y se recuerde lo que se está haciendo, en qué etapa del proceso científico se está. Puedes utilizar las fases lunares o redefinir 2+2 siempre que tengas una independiente validación de los datos. Para ponerlo en una imagen:

enter image description here

Por desgracia, hay quienes encargan un microarray para redondear un artículo después de que se hayan realizado varios experimentos y no haya surgido ninguna historia, con la esperanza de que el análisis de alto rendimiento muestre algo. O se confunden con todo el asunto de la comprobación de hipótesis frente a la generación.

14voto

Zizzencs Puntos 1358

Herman Friedman, mi profesor favorito en la universidad, solía decir que

"si no te sorprendes, no has aprendido nada"

Evitar estrictamente todo lo que no sea la comprobación más rigurosa de las hipótesis definidas a priori limita mucho su capacidad de sorpresa.

Creo que la clave es que estamos honesto sobre lo que estamos haciendo. Si estamos en un modo altamente exploratorio, debemos decirlo. En el extremo opuesto, un profesor que conozco le dijo a su alumna que cambiara sus hipótesis, ya que las originales no resultaban significativas.

8voto

cbeleites Puntos 12461

Permítanme añadir algunos puntos:

  • En primer lugar, la generación de hipótesis es una parte importante de la ciencia. Y los resultados no predictivos (exploratorios/descriptivos) puede se publique.

  • En mi opinión, el problema no es en sí que se utilice la exploración de datos en un conjunto de datos y sólo se publiquen partes de esos resultados. Los problemas son

    • sin describir lo que se ha probado
    • para luego sacar conclusiones como si el estudio fuera un estudio de validación de algún modelo predictivo / un estudio de comprobación de hipótesis
  • La ciencia y el desarrollo de métodos son procesos iterativos de una manera mucho más general que la simple generación de hipótesis - pruebas - generación de nuevas hipótesis - pruebas .... En mi opinión, es una cuestión de juicio profesional saber qué tipo de conducta adecuada es necesaria en cada etapa (véase el ejemplo siguiente).

Lo que hago:

  • tratar de hacer que la gente sea consciente del sesgo optimista que resulta
    Cuando tengo la oportunidad, también mostrar la gente cuánta diferencia hace (factible sobre todo con un nivel inferior del mismo problema, por ejemplo, comparar datos validados independientemente del paciente con estimaciones de rendimiento interno de rutinas de optimización de hiperparámetros, como la búsqueda de cuadrículas para paraters SVM, "modelos combinados" como PCA-LDA, etc. No es realmente factible para el dragado de datos reales, porque hasta ahora, nadie me dio el dinero para hacer una verdadera réplica de un estudio de tamaño razonable...)

  • para los trabajos de los que soy coautor: insistir en una discusión de las limitaciones de las conclusiones. Asegúrese de que las conclusiones no se formulan de forma más general de lo que permite el estudio.

  • Animar a los colaboradores a utilizar su conocimiento experto sobre el tema del estudio y el proceso de generación de datos para decidir cómo tratar los datos en lugar de realizar una costosa (en términos del tamaño de la muestra que se necesitaría para hacerlo correctamente) optimización de los parámetros del modelo "hiper" (como el tipo de preprocesamiento que se debe utilizar).

  • paralelamente: tratar de concienciar a la gente de lo costoso que es este asunto de la optimización si se hace bien (que se llame exploración o no es irrelevante, si se hace mal, tendrá resultados similares a los del dragado de datos), por ejemplo Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J.: Sample size planning for classification models. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016/j.aca.2012.11.007
    manuscrito aceptado en arXiv: 1211.1323

  • Aquí hay un estudio que encuentra que este intento a ciegas también es a menudo inútil, por ejemplo
    J. Engel, J. Gerretzen, E. Szymańska, J. J. Jansen, G. Downey, L. Blanchet, L.M.C. Buydens: ¿Romper con las tendencias en el preprocesamiento?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016/j.trac.2013.04.015
    (probaron un gran número de combinaciones de pasos de preprocesamiento y descubrieron que muy pocos conducen a modelos mejores que los que no tienen preprocesamiento)

  • Destacar que no estoy torturando mis datos más de lo necesario:
    ejemplo :

    Todo el preprocesamiento se decidió exclusivamente mediante conocimientos espectroscópicos, y no se realizó ningún preprocesamiento basado en datos.

    A documento de seguimiento utilizando los mismos datos como ejemplo para el desarrollo de la teoría (diferente) lee

    Todo el preprocesamiento se decidió por el conocimiento espectroscópico, no se incluyeron pasos basados en los datos y no se realizó ninguna optimización de los parámetros. Sin embargo, comprobamos que una proyección PLS [45] de los espectros sobre 25 variables latentes como preprocesamiento para el entrenamiento LR no condujo a más que ligeros cambios en la predicción (véase la figura suplementaria S.2).

    Porque mientras tanto me pidieron explícitamente (en una conferencia de un editor de la revista CILS) que comparara los modelos con el preprocesamiento PLS.

  • Adopte un punto de vista práctico: Por ejemplo, en el estudio del astrocitoma enlazado más arriba, por supuesto que todavía decidí algunos puntos después de mirar los datos (como qué umbral de intensidad corresponde a las mediciones tomadas desde fuera de la muestra, que luego se descartaron). Otras decisiones sé que no son críticas (línea de base lineal frente a cuadrática: mi experiencia con ese tipo de datos sugiere que en realidad esto no cambia mucho - lo que también está en perfecto acuerdo con lo que Jasper Engel encontró en diferentes datos de tipo similar, por lo que no esperaría un gran sesgo al decidir el tipo de línea de base mirando los datos (el documento da un argumento de por qué esto es sensato).
    Basándonos en el estudio que hemos realizado, ahora podemos decir qué es lo que hay que abordar a continuación y qué hay que cambiar. Y como todavía estamos en una etapa comparativamente temprana del desarrollo del método (mirando ex-vivo muestras), es no vale la pena pasar por todos los "deberes" que en última instancia serán necesarios antes de que el método pueda ser utilizado in-vivo . Por ejemplo, en la fase actual de la clasificación de astrocitomas, la validación por remuestreo es una opción más sensata que el conjunto de pruebas externas. Sigo insistiendo en que en algún momento será necesario un estudio de validación verdaderamente externo, ya que algunas características de rendimiento sólo pueden medirse de ese modo (por ejemplo, los efectos de la desviación de los instrumentos/probar que podemos corregirlos). Pero ahora mismo, mientras seguimos jugando con ex-vivo muestras y están resolviendo otras partes del gran problema (en los documentos vinculados: cómo tratar los casos límite), la ganancia de conocimiento útil de un ex-vivo El estudio de validación es demasiado bajo para que merezca la pena el esfuerzo (en mi opinión: a menos que se haga para medir el sesgo debido al dragado de datos).

  • Una vez leí una discusión sobre las normas estadísticas y de presentación de informes, y sobre si se debe decidir que son necesarias para una revista (no recuerdo cuál) que me convenció: la idea que allí se expresaba era que no es necesario que los editores traten de acordar y hacer cumplir alguna norma (lo que provocará muchas discusiones inútiles) porque:

    • quien utiliza las técnicas adecuadas suele ser muy consciente/orgulloso de ello y, por tanto, informará con detalle de lo que se ha hecho.
    • Si un punto determinado (por ejemplo, el dragado de datos, la validación no independiente a nivel de paciente) no está claramente explicado, la suposición por defecto de los revisores/lectores es que el estudio no se adhirió a los principios adecuados en esa cuestión (posiblemente porque no lo sabían)

0voto

Robert Jones Puntos 423

En realidad, se trata de un problema cultural de desequilibrio, en el que el sesgo de publicación lleva a favorecer los resultados positivos y nuestra naturaleza competitiva exige que los editores y los investigadores sean vistos como productores de resultados de interés que son novedosos o polémicos, por ejemplo, en el sentido de refutar los resultados de otro. En la investigación médica se está avanzando considerablemente para corregir este problema mediante el registro obligatorio de los ensayos y la publicación de los resultados, y los registros de los ensayos abandonados también deben hacerse públicos. Tengo entendido que, dado que la publicación en revistas de las investigaciones fallidas puede no ser factible, hay planes para mantener una base de datos de acceso público de las mismas. Los resultados inusuales que no pueden reproducirse no son necesariamente el resultado de una falta, ya que con unos 50.000 investigadores en todo el mundo que realizan varios experimentos al año, es de esperar que se produzcan algunos resultados bastante inusuales de vez en cuando.

Utilizar métodos diferentes tampoco es necesariamente una solución. Por ejemplo, ¿qué químico mezclaría reactivos de diferentes maneras en diferentes condiciones y esperaría los mismos resultados como algo natural?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X