50 votos

¿Cómo podemos definir el "reproducible de la investigación"?

Esto ha salido en un par de preguntas ahora, y me he estado preguntando acerca de algo. Tiene el campo como un todo, se trasladó hacia la "reproducibilidad", centrándose en la disponibilidad de los datos originales, y el código en cuestión?

Siempre se me enseñó que el núcleo de la reproducibilidad no fue necesariamente, como me he referido a ello, la capacidad de haga clic en Ejecutar y obtener los mismos resultados. Los datos y el código de enfoque parece asumir que los datos son correctos - que no hay un error en la recolección de los datos en sí (a menudo demostrablemente falsa en el caso de fraude científico). También se centra en una sola muestra de la población objetivo, más que la replicabilidad de la búsqueda a través de múltiples muestras independientes.

¿Por qué el énfasis entonces en ser capaz de volver a ejecutar el análisis, en lugar de duplicar el estudio de la tierra?

El artículo mencionado en los comentarios de abajo está disponible aquí.

41voto

Eric Davis Puntos 1542

"Reproducible de investigación" como reproducible análisis

Reproducible de investigación es un término que se utiliza en algunas investigaciones dominios para referirse específicamente a la realización de los análisis que

  • código transforma los datos en bruto y los meta-datos en datos procesados,
  • el código se ejecuta en los análisis de los datos, y
  • el código incorpora los análisis en un informe.

Cuando tales datos y el código son compartidos, esto permite que otros investigadores:

  • realizar análisis no reportados por los investigadores originales
  • compruebe la veracidad de los análisis realizados por los investigadores originales

Este uso puede ser visto en las discusiones de las tecnologías como Sweave. E. g., Friedrich Leisch escribe en el contexto de Sweave que "el informe puede ser actualizado automáticamente si los datos o el análisis de cambio, que permite verdaderamente reproducible de la investigación." También puede ser visto en la CRAN Vista de Tareas en Reproducible de Investigación que afirma que "el objetivo de reproducir la investigación es atar las instrucciones específicas para el análisis de los datos y los datos experimentales, de modo que la beca puede ser recreado, mejor entendido y comprobado."

Uso más amplio del término "reproducibilidad"

La reproducibilidad es un objetivo fundamental de la ciencia. No es nuevo. Informes de investigación incluyen el método y los resultados de las secciones describen la manera en que se generaron los datos, procesados y analizados. Una regla general es que la información proporcionada debe ser suficiente para permitir adecuadamente un investigador competente para tomar la información y replicar el estudio.

La reproducibilidad también está estrechamente relacionado con los conceptos de repetición y la generalización.

Por lo tanto, el término "investigación reproducible", tomado literalmente, como la aplicada a las tecnologías como Sweave, es un nombre poco apropiado, ya que sugiere una relevancia más amplia que abarca. También, cuando se presenten las tecnologías como Sweave a los investigadores que no han utilizado estas tecnologías, los investigadores a menudo se sorprenden cuando me llame el proceso de "investigación reproducible".

Un término más adecuado que "reproducible de investigación"

Dado que "reproducible de investigación", como se utiliza dentro de Sweave-como contextos se refiere únicamente a un aspecto de la investigación reproducible, tal vez un término alternativo debe ser adoptado. Las alternativas posibles son:

Todos los términos anteriores son un reflejo más preciso de lo que Sweave-como los análisis que conllevan. Reproducible análisis es corto y dulce. La adición de "datos" o "estadística" se aclara más las cosas, pero también hace que el término más larga y más estrecha. Además, "estadística" tiene un estrecho y un amplio significado, y ciertamente en el sentido estrecho, mucho de procesamiento de los datos no estadísticos. Por lo tanto, la amplitud implícita por el término "reproducible" el análisis tiene sus ventajas.

No es sólo acerca de la reproducibilidad

El otro problema adicional con el término "reproducible de investigación" es el objetivo de Sweave como tecnologías no es sólo "reproducibilidad". Hay varios objetivos interrelacionados:

  • Reproducibilidad
    • Puede el análisis fácilmente se puede volver a ejecutar para transformar los datos en bruto en el informe final con los mismos resultados?
  • Corrección
    • Es el análisis de los datos coherente con las intenciones del investigador?
    • Son las intenciones del investigador correcta?
  • La apertura
    • La transparencia, la rendición de cuentas
      • Otros pueden comprobar y verificar la exactitud de los análisis llevados a cabo?
    • Extensibilidad, modfifiability
      • Otros pueden modificar, ampliar, la reutilización, y el puré, los datos, análisis, o de ambos para crear nuevos trabajos de investigación?

Hay un argumento que reproducible análisis debe promover el correcto análisis, porque no hay un registro por escrito de los análisis que se pueden comprobar. Además, si los datos y el código se comparte, se crea la responsabilidad que motiva a los investigadores para comprobar su análisis, y permite a otros investigadores a observar las correcciones.

Reproducible análisis también encaja en estrecha colaboración con los conceptos en torno a la investigación abierta. Por supuesto, un investigador puede utilizar Sweave como tecnologías sólo para sí mismos. Abrir los principios de la investigación anime a compartir los datos y el análisis de código para permitir una mayor reutilización y la rendición de cuentas.

Esto no es realmente una crítica de la utilización de la palabra "reproducible". Más bien, que sólo pone de relieve que el uso de Sweave como tecnologías es necesaria pero no suficiente para el logro abrir la investigación científica tiene como objetivo.

11voto

Glenn Slaven Puntos 15742

Tener acceso a los datos y el código para el análisis en un formato fácil de ejecutar, la forma es un sine qua non de reproducir la investigación. Una vez que compruebe que el análisis de obras, puede sustituir su propio código/datos de los que son escépticos con respecto a la del autor original. Yo diría que la mayoría de las estadísticas-que contiene documentos que he leído tienen al menos una parte de la metodología que se deja vaga. Mis intentos para reproducir estos análisis son a menudo incorrecta (y siempre consume mucho tiempo), pero es muy difícil decir si esto es debido a un fraude, error humano, o (mucho más probable) mis resolver estas ambigüedades de manera diferente que el autor. Por lo tanto, tener datos+código para un papel no garantiza que sus conclusiones son verdaderas, pero esto hace que sea mucho más fácil para la crítica o ampliarlas.

También, "reproducible de investigación" una cuestión de grado. Por lo que la investigación reproducible movimiento puede ser visto como el fomento de la investigación que es "más reproducible" de la norma, en lugar de exigir que la investigación conocer a algunos umbral mínimo. Me imagino que "la liberación de los datos y el código" está ahora de moda porque es una manera relativamente fácil y no amenazante paso.

9voto

David Pokluda Puntos 4284

Ser capaz de volver a ejecutar todo lo que es un punto de partida para la investigación reproducible. Permite mostrar que en realidad se está utilizando el mismo procedimiento. Después de eso-y sólo después de que usted puede continuar la búsqueda de su compañero. En otras palabras, la estricta reproducibilidad no es percibida como un tiempo en el que la investigación está avanzando, pero como un hito, un consenso, algo en lo que la gente está de acuerdo. No thi fundamental para conseguir más ?

También, de acuerdo a la discusión de Donoho (lea la sección 2, "el escándalo") el objetivo de reproducir la investigación es también a prueba la robustez del código dado. Primero por jugar con el código, haciendo una leve modificación que no fue hecha en el papel (porque no queremos papeles con 30 Figuras ...). Creo que el concepto de reproducir la investigación en la literatura contiene la idea de tener una fuerte y robusta hito. Casi contienen la idea de ir a más.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X