30 votos

Cómo lidiar con el análisis exploratorio de datos y los datos de dragado en la pequeña muestra de los estudios?

Análisis exploratorio de datos (AED) a menudo conduce a explorar otras "pistas" que no necesariamente pertenecen a la primera serie de hipótesis. Me enfrento a una situación en el caso de los estudios con un tamaño limitado de la muestra y una gran cantidad de datos recogidos a través de diferentes cuestionarios (socio-demográficos de datos, neuropsicológicas o escalas de médicos-por ejemplo, mental o funcionamiento físico, depresión/ansiedad, los síntomas de la lista de verificación). Sucede que EDA ayuda a poner de relieve algunas relaciones inesperadas"inesperado" en el sentido de que no fueron incluidos en el análisis inicial del plan) que se traduce en más preguntas/hipótesis.

Como es el caso de sobreajuste, los datos de dragado o de espionaje conduce a resultados que no hay que generalizar. Sin embargo, cuando una gran cantidad de datos disponibles, es muy difícil (por el investigador o médico) para postular un conjunto limitado de hipótesis.

Me gustaría saber si hay bien reconoce los métodos, recomendaciones o reglas generales que pueden ayudar a delinear EDA en el caso de la pequeña muestra de los estudios.

14voto

DavLink Puntos 101

Acabo de soltar algunas referencias acerca de los datos de dragado y estudios clínicos para el lector interesado. Esta es la intención de extender @único's fino respuesta. Traté de evitar el uso de artículos centrarse sólo en las comparaciones múltiples o los problemas de diseño, aunque los estudios con múltiples criterios de valoración que seguirá presente difíciles y controvertidos debates (mucho después de Rothman afirmaciones acerca de los inútiles ajustes, la Epidemiología de 1990, 1: 43-46; o ver Feise revisión en BMC Medical Metodología de Investigación 2002, 2:8).

Mi comprensión es que, aunque yo hablaba de análisis exploratorio de datos, mi pregunta más general se aborda el uso de minería de datos, con sus riesgos potenciales, en paralelo a la hipótesis basada en pruebas.

  1. Koh, HC y Bronceado, G (2005). Aplicaciones de Minería de datos en la asistencia Sanitaria. Diario de cuidado de la Salud Gestión de la Información, 19(2), 64-72.
  2. Ioannidis, académico e investigador, JPA (2005). ¿Por qué la mayoría de las investigaciones publicadas conclusiones son falsas. PLoS Medicine, 2(8), e124.
  3. Anderson, DR, Enlace, WA, Johnson, DH, y Burnham, KP (2001). Sugerencias para la Presentación de los Resultados del Análisis de Datos. El Diario de la Gestión de la vida Silvestre, 65(3), 373-378. -- esto se hace eco de @único comentario sobre el hecho de que tenemos que reconocer las basadas en datos de exploración/modelado más allá de la inicial de un conjunto de hipótesis
  4. Michels, KB y Rosner, BA (1996). Datos de la pesca de arrastre: para los peces o no a los peces. Lancet, 348, 1152-1153.
  5. Señor, SJ, Gebski, VJ, y Keech, CA (2004). Múltiples análisis en ensayos clínicos: ciencia de sonido o datos de dragado?. La Revista Médica de Australia, 181(8), 452-454.
  6. Smith, GD y Ebrahim, S (2002). Datos de dragado, los sesgos o los factores de confusión. BMJ, 325, 1437-1438.
  7. Afshartous, D y Wolf, M (2007). Evitar el "espionaje de datos' en multinivel y modelos de efectos mixtos. Diario de la Sociedad Real de Estadística Una, 170(4), 1035-1059
  8. Anderson, DR, Burnham, KP, Gould, WR, y el Cerezo, S (2001). Las preocupaciones sobre la búsqueda de los efectos que en realidad son falsos. Widlife Boletín De La Sociedad, 29(1), 311-316.

12voto

Berek Bryan Puntos 349

Creo que lo principal es ser honesto a la hora de informar de tales resultados fueron inesperados hallazgos de EDA y no parte del análisis inicial plan basado en un a priori de la hipótesis. Algunas personas les gusta la etiqueta de estos resultados, la hipótesis de la generación': por ejemplo, el primer éxito de una búsqueda de esta frase en Google Scholar incluye los siguientes en la sección de conclusiones de su resumen:

Como esta era una "exploración" de análisis, este efecto debe ser considerado como de generación de hipótesis y evaluado de forma prospectiva en otros ensayos...

Aunque tenga en cuenta que aunque este fue un post-hoc de análisis de subgrupos se trataba de una prueba de control aleatoria, no de un estudio observacional, en el que el problema empeore. Felipe Cole vierte desprecio sobre la idea de que la observación ('epidemiológicos'), los estudios pueden generar hipótesis en una deliberadamente provocativa pero entretenido comentario:

P Cole. La hipótesis de la generación de la máquina. Epidemiología de 1993; 4:271-273.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X