¿Cuál es la diferencia entre pesca de datos (a veces se denomina una expedición de pesca) y minería de datos? Si hay una diferencia, ¿cómo puede saber el uno del otro? Y ¿por qué uno sería más "valioso" para la investigación que la otra?
Respuesta
¿Demasiados anuncios?Hay un montón de superposición entre estos dos conceptos, de modo que no hay una clara distinción. Sin embargo, trato de señalar lo que creo que pueden ser las diferencias.
En términos de análisis estadístico, "expedición de pesca", casi siempre tiene una connotación negativa, la idea de que los investigadores comenzaron con una pregunta acerca de sus datos (es decir, "hay una relación lineal entre estas dos variables en nuestros datos?"). Después de negativo, que "la refundición de su red" con una pregunta diferente (es decir, "existe una relación cuadrática entre estas dos variables?") y así sucesivamente hasta que finalmente encontramos un "estadísticamente significativo" de la relación. Por supuesto, el problema aquí es que el investigador hizo muchas comparaciones y señaló la parte superior de golpe. Suponiendo que no se ajustan a sus valores de p para las comparaciones múltiples, este resultado no será válida.
En contraste, con la minería de datos (se hace correctamente) se comienza con el entendimiento de que usted no sabe que la hipótesis que se desea probar en sus datos, sino que desea buscar sus datos interesantes relaciones. Como tal, usted se peine a través de sus datos y buscar potencialmente interesantes relaciones que serán reportados. Es importante tener en cuenta que este paso es muy hipótesis de la generación, en lugar de confirmar; realmente decisivamente decidir que las interesantes relaciones que se encuentran en el conjunto de datos no son simplemente debido al azar, deben ser confirmados en un estudio de seguimiento (o por otra parte, independiente de los datos).
Las similitudes entre los datos de la pesca y la minería de datos es que en ambos casos se está inspeccionando un gran número de hipótesis a partir de los datos. Si se hace correctamente, minería de datos no es bien visto, ya que se reconoce que usted está haciendo esto para generar hipótesis interesantes para ser probado más tarde, donde según datos de la pesca implica que el investigador no confirmar el final de la hipótesis de la inspección en un nuevo conjunto de datos.