22 votos

La Minería de datos y Análisis Estadístico

Posibles Duplicados:
Las Dos Culturas: estadísticas contra la máquina de aprendizaje?

¿Cuál es la diferencia entre la minería de datos y análisis estadístico?

Para algunos antecedentes, mi enseñanza de la estadística ha sido, yo creo, más bien tradicional. Una pregunta específica a la que se postula, la investigación se ha diseñado, y los datos son recogidos y analizados para ofrecer algunas ideas sobre la cuestión. Como resultado de ello, yo siempre he sido escéptico de lo que yo consideraba "datos de dragado", buscando patrones en un gran conjunto de datos y el uso de estos patrones para sacar conclusiones. Yo tiendo a asociar el último con la minería de datos y siempre han considerado este un poco cínico, junto con cosas como los algoritmos de selección de variables rutinas.

No obstante, existe una amplia y creciente literatura sobre la minería de datos. A menudo veo a esta etiqueta se refiere a técnicas específicas--agrupamiento, árboles de clasificación, etc. Sin embargo, al menos desde mi punto de vista, estas técnicas pueden estar "suelto" en un conjunto de datos o utilizan de una manera estructurada, para abordar una cuestión. Me gustaría llamar a la ex de minería de datos y el segundo análisis estadístico.

Yo trabajo en la administración académica y han pedido para hacer un poco de "minería de datos" para identificar problemas y oportunidades. En consonancia con mis antecedentes, mis primeras preguntas fueron - ¿qué desea aprender y lo que son las cosas que usted piensa que contribuyen al problema. De su respuesta, estaba claro que a mí y a la persona que hace la pregunta tenía ideas diferentes sobre la naturaleza y valor de la minería de datos.

10voto

Jon Galloway Puntos 28243

La diferencia entre las estadísticas y de minería de datos es principalmente histórico, ya que provienen de diferentes tradiciones: la estadística y la informática. La minería de datos creció en paralelo a la salida del trabajo en el área de la inteligencia artificial y estadística.

Sección 1.4 de Witten & Frank resume mi punto de vista, así que voy a citar en extenso:

¿Cuál es la diferencia entre la máquina el aprendizaje y las estadísticas? Los cínicos, mirando con ironía en la explosión de el interés comercial (y bombo) en este área de equiparar la minería de datos para las estadísticas además de la comercialización. En verdad, usted debe no busque una línea divisoria entre aprendizaje de máquina y estadísticas porque no es un continuo, y un multidimensional uno en el que ... de datos técnicas de análisis. Algunos se derivan de las destrezas que se enseñan en la norma las estadísticas de los cursos, y otros son más estrechamente asociado con el tipo de aprendizaje de máquina que ha surgido de ciencias de la computación. Históricamente, los dos lados han tenido en lugar de tradiciones diferentes. Si obligados a señalar a una sola diferencia de énfasis, podría ser que estadísticas ha sido más que se trate con la comprobación de hipótesis, mientras que la máquina ha sido el aprendizaje más trate de formular el proceso de de la generalización como una búsqueda a través de hipótesis posibles...

En el pasado, muy similar a los métodos se han desarrollado en paralelo en el aprendizaje de máquina y estadísticas de...

Pero ahora los dos perspectivas han convergido.

N. B. 1 de la OMI, la minería de datos y aprendizaje automático están muy estrechamente relacionados con los términos. En un sentido, la máquina de aprendizaje técnicas que se utilizan en la minería de datos. Yo veo regularmente estos términos como intercambiables, y en la medida en que son diferentes, que suelen ir juntos. Yo sugeriría mirar a través de "Las Dos Culturas" de papel así como el resto de los hilos de mi pregunta original.

N. B. 2 El término "minería de datos" puede tener una connotación negativa cuando se utiliza coloquialmente significa dejar algún algoritmo sueltos en los datos sin la comprensión conceptual. El sentido es que la minería de datos va a llevar a resultados incorrectos y sobre-ajuste. Me suelen evitar el uso del término cuando se habla a los no expertos como resultado, y en lugar de usar la máquina de aprendizaje o aprendizaje estadístico como un sinónimo.

9voto

reconbot Puntos 1670

La minería de datos se clasifica como Descriptiva o Predictiva. Datos descriptivos de la minería de datos es la búsqueda de grandes conjuntos de datos y descubrir los lugares de estructuras inesperadas o relaciones, patrones, tendencias, grupos, y los valores atípicos en los datos. Por otro lado, Predictivo es la construcción de modelos y procedimientos para la regresión, clasificación, reconocimiento de patrones, o de la máquina de aprendizaje de tareas, y evaluar la exactitud de predicción de los modelos y procedimientos cuando se aplica a los datos nuevos.

El mecanismo utilizado para la búsqueda de patrones o estructura de datos de alta dimensión puede ser manual o automatizado; la búsqueda puede requerir de forma interactiva consultar una base de datos de gestión del sistema, o puede implicar el uso de un software de visualización para la detección de anomalías en los datos. En el aprendizaje de la máquina términos descriptivos de minería de datos se conoce como supervisión de aprendizaje, mientras que predictivo, minería de datos se conoce como aprendizaje supervisado.

La mayoría de los métodos utilizados en la minería de datos están relacionados con los métodos desarrollados en la estadística y el aprendizaje de máquina. Primero que todo, entre esos métodos son los temas generales de la regresión, clasificación, clustering, y la visualización. Debido al enorme tamaño de los conjuntos de datos, muchas de las aplicaciones de la minería de datos se centran en la dimensionalidad de las técnicas de reducción (por ejemplo, la selección de variables) y situaciones en las que los datos de alta dimensión se sospecha de la mentira en la parte inferior de dimensiones hyperplanes. Recientemente la atención se ha dirigido a los métodos de identificación de datos de alta dimensión acostado en no lineal de las superficies o de los colectores.

También hay situaciones en la minería de datos cuando la inferencia estadística - en su sentido clásico - no tiene sentido o es de dudosa validez: la primera se produce cuando tenemos la totalidad de la población a la búsqueda de respuestas, y el segundo se produce cuando un conjunto de datos es una "conveniencia" de la muestra en lugar de ser una muestra aleatoria extraída de algunos de los grandes de la población. Cuando los datos se recogen a través del tiempo (por ejemplo, las transacciones minoristas, del mercado de valores de las transacciones, los registros de los pacientes, los registros del tiempo), el muestreo puede no tener sentido; el tiempo-la ordenación de las observaciones es crucial para entender el fenómeno de la generación de los datos, y para el tratamiento de las observaciones como independientes, cuando pueden estar altamente correlacionados proporcionará sesgado los resultados.

Los componentes centrales de la minería de datos son - además de la teoría estadística y métodos de - la informática y la eficiencia computacional, procesamiento automático de datos, dinámico e interactivo de técnicas de visualización de datos, y el desarrollo del algoritmo.

Uno de los problemas más importantes en la minería de datos es el problema computacional de la escalabilidad. Los algoritmos desarrollados para la computación estándar exploratorio y confirmatorio métodos estadísticos fueron diseñados para ser rápido y eficiente computacionalmente cuando se aplica a las pequeñas y medianas conjuntos de datos; sin embargo, se ha demostrado que la mayoría de estos algoritmos no están a la altura del desafío de manejo de enormes conjuntos de datos. Como conjuntos de datos crecen, muchos de los actuales los algoritmos de demostrar una tendencia a disminuir drásticamente (o incluso detenerse).

9voto

Dori Puntos 1325

Esto podría ser un duplicado, pero voy a responder a él de todos modos.

La minería de datos es la estadística, con algunas diferencias menores. Usted puede pensar en él como el re-branding de la estadística, debido a que los estadísticos son un poco raro.

A menudo es asociada con la Estadística Computacional, es decir, sólo cosas que usted puede hacer con un ordenador.

Los mineros de datos robó una proporción significativa de las estadísticas multivariantes y la llamaron propia. Consultar la tabla de contenidos de los años 1990 multivariante libro y compararlo con un nuevo minería de datos de la libreta. Muy similar.

Las estadísticas se asocia con la comprobación de hipótesis y con la construcción de modelos, mientras que la Minería de Datos es más asociado con la predicción y clasificación, independientemente de si hay un comprensible modelo.

8voto

Eric Davis Puntos 1542

Yo anteriormente escribí un post donde hice un par de observaciones comparando la minería de datos para la psicología. Creo que estas observaciones pueden capturar algunas de las diferencias que se están identificando:

  1. "Minería de datos parece más preocupado con la predicción utilizando las variables observadas que con la comprensión de la causal del sistema de variables latentes; la psicología es típicamente más preocupado por la causal del sistema de variables latentes.
  2. La minería de datos normalmente implica grandes conjuntos de datos (por ejemplo, 10,000 + filas) recogidos para una finalidad distinta de la minería de datos. Psicológico de los conjuntos de datos son generalmente pequeños (por ejemplo, menos de 1000 o 100 filas) y se recoge de forma explícita para explorar una pregunta de investigación.
  3. Análisis psicológico normalmente implica el análisis de los modelos específicos. Automatizado modelo de los enfoques de desarrollo tienden a no ser teóricamente interesante." - Minería de datos y R

4voto

David Pokluda Puntos 4284

No creo que la distinción que haces es realmente relacionado con la diferencia entre la minería de datos y análisis estadístico. Usted está hablando acerca de la diferencia entre el análisis exploratorio y de la elaboración de modelos de predicción de enfoque.

Creo que la tradición de statisic es construir con todos los pasos : análisis exploratorio, a continuación, modelado, luego de estimación, entonces la prueba, la previsión/inferir. Estadístico hacer análisis exploratorio de averiguar lo que los datos se parece a (función de resumen bajo la R !) Supongo que la minería de datos es menos estructurado y podría ser identificado con el análisis exploratorio. Sin embargo utiliza técnicas estadísticas de estimación, predicción, clasificación ....

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X