Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

26 votos

¿Cuál es la diferencia práctica entre las reglas de asociación y los árboles de decisión en la minería de datos?

¿Existe una descripción realmente sencilla de las diferencias prácticas entre estas dos técnicas?

  • Ambos parecen utilizarse para el aprendizaje supervisado (aunque las reglas de asociación también pueden utilizarse para el aprendizaje no supervisado). también pueden utilizarse sin supervisión).

  • Ambos pueden utilizarse para predecir

Lo más parecido que he encontrado a una "buena" descripción es de la Libro de texto Statsoft . Dicen Reglamento de la Asociación están acostumbrados:

...detectar relaciones o asociaciones entre valores específicos de variables categóricas en grandes conjuntos de datos.

En Clasificadores de árbol de decisión se describen como acostumbrados a:

...predecir la pertenencia de casos u objetos a las clases de una variable dependiente categórica a partir de sus mediciones en una o más variables predictoras.

Sin embargo, en R Data Mining, dan un ejemplo de Reglas de asociación utilizadas con un campo de destino .

Así pues, ambos pueden utilizarse para predecir la pertenencia a un grupo, ¿la diferencia clave radica en que los árboles de decisión pueden manejar datos de entrada no categóricos, mientras que las reglas de asociación no? ¿O hay algo más fundamental? Un sitio ( sqlserverdatamining.com ) dice que la diferencia clave es:

Las reglas de los árboles de decisión se basan en la ganancia de información, mientras que las reglas de asociación se basan en la popularidad y/o la confianza.

Entonces (posiblemente respondiendo a mi propia pregunta), ¿significa eso que las reglas de asociación se evalúan exclusivamente en función de la frecuencia con la que aparecen en el conjunto de datos (y la frecuencia con la que son "verdaderas"), mientras que los árboles de decisión intentan en realidad minimizar la varianza?

Si alguien conoce una buena descripción que esté dispuesto a indicarme, sería estupendo.

17voto

James Puntos 1294

Básicamente, los árboles de decisión son técnicas de clasificación . Estas técnicas pretenden etiquetar registros de clase desconocida haciendo uso de sus características. Básicamente, mapean el conjunto de características de los registros F=F1,,Fm (atributos, variables) en el atributo de clase C (variable objetivo), el objeto de la clasificación. La relación entre F y C se aprende utilizando un conjunto de registros etiquetados, definido como conjunto de entrenamiento. El objetivo último de los modelos de clasificación es minimizar el error de clasificación en los registros no etiquetados, en los que la clase predicha por el modelo difiere de la real. Las características F puede ser categórica o continua.

Análisis de asociación las primeras aplicaciones trataban sobre el análisis de la cesta de la compra, en estas aplicaciones está interesado en averiguar la asociación entre artículos sin centrarse especialmente en un objetivo. Los conjuntos de datos más utilizados son los transaccionales: una colección de transacciones en la que cada una de ellas contiene un conjunto de artículos. Por ejemplo: t1={i1,i2}t2={i1,i3,i4,i5}t3={i2,i3,i4,i5}tn={i2,i3,i4,i5} Le interesa conocer normas como {i3,i5}{i4}

Resulta que se puede utilizar el análisis de asociación para algunas tareas de clasificación específicas, por ejemplo cuando todas las características son categóricas. Basta con ver los elementos como características, pero no es para esto para lo que nació el análisis de asociación.

4voto

hakre Puntos 111
  • "El objetivo de las reglas de asociación es encontrar todas las reglas por encima de los umbrales dados que impliquen subconjuntos solapados de registros, mientras que los árboles de decisión encuentran regiones en el espacio en las que la mayoría de los registros pertenecen a la misma clase. Por otra parte, los árboles de decisión pueden pasar por alto muchas reglas predictivas encontradas por las reglas de asociación porque se dividen sucesivamente en subconjuntos más pequeños. Cuando una regla encontrada por un árbol de decisión no es encontrada por las reglas de asociación es porque una restricción podó el espacio de búsqueda o porque el apoyo o la confianza eran demasiado altos."

  • "Los algoritmos de reglas de asociación pueden ser lentos, a pesar de las muchas optimizaciones propuestas en la literatura, porque trabajan en un espacio combinatorio, mientras que los árboles de decisión pueden ser comparativamente mucho más rápidos porque cada división obtiene subconjuntos de registros sucesivamente más pequeños."

  • "Cuando se construye un árbol de decisión, una profundidad ilimitada en el proceso de inducción puede dar lugar a pequeños grupos de registros, lo que disminuye la generalidad y fiabilidad de las reglas . En un árbol de decisión, los nodos internos no producen ninguna regla (aunque pueden derivarse reglas provisionales), lo que conduce a reglas cada vez más largas y complejas hasta que se alcanza una pureza de nodos aceptable. Por otro lado, las reglas de asociación sí pueden producir reglas correspondientes a nodos internos correspondientes a múltiples árboles, pero requieren una interpretación cuidadosa, ya que dos reglas cualesquiera pueden referirse a subconjuntos de datos que se solapan. Los árboles de decisión tienden a ajustarse en exceso a un conjunto de datos concreto, lo que puede afectar a su aplicabilidad. Las técnicas de poda posteriores al procesamiento pueden reducir el sobreajuste, pero por desgracia también reducen la confianza en las reglas. Otro problema es que los árboles de decisión pueden repetir el mismo atributo varias veces para la misma regla porque dicho atributo es un buen discriminador. Esto no es un gran problema, ya que las reglas son conjunciones y, por tanto, la regla puede simplificarse a un intervalo para el atributo, pero dicho intervalo será generalmente pequeño y la regla demasiado específica."

Extractos de:

Ordóñez, C., y Zhao, K. (2011). Evaluación de reglas de asociación y árboles de decisión para predecir múltiples atributos objetivo. Análisis inteligente de datos, 15(2), 173-192.

Un buen artículo sobre este tema, que merece la pena leer.

2voto

Podemos argumentar que tanto las reglas de asociación como los árboles de decisión sugieren un conjunto de reglas al usuario y, por lo tanto, ambos son similares, pero debemos entender la diferencia teórica entre los árboles de decisión y las reglas de asociación, y además cómo las reglas sugeridas por ambos son diferentes en significado o en uso.

En primer lugar, árbol de decisión es un enfoque supervisado en el que el algoritmo intenta predecir un "resultado". Un ejemplo típico de "resultado" en situaciones de la vida real podría ser la rotación de clientes, el fraude, la respuesta a una campaña, etc. Por tanto, se utilizan reglas de árbol de decisión para predecir un resultado.

Aprendizaje de reglas de asociación es un enfoque no supervisado en el que el algoritmo intenta encontrar asociaciones entre elementos, a menudo dentro de grandes bases de datos comerciales. Un ejemplo típico de gran base de datos comercial es la que contiene transacciones de minoristas, como el historial de compras de un cliente en un sitio web de comercio electrónico. Los elementos pueden ser productos comprados en tiendas o películas vistas en una plataforma de streaming online. El aprendizaje de reglas de asociación trata de cómo la compra de un producto induce la compra de otro.

En segundo lugar, los árboles de decisión se construyen basándose en algunas métricas de impureza/incertidumbre, como la ganancia de información, el coeficiente de Gini o la entropía, mientras que las reglas de asociación se derivan basándose en el soporte, la confianza y la elevación.

En tercer lugar, como el árbol de decisión es un enfoque "supervisado", su precisión es medible, mientras que el aprendizaje de reglas de asociación es un enfoque "no supervisado", por lo que su precisión es subjetiva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X