23 votos

Alternativas a los árboles de clasificación, con la mejor predicción (e.g: CV) rendimiento?

Estoy buscando una alternativa a los Árboles de Clasificación que se podría producir con mejor poder predictivo.

Los datos que estoy tratando con factores tanto de la exposición y la explicó variables.

Recuerdo que viene a través de bosques aleatorios y las redes neuronales en este contexto, aunque nunca probado antes, hay otro buen candidato para una de modelado de tareas (en R, obviamente)?

18voto

Jon Galloway Puntos 28243

Para multi-clase de la clasificación, máquinas de soporte vectorial son también una buena opción. Yo normalmente uso el de la R kernlab de este paquete.

Consulte el siguiente JSS papel para una buena discusión: http://www.jstatsoft.org/v15/i09/

12voto

jeremcc Puntos 3720

Es importante tener en cuenta que no hay un algoritmo que siempre es mejor que otros. Como dijo Wolpert y Macready, "cualquiera de los dos algoritmos son equivalentes cuando su desempeño es un promedio a través de todos los posibles problemas." (Ver Wikipedia para más detalles.)

Para una aplicación dada, el "mejor" de uno en general, es uno que está más estrechamente alineado a su aplicación en términos de los supuestos, el tipo de datos que puede manejar, la hipótesis puede representar, y así sucesivamente.

Así que es una buena idea para caracterizar sus datos de acuerdo a criterios tales como:

  • Tengo un conjunto de datos muy grande o modesta?
  • Es la dimensionalidad alta?
  • Son variables numéricas (continuo/discreto) o simbólico, o una mezcla, y/o pueden ser transformados en caso necesario?
  • Son variables de probabilidades de ser en gran medida independiente o dependiente?
  • ¿Hay probabilidad de ser redundantes, ruidoso, o irrelevante variables?
  • No quiero ser capaz de inspeccionar el modelo generado y tratar de hacer sentido de ella?

Contestando a estas, puede eliminar algunos de los algoritmos y de identificar a los demás como potencialmente relevantes, y luego tal vez terminar con un pequeño conjunto de candidatos de los métodos que se han elegido de forma inteligente como puedan ser útiles.

Lo siento no darte una respuesta simple, pero espero que esta ayuda, sin embargo!

4voto

DavLink Puntos 101

Creo que valdría la pena dar una oportunidad a los Bosques Aleatorios (randomForest); algunas de las referencias proporcionadas en respuesta a preguntas relacionadas con: la selección de características para la "final" del modelo al realizar una validación cruzada en el aprendizaje de máquina; Puede CARRO de los modelos se hizo sólidos?. Aumentar/embolsado hacerlos más estables que las de un único CARRO que es conocida por ser muy sensible a pequeñas perturbaciones. Algunos autores argumentan que realiza así como penalizado SVM o Gradiente de Impulsar Máquinas (ver, por ejemplo, Cutler et al., 2009). Creo que sin duda superan a las NNs.

Boulesteix y Strobl proporciona una buena visión general de varios clasificadores en Óptimas clasificador de selección y sesgo negativo en la tasa de error de estimación: un estudio empírico en alta dimensión de predicción (BMC MRM 2009 9: 85). He oído hablar de otro estudio en el IV EAM reunión, que debería ser objeto de examen en la Estadística en Medicina,

João Maroco, Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. ¿ Bosques Aleatorios Superar Neural Redes, Máquinas de Soporte Vectorial y El Análisis discriminante de los clasificadores? Un estudio de caso en la evolución de la demencia en pacientes de edad avanzada con cognitivo quejas

También me gusta el símbolo de intercalación paquete: está bien documentado y permite comparar la precisión predictiva de los diferentes clasificadores en el mismo conjunto de datos. Se encarga de la gestión de la formación o de la prueba de muestras, la informática, la precisión, etc en pocas funciones amigables para el usuario.

El glmnet paquete de Friedman y coll., implementa penalizado GLM (ver la reseña en la revista Journal of Statistical Software), por lo que permanece en un marco de modelado.

De lo contrario, usted puede también buscar para reglas de asociación basados en clasificadores (véase el CRAN Vista de Tareas en la Máquina de Aprendizaje o el Top 10 de los algoritmos de minería de datos para una introducción a algunos de ellos).

Me gustaría mencionar otro enfoque interesante que planeo volver a implementar en R (en realidad, el código de Matlab) que es Discriminante el Análisis de Correspondencias de Hervé Abdi. Aunque inicialmente desarrollado para hacer frente a pequeños estudios de muestras con una gran cantidad de variables explicativas (eventualmente se agrupan en coherente bloques), parece combinar de manera eficaz clásica DA con los datos de las técnicas de reducción.

Referencias

  1. Cutler, A., Cutler, R. D., y Stevens, J. R. (2009). Árbol de los Métodos Basadosen Datos de Alta dimensión de Análisis en la Investigación del Cáncer, Li, X. y Xu, R. (eds.), p 83-101, Springer.
  2. Saeys, Y., Inza, I., y Larrañaga, P. (2007). Una revisión de las técnicas de selección de características en la bioinformática. La bioinformática, 23(19): 2507-2517.

1voto

Don Dickinson Puntos 4208

Como ya se ha mencionado Bosques Aleatorios son una "actualización" y, en estos días, SVM son generalmente la técnica recomendada para el uso.

Quiero añadir que más a menudo que no cambiar a SVM rendimientos muy decepcionantes resultados. La cosa es que, mientras que técnicas como el azar árboles están casi trivial para el uso, SVM es un poco más difícil.

He encontrado este papel invaluable cuando yo utilizados SVM por primera vez (Una Guía Práctica de Vectores de Soporte Clasicación) http://www.csie.ntu.edu.tw/~cjlin/papers/guía/guía.pdf

En R se puede utilizar el e1071 paquete para la SVM, vínculos en el estándar de facto (en el software libre, al menos!) libSVM de la biblioteca.

0voto

Igor Glinsky Puntos 11

Árbol de clasificación de los métodos que usted ha estado usando no son "óptimas". Si es que el poder de predicción que está buscando, entonces usted podría estar interesado en un relativamente nuevo paradigma que identifica específicamente a la mayoría de los modelos precisos posible para una determinada aplicación. Para cualquier muestra dada y de la colección de variables, el Óptimo ("la Máxima Precisión") Análisis de Datos (AOD) paradigma identifica un modelo estadístico que explícitamente maximiza la precisión de la clasificación.

Para la exposición, imaginar una muestra que consta de 100 observaciones, la mitad de los cuales son de clase 0, y la otra mitad de la clase 1. Imaginar observaciones fueron medidos en 176 variables independientes, pero sólo tres se hicieron en el modelo final. Por qué estos tres? Debido a que el modelo de participación de estas tres variables produjo mayor precisión de la clasificación de la muestra. ¿Qué significa esto? Esto significa que el modelo que anotó más puntos que cualquier otro modelo posible, para esta muestra de datos. Cómo son los puntos calculados?

  1. Si el modelo predice que la observación es de la clase 1, y eso es cierto, entonces la puntuación de un punto.
  2. Si el modelo predice que la observación es de la clase 0, y eso es cierto, entonces la puntuación de un punto.
  3. Si los predichos y los valores reales son diferentes, la puntuación de cero puntos.

En este ejemplo, el óptimo (máximo de precisión), el modelo es el que devuelve el máximo número de puntos para la aplicación. Cuando el número de miembros de las dos clases es diferente, el cálculo de este puntaje es diferente (ponderado por la base de la tasa, salvo que el operador especificado), pero la AOD todavía devuelve una normativa score-que se aplica igualmente en la interpretación a través de análisis independientes de estructuras de datos diferentes, que evalúa directamente el modelo de la exactitud de la clasificación. Y, si en lugar de (o además de), las observaciones fueron ponderados por el peso, tales como el tiempo (óptimo análisis de supervivencia), o el dinero (óptimo análisis financiero), luego de la AOD identifica la óptima exacta del modelo ponderado.

La AOD se originó como la combinación de metodologías de investigación de operaciones (donde el mejor o el máximo de la solución se llama "óptimo"), y las estadísticas exactas (de ahí el "análisis de datos"). El paradigma produce no paramétrica de modelos, da exactamente el Tipo de error de las estimaciones, y lineal y no-lineal multivariable de la AOD métodos han visto amplio uso, la producción de un gran número de los más precisos modelos estadísticos publicado aún en muchos diferentes disciplinas sustantivas. El énfasis en el paradigma está en la posibilidad de generalizar y de la validación cruzada.

Aquí hay un enlace (pdf) gratis artículo que introduce el desarrollo temprano del paradigma, y aquí hay un enlace a la seminal introducción a la AOD paradigma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X