7 votos

Preguntas sobre la selección de variables para la clasificación y técnicas de clasificación diferente

Tengo una pregunta concerniente a la selección de características y clasificación. Voy a estar trabajando con R. que debo empezar por decir que no estoy muy familiarizado con técnicas de minería de datos, aparte de una breve visión de la proporcionada por un curso de licenciatura en análisis multivariante, así que me perdone si estoy faltan los detalles con respecto a mi pregunta. Voy a intentar mi mejor esfuerzo para describir mi problema.

En primer lugar, un poco acerca de mi proyecto: Estoy trabajando en una imagen de citometría de proyecto, y el conjunto de datos se compone de más de 100 de las características cuantitativas de las imágenes histológicas de los núcleos celulares. Todas las variables son continuas las variables que describen las características del núcleo, tales como el tamaño, la cantidad de ADN, etc. Actualmente existe un proceso manual y un proceso automático para la obtención de estas imágenes celulares. El proceso manual es (muy) lento, sino que es realizado por un técnico, y sólo produce imágenes que son utilizables para su posterior análisis. El proceso automático es muy rápido, pero introduce demasiados inutilizable imágenes - sólo alrededor del 5% de las imágenes son adecuados para su posterior análisis, y hay miles de nuclear imágenes por ejemplo. Como resulta, la limpieza de los datos obtenidos en el proceso automático es en realidad mucho más tiempo que el proceso manual.

Mi objetivo es formar a un método de clasificación, el uso de R, para discriminar entre el bien y objetos de mala objetos a partir de los datos obtenidos en el proceso automático. Tengo un ya clasificado conjunto de entrenamiento que se obtuvo del proceso automático. Consta de 150.000 filas, de las cuales cerca del 5% son buenos objetos y ~95% son malos objetos.

Mi primera pregunta se ocupa de la selección de características. Hay más de 100 continuo explicativa de las características, y me gustaría posiblemente deshacerse de variables de ruido (esperanzadamente) ayudar con la clasificación. ¿Qué métodos existen para la reducción de dimensionalidad con el objetivo de mejorar la clasificación? Entiendo que la necesidad de la variable de reducción puede variar dependiendo de la clasificación de la técnica utilizada.

Lo que lleva a mi segunda pregunta. He estado leyendo acerca de las diferentes técnicas de clasificación, pero siento que no puedo determinar adecuadamente el método más adecuado para mi problema. Mi principal preocupación es tener una baja tasa de error en la clasificación de la buena objetos más malo de los objetos, y el hecho de que la probabilidad anterior de la buena objetos es mucho menor que la probabilidad anterior de la mala objetos. Tener una mala objeto clasificados como de buena es menos de una molestia que recuperar un buen objeto de la piscina de la mala objetos, pero sería agradable si no también muchos malos objetos fueron clasificados como ser bueno.

He leído este post y estoy estudiando la posibilidad de Bosques Aleatorios como per chl la respuesta. Me gustaría explorar otros métodos como bien, y me gustaría recoger las sugerencias de las buenas personas aquí en la CV. También doy la bienvenida a cualquier lecturas sobre el tema de la clasificación, que puede ser de mucha ayuda y sugerencias para R paquetes para usar.

Por favor, pregunte para más detalles, si mi post es que faltan los detalles.

14voto

John Richardson Puntos 1197

La selección de características no necesariamente mejora el rendimiento de la moderna clasificador de sistemas, y con bastante frecuencia hace que el rendimiento es peor. A menos que averiguar qué características son las más importantes, es un objetivo del análisis, es a menudo mejor que ni siquiera probar y utilizar la regularización para evitar la sobre-ajuste (seleccione la regularización de los parámetros, por ejemplo, mediante la validación cruzada).

La razón por la que la selección de características es difícil es que se trata de un problema de optimización con muchos grados de libertad (esencialmente uno por entidad) donde el criterio depende de una muestra finita de datos. Esto significa que usted puede sobre-ajuste de la función de criterio de selección y terminar con un conjunto de características que funciona bien para que el particular de la muestra de datos, pero no para otros (es decir, se generaliza mal). Regularización por otro lado, mientras que también la optimización de un criterio basado en una muestra finita de datos, implica menor número de grados de libertad (normalmente uno), lo que significa que la sobre-ajuste el criterio es más difícil.

A mí me parece que la "selección de la función se da un mejor rendimiento de la idea de que ha pasado su fecha de caducidad. Para lineal simple unregularised clasificadores (por ejemplo, la regresión logística), la complejidad del modelo (VC dimensión) crece con el número de características. Una vez en la regularización, la complejidad del modelo depende del valor del parámetro de regularización, más que el número de parámetros. Eso significa que la regularización de los clasificadores son resistentes a la sobre-ajuste (siempre que ajustar el parámetro de regularización correctamente) incluso en espacios dimensionales muy superiores. De hecho, esa es la base de por qué la máquina de soporte vectorial obras, el uso de un kernel para transformar los datos en un alto (posiblemente infinita) dimensiones del espacio, y, a continuación, utilizar la regularización para el control de la complejidad del modelo y, por tanto, a evitar el sobre-ajuste.

Habiendo dicho lo cual, no existen los almuerzos gratis, tu problema puede ser una en la que la selección de características funciona bien, y la única manera de saberlo es probarlo. Sin embargo, haga lo que haga, asegúrese de usar algo como anidada de validación cruzada para obtener una estimación insesgada de rendimiento. El exterior de la validación cruzada se utiliza para la evaluación del desempeño, pero en cada pliegue repita cada paso de ajuste del modelo (incluyendo la selección de características) nuevo de forma independiente. Un error común es realizar la selección de características utilizando todos los datos y, a continuación, validación cruzada para estimar el rendimiento de la utilización de las funciones identificadas. Debería ser obvio por qué eso no es lo correcto, pero muchos lo han hecho como el enfoque correcto es computacionalmente costoso.

Mi sugerencia es tratar SVMs o el kernel o la regresión logística LS-SVM etc. con varios núcleos, pero no la selección de características. Si nada más se le dará un significativo línea de base.

1voto

MGOwen Puntos 122

En la reducción de dimensionalidad, una buena primera opción podría ser el análisis de componentes principales.

Aparte de eso, no tengo mucho que añadir, excepto que si usted tiene algún interés en la minería de datos, le recomiendo que lea los elementos de aprendizaje estadístico. Su rigurosa y clara, y aunque todavía no he terminado, que probablemente dará mucho de perspectiva en la manera correcta de acercarse a su problema. El capítulo 4, lineal clasificadores casi seguro que suficiente para empezar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X