Tengo una pregunta concerniente a la selección de características y clasificación. Voy a estar trabajando con R. que debo empezar por decir que no estoy muy familiarizado con técnicas de minería de datos, aparte de una breve visión de la proporcionada por un curso de licenciatura en análisis multivariante, así que me perdone si estoy faltan los detalles con respecto a mi pregunta. Voy a intentar mi mejor esfuerzo para describir mi problema.
En primer lugar, un poco acerca de mi proyecto: Estoy trabajando en una imagen de citometría de proyecto, y el conjunto de datos se compone de más de 100 de las características cuantitativas de las imágenes histológicas de los núcleos celulares. Todas las variables son continuas las variables que describen las características del núcleo, tales como el tamaño, la cantidad de ADN, etc. Actualmente existe un proceso manual y un proceso automático para la obtención de estas imágenes celulares. El proceso manual es (muy) lento, sino que es realizado por un técnico, y sólo produce imágenes que son utilizables para su posterior análisis. El proceso automático es muy rápido, pero introduce demasiados inutilizable imágenes - sólo alrededor del 5% de las imágenes son adecuados para su posterior análisis, y hay miles de nuclear imágenes por ejemplo. Como resulta, la limpieza de los datos obtenidos en el proceso automático es en realidad mucho más tiempo que el proceso manual.
Mi objetivo es formar a un método de clasificación, el uso de R, para discriminar entre el bien y objetos de mala objetos a partir de los datos obtenidos en el proceso automático. Tengo un ya clasificado conjunto de entrenamiento que se obtuvo del proceso automático. Consta de 150.000 filas, de las cuales cerca del 5% son buenos objetos y ~95% son malos objetos.
Mi primera pregunta se ocupa de la selección de características. Hay más de 100 continuo explicativa de las características, y me gustaría posiblemente deshacerse de variables de ruido (esperanzadamente) ayudar con la clasificación. ¿Qué métodos existen para la reducción de dimensionalidad con el objetivo de mejorar la clasificación? Entiendo que la necesidad de la variable de reducción puede variar dependiendo de la clasificación de la técnica utilizada.
Lo que lleva a mi segunda pregunta. He estado leyendo acerca de las diferentes técnicas de clasificación, pero siento que no puedo determinar adecuadamente el método más adecuado para mi problema. Mi principal preocupación es tener una baja tasa de error en la clasificación de la buena objetos más malo de los objetos, y el hecho de que la probabilidad anterior de la buena objetos es mucho menor que la probabilidad anterior de la mala objetos. Tener una mala objeto clasificados como de buena es menos de una molestia que recuperar un buen objeto de la piscina de la mala objetos, pero sería agradable si no también muchos malos objetos fueron clasificados como ser bueno.
He leído este post y estoy estudiando la posibilidad de Bosques Aleatorios como per chl la respuesta. Me gustaría explorar otros métodos como bien, y me gustaría recoger las sugerencias de las buenas personas aquí en la CV. También doy la bienvenida a cualquier lecturas sobre el tema de la clasificación, que puede ser de mucha ayuda y sugerencias para R paquetes para usar.
Por favor, pregunte para más detalles, si mi post es que faltan los detalles.