5 votos

Alternativas al análisis discriminante paso a paso para la selección de características en datos hiperespectrales

Soy nuevo en R y en análisis de datos hiperespectrales. Sin embargo, en mi investigación, he descubierto que muchos advierten contra el uso del análisis discriminante paso a paso (usando el Lambda de Wilk o la distancia de Mahalanobis) para encontrar el mejor subconjunto de variables con el cual se puede obtener un rendimiento de discriminación 'satisfactorio'.

Me he encontrado con algunas sugerencias:

PLS: http://cran.r-project.org/web/packages/pls/ and

LARS: http://cran.r-project.org/web/packages/lars/index.html, and I am just realizing that maybe the answers provided to this link below might be useful:

What are modern, easily used alternatives to stepwise regression?.

Dada la naturaleza de los datos hiperespectrales (altamente correlacionados y altamente redundantes), me gustaría encontrar las primeras 10 bandas que sean más eficientes para discriminar entre cerca de 30 especies de plantas. Cualquier sugerencia sería muy valorada.

1voto

cbeleites Puntos 12461

Los conjuntos de datos hiperespectrales a menudo son amplios: muchos canales espectrales vs. no tantas filas independientes, especialmente porque las filas en el conjunto de datos a menudo no son independientes entre sí (por ejemplo, datos de espectros resueltos espacialmente de pocas muestras/casos). Por eso a menudo se necesita algún tipo de regularización.

Además, la mayoría de los datos hiperespectrales difieren, por ejemplo, de los datos de microarrays, en que el eje espectral es realmente continuo, pero se discretiza en canales espectrales (las columnas). Desde un punto de vista espectroscópico, los espectros tienen buena calidad si esto se refleja en los espectros, por lo que los datos espectroscópicamente buenos tendrán una alta correlación entre columnas/medición de canales vecinos.

Esto significa que para los datos hiperespectrales, es de esperar que los coeficientes del modelo también se comporten de forma suave. Por lo tanto, prefiero la regularización dada por PLS en lugar del Lasso, por ejemplo: la selección de variables (reducción de coeficientes a cero) no parece particularmente apropiada desde un punto de vista espectroscópico.

Sin embargo, si la razón para querer encontrar 10 bandas es que quieres, por ejemplo, construir un instrumento basado en filtros más adelante, entonces el Lasso (o por ejemplo, randomForest) y otros métodos que reducen los coeficientes a cero de manera similar son más apropiados.

Solo para repetir lo que comenté en la otra pregunta: Recomiendo echar un vistazo a Los elementos del aprendizaje estadístico.


Aunque es publicidad de mi propio paquete y está fuera de tema para tu pregunta actual: Si aún no lo conoces, quizás quieras echar un vistazo a hyperSpec, que escribí para facilitar el trabajo con datos hiperespectrales en R.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X