Soy nuevo en función de la selección y me preguntaba cómo sería el uso de la PCA para realizar la selección de características. ¿PCA calcular un puntaje relativo de cada variable de entrada que se puede utilizar para filtrar noninformative variables de entrada? Básicamente, quiero ser capaz de ordenar las características originales de los datos por la varianza o la cantidad de información contenida.
Respuestas
¿Demasiados anuncios?La idea básica al uso de PCA como una herramienta para la selección de características para seleccionar las variables de acuerdo a la magnitud (de mayor a menor en valores absolutos) de sus coeficientes (cargas). Usted puede recordar que la PCA busca reemplazar $p$ (más o menos correlacionados) variables $k<p$ la no correlación de las combinaciones lineales (proyecciones) de las variables originales. Nos deja ignorar cómo elegir un óptimo $k$ para el problema en cuestión. Los $k$ componentes principales son clasificados por su importancia a través de su varianza explicada, y contribuye cada variable con grado de variación para cada componente. Con la mayor varianza de los criterios sería similar a la extracción de características, donde el principal componente son usados como nuevas características, en lugar de las variables originales. Sin embargo, podemos decidir mantener sólo el primer componente y seleccione el $j<p$ variables que tienen el más alto absoluta coeficiente; el número de $j$ podría estar basado en la proporción del número de variables (por ejemplo, mantener sólo el 10% de la $p$ variables), o un fijo de corte (por ejemplo, considerando un umbral de la normalizado coeficientes). Este enfoque tiene cierto parecido con el Lazo operador en penalizado de regresión (o PLS de regresión). Ni el valor de $j$, ni el número de componentes a retener son las opciones obvias, sin embargo.
El problema con el uso de la PCA es que (1) mediciones de todas las variables originales se utilizan en la proyección a la baja de dimensiones del espacio, (2) sólo las relaciones lineales se consideran, y (3) PCA o de enfermedad vesicular porcina basada en métodos, así como univariante de los métodos de detección (t de student, correlación, etc.), no tome en cuenta el potencial de la naturaleza multifactorial de la estructura de los datos (por ejemplo, de orden superior, de la interacción entre las variables).
Sobre el punto 1, algunos más elaborados que los métodos de detección se han propuesto, por ejemplo, director de análisis de función o método paso a paso, como el que se usa para 'gen de afeitar", en estudios de expresión génica. También, la escasa PCA puede ser utilizada para realizar la reducción de dimensiones y variables de selección basado en la variable resultante de cargas. Sobre el punto 2, es posible usar el kernel PCA (usando el kernel truco) si uno necesita incluir relaciones no lineales en un menor espacio tridimensional. Los árboles de decisión, o mejor el bosque aleatorio algoritmo, probablemente son más capaces de resolver el Punto 3. El último permite derivar de Gini - o permutación de medidas basadas en criterios de importancia variable.
Un último punto: Si usted tiene la intención de realizar la selección de características antes de la aplicación de una clasificación o regresión del modelo, asegúrese de validación cruzada de todo el proceso (véase el §7.10.2 de los Elementos de Aprendizaje Estadístico, o Ambroise y McLachlan, 2002).
Como usted parece estar interesado en R solución, yo recomendaría echar un vistazo en el símbolo de intercalación paquete que incluye un montón de funciones útiles para el procesamiento de datos y selección de variables en una clasificación o regresión contexto.
Dado un conjunto de N funciones de un análisis de PCA se producen (1) la combinación lineal de las características con la mayor varianza (primera PCA componente), (2) la combinación lineal con la mayor parte de la varianza en el subespacio ortogonal a la primera PCA componente etcétera (bajo la restricción de que los coeficientes de la combinación forma el vector con la unidad de la norma) Si la combinación lineal con máxima varianza es una "buena" característica realmente depende de lo que usted está tratando de predecir. Por esta razón yo diría que ser un PCA de componente y de ser un "buen" características son (en general) dos nociones ajenas.
Usted no puede ordenar características de acuerdo a su varianza, como el de la varianza se utilizan en el PCA es básicamente una entidad multidimensional. Sólo se puede solicitar características de la proyección de la varianza a cierta dirección que usted elija (que normalmente es el primer y principal compnonet.) Así que, en otras palabras, si una función tiene más varianza que la antera de uno depende de cómo usted elige a su dirección de proyección.