2 votos

¿Se puede considerar la selección de rasgos como una forma de observar la relación entre variables, como la correlación?

En la correlación podemos observar la relación entre un par de variables, llamémosle X1 e Y.

Ahora, considerando que tengo las variables predictoras X1, X2, ..., Xn y la variable Y. ¿Se cumple el siguiente supuesto:

Si las variables Xi,...,Xj se observan para clasificar mejor a Y, donde 1 <= i,j <= n, ¿puedo afirmar que las variables Xi,...,Xj tienen más asociación con Y que las restantes variables Xk, k no pertenecientes al intervalo i,j.

1voto

michael kevin Puntos 9

En una palabra, sí. En un marco bayesiano, una buena característica (o conjunto de características) $X$ es uno en el que $P(Y | X )$ depende en gran medida del valor específico de $X$ observado; lo que puede interpretarse razonablemente como que las variables están correlacionadas. Una forma de cuantificar esto es en términos de la entropía relativa entre las distribuciones.

0voto

deckoff Puntos 528

Una variable que consigue un mejor rendimiento de clasificación no es necesariamente una variable que esté correlacionada o sea relevante para las etiquetas de la clase objetivo (es decir, Y en su caso). Por tanto, la optimización no implica relevancia y viceversa.

Si la métrica de relevancia que se utiliza no aplica ninguna transformación o preprocesamiento a los datos y es independiente de cualquier modelo de aprendizaje, entonces se puede inferir alguna relación directa entre la característica seleccionada y la variable objetivo. Una buena métrica es la que conduce a la selección de características relacionadas con la variable objetivo y que no son redundantes. mRMR es un ejemplo de este tipo de métrica.

Por otro lado, si su métrica de evaluación no es independiente del modelo de clasificación, que se conoce como modelo envolvente, la selección de características relevantes se basa en el tipo de clasificador. Por ejemplo, el clasificador Naive Bayes y los árboles de decisión son métodos que reflejan la relevancia entre la característica y la variable objetivo. Sin embargo, el SVM con un kernel RBF podría no conducir a la selección de características relevantes, sino a las óptimas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X