7 votos

¿Cuáles son las desventajas de la utilización de Lazo para la selección de características?

Como tengo entendido, la selección de características es difícil para problemas de clasificación porque es imposible identificar un subconjunto óptimo de $k$ características en problemas en los que el número total de características de $d$ es grande.

Dicho esto, a veces es factible identificar el mejor subconjunto de características a través de la fuerza bruta (por ejemplo, puedo usar una aproximación de fuerza bruta para encontrar el mejor subconjunto de $k = 10$ características para la clasificación de los problemas con $d = 20$). Por supuesto, la aproximación de fuerza bruta no se escala a un gran $d$, pero todavía es posible...

Mi pregunta es: ¿todavía tiene sentido usar el Lazo para la selección de características cuando es posible recuperar el óptimo subconjunto de características? En particular, estoy buscando para conocer de cualquier desventajas prácticas, con el Lazo para los fines de selección de función?

Las referencias se agradece.

Nota: Para que quede claro, yo sé que no fue una discusión relacionada con en Lazo vs regresión paso a paso. La razón por la que he publicado una nueva pregunta en lugar de la publicación en el antiguo foro es porque:

  • la vieja pregunta fue acerca de los problemas de regresión
  • la vieja pregunta compara Lazo de regresión paso a paso. En comparación, supongo que esto es tratando de comparar Lasso ($\ell_1$a la pena de regularización) a la fuerza bruta ($\ell_0$a la pena de regularización)

2voto

Silvercode Puntos 438

Lasso no acaba de hacer la selección de características. Está tratando de minimizar la suma de los cuadrados de los errores sujeto sancionado por la magnitud de los coeficientes de regresión. Esto a menudo conduce a una menor error cuadrático medio en comparación con una OLS procedimiento.

La naturaleza de la $l_1$ pena empuja a muchos coeficientes de regresión a cero; la inducción de la dispersión y por lo tanto, constituye la forma de selección de características.

Sin embargo, si hemos de escoger el mejor subconjunto de todos los predictores mínima por la suma de los cuadrados de los errores - la mejor opción sería la de todos ellos.

Si nos fijamos una arbitraria $k=10$, ¿cómo sabemos que no debemos elegir $k=11$? Lasso no tiene este problema como $k$ es elegido sobre una base de principios, de acuerdo a la optimización del problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X