23 votos

¿Por qué la mejor selección de subconjuntos no se favorece en comparación con lasso?

Estoy leyendo acerca de la mejor selección de subconjuntos en los Elementos de aprendizaje estadístico libro. Si tengo 3 predictores $x_1,x_2,x_3$ creo $2^3=8$ subconjuntos:

  1. Subconjunto sin predictores
  2. subconjunto con predictor $x_1$
  3. subconjunto con predictor $x_2$
  4. subconjunto con predictor $x_3$
  5. subconjunto con predictores $x_1,x_2$
  6. subconjunto con predictores $x_1,x_3$
  7. subconjunto con predictores $x_2,x_3$
  8. subconjunto con predictores $x_1,x_2,x_3$

Entonces puedo probar todos estos modelos en los datos de prueba para elegir el mejor.

Ahora mi pregunta es ¿por qué es la mejor de selección de subconjuntos no se ve favorecida en la comparación, por ejemplo, el lazo?

Si comparo el umbral de funciones de la mejor subconjunto y el lazo, veo que la mejor subconjunto establece algunos de los coeficientes a cero, como lazo. Pero, el otro coeficiente (no-cero) todavía tiene el ols, estos valores se unbiasd. Considerando, que en lazo algunos de los coeficientes será cero y los otros (no-cero) se tiene un cierto sesgo. La siguiente figura muestra lo mejor: enter image description here

Desde la imagen de la parte de la línea roja en el mejor subconjunto caso está tendido sobre el gris. La otra parte está poniendo en el eje de las x, donde algunos de los coeficientes son cero. La línea gris define el imparciales de las soluciones. En lasso, algunos sesgo introducido por $\lambda$. A partir de esta figura que ver que los mejores subconjunto es mejor que el lazo! ¿Cuáles son las desventajas de utilizar mejor subconjunto?

23voto

icelava Puntos 548

En el subconjunto de la selección, el cero de los parámetros sólo será imparcial si usted ha elegido un superconjunto de la modelo correcto, es decir, si ha eliminado sólo predictores cuyo verdadero coeficiente valores son cero. Si su procedimiento de selección llevado a excluir un predictor con un cierto coeficiente distinto de cero, todos los coeficientes estimados estará sesgada. Esta derrota de su argumento si usted estará de acuerdo en que la selección no suele ser perfecta.

Por lo tanto, para hacer "seguro" de un imparcial modelo de estimación, debe errar en el lado de la inclusión de más, o incluso potencialmente relevantes predictores. Es decir, no debe seleccionar a todos.

¿Por qué esto es una mala idea? Debido a que el sesgo y la varianza de equilibrio. Sí, su gran modelo va a ser imparcial, pero tendrá una gran varianza, y la varianza dominarán la predicción (o de otros) error.

Por lo tanto, es mejor aceptar que las estimaciones de los parámetros va a ser sesgada, pero tienen menor varianza (regularización), en lugar de la esperanza de que nuestra selección de subconjuntos sólo ha eliminado verdadero cero de parámetros de manera que tenemos de un imparcial modelo con mayor varianza.

Esto puede ser útil: ¿por Qué la contracción de trabajo?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X