19 votos

¿Por qué no puede regresión ridge proporcionar una mejor interpretación de LAZO?

Ya tengo una idea acerca de los pros y los contras de regresión ridge y el LAZO.

Para el LAZO, L1 pena plazo dará lugar a una escasa coeficiente de vector, que puede ser visto como un método de selección de características. Sin embargo, hay algunas limitaciones para el LAZO. Si las funciones tienen una alta correlación, el LAZO solamente se selecciona uno de ellos. Además, para los problemas en los que $p$ > $n$, el LAZO se seleccione en la mayoría de las $n$ parámetros ($n$$p$ son el número de observaciones y parámetros, respectivamente). Esto hace que el LAZO empíricamente un óptimo método en términos de previsibilidad en comparación con cresta de regresión.

Para la regresión ridge, ofrece una mejor capacidad de predicción en general. Sin embargo, su interpretación no es tan bonito como el de LAZO.

La explicación anterior puede encontrarse a menudo en los libros de texto en el aprendizaje de máquina de minería de datos. Sin embargo, todavía estoy confundido acerca de dos cosas:

  1. Si queremos normalizar la función de rango (es decir entre 0 y 1, o con cero la media y la varianza la unidad), y ejecutar la regresión ridge, todavía se puede tener una idea de la función de la importancia de la clasificación de los valores absolutos de los coeficientes (la característica más importante tiene el mayor valor absoluto de los coeficientes). Aunque no somos de la selección de características de forma explícita, la interpretación no se pierde mediante regresión ridge. Al mismo tiempo, aún podemos lograr un alto poder de predicción. Entonces, ¿por qué necesitamos el LAZO? Me estoy perdiendo algo aquí?

  2. Es el LAZO preferido debido a su característica de selección de la naturaleza? A mi entender, las razones por las que necesitamos la selección de características son la capacidad de generalizar y facilidad de cálculo.

    Para facilidad de cálculo, no queremos alimentar a todos de 1 millón de características en nuestro modelo, si estamos realizando algunas tareas de PLN, por lo que nos caída de algunos, obviamente, inútil características en primer lugar para reducir el coste computacional. Sin embargo, para el LAZO, sólo podemos conocer la selección de la función de resultado (de la escasa vector) después de alimentar a todos los datos en nuestro modelo, por lo que no se benefician de el LAZO en términos de reducción del coste computacional. Sólo podemos realizar una predicción un poco más rápido, mientras que ahora sólo nos alimentan el subconjunto de características (es decir 500 de 1 millón) en nuestro modelo para generar los resultados esperados.

    Si el LAZO es preferido por su capacidad para generalizar, entonces también podemos lograr el mismo objetivo mediante regresión ridge (o cualquier otro tipo de regularización). ¿Por qué necesitamos LAZO (o elástico de redes) de nuevo? ¿Por qué no podemos simplemente seguir a la cresta de la regresión?

Podría alguien por favor, arrojar algo de luz sobre esto? Gracias!

21voto

Krishna Thota Puntos 115
  1. Si el orden de 1 millón de ridge-encogido, escalada, pero no cero características, usted tendrá que hacer algún tipo de decisión: que se verá en los n mejores predictores, pero lo que es n? El LAZO resuelve este problema en una serie de principios, de manera objetiva, debido a que para cada paso en el camino (y, a menudo, se conformo en un punto a través por ejemplo de la validación cruzada), sólo hay m los coeficientes que no son cero.

  2. Muy a menudo, se va a entrenar los modelos en algunos datos y luego aplicarlo a algunos datos no cobrados. Por ejemplo, usted podría adaptarse a su modelo de 50.000.000 de correos electrónicos y, a continuación, utilizar ese modelo en cada nuevo correo electrónico. Cierto, te va a caber en el conjunto completo de características para la primera 50.000.000 correos, pero por cada siguiente dirección de correo electrónico, usted tendrá que tratar con un mucho más escaso y más rápido y mucho más eficiente de la memoria, el modelo. Usted también no hay necesidad de recoger la información para el caído características, que pueden ser muy útiles si las características son caros para extraer, por ejemplo, a través de genotipado.

Otra perspectiva sobre el L1/L2 problema expuesto, por ejemplo, Andrew Gelman es que a menudo tienen alguna intuición de lo que su problema puede ser. En algunas circunstancias, es posible que la realidad es verdaderamente escasa. Tal vez usted ha medido millones de genes, pero es posible que sólo 30.000 de ellos en realidad determinar el metabolismo de la dopamina. En tal situación, L1 podría decirse que se adapta mejor el problema.
En otros casos, la realidad puede ser denso. Por ejemplo, en la psicología, "todo lo que se correlaciona (hasta cierto punto) con todo" (Paul Meehl). Preferencias para las manzanas vs naranjas probablemente no se correlacionan con las tendencias políticas de alguna manera - y aún con el CI. Regularización podría tener sentido aquí, pero la verdadera cero efectos deben ser raras, así L2 puede ser más apropiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X