30 votos

¿Necesitamos todavía disponen de selección durante el uso de algoritmos de regularización?

Tengo una pregunta con respecto a la necesidad de utilizar métodos de selección de características (bosques Aleatorios función de valor de importancia o Univariante métodos de selección de características, etc) antes de ejecutar una estadística algoritmo de aprendizaje.

Sabemos que para evitar el sobreajuste podemos presentar a la regularización de la pena en el peso de los vectores.

Así que si quiero hacer la regresión lineal, entonces yo podría introducir la L2 o L1 o incluso una red Elástica de regularización de los parámetros. Para obtener dispersas soluciones, L1 pena de ayuda en la selección de características.

Entonces es todavía necesario para hacer la selección de características antes de Ejecutar L1 regularizationn de regresión como el Lazo?. Técnicamente Lazo me está ayudando a reducir las características por L1 pena entonces, ¿por qué la selección de características necesarias antes de ejecutar algo?

He leído un artículo de investigación diciendo que hacer Anova, a continuación, SVM da mejor rendimiento que el uso de SVM solo. Ahora la pregunta es: SVM inherentemente hace de regularización de uso de la L2 norma. Con el fin de maximizar el margen, es minimizar el peso vector de norma. Por lo que está haciendo la regularización en la función objetivo. Técnicamente los algoritmos SVM no debe ser molestado acerca de los métodos de selección de características?. Pero el informe dice todavía haciendo Univariante de selección de Función antes de lo normal SVM es más potente.

Cualquier persona con pensamientos?

Gracias

25voto

John Richardson Puntos 1197

La selección de características a veces mejora el rendimiento de los modelos regularizados, pero en mi experiencia, en general, hace que la generalización de rendimiento peor. La razón de esto es que el más decisiones que tomamos con respecto a nuestro modelo (incluyendo los valores de los parámetros, la elección de las características, la configuración de hyper-parámetros, la elección de kernel...), más los datos que necesitan para tomar estas decisiones de forma fiable. En general podemos tomar estas decisiones minimizando algún criterio evaluado a través de un conjunto finito de datos, lo que significa que el criterio inevitablemente tiene un valor distinto de cero de la varianza. Como resultado, si queremos minimizar el criterio demasiado agresivamente, podemos sobre-ajuste, es decir, podemos tomar decisiones que minimicen el criterio, porque de características que dependen de la particular de la muestra en la que se evalúa, en lugar de porque se va a producir una auténtica mejora en el rendimiento. Yo llamo a esto "la sobre-ajuste en el modelo de selección", para diferenciarla de la más conocida forma de sobre-ajuste resultante de la optimización de los parámetros del modelo.

Ahora la SVM es un aproximado de la implementación de un obligado en la generalización de rendimiento, que no depende de la dimensionalidad, por lo que en principio, se puede esperar un buen rendimiento sin necesidad de selección de la función, siempre que la regularización de los parámetros están correctamente elegido. La mayoría de los métodos de selección de características no tienen el rendimiento de "garantías".

Para L1 métodos, ciertamente, no se moleste con la selección de características, como la L1 criterio es generalmente eficaz en el recorte de funciones. La razón por la que es efectiva es la que se induce un orden en el que las características de entrada y de salida del modelo, lo que reduce el número de opciones disponibles en la selección de características, y por lo tanto es menos propenso a la sobre-ajuste.

La mejor razón para la selección de características para averiguar qué características son relevantes o importantes. La peor razón para la selección de características para mejorar el rendimiento, para la regularización de los modelos, generalmente hace las cosas peores. Sin embargo, para algunos conjuntos de datos, se puede hacer una gran diferencia, así que la mejor cosa a hacer es tratar de utilizarlo y robusto, imparcial de evaluación del desempeño del esquema (por ejemplo, anidada de validación cruzada) para averiguar si el tuyo es uno de esos conjuntos de datos.

3voto

Romwell Puntos 21

No creo que el sobreajuste es la razón por la que necesitamos la selección de características en el primer lugar. De hecho, el sobreajuste es algo que sucede si no damos a nuestro modelo de datos suficientes, y la selección de características más reduce la cantidad de datos que le pasamos nuestro algoritmo.

Yo en lugar de decir que la selección de características es necesaria como un paso de preprocesamiento para los modelos que no tienen el poder para determinar la importancia de las características en sus el propios, o para los algoritmos que reciben mucho menos eficiente si tienen que hacerlo importancia de ponderación en sus el propios.

Tome por ejemplo un simple k-vecino más cercano algoritmo basado en la distancia Euclídea. Siempre se verá en todas las características como la de tener el mismo peso o importancia para la clasificación final. Así que si le das 100 características, pero sólo tres de ellas son relevantes para el problema de clasificación, después de todo el ruido de estas características adicionales completamente ahogar la información de los tres características importantes, y usted no será útil predicciones. Si, en lugar de determinar las características fundamentales de antemano y pasar sólo aquellos de la clasificación, que va a funcionar mucho mejor (por no hablar de ser mucho más rápido).

En el otro lado, mirar un bosque aleatorio clasificador. Mientras que la formación, automáticamente determinar qué características son las más útiles mediante la búsqueda de una óptima dividida por la elección de un subconjunto de todas las características. Por lo tanto, va a hacer mucho mejor a tamizar a través de los 97 características inútiles para encontrar las tres buenos. Por supuesto, todavía se ejecute más rápido si haces la selección de antemano, pero su clasificación en el poder no suele sufrir mucho y le da un montón de características adicionales, incluso si no son relevantes.

Por último, mira a las redes neuronales. De nuevo, este es un modelo que tiene el poder de ignorar irrelevante características, y la formación de retropropagación se suelen confluir en el uso de las características interesantes. Sin embargo, se sabe que el entrenamiento estándar algoritmo converge mucho más rápido si las entradas son "blanqueado", es decir, a escala de la unidad de la varianza y con quita de correlación cruzada (LeCun et al, 1998). Por lo tanto, aunque no es estrictamente necesario para hacer la selección de características, se puede pagar en términos de rendimiento puro para hacer el preprocesamiento de los datos de entrada.

Así que en resumen, yo diría que la selección de características, tiene menos que ver con el sobreajuste y más con la mejora de la clasificación de potencia y la eficiencia computacional de un método de aprendizaje. Cuánto se necesita depende mucho del método en cuestión.

0voto

Animus Puntos 46

Creo que si no tienes suficiente número de datos puntos sólidamente optimizar los parámetros que puede cuentan con selección para eliminar algunas de las variables. Pero no sugiero hacerlo demasiado ya que puede perder la señal que se desea modelar.

Además, puede haber ciertas características que no desea en sus modelos de negocio entender que desea eliminar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X