12 votos

¿Qué algoritmos de aprendizaje automático son buenas para la estimación de características que son más importantes?

He de datos con un número mínimo de características que no cambian, y algunas de las características adicionales que pueden cambiar y tener un gran impacto en el resultado. Mi conjunto de datos se parece a esto:

Las características son a, B, C (siempre presente), y D, E, F, G, H (a veces)

A = 10, B = 10, C = 10                  outcome = 10
A = 8,  B = 7,  C = 8                   outcome = 8.5
A = 10, B = 5,  C = 11, D = 15          outcome = 178
A = 10, B = 10, C = 10, E = 10, G = 18  outcome = 19
A = 10, B = 8,  C = 9,  E = 8,  F = 4   outcome = 250
A = 10, B = 11, C = 13, E = 8,  F = 4   outcome = 320
...

Quiero predecir el resultado de valor, y la combinación de parámetros adicionales es muy importante para determinar el resultado. En este ejemplo, la presencia de E y F conduce a un gran resultado, mientras que la presencia de E y G no. Lo de la máquina de aprendizaje de los algoritmos o técnicas son buenas para capturar este fenómeno ?

14voto

Bitwise Puntos 3141

Esta es una de las principales áreas de investigación en Aprendizaje de Máquina y es conocido como la Selección de características.

En general, la única manera de decir cuál es el mejor subconjunto de características (para la entrada en algunos modelos de predicción que puede combinarlos), es probar todos los posibles subconjuntos. Esto por lo general es imposible, por lo que la gente intente muestra el espacio de la función de subconjuntos diferentes heurísticas (ver el artículo para algunos de los enfoques típicos).

3voto

JMW.APRN Puntos 21

Como @bit a Bit menciona, la selección de características o de extracción de características es un enorme campo de investigación en sí mismo y hay un sinnúmero de maneras de hacerlo.

Las otras respuestas son todas válidas, en mi opinión, pero al final, usted probablemente tendrá que hacer como la mayoría, y elija el método que es el más intuitivo para usted y que usted entiende los mejores. Me gustaría añadir dos opciones posibles.

De regresión múltiple es, probablemente, el más antiguo de la técnica. La idea es ajustar un modelo para describir la respuesta de los predictores y mantener sólo los predictores que tienen un gran impacto en la respuesta (un gran coeficiente de proporcionalidad). Aquí usted probablemente habría recodificar la ausencia de D, E, F y G, D=0, E=0, F=0, G=0 o algo así.

Otra técnica que nunca ganó la popularidad que se merece es co-inercia de análisis (una variante del análisis canónico). No hay ninguna implementación de la misma, por lo que yo sé, y usted tendría que empezar de cero (de ahí por ejemplo). Es un método lineal que busca la mejor combinación lineal de las características que coincida con su resultado(s). Este blog se muestra un ejemplo de cómo puede ser utilizado.

3voto

KitsuneYMG Puntos 151

Desde mi entender, usted está buscando una medida de importancia variable. Estos vienen en varios sabores basados en diferentes enfoques teóricos, pero todos tienen fuertes lazos con los métodos que se utilizan para optimizar el algoritmo de la que estás hablando te amas. Por lo general, cada máquina algoritmo de aprendizaje tendrá una canónica de la optimización del método; copia de la propagación de las redes neuronales, secuencial mínimo de optimización para SVMs, varias criterio de información y estadística de las pruebas de significación para árboles de decisión, incluyendo chi-cuadrado significación o de gini de la impureza. Por supuesto, otra novela más de la optimización de los métodos son frecuentemente propuestos para cada uno de los algoritmos.

Estos optimización de métodos para cada algoritmo esencialmente definir la variable de importancia para el modelo en la mano. Esencialmente, usted está buscando una aproximación o de interpretar la representación de los resultados de la optimización de paso que el algoritmo está llevando a cabo. Sin embargo, esto es problemático por varias razones.

  1. La dificultad de determinar la influencia de una determinada variable en el modelo de formulario de selección, dado que la selección es a menudo un proceso estocástico en sí mismo.Las variables que influyen en la elección de los modelos a un cierto grado, de modo que incluso si una variable no es importante para la predicción final en un modelo, puede tener fundamentalmente de la forma de la modelo de la forma misma. Dado que la generación del modelo en sí es a menudo estocástico (optimizado el uso de partículas swarm optimization o un embolsado método etc.), es difícil entender exactamente cómo una determinada variable puede tener forma de su forma.

  2. La dificultad de la extracción de la importancia de una variable, dado que puede ser importante sólo en combinación o interacción con otra variable.

  3. Algunas de las variables sólo pueden ser importantes para algunas observaciones. La falta de importancia en otras observaciones que pueden confundir la medición de importancia global por un promedio de una diferencia real.

También es difícil obtener una inmediatamente interpretable métrica para la variable de importancia exactamente como se define por el modelo, ya que no puede producir un único número (especialmente en el caso de embolsado). En lugar de ello, en estos casos hay una distribución de importancia para cada variable.

Una manera de superar estos problemas podría ser la utilización de la perturbación. Esta es una manera de analizar su modelo final mediante la adición de ruido aleatorio a las variables, y, a continuación, comprobar cómo esto afecta a los resultados. La ventaja es que permite conocer qué variables son las más importantes empíricamente a través de la simulación de la respuesta a la pregunta de cuáles son las variables que podría destruir la predicción más si se ha retirado. La desventaja, es que hay una buena probabilidad de que incluso si las variables fueron retirados/perturbado, el modelo (si re-entrenados) podría utilizar el resto de variables reconstruir su efecto, lo que significa que la variable de "importancia" a medida que se derivan todavía realmente sólo indica la importancia en su modelo de aprendizaje, pero no de la importancia global a través de todos los modelos posibles.

2voto

Barry Puntos 1144

Bosques aleatorios podría ser bastante útil para lo que quieres hacer. El randomForest paquete de R tiene una función que calcula 2 medidas de importancia. También tiene la capacidad para crear algunos parcial de la dependencia de las parcelas así que usted puede inspeccionar visualmente el efecto marginal del predictor puede tener en la respuesta.

1voto

blowmage Puntos 2587

Estoy siendo desagradable, pero aquí por una razón. ¿Has pensado en la sustitución de la no-uniforme de observaciones de una variable de indicador presente|not_present? Desde su descripción parece que este valor del indicador es válido característica ya que la presencia de los factores D y H no son informativos: que es su presencia sólo indica grandes resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X