22 votos

¿Por qué característica de la obra de ingeniería ?

Recientemente he aprendido que una de las formas para encontrar las mejores soluciones para ML problemas es a través de la creación de la cuenta. Uno puede hacer que, por ejemplo, sumar dos características.

Por ejemplo, tenemos dos funciones de "ataque" y "defensa" de algún tipo de héroe. A continuación, creamos una función adicional llamado "total", que es una suma de "ataque" y "defensa". Ahora lo que me parece extraño es que incluso dura "ataque" y "defensa" son casi perfectamente correlacionadas con "total" todavía obtener información útil.

¿Qué es la matemática detrás de todo esto? O es que me razonamiento equivocado?

Además, es que no es un problema, para classificators como kNN, que "total" será siempre más grande que el "ataque" o la "defensa"? Por lo tanto, incluso después de la estandarización vamos a tener las características que contienen los valores de los distintos rangos?

22voto

David Puntos 41

Se pregunta el título y el contenido parece que no coinciden conmigo. Si usted está utilizando el modelo lineal, agregar un total función además de la de ataque y defensa hará las cosas peor.

Primero me gustaría contestar por qué la característica de las obras de ingeniería en general.

Una imagen vale más que mil palabras. Esta cifra puede decirle algunas ideas sobre la función de la ingeniería y por qué funciona (imagen de la fuente):

enter image description here

  • Los datos en coordenadas Cartesianas es más complicado, y es relativamente difícil escribir una regla / construir un modelo para clasificar en dos tipos.

  • Los datos en coordenadas Polares es mucho más fácil: podemos escribir una simple regla en $r$ a clasificar en dos tipos.

Esto nos dice que la representación de los datos importa mucho. En cierto espacio, es mucho más fácil de hacer ciertas tareas que en otros espacios.

Aquí respondo a la pregunta que se indica en el ejemplo (total en ataque y defensa)

De hecho, la característica de ingeniería mencionados en esta suma de ataque y defensa de ejemplo, no funcionan bien para la mayoría de los modelos como el modelo lineal y va a causar algunos problemas. Ver La Multicolinealidad. Por otro lado, la característica de ingeniería puede funcionar en otros modelos, como el árbol de decisión / random forest. Ver a @Imran la respuesta para más detalles.

Así, la respuesta es que, dependiendo del modelo que se utilice, algunas disponen de ingeniería de ayuda en algunos modelos, pero no para otros modelos.

18voto

N8g Puntos 368

El tipo de modelo que estamos usando no podría ser muy eficaz en el aprendizaje de ciertas combinaciones de las características existentes.

Por ejemplo, considere el ejemplo en el que las características son a y d, y estamos utilizando un árbol de decisión para predecir un resultado binario que pasa a ser $0$ si $a+d<0$ $1$ si $a+d\geq0$.

Desde árboles de decisión se pueden dividir a lo largo de características individuales de los ejes, nuestro modelo va a terminar tratando de construir una escalera para adaptarse a una línea, que se verá algo como esto:

enter image description here

Como pueden ver este no generalizar perfectamente a los nuevos datos. Podemos tener círculos por encima de la decisión verdadera línea que están bajo nuestra decisión de límites y viceversa para los cruces.

Sin embargo, si añadimos a+d como una función, entonces el problema se convierte en trivial para un árbol de decisión. Puede ignorar el individuo a y d características y resolver el problema con una sola a+d<0 decisión del muñón.

enter image description here

Sin embargo, si se utiliza la regresión lineal, entonces su modelo sería perfectamente capaz de aprender, $a+d$ sin adición de una característica adicional.

En resumen, ciertas características adicionales pueden ayudar dependiendo del tipo de modelo que se está utilizando, y usted debe tener cuidado al considerar los datos y el modelo a la hora de características de ingeniería.

3voto

avid Puntos 161

Construido característica como total todavía puede ser predictively útil si no está fuertemente correlacionada con otras características en el mismo modelo. total , en particular, no necesita ser fuertemente correlacionada con attack o defense. Por ejemplo, si attack es (8, 0, 4) y defense es (1, 9, 6), entonces la correlación de total con attack es 0 y la correlación de la total con defense es $\frac{1}{7}$.

Además, es que no es un problema, para classificators como kNN, que "total" será siempre más grande que el "ataque" o la "defensa"? Por lo tanto, incluso después de la estandarización vamos a tener las características que contienen los valores de los distintos rangos?

Si desea estandarizar sus predictores, debe hacerlo después de que todos ellos han sido construidos.

2voto

Dipstick Puntos 4869

Para dar una respuesta general, característica de la ingeniería en la mayoría de los casos es acerca de la extracción de características significativas de los datos, así que si le da más información a su modelo, es obvio que debe comportarse mejor. Decir que los datos consta de direcciones de correo electrónico en el formulario de 'name.surname@domain.country-code'. Si usted los utiliza como-en su modelo, cada persona estaría caracterizado por una única dirección de e-mail, así que esto no nos dicen mucho. Nos diría que sólo una dirección de e-mail posiblemente pertenece a otra persona y luego otra. Con la característica de ingeniería, a partir de las direcciones que podría extraer información acerca de las posibles género (nombre), antecedentes familiares y el origen étnico (apellido), nacionalidad (dominio) y muchos más - se le da bastante información, ¿no?

1voto

Loren Pechtel Puntos 2212

¿Qué está tratando de lograr con su "función" total? Si usted es simplemente la comparación de los héroes, de ataque y de defensa podría ser más útil. Si usted quiere encontrar el tipo de construcción (cómo ofensiva orientada a la defensiva frente a cómo orientado a) para ser útil, quizás ataque / defensa sería más útil. O tal vez MyAttack - YourDefense es más útil.

Realmente depende de su objetivo y se reduce a que la inyección de conocimiento adicional en el problema para que pueda obtener las mejores respuestas. Usted puede haber oído hablar de la gente que tira alrededor de registro y cuadrado y relación y todo tipo de maneras que usted podría hacer las funciones, pero la línea de fondo es que "útil" depende de la tarea que implica transformar los datos en un dominio donde las decisiones son más simples.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X