6 votos

¿Por qué predictores categóricos en regresión deben ser recodificados como varios predictores?

Estoy aprendiendo acerca de la máquina de aprendizaje usando Python biblioteca del scikit aprender, y en su tutorial aquí se habla de una variable categórica color que pueden tener valores purple, blue y red.

¿Cuál es la razón detrás de usar 3 variables booleanas color#purple, color#blue y color#red , en lugar de tener la única variable color , pero la asignación de los valores de purple, blue, red a 1, 2, 3?

Va a hacer de cualquier manera tienen efecto alguno sobre la regresión de ajuste/predicción?

5voto

Silvercode Puntos 438

Para la elaboración de las respuestas de nuestros colegas de arriba: decir que el mapa de color púrpura, azul, rojo a $x = 1, 2, 3$. Decir $x$ representa el color de un sombrero, y $y$ de las ventas. Entonces, si tenemos un modelo con una intercepción, llame a $a$ y el coeficiente de $x$, se $b$, entonces estaríamos diciendo:

$y = a + b x$

Solo podemos elegir una $b$ aquí, que tiene que atender a todos los diferentes colores. Imagina más azul que los sombreros vendidos de púrpura sombreros, y más azul se venden de color rojo, a continuación, nuestro modelo se adapte a las de color azul-púrpura relación ($1b<2b$), pero no el azul-rojo de la relación $2b<3b$ !

Si utilizamos variables ficticias podríamos tener un modelo como:

$y = a + b_{\mathrm{red}}x_{\mathrm{red}} + b_{\mathrm{purp}} x_{\mathrm{purp}}$

Y este no se ejecuta en el mismo orden de problemas como el primer modelo. Nota sólo necesitamos dos variables ficticias si hay una intercepción, ya que esto se convierte en la base para el azul.

2voto

jdotjdot Puntos 129

Depende de lo que los datos son representados por colores.

Usted puede utilizar el color como una sola variable con los colores expresan en números en regresión, si los colores representan una escala de algunos datos. Por ejemplo, púrpura significa que la velocidad del viento de 10 m/s, azul significa 20 m/s, y el color rojo significa que la velocidad del viento de 30 m/s. Así que podemos decir algo (el viento en el ejemplo) es dos veces mayor si el color es azul en comparación con si el color es el morado, y así sucesivamente.

La práctica habitual es el código de cada color como un maniquí (boolean) variables para una regresión si la comparación cuantitativa de los colores no es posible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X