¿Por qué predictores categóricos en regresión deben ser recodificados como varios predictores?

Question

¿Por qué predictores categóricos en regresión deben ser recodificados como varios predictores?

Preguntado el 5 de Mayo, 2013: Cuando se hizo la pregunta
910 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy aprendiendo acerca de la máquina de aprendizaje usando Python biblioteca del scikit aprender, y en su tutorial aquí se habla de una variable categórica color que pueden tener valores purple, blue y red.

¿Cuál es la razón detrás de usar 3 variables booleanas color#purple, color#blue y color#red , en lugar de tener la única variable color , pero la asignación de los valores de purple, blue, red a 1, 2, 3?

Va a hacer de cualquier manera tienen efecto alguno sobre la regresión de ajuste/predicción?

Preguntado el 5 de Mayo, 2013 por wmartin

Answer 1

2 Respuestas

Answer 2

5voto

Silvercode Puntos 438

Para la elaboración de las respuestas de nuestros colegas de arriba: decir que el mapa de color púrpura, azul, rojo a $x = 1, 2, 3$ . Decir $x$ representa el color de un sombrero, y $y$ de las ventas. Entonces, si tenemos un modelo con una intercepción, llame a $a$ y el coeficiente de $x$ , se $b$ , entonces estaríamos diciendo:

$y = a + b x$

Solo podemos elegir una $b$ aquí, que tiene que atender a todos los diferentes colores. Imagina más azul que los sombreros vendidos de púrpura sombreros, y más azul se venden de color rojo, a continuación, nuestro modelo se adapte a las de color azul-púrpura relación ( $1b<2b$ ), pero no el azul-rojo de la relación $2b<3b$ !

Si utilizamos variables ficticias podríamos tener un modelo como:

$y = a + b_{\mathrm{red}}x_{\mathrm{red}} + b_{\mathrm{purp}} x_{\mathrm{purp}}$

Y este no se ejecuta en el mismo orden de problemas como el primer modelo. Nota sólo necesitamos dos variables ficticias si hay una intercepción, ya que esto se convierte en la base para el azul.

Respondido el 5 de Mayo, 2013 por Silvercode (438 Puntos )

Answer 3

2voto

jdotjdot Puntos 129

Depende de lo que los datos son representados por colores.

Usted puede utilizar el color como una sola variable con los colores expresan en números en regresión, si los colores representan una escala de algunos datos. Por ejemplo, púrpura significa que la velocidad del viento de 10 m/s, azul significa 20 m/s, y el color rojo significa que la velocidad del viento de 30 m/s. Así que podemos decir algo (el viento en el ejemplo) es dos veces mayor si el color es azul en comparación con si el color es el morado, y así sucesivamente.

La práctica habitual es el código de cada color como un maniquí (boolean) variables para una regresión si la comparación cuantitativa de los colores no es posible.

Respondido el 5 de Mayo, 2013 por jdotjdot (129 Puntos )

¿Por qué predictores categóricos en regresión deben ser recodificados como varios predictores?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué predictores categóricos en regresión deben ser recodificados como varios predictores?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: