59 votos

¿Hay que normalizar alguna vez las variables binarias?

Tengo un conjunto de datos con un conjunto de características. Algunas de ellas son binarias $(1=$ activo o despedido, $0=$ inactivo o inactivo), y el resto son de valor real, por ejemplo $4564.342$ .

Quiero alimentar estos datos a un algoritmo de aprendizaje automático, así que $z$ -puntuación de todas las características de valor real. Las obtengo entre los rangos $3$ y $-2$ aproximadamente. Ahora los valores binarios también son $z$ -scored, por lo que los ceros se convierten en $-0.222$ y los que se convierten en $0.5555$ .

¿Tiene sentido normalizar así las variables binarias?

28voto

Nick Cox Puntos 22819

Una variable binaria con valores 0, 1 puede (normalmente) ser escalada a (valor - media) / SD, que es presumiblemente su puntuación z.

La restricción más obvia es que si se obtienen todos los ceros o todos los unos, la introducción a ciegas de la SD significaría que la puntuación z no está definida. Hay un caso para asignar cero también en la medida en que el valor - la media es idéntico a cero. Pero muchas cosas estadísticas no tendrán mucho sentido si una variable es realmente una constante. Sin embargo, de forma más general, si la DE es pequeña, hay más riesgo de que las puntuaciones sean inestables y/o no estén bien determinadas.

Un problema a la hora de dar una mejor respuesta a tu pregunta es precisamente qué "algoritmo de aprendizaje automático" estás considerando. Parece que se trata de un algoritmo que combina datos de varias variables, por lo que normalmente tendrá sentido suministrarlos en escalas similares.

(LATER) A medida que el cartel original va añadiendo comentarios uno a uno, su pregunta se va transformando. Sigo considerando que (valor - media) / DE tiene sentido (es decir, no es un disparate) para las variables binarias siempre que la DE sea positiva. Sin embargo, la regresión logística fue nombrada más tarde como la aplicación y para esto no hay ninguna ganancia teórica o práctica (y de hecho una cierta pérdida de simplicidad) a otra cosa que la alimentación en variables binarias como 0, 1. Su software debe ser capaz de hacer frente a eso; si no, abandonar ese software en favor de un programa que puede. En cuanto a la pregunta del título: puede, sí; debería, no.

22voto

Sean Hanley Puntos 2428

Estandarizar las variables binarias no tiene ningún sentido. Los valores son arbitrarios; no significan nada en sí mismos. Puede haber una razón para elegir algunos valores como 0 y 1, con respecto a cuestiones de estabilidad numérica, pero eso es todo.

9voto

paulos Puntos 1397

Un buen ejemplo en el que puede ser útil estandarizar de una manera ligeramente diferente se da en la sección 4.2 de Gelman y Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Esto ocurre sobre todo cuando interesa la interpretación de los coeficientes, y quizás cuando no hay muchos predictores.

Allí, estandarizan una variable binaria (con igual proporción de 0 y 1) mediante $$ \frac{x-\mu_x}{2\sigma_x}, $$ en lugar de la normal $\sigma$ . Entonces estos coeficientes estandarizados toman valores $\pm 0.5 $ y luego los coeficientes reflejan las comparaciones entre $x=0$ y $x=1$ directamente. Si se escala por $\sigma$ entonces el coeficiente correspondería a la mitad de la diferencia entre los posibles valores de $x$ .

1voto

Bastian Ebeling Puntos 398

¿Qué quieres estandarizar, una variable aleatoria binaria o una proporción?

No tiene sentido estandarizar una variable aleatoria binaria. Una variable aleatoria es una función que asigna un valor real a un evento $Y:S\rightarrow \mathbb{R} $ . En este caso 0 para el fracaso y 1 para el éxito, es decir $Y\in \lbrace 0,1\rbrace$ .

En el caso de una proporción, no se trata de una variable aleatoria binaria, sino de una variable continua $X\in[0,1]$ , $x\in \mathbb{R}^+$ .

1voto

good Puntos 926

En la regresión logística se pueden estandarizar las variables binarias para combinarlas con las continuas cuando se quiere dar a todas ellas una prioridad no informativa como N~(0,5) o Cauchy~(0,5). Se aconseja que la normalización sea la siguiente: Tomar el recuento total y dar

1 = proporción de 1's

0 = 1 - proporción de 1's.

-----

Edit: En realidad no estaba en lo cierto, no se trata de una estandarización sino de un desplazamiento para estar centrado en 0 y diferir en 1 en la condición inferior y superior, digamos que una población está en un 30% con la empresa A y en un 70% con otra, podemos definir la variable "Empresa A" centrada para que tome los valores -0,3 y 0,7.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X