18 votos

variables ficticias de centrado y escalado

Tengo un conjunto de datos que contiene variables categóricas y variables continuas. Me aconsejaron transformar las variables categóricas en variables binarias para cada nivel (es decir, A_level1:{0,1}, A_level2:{0,1}) - creo que algunos lo han llamado "variables ficticias".

Dicho esto, ¿sería engañoso centrar y escalar todo el conjunto de datos con las nuevas variables? Parece como si perdiera el significado "on/off" de las variables.

Si es engañoso, ¿significa eso que debo centrar y escalar las variables continuas por separado y luego volver a añadirlas a mi conjunto de datos?

TIA.

17voto

SkyBeam Puntos 541

Cuando se construyen variables ficticias para utilizarlas en análisis de regresión, cada categoría de una variable categórica excepto una debe obtener una variable binaria. Por tanto, debe tener, por ejemplo, A_nivel2, A_nivel3, etc. Una de las categorías no debe tener una variable binaria, y esta categoría servirá como categoría de referencia. Si no omite una de las categorías, sus análisis de regresión no funcionarán correctamente.

Si utiliza SPSS o R, no creo que el escalado y centrado de todo el conjunto de datos sea generalmente un problema, ya que esos paquetes de software suelen interpretar las variables con sólo dos niveles como factores, pero puede depender de los métodos estadísticos específicos utilizados. En cualquier caso, no tiene sentido escalar y centrar variables binarias (o categóricas), por lo que sólo debería centrar y escalar variables continuas si debe hacerlo.

5voto

stracktracer Puntos 70

Si está utilizando R y escalando las variables ficticias o variables que tienen 0 o 1 a una escala entre 0 y 1 solamente, entonces no habrá ningún cambio en los valores de estas variables, el resto de las columnas serán escaladas.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

3voto

vivek xalxo Puntos 1

El objetivo de centrar la media en la regresión es hacer que el intercepto sea más interpretable. Es decir, si centra la media de todas las variables en su modelo de regresión, entonces el intercepto (llamado Constante en la salida de SPSS) es igual a la media general de su variable de resultado. Lo que puede ser conveniente a la hora de interpretar el modelo final.

En cuanto al centrado medio de las variables ficticias, acabo de tener una conversación con un profesor sobre el centrado medio de las variables ficticias en un modelo de regresión (en mi caso, un modelo multinivel de diseño de bloques aleatorizados con 3 niveles) y mi conclusión fue que el centrado medio de las variables ficticias en realidad no cambia la interpretación de los coeficientes de regresión (excepto que la solución está completamente estandarizada). Por lo general, en la regresión no es necesario interpretar el valor centrado en la media a nivel unitario, sólo los coeficientes. Y esto esencialmente no cambia - en su mayor parte. Dice que cambia ligeramente porque está estandarizado, lo cual, para los tontos, no es tan intuitivo de entender.

Advertencia: eso era lo que yo entendía cuando salí del despacho de mi profesor. Por supuesto, podría haberme equivocado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X