¿En qué circunstancias le gustaría, o no, escalar o estandarizar una variable antes del ajuste del modelo? ¿Y cuáles son las ventajas / desventajas de escalar una variable?
Respuestas
¿Demasiados anuncios?La normalización tiene que ver con las ponderaciones de las distintas variables para el modelo. Si se hace la normalización "sólo" por el bien de la estabilidad numérica, puede haber transformaciones que produzcan propiedades numéricas muy similares pero un significado físico diferente que podría ser mucho más apropiado para la interpretación. Lo mismo ocurre con el centrado, que suele formar parte de la normalización.
Situaciones en las que probablemente desee estandarizar:
- las variables son magnitudes físicas diferentes
- y los valores numéricos están en escalas de magnitud muy diferentes
- y no hay conocimiento "externo" de que las variables con una variación (numérica) elevada deban considerarse más importantes.
Situaciones en las que no conviene estandarizar:
- si las variables son la misma cantidad física y son (aproximadamente) de la misma magnitud, p. ej.
- concentraciones relativas de diferentes especies químicas
- absorbancias a diferentes longitudes de onda
- intensidad de emisión (en las mismas condiciones de medición) a diferentes longitudes de onda
- no es conveniente estandarizar las variables que no cambian entre las muestras (canales de línea de base), ya que sólo aumentaría el ruido de las mediciones (en su lugar, puede ser conveniente excluirlas del modelo)
- si tiene variables tan relacionadas físicamente, el ruido de la medición puede ser aproximadamente el mismo para todas las variables, pero la intensidad de la señal varía mucho más. Es decir, las variables con valores bajos tienen un ruido relativo más alto. La estandarización dispararía el ruido. En otras palabras, es posible que tenga que decidir si desea normalizar el ruido relativo o el absoluto.
- Puede haber valores físicamente significativos que puede utilizar para relacionar su valor medido con, por ejemplo, en lugar de la intensidad transmitida utilizar el porcentaje de la intensidad transmitida (transmitancia T).
Se puede hacer algo "intermedio", y transformar las variables o elegir la unidad de forma que las nuevas variables sigan teniendo significado físico pero la variación del valor numérico no sea tan diferente, por ejemplo.
- si trabaja con ratones, utilice el peso corporal en g y la longitud en cm (rango de variación esperado de aproximadamente 5 para ambos) en lugar de las unidades base kg y m (rango de variación esperado de 0,005 kg y 0,05 m - un orden de magnitud diferente).
- para la transmitancia T anterior, puede considerar utilizar la absorbancia $A = -log_{10} T$
Similar para centrar:
- Puede haber (física/química/biológicamente/...) valores de referencia significativos disponibles (por ejemplo, controles, persianas, etc.).
- ¿Es realmente significativa la media? (El ser humano medio tiene un ovario y un testículo)
En general, no recomiendo el escalado o la estandarización a menos que sea absolutamente necesario. La ventaja o el atractivo de tal proceso es que, cuando una variable explicativa tiene una dimensión física y una magnitud totalmente diferentes de la variable de respuesta, el escalado mediante la división por la desviación típica puede ayudar en términos de estabilidad numérica, y permite comparar efectos entre múltiples variables explicativas. Con la estandarización más común, el efecto variable es la cantidad de cambio en la variable de respuesta cuando la variable explicativa aumenta en una desviación estándar; también indica que el significado del efecto variable (la cantidad de cambio en la variable de respuesta cuando la variable explicativa aumenta en una unidad) se perdería aunque el valor estadístico para la variable explicativa permanece inalterado. Sin embargo, cuando se considera la interacción en un modelo, el escalado podría ser muy problemático incluso para las pruebas estadísticas debido a una complicación que implica un ajuste estocástico del escalado al calcular el error estándar del efecto de interacción (Preacher, 2003). Por esta razón, generalmente no se recomienda el escalado por desviación estándar (o estandarización/normalización), especialmente cuando hay interacciones implicadas.
Preacher, K.J., Curran, P.J., y Bauer, D. J., 2006. Computational tools for probing interaction effects in multiple linear regression, multilevel modeling, and latent curve analysis. Journal of Educational and Behavioral Statistics, 31(4), 437-448.
0 votos
Una pregunta muy parecida: stats.stackexchange.com/q/7112/3748 ¿hay algo más que estés buscando?
1 votos
Sí, me gustaría saberlo para los modelos en general y no sólo para el modelo lineal.
1 votos
Hay muchos modelos posibles y usos posibles de los modelos. Si puedes concretar más tus preguntas y reducir el solapamiento con otras, mejor.
1 votos
Además del enlace anterior, esta pregunta: cuándo-debe-centrar-sus-datos-cuándo-debe-estandarizar será de interés.