Las variables a menudo se ajustan (por ejemplo, se estandarizan) antes de hacer un modelo: ¿cuándo es una buena idea y cuándo es mala?

Question

Las variables a menudo se ajustan (por ejemplo, se estandarizan) antes de hacer un modelo: ¿cuándo es una buena idea y cuándo es mala?

Preguntado el 1 de Diciembre, 2011: Cuando se hizo la pregunta
30449 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

¿En qué circunstancias le gustaría, o no, escalar o estandarizar una variable antes del ajuste del modelo? ¿Y cuáles son las ventajas / desventajas de escalar una variable?

Preguntado el 1 de Diciembre, 2011 por MHG

0 votos

Una pregunta muy parecida: stats.stackexchange.com/q/7112/3748 ¿hay algo más que estés buscando?

Comentado el 1 de Diciembre, 2011 por georg

1 votos

Sí, me gustaría saberlo para los modelos en general y no sólo para el modelo lineal.

Comentado el 2 de Diciembre, 2011 por MHG

1 votos

Hay muchos modelos posibles y usos posibles de los modelos. Si puedes concretar más tus preguntas y reducir el solapamiento con otras, mejor.

Comentado el 2 de Diciembre, 2011 por georg

Mostrar 1 comentarios más

Answer 1

3 Respuestas

Answer 2

51voto

cbeleites Puntos 12461

La normalización tiene que ver con las ponderaciones de las distintas variables para el modelo. Si se hace la normalización "sólo" por el bien de la estabilidad numérica, puede haber transformaciones que produzcan propiedades numéricas muy similares pero un significado físico diferente que podría ser mucho más apropiado para la interpretación. Lo mismo ocurre con el centrado, que suele formar parte de la normalización.

Situaciones en las que probablemente desee estandarizar:

las variables son magnitudes físicas diferentes
y los valores numéricos están en escalas de magnitud muy diferentes
y no hay conocimiento "externo" de que las variables con una variación (numérica) elevada deban considerarse más importantes.

Situaciones en las que no conviene estandarizar:

si las variables son la misma cantidad física y son (aproximadamente) de la misma magnitud, p. ej.
- concentraciones relativas de diferentes especies químicas
- absorbancias a diferentes longitudes de onda
- intensidad de emisión (en las mismas condiciones de medición) a diferentes longitudes de onda
no es conveniente estandarizar las variables que no cambian entre las muestras (canales de línea de base), ya que sólo aumentaría el ruido de las mediciones (en su lugar, puede ser conveniente excluirlas del modelo)
si tiene variables tan relacionadas físicamente, el ruido de la medición puede ser aproximadamente el mismo para todas las variables, pero la intensidad de la señal varía mucho más. Es decir, las variables con valores bajos tienen un ruido relativo más alto. La estandarización dispararía el ruido. En otras palabras, es posible que tenga que decidir si desea normalizar el ruido relativo o el absoluto.
Puede haber valores físicamente significativos que puede utilizar para relacionar su valor medido con, por ejemplo, en lugar de la intensidad transmitida utilizar el porcentaje de la intensidad transmitida (transmitancia T).

Se puede hacer algo "intermedio", y transformar las variables o elegir la unidad de forma que las nuevas variables sigan teniendo significado físico pero la variación del valor numérico no sea tan diferente, por ejemplo.

si trabaja con ratones, utilice el peso corporal en g y la longitud en cm (rango de variación esperado de aproximadamente 5 para ambos) en lugar de las unidades base kg y m (rango de variación esperado de 0,005 kg y 0,05 m - un orden de magnitud diferente).
para la transmitancia T anterior, puede considerar utilizar la absorbancia $A = -log_{10} T$

Similar para centrar:

Puede haber (física/química/biológicamente/...) valores de referencia significativos disponibles (por ejemplo, controles, persianas, etc.).
¿Es realmente significativa la media? (El ser humano medio tiene un ovario y un testículo)

Respondido el 2 de Diciembre, 2011 por cbeleites (12461 Puntos )

Answer 3

12voto

Peter Burns Puntos 17420

Una cosa que siempre me pregunto antes de estandarizar es: "¿Cómo interpretaré el resultado?". Si hay una forma de analizar los datos sin transformación, puede ser preferible desde el punto de vista de la interpretación.

Respondido el 1 de Diciembre, 2011 por Peter Burns (17420 Puntos )

Answer 4

11voto

Volomike Puntos 372

En general, no recomiendo el escalado o la estandarización a menos que sea absolutamente necesario. La ventaja o el atractivo de tal proceso es que, cuando una variable explicativa tiene una dimensión física y una magnitud totalmente diferentes de la variable de respuesta, el escalado mediante la división por la desviación típica puede ayudar en términos de estabilidad numérica, y permite comparar efectos entre múltiples variables explicativas. Con la estandarización más común, el efecto variable es la cantidad de cambio en la variable de respuesta cuando la variable explicativa aumenta en una desviación estándar; también indica que el significado del efecto variable (la cantidad de cambio en la variable de respuesta cuando la variable explicativa aumenta en una unidad) se perdería aunque el valor estadístico para la variable explicativa permanece inalterado. Sin embargo, cuando se considera la interacción en un modelo, el escalado podría ser muy problemático incluso para las pruebas estadísticas debido a una complicación que implica un ajuste estocástico del escalado al calcular el error estándar del efecto de interacción (Preacher, 2003). Por esta razón, generalmente no se recomienda el escalado por desviación estándar (o estandarización/normalización), especialmente cuando hay interacciones implicadas.

Preacher, K.J., Curran, P.J., y Bauer, D. J., 2006. Computational tools for probing interaction effects in multiple linear regression, multilevel modeling, and latent curve analysis. Journal of Educational and Behavioral Statistics, 31(4), 437-448.

Respondido el 1 de Diciembre, 2011 por Volomike (372 Puntos )

Las variables a menudo se ajustan (por ejemplo, se estandarizan) antes de hacer un modelo: ¿cuándo es una buena idea y cuándo es mala?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Las variables a menudo se ajustan (por ejemplo, se estandarizan) antes de hacer un modelo: ¿cuándo es una buena idea y cuándo es mala?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: