Por qué no importaría reescalar/normalizar:
A nivel matemático, el cambio de escala de los datos no afectan a una regresión en el sentido de que los coeficientes estimados también se reescalan.
En una muestra de seres humanos, si se hace una regresión de la altura en pies sobre:
- Longitud del brazo en pies
- Longitud del brazo en pulgadas
Tanto (1) como (2) serían iguales en el sentido de que el coeficiente estimado en el caso (1) sería 12 veces el coeficiente estimado en el caso (2).
Más ampliamente, también se puede aplicar una transformación afín a una variable si se incluye una constante en una regresión. Imagina dos regresiones:
$$ y_i = a_1 + b_1 f_i + \epsilon_i \quad \quad f = \text{temp in Fahrenheit} $$
$$ y_i = a_2 + b_2 c_i + \epsilon_i \quad \quad c = \text{temp in Celsius} $$
Tendríamos los coeficientes vinculados por el factor de conversión ( $f = \frac{9}{5}c + 32$ ) entre Celsius y Fahrenheit: $b_2 = \frac{9}{5} b_1 $ y $a_2 = a_1 + 32 b_1$ .
A nivel matemático, la normalización no importa realmente. Pero hay razones para reescalar/normalizar.
Algunas razones para reescalar, estandarizar, normalizar, etc.
- Una interpretación más fácil.
A menudo puede ser más fácil interpretar si una variable es grande o pequeña en relación con su desviación estándar. Estandarizar una variable (es decir, restar la media y dividirla por la desviación estándar) puede tener coeficientes más interpretables. Por ejemplo, puede ser más fácil interpretar un aumento de una desviación estándar en la presión arterial que un aumento de 10 mmHg.
- Propiedades numéricas
Incluyendo muy grande y muy pequeño números en una regresión puede dar lugar a problemas de cálculo. En términos técnicos, se puede tener una matriz de diseño con un número de condición muy alto que lleve a cálculos imprecisos al multiplicar matrices y resolver sistemas lineales. En pocas palabras, la mierda puede ser un problema.
Por ejemplo, si estás haciendo una regresión de finanzas corporativas en grandes empresas, tal vez quieras medir los ingresos en unidades de millones de dólares estadounidenses.