2 votos

Normalización o no de los datos

Tengo un conjunto de datos con varias variables y algunas de ellas tienen un amplio rango. Quiero predecir las ventas a partir de los datos históricos. Ventas de 0 a 6000000, tiempo de época como 1419656400 en segundos pero también tengo temperaturas de 0-100 grados. Creo que si quiero comparar diferentes efectos estadísticos de diferentes características, la normalización de los datos podría tener una comparación justa. ¿Qué otra ventaja o desventaja tiene la normalización de los datos? ¿Debo utilizar el mismo método de normalización para todas las variables?

Gracias.

1voto

Martin Robins Puntos 1893

Por qué no importaría reescalar/normalizar:

A nivel matemático, el cambio de escala de los datos no afectan a una regresión en el sentido de que los coeficientes estimados también se reescalan.

En una muestra de seres humanos, si se hace una regresión de la altura en pies sobre:

  1. Longitud del brazo en pies
  2. Longitud del brazo en pulgadas

Tanto (1) como (2) serían iguales en el sentido de que el coeficiente estimado en el caso (1) sería 12 veces el coeficiente estimado en el caso (2).

Más ampliamente, también se puede aplicar una transformación afín a una variable si se incluye una constante en una regresión. Imagina dos regresiones:

$$ y_i = a_1 + b_1 f_i + \epsilon_i \quad \quad f = \text{temp in Fahrenheit} $$

$$ y_i = a_2 + b_2 c_i + \epsilon_i \quad \quad c = \text{temp in Celsius} $$

Tendríamos los coeficientes vinculados por el factor de conversión ( $f = \frac{9}{5}c + 32$ ) entre Celsius y Fahrenheit: $b_2 = \frac{9}{5} b_1 $ y $a_2 = a_1 + 32 b_1$ .

A nivel matemático, la normalización no importa realmente. Pero hay razones para reescalar/normalizar.

Algunas razones para reescalar, estandarizar, normalizar, etc.

  1. Una interpretación más fácil.

A menudo puede ser más fácil interpretar si una variable es grande o pequeña en relación con su desviación estándar. Estandarizar una variable (es decir, restar la media y dividirla por la desviación estándar) puede tener coeficientes más interpretables. Por ejemplo, puede ser más fácil interpretar un aumento de una desviación estándar en la presión arterial que un aumento de 10 mmHg.

  1. Propiedades numéricas

Incluyendo muy grande y muy pequeño números en una regresión puede dar lugar a problemas de cálculo. En términos técnicos, se puede tener una matriz de diseño con un número de condición muy alto que lleve a cálculos imprecisos al multiplicar matrices y resolver sistemas lineales. En pocas palabras, la mierda puede ser un problema.

Por ejemplo, si estás haciendo una regresión de finanzas corporativas en grandes empresas, tal vez quieras medir los ingresos en unidades de millones de dólares estadounidenses.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X