6 votos

La transformación de los datos

Si quiero hacer un modelo de regresión donde las ventas en miles de millones son de la variable dependiente y mis variables independientes consisten en valores muy bajos, por ejemplo en los días de lluvia (el número más alto es de 15 años). Mi pregunta es, ¿hay algún problema si hago una regresión con datos originales, o debo hacer algún tipo de transformación, y por lo tanto hacer que mis variables comparables? Y que la transformación sugeriría usted? Es sensato utilizar transformación logarítmica de los datos aquí?

Traté de encontrar un debate similar, pero tuvo problemas para hacerlo.

6voto

mdewey Puntos 579

No hay ninguna razón particular para querer transformar sus datos tan lejos como la adecuación del modelo de que se trate. Sin embargo, es posible que desee volver a la escala de sus resultados para hacer los coeficientes se encuentran en una más manejable gama. Por ejemplo, en lugar de tener ventas como el raw cuenta que usted puede expresar como tantos millones o miles. Esto tendría el efecto de dividir el coeficiente para los días de lluvia por 1000 o 1000000 de lo que podría hacer que se parezca más sensato. Esto se hace a menudo para las variables predictoras pero en tu caso por tu descripción es el resultado que necesita atención.

Su modelo de adecuación no cambió, sin embargo, que es lo importante.

Como se ha señalado por los comentaristas estoy suponiendo que las ventas son miles de millones de cierta unidad de la moneda que si es que las ventas de los diferentes productos que se venden a precios diferentes, bien puede cumplir con la costumbre supuestos de la regresión lineal. Sin embargo, si es de miles de millones de paraguas y, por tanto, un recuento, a continuación, un modelo diferente como la de Poisson puede ser apropiado.

6voto

Owen Fraser-Green Puntos 642

Las transformaciones son como las drogas ... Algunas son buenas para usted y algunos no lo son.

La transformación de los datos mediante la escala es casi siempre una buena idea . La transformación de datos de series de tiempo como la toma de las diferencias puede ser una mala idea como una injustificada diferencia puede introducir la estructura de los datos. La transformación de los datos mediante la sustitución de valores anómalos por limpiados valores que permitan obtener una imagen más clara robusto a las anomalías también es una buena idea siempre y cuando te motiva a averiguar por qué los datos anómalos Y habilitar límites de confianza que incluyen la posibilidad de anomalías de los valores . Ver a @Aksakal muy sabias palabras en este Cómo ajustar un modelo para una serie de tiempo que contiene los valores atípicos

El poder se Transforma, como troncos o cualquier otro supone la transformación puede ser una mala idea . A ver Cuando (y por qué) debe usted tomar el registro de una distribución (de números)? para una discusión de cuándo y por qué debe transformar. Una advertencia de que hay ciertos modelo de objetivos, es decir, los modelos específicos que se requieren transformaciones pero por lo general son de propósito especial y raro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X