8 votos

Regresión lineal con registro de datos transformados - gran error

Tengo un conjunto de datos que se tiene un gran sesgo positivo, y se ha transformado el uso de un logaritmo. Deseo para predecir una variable a partir de otra mediante la lm función en R. Dado que ambas variables se han transformado, soy consciente de que mi regresión de salida será de la ecuación:

ln(y) = b*ln(x) + a, donde a y b son los coeficientes.

El ajuste del modelo es bueno, con un R cuadrado de casi 0.6, produciendo una amplia gama de valores y pronosticados.

Ahora, he de regreso transformado las variables mediante la siguiente ecuación:

y_predicted = exp(a)*x^b

Sin embargo, los valores de predicción para el mayor de x e y son significativamente más bajos de lo que deberían ser. Ya que voy a estar utilizando la media y la suma de todos los y_predicted valores en comparación con el y_actual valores, esto hace que mi modelo de bajo predecir en torno a un 75%.

Debido a la escala logarítmica, una pequeña desviación de la línea de mejor ajuste en el registro de dominio, se ha traducido en una gran desviación cuando está transformado.

Mi pregunta, es cómo tratar adecuadamente con esto? Puedo venir con mi propio coeficientes de regresión, lo que garantiza que la línea de mejor ajuste sobre-predice algunos de estos valores grandes, y hace que la suma más alineados. Sin embargo, esto sería ir en contra de la moción de la utilización de un modelo lineal, en primer lugar, que optimiza el modelo.

También, no estoy seguro de cómo " estadísticamente válido este sería, como el método no puede ser replicado, como los coeficientes fueron determinados por los ojos.

Pensamientos de bienvenida!

18voto

Roland Puntos 2023

Si tú dices que tu modelo es ln(y) = b*ln(x) + a es sólo una parte de su modelo. Su modelo incluye un término de error:

$\ln y_i = b\cdot \ln x_i + a + \varepsilon_i$

y se supone que la distribución de error es:$\varepsilon_i \sim \mathcal{N}(0,\,\sigma^2)$. Ahora vamos de nuevo-transform:

$y_i = \exp(a) \cdot x_i^b \cdot \exp(\varepsilon_i)$

Como se puede ver, tiene un multiplicativo término de error, es decir, una relación de error de la constante de variación. Como resultado, permite que más de la desviación de la linea ajustada en sus más altos valores ajustados, es decir, el lugar menos peso sobre ellos. En realidad, esto es a menudo justificada, pero, por supuesto, le da más residuos de los valores más altos como usted ha observado.

Si usted no está satisfecho con esto, usted no debe hacer la transformación seguido por OLS. Una alternativa sería un Modelo Lineal Generalizado, que modela el error de forma diferente, o incluso de regresión no lineal.

3voto

Zizzencs Puntos 1358

Roland ya dio una buena respuesta. Decir lo mismo de otra manera - se metió un poco de suciedad bajo la alfombra. Luego de la limpieza de la parte superior de la alfombra. La tierra está todavía allí!

Hay varios modelos que no dependen de la normalidad de los residuales. Una que creo que es muy poco utilizado es el cuantil de regresión. En R hay la quantreg paquete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X