Tengo un conjunto de datos que se tiene un gran sesgo positivo, y se ha transformado el uso de un logaritmo. Deseo para predecir una variable a partir de otra mediante la lm
función en R. Dado que ambas variables se han transformado, soy consciente de que mi regresión de salida será de la ecuación:
ln(y) = b*ln(x) + a
, donde a
y b
son los coeficientes.
El ajuste del modelo es bueno, con un R cuadrado de casi 0.6, produciendo una amplia gama de valores y pronosticados.
Ahora, he de regreso transformado las variables mediante la siguiente ecuación:
y_predicted = exp(a)*x^b
Sin embargo, los valores de predicción para el mayor de x e y son significativamente más bajos de lo que deberían ser. Ya que voy a estar utilizando la media y la suma de todos los y_predicted valores en comparación con el y_actual valores, esto hace que mi modelo de bajo predecir en torno a un 75%.
Debido a la escala logarítmica, una pequeña desviación de la línea de mejor ajuste en el registro de dominio, se ha traducido en una gran desviación cuando está transformado.
Mi pregunta, es cómo tratar adecuadamente con esto? Puedo venir con mi propio coeficientes de regresión, lo que garantiza que la línea de mejor ajuste sobre-predice algunos de estos valores grandes, y hace que la suma más alineados. Sin embargo, esto sería ir en contra de la moción de la utilización de un modelo lineal, en primer lugar, que optimiza el modelo.
También, no estoy seguro de cómo " estadísticamente válido este sería, como el método no puede ser replicado, como los coeficientes fueron determinados por los ojos.
Pensamientos de bienvenida!