Esta pregunta es más bien teórica. No estoy seguro de si este es el lugar adecuado, pero todavía darle una oportunidad.
Tengo dos variables — costos directos y costos indirectos. Cuando las ventas de las personas que van de un argumento de venta para un cliente que saber sobre el costo directo que se va a incurrir para este servicio, pero no saben mucho acerca de los costos indirectos (que se llega a saber acerca de él en las últimas etapas). Una estimación de los costos indirectos en esta etapa será de gran valor para las ventas de las personas.
Estoy tratando de predecir los costos indirectos, como una función de costo directo. Estoy haciendo esto a través de una regresión lineal simple. He trazado gráfico de dispersión entre el costo directo y el costo indirecto y ver una buena relación lineal entre ellos. También veo que el costo directo y el costo indirecto son altamente corelated el uno al otro con el coeficiente de correlación de 0.98 como, así que me espera una muy buena precisión de la predicción. Pero, sorprendentemente, mi exactitud de la predicción no es tan bueno. Tengo alrededor de 200.000 puntos en mis datos de entrenamiento y el promedio del error de predicción en los datos de entrenamiento es de 17 %. Aunque ajustado R-Cuadrado valor es de 0,97. Estoy usando lm()
función de R.
Mi pregunta es que en el caso de regresión lineal simple, en general, deberíamos esperar una mejor precisión de la predicción de si el dependiente y las variables independientes están altamente correlacionados o es mi idea errónea? Si esperamos una buena precisión, que me estoy perdiendo algo aquí. Por favor, tenga en cuenta que también he tratado de centrar estas variables en torno a la media.