Aunque su pregunta parece basarse en el uso de un algoritmo de árbol de regresión potenciada (XGBRegressor, con el que no tengo experiencia), sus problemas parecen ser algunos que también se enfrentan en la regresión lineal estándar, en la que baso gran parte de mi respuesta. La forma de proceder depende de lo que intente conseguir. Para empezar, es necesario aclarar algunas cuestiones.
En primer lugar, un modelo de regresión suele considerarse lineal si es lineal en los parámetros . En esta terminología, las transformaciones no lineales de las variables predictoras o de las variables resultado/objetivo no hacen por sí mismas que un modelo sea no lineal. Como es evidente que está utilizando árboles de regresión potenciados en lugar de una regresión lineal clásica, no está claro que la distinción lineal/no lineal sea realmente aplicable.
En segundo lugar, no es necesario que la variable objetivo tenga una distribución simétrica en la regresión lineal estándar, aunque esto puede ayudar con los árboles de regresión. Como indica su enfoque adecuado en los gráficos de residuos, la distribución de los residuos es importante.
En tercer lugar, el RMSE de todo el conjunto de datos (que es lo que parece estar mostrando) podría no ser la mejor medida de la calidad de su modelo. Sobre todo si pretende utilizar el modelo para predicciones sobre nuevos casos, la validación cruzada o el bootstrapping podrían proporcionar estimaciones mucho mejores de ese rendimiento futuro.
Ahora a sus preguntas:
-
Las regresiones para los precios lineales y log-transformados intentan cosas diferentes: la primera intenta minimizar el error en términos absolutos (por ejemplo, dólares), la segunda intenta minimizar el error en términos relativos/fraccionales (por ejemplo, error porcentual en el precio predicho). ¿Qué tipo de error le interesa para su aplicación? Si le importan más los errores fraccionarios, debería utilizar la transformación logarítmica y no debería preocuparse de que el error en términos absolutos parezca mayor cuando realice la retrotransformación a partir de la escala logarítmica. Sin embargo, siempre debe prestar atención a los residuos en cualquier escala que elija.
-
La asimetría en la variable objetivo es un problema en la regresión lineal estándar siempre que algunas variables predictoras también estén adecuadamente asimétricas para que los residuos no estén asimétricos. A menudo es necesario transformar tanto las variables predictoras como las variables objetivo para cumplir los supuestos de una regresión lineal y producir residuos que se comporten correctamente. Con los enfoques de regresión basados en árboles que utilizan valores medios de las variables objetivo para elegir los límites de los árboles, se puede recomendar eliminar la asimetría de la variable objetivo; los autores de ISLR hacen una transformación logarítmica con este fin en su ejemplo de árbol de regresión (pp. 304 y siguientes). La transformación logarítmica significa que los residuos estarán en términos fraccionarios en lugar de absolutos, lo que parece tener sentido para este tipo de datos.
-
Siempre hay que prestar atención a las parcelas residuales.
-
Comparar el RMSE de la regresión para precios no transformados con el RMSE exponenciado de la regresión para precios transformados logarítmicamente no siempre es muy útil. En su análisis log-transformado, el caso con el mayor error absoluto en la escala log (fraccional) es también el más bajo en precio absoluto predicho. Ese caso contribuirá en gran medida al error RMSE en la escala log-transformada (al igual que otros casos de precios bajos), pero quizá contribuya muy poco al RMSE en términos absolutos en la regresión para precios no transformados. Eso podría explicar su observación.
En cuanto a cómo proceder, parece que la transformación logarítmica de los precios es útil, pero que su modelo no trata demasiado bien algunos de los precios más extremadamente bajos. Es posible que tenga que incorporar sus conocimientos sobre el tema subyacente, por ejemplo, si hay algo especial en esos casos (aparte de que no se ajustan bien) que hace que no sea apropiado incluirlos en el modelo (por ejemplo, puede que tenga que excluir todos los alquileres que se cobran entre los miembros de una familia, que podrían ser inferiores a los alquileres de mercado, o los alquileres en unidades subvencionadas, si las hay), o si las transformaciones de algunas variables predictoras podrían mejorar el rendimiento. La elección de distintos parámetros de ajuste para el refuerzo podría ayudar. Y de nuevo, debería considerar una medida de la calidad del modelo distinta del RMSE en todo el conjunto de datos.
Por último, el enfoque clásico de regresión lineal puede superar a los enfoques basados en árboles en muchas situaciones. Podría probar una regresión lineal estándar con una selección basada en el conocimiento y transformaciones adecuadas de los predictores y los valores de las variables objetivo, con validación cruzada o bootstrapping para validar su enfoque de modelado.
0 votos
¿Los datos residuales y ajustados frente a los previstos proceden de datos fuera de la muestra o de los mismos datos en los que se ha ajustado el modelo?
0 votos
Que re del conjunto de pruebas