En realidad hago esto bastante a menudo, en general porque los datos pueden funcionar para la regresión, pero el escenario no es necesariamente un problema de regresión aunque podría serlo. He aquí un escenario común:
Imaginemos que eres un científico de datos en una empresa y te dicen que quieren prever las ventas mensuales. Te entregan un montón de datos que incluyen ventas históricas, quizás otros datos continuos y un gran número de datos categóricos sobre los productos, los consumidores, los enfoques de marketing, etc. Usted ve inmediatamente estos datos y piensa que la regresión es probablemente una buena opción.
Se profundiza en los datos para ver si la regresión es un buen ajuste, tal vez haciendo un EDA, y se descubre que hay cientos de datos categóricos con cientos de niveles cada uno. Entonces vuelves y preguntas al equipo de ventas si todos los datos categóricos son útiles para ellos. Dicen que sí, pero luego aclaran que en realidad sólo les importa si están ganando 10 veces por encima del gasto (que también es uno de los datos que tienes). De repente, tiene la opción de retroceder en las ventas mensuales e informar sobre 10x o no, o agrupar las ventas en niveles de <10x o >= 10x. Ahora tiene una regresión logística como opción.
A continuación, realiza un primer intento con todas las categorías y descubre que los datos son demasiado extensos (demasiados campos y niveles) para poder ejecutar la regresión rápidamente. El equipo de ventas necesita el modelo para el final de la semana. Vuelves y les propones que te den más tiempo, pero te dicen que no. También les comentas tu opción de la regresión logística, pero te dicen que quizá quieran saber 0,5x, 2x y luego 10x y más para que sea realmente útil. Sigues teniendo la regresión sobre la mesa, pero ahora tienes una clara posibilidad de clasificación.
En este punto, puede hacer un hash de las categorías rápidamente, reduciendo en gran medida el número de características y el tamaño del problema. Puede clasificar los números de ventas en 0,5x, 2x y >=10x. Puede ejecutar rápidamente un clasificador basado en árboles como Bosque aleatorio , XGBoost o LuzGBM clasificador en su máquina local, saque la importancia de las características, mire algunos árboles, etc. y obtenga información sobre qué características importan sin tener que averiguar cómo debería funcionar toda la codificación para una regresión.
Puede que en este punto la calidad de la predicción sea pobre, pero, no obstante, ha entregado un modelo predictivo a tiempo, ha obtenido información sobre las características potencialmente útiles mediante la clasificación y ha abierto algunas opciones más para proceder a un modelo mejor.
Dicho esto, si tienes varios tipos de datos que requieren diferentes funciones de pérdida y regularizaciones, GLRM ayuda a formular todo eso bastante bien.