22 votos

¿Hay alguna razón para resolver un problema de regresión como un problema de clasificación?

¿Habría alguna razón para plantear un problema de previsión por regresión como un problema de clasificación utilizando, por ejemplo, clases para describir si las ventas en un año son el 10%,50%,90% o >100% de los niveles actuales. Esas cosas podrían deducirse naturalmente de los resultados de una regresión, y sin embargo he visto a gente haciendo clasificaciones de ese tipo que en realidad parecen más problemas de regresión.

Soy novato en el foro y en ML en general así que espero haberlo hecho todo bien al plantear la pregunta :)

-1voto

KellyLynch Puntos 96

Se puede discretizar el problema de regresión, por ejemplo, en la clasificación de tener una enfermedad "sí" y "no", con lo que es posible leer las probabilidades de cada clase (sí/no) a partir de un modelo de clasificación ML. Es posible que tenga diez intensidades diferentes de esta enfermedad y que conozca los umbrales para ellas por experiencia, de modo que tenga etiquetas, quizás utilizando un sistema de puntos sobre muchas columnas de entrada o simplemente la experiencia a lo largo de los años. La ventaja de un modelo de clasificación es que cada clase de las diez clases tiene su propia probabilidad, mientras que en un modelo de regresión, no se ve la probabilidad, sino que sólo se obtiene la un valor previsto más probable.

-1voto

user164061 Puntos 281

Regresión bayesiana hace algo parecido a escala continua.

A cada valor del parámetro se le asigna una probabilidad que indica la probabilidad de que el parámetro tenga ese valor.

Por ejemplo, para cada valor de ventas (un continuo de clases) se asigna una probabilidad que predice lo probable que es ese valor de ventas/clase.

Comprobación de hipótesis también es muy parecido y de forma discreta. Se realiza una regresión, se ajustan unos parámetros y posteriormente se clasifica la observación como indicativa de si la hipótesis es cierta o no. La prueba de hipótesis de Neyman Pearson es muy explícita con esto y compara una hipótesis nula y una hipótesis alternativa y utiliza la razón de verosimilitud para decidir entre las dos hipótesis.

Por ejemplo, una hipótesis podría ser que el crecimiento de las ventas va a ser superior a un porcentaje hipotético. $x$ y la regresión lleva a rechazar o no ese porcentaje/clase.

-5voto

Ying Xiao Puntos 1019

En realidad hago esto bastante a menudo, en general porque los datos pueden funcionar para la regresión, pero el escenario no es necesariamente un problema de regresión aunque podría serlo. He aquí un escenario común:

Imaginemos que eres un científico de datos en una empresa y te dicen que quieren prever las ventas mensuales. Te entregan un montón de datos que incluyen ventas históricas, quizás otros datos continuos y un gran número de datos categóricos sobre los productos, los consumidores, los enfoques de marketing, etc. Usted ve inmediatamente estos datos y piensa que la regresión es probablemente una buena opción.

Se profundiza en los datos para ver si la regresión es un buen ajuste, tal vez haciendo un EDA, y se descubre que hay cientos de datos categóricos con cientos de niveles cada uno. Entonces vuelves y preguntas al equipo de ventas si todos los datos categóricos son útiles para ellos. Dicen que sí, pero luego aclaran que en realidad sólo les importa si están ganando 10 veces por encima del gasto (que también es uno de los datos que tienes). De repente, tiene la opción de retroceder en las ventas mensuales e informar sobre 10x o no, o agrupar las ventas en niveles de <10x o >= 10x. Ahora tiene una regresión logística como opción.

A continuación, realiza un primer intento con todas las categorías y descubre que los datos son demasiado extensos (demasiados campos y niveles) para poder ejecutar la regresión rápidamente. El equipo de ventas necesita el modelo para el final de la semana. Vuelves y les propones que te den más tiempo, pero te dicen que no. También les comentas tu opción de la regresión logística, pero te dicen que quizá quieran saber 0,5x, 2x y luego 10x y más para que sea realmente útil. Sigues teniendo la regresión sobre la mesa, pero ahora tienes una clara posibilidad de clasificación.

En este punto, puede hacer un hash de las categorías rápidamente, reduciendo en gran medida el número de características y el tamaño del problema. Puede clasificar los números de ventas en 0,5x, 2x y >=10x. Puede ejecutar rápidamente un clasificador basado en árboles como Bosque aleatorio , XGBoost o LuzGBM clasificador en su máquina local, saque la importancia de las características, mire algunos árboles, etc. y obtenga información sobre qué características importan sin tener que averiguar cómo debería funcionar toda la codificación para una regresión.

Puede que en este punto la calidad de la predicción sea pobre, pero, no obstante, ha entregado un modelo predictivo a tiempo, ha obtenido información sobre las características potencialmente útiles mediante la clasificación y ha abierto algunas opciones más para proceder a un modelo mejor.

Dicho esto, si tienes varios tipos de datos que requieren diferentes funciones de pérdida y regularizaciones, GLRM ayuda a formular todo eso bastante bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X