1 votos

¿Qué modelo de regresión seleccionar para una variable de salida continua positiva?

Tengo un problema donde quiero modelar la duración de una tarea. Tengo variables que representan el número de acciones requeridas (todas requieren el mismo tiempo para ejecutarse) para completar la tarea y la categoría de la tarea, que es una variable categórica. Además, he convertido la variable categórica en una variable dummy.

Lo que me preocupa es que mi variable de salida es la duración y más específicamente el número de segundos, por lo tanto, positivo y continuo en el [0,+00). ¿Qué tipo de regresión puedo elegir para este problema?

Un primer pensamiento rápido fue predecir el log(duración) con algún método como la regresión lineal, árbol de decisión de regresión o SVR pero luego, nuevamente, al exponenciar los resultados para hacerlos interpretables como segundos, también obtendré tiempo negativo.

Nota: Preferiría no lidiar con redes neuronales. Estoy seguro de que hay una solución más fácil.

En caso de que ayude, mis datos de entrenamiento lucen así:

+------------+---------+------------+---------+
|dur(sec)    |actions  |task_catA   |task_catB|
+------------+---------+------------+---------+
| 1256       | 257     | 0          | 1       |
| 857.2      | 121     | 1          | 0       |

Uso R.

2voto

probob Puntos 11

Su problema realmente no necesita algoritmos complejos de Machine Learning. Creo que una buena opción es la sugerencia de Stephan, una Regresión Exponencial.

Esto significa que usted asume que su variable dependiente sigue una distribución exponencial, con p.d.f: $$f(x) = \lambda \exp(-\lambda x)\ I_{(0, \infty)}(x)$$

donde $\lambda$ es la tasa de ocurrencia por unidad de medida, que puede ser tiempo, distancia, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X