Tengo un problema donde quiero modelar la duración de una tarea. Tengo variables que representan el número de acciones requeridas (todas requieren el mismo tiempo para ejecutarse) para completar la tarea y la categoría de la tarea, que es una variable categórica. Además, he convertido la variable categórica en una variable dummy.
Lo que me preocupa es que mi variable de salida es la duración y más específicamente el número de segundos, por lo tanto, positivo y continuo en el [0,+00). ¿Qué tipo de regresión puedo elegir para este problema?
Un primer pensamiento rápido fue predecir el log(duración) con algún método como la regresión lineal, árbol de decisión de regresión o SVR pero luego, nuevamente, al exponenciar los resultados para hacerlos interpretables como segundos, también obtendré tiempo negativo.
Nota: Preferiría no lidiar con redes neuronales. Estoy seguro de que hay una solución más fácil.
En caso de que ayude, mis datos de entrenamiento lucen así:
+------------+---------+------------+---------+
|dur(sec) |actions |task_catA |task_catB|
+------------+---------+------------+---------+
| 1256 | 257 | 0 | 1 |
| 857.2 | 121 | 1 | 0 |
Uso R.