2 votos

¿Qué modelo utilizar para predecir los gastos futuros de un individuo?

Actualmente estoy trabajando en una aplicación de finanzas personales, que hace un seguimiento de los gastos de una persona. Al introducir una entrada de gastos, el usuario selecciona la categoría de la transacción (por ejemplo, 'Facturas', 'Comida', 'Ropa', 'Entretenimiento', etc.).

Utilizando los datos de gastos existentes, quiero predecir cuánto gastará una persona en el futuro (es decir, el mes que viene). Para ello, he intentado utilizar BigML por su facilidad de uso de la API.

Mi pregunta es, ¿cuál es la mejor manera de modelar la fuente de datos proporcionada a BigML Estoy pensando en agrupar los gastos por Año , Mes y Categoría de gastos de manera que la fuente de datos contenga las siguientes columnas ( cantidad es la columna que pretendo predecir, obviamente):

  • año de gastos
  • gasto-mes
  • categoría de gasto
  • cantidad

Sin embargo, estoy seguro de que mi enfoque puede mejorarse. Por favor, tened en cuenta que soy bastante nuevo en el campo del aprendizaje automático, por eso he optado por utilizar una API para generar mis predicciones.

4voto

KADlancer Puntos 126

Esto se puede modelar de múltiples maneras. Supongamos que los gastos de las distintas categorías se influyen mutuamente y que los gastos de cada categoría dependen del importe total a gastar. Así, cada usuario tiene una cantidad total a gastar cada mes (total_gastos_próximo_mes). Esta cantidad seguirá una tendencia específica que es lo primero que debes predecir. Puede agregar sus datos para crear predictores como:

  • total_gastos_3_meses_anteriores (importe)
  • total_gastos_2_meses_anteriores (importe)
  • total_gastos_1_mes_anterior (importe)
  • total_gastos_actuales_mes (importe)
  • choque_de_gastos (total_de_gastos_actual_mes - avg_de_gastos_último_mes) / std_de_gastos_último_3_mes (velocidad de cambio)
  • total_gastos_del_próximo_mes (importe)

y luego utilizar un conjunto o regresor logístico.

Si además conoce los ingresos del usuario. También puedes añadir características como total_ingresos_3_meses_anteriores, etc y los correspondientes ratios gastos/ingresos.

Una vez que puedas predecir decentemente 'gastos_totales_del_próximo_mes', puedes empezar a predecir para cada categoría siguiendo una estrategia similar o simplemente utilizando el ratio que representa sobre los gastos totales. Por ejemplo, para la comida:

  • gastos_de_alimentación_3_meses_anteriores (%)
  • gastos_de_alimentación_2_meses_anteriores (%)
  • gastos_de_alimentación_1_mes_anterior (%)
  • gastos_de_alimentación_actuales_mes (%)
  • choque_de_gastos (total_de_gastos_actual_mes - avg_de_gastos_último_mes) / std_de_gastos_último_3_mes (velocidad de cambio)
  • gastos_totales_del_próximo_mes (%)

y crear un nuevo conjunto o regresor logístico para cada categoría.

También puede suponer que, dependiendo del mes, los gastos en las diferentes categorías pueden fluctuar. Por lo tanto, también se puede añadir current_month a la mezcla.

  • mes_actual (1..12)

Si repites esto para todas las categorías, puede que acabes teniendo porcentajes que no sumen el 100%, pero siempre puedes relativizarlos.

También puede agrupar a los usuarios que siguen una estructura de gastos similar y utilizar los datos de varios usuarios para generalizar mejor.

Si ya tiene algunos datos (algunos meses para varios usuarios para varias categorías), sólo tiene que probar y ver cuál es el rendimiento antes de intentar desarrollar cualquier enfoque más complicado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X