Durante los últimos meses he estado trabajando en un proyecto que intenta predecir un precio para bienes raíces del metaverso (casas virtuales). El juego se llama sandbox y se vende en criptomonedas, lo que hace que sus precios varíen mucho. Los datos contienen cada transacción que ha ocurrido durante los últimos 3 años: qué terreno se vendió, cuándo se vendió el terreno y por cuánto se vendió. Aquí puedes ver el DataFrame:
Los terrenos están ubicados en un mapa 2D y cada terreno tiene coordenadas x e y. No todos los terrenos tienen historial de transacciones (algunos terrenos han sido regalados, etc.) y el mapa también tiene 'agujeros', por lo que hay bastantes datos faltantes. Aquí puedes ver el gráfico del precio promedio diario a lo largo del tiempo:
Así que aquí está el problema: quiero poder predecir el precio de un terreno dado sus coordenadas. Para hacer eso, he intentado buscar una invariante en los datos que ayude a evitar lidiar con un problema de series temporales, por ejemplo, calcular el precio del terreno / precio promedio diario para cada terreno y esperando que sea relativamente constante a lo largo del tiempo, sin embargo, eso no parece ser el caso.
Aquí está el gráfico de retraso para el precio promedio diario:
Y aquí está el gráfico de retraso para el precio promedio diario teniendo en cuenta solo las transacciones del último año:
Así que aquí están mis preguntas:
- Dado que el precio de los terrenos varía mucho con el tiempo, ¿cómo abordaría la predicción del precio?
- He investigado sobre análisis de series temporales y digamos que fui capaz de predecir el precio promedio diario (o la cantidad de terrenos vendidos) utilizando modelado de series temporales, ¿cómo me ayudaría esto a predecir el precio de un terreno en particular?
- ¿Es posible que un modelo de regresión (digamos XGBoost) aprenda a predecir precios con este tipo de datos 'por sí solo'? Porque si no, ¿cómo podría incorporar mi modelo de series temporales con otras características (historial del terreno / otras características preprocesadas) en un modelo de regresión donde la entrada es (x, y) y la salida es precio?
Cualquier ayuda será apreciada, soy relativamente nuevo en este campo, así que por favor corríjame si lo que estoy diciendo es incorrecto / no tiene sentido, y no dudes en pedirme información adicional. ¡Gracias de antemano!