1 votos

Construyendo un modelo de regresión para un problema de series temporales de bienes raíces

Durante los últimos meses he estado trabajando en un proyecto que intenta predecir un precio para bienes raíces del metaverso (casas virtuales). El juego se llama sandbox y se vende en criptomonedas, lo que hace que sus precios varíen mucho. Los datos contienen cada transacción que ha ocurrido durante los últimos 3 años: qué terreno se vendió, cuándo se vendió el terreno y por cuánto se vendió. Aquí puedes ver el DataFrame:

2

Los terrenos están ubicados en un mapa 2D y cada terreno tiene coordenadas x e y. No todos los terrenos tienen historial de transacciones (algunos terrenos han sido regalados, etc.) y el mapa también tiene 'agujeros', por lo que hay bastantes datos faltantes. Aquí puedes ver el gráfico del precio promedio diario a lo largo del tiempo: 4

Así que aquí está el problema: quiero poder predecir el precio de un terreno dado sus coordenadas. Para hacer eso, he intentado buscar una invariante en los datos que ayude a evitar lidiar con un problema de series temporales, por ejemplo, calcular el precio del terreno / precio promedio diario para cada terreno y esperando que sea relativamente constante a lo largo del tiempo, sin embargo, eso no parece ser el caso.

Aquí está el gráfico de retraso para el precio promedio diario:

5

Y aquí está el gráfico de retraso para el precio promedio diario teniendo en cuenta solo las transacciones del último año:

enter image description here

Así que aquí están mis preguntas:

  1. Dado que el precio de los terrenos varía mucho con el tiempo, ¿cómo abordaría la predicción del precio?
  2. He investigado sobre análisis de series temporales y digamos que fui capaz de predecir el precio promedio diario (o la cantidad de terrenos vendidos) utilizando modelado de series temporales, ¿cómo me ayudaría esto a predecir el precio de un terreno en particular?
  3. ¿Es posible que un modelo de regresión (digamos XGBoost) aprenda a predecir precios con este tipo de datos 'por sí solo'? Porque si no, ¿cómo podría incorporar mi modelo de series temporales con otras características (historial del terreno / otras características preprocesadas) en un modelo de regresión donde la entrada es (x, y) y la salida es precio?

Cualquier ayuda será apreciada, soy relativamente nuevo en este campo, así que por favor corríjame si lo que estoy diciendo es incorrecto / no tiene sentido, y no dudes en pedirme información adicional. ¡Gracias de antemano!

2voto

Matt Rutt Puntos 1

Si deseas transformar tu predicción de un problema de series temporales a uno transversal, simplemente podrías crear un indicador único para cada terreno (o casa) basado en las coordenadas de ubicación $ x $ y $ y $ y luego retener solo la transacción más reciente de terreno o casa (basada en la última fecha). Esto asegura que todos los terrenos / casas tengan el mismo peso, una vez que ajustes un modelo de regresión. Un enfoque de este tipo que utiliza la sección transversal de las casas para hacer predicciones de precios basadas en características individuales de las casas se conoce como regresión hedónica en la literatura económica (ver, por ejemplo, https://es.wikipedia.org/wiki/Regresi%C3%B3n_hed%C3%B3nica). Si bien la regresión hedónica puede funcionar bien para la predicción clásica de precios de bienes raíces, podría ser problemática en tu caso ya que los precios de las transacciones de tu terreno / casa probablemente varían mucho más con el tiempo. Por lo tanto, tendrías que volver a entrenar tu modelo de manera regular para poder hacer predicciones razonables. Además, si las variables que has mostrado anteriormente son todas las variables incluidas en tu conjunto de datos, no recomendaría optar por el enfoque de regresión hedónica, ya que no tienes muchas variables para basar tu predicción transversal en ellas.

Personalmente, probablemente intentaría hacer predicciones con un modelo de vector autorregresivo (VAR) o un modelo de regresión panel dinámica. Esto asegura que utilices la información de series temporales y transversales en tus datos. Una estructura de datos panel también lleva un registro de cuántas veces se ha vendido una casa / terreno en particular. La desventaja probablemente es que estos modelos son un poco más difíciles de implementar. También existen modelos de regresión diseñados para problemas de predicción espacial, como el modelo autorregresivo espacial (SAR) o modelo de error espacial (SEM). Sin embargo, estos son básicamente variantes de los enfoques (V)AR, al menos según mi conocimiento. Por lo tanto, uno de estos modelos podría valer la pena intentarlo.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X