3 votos

Selección del modelo de aprendizaje automático para la predicción de latitud y longitud

Estoy haciendo un proyecto en el que mi objetivo es predecir las posibles ubicaciones de un conjunto de puntos de latitud/longitud basándome en un par de variables. Dado que nunca he trabajado con aprendizaje automático en datos de ubicación, ¿qué modelos sugerirías probar primero?

Anticipo que las relaciones entre las variables de entrada y las ubicaciones no serán lineales, por lo que modelos como la regresión lineal no funcionarían realmente bien.

Además, dado que es un problema inherentemente espacial, ¿debería preocuparme por la autocorrelación espacial? Los puntos tienden a estar agrupados cuando los grafico.

Obviamente, en este punto, es solo especulación, pero me gustaría pedirte algunos consejos generales y un enfoque que podría adoptar.

Gracias

EDITAR: así es como se ve mi datos de lat/lon. Noté que tal vez crear otra característica basada en el agrupamiento k-means podría ayudar (por ejemplo ID de grupo y tamaño)? Para el gráfico, alpha se estableció en 0.1, por lo que algunos grupos son muy densos dado que todavía aparecen completamente negros.

1voto

user3813554 Puntos 1

Aquí están mis sugerencias con respecto a tu problema:

  • Sí, apuesto a que tu problema es no lineal, pero te recomiendo que pruebes primero con modelos lineales. Primero, te dará una línea base: Tu modelo final debería superar al lineal. Segundo, correr modelos lineales e inspeccionar sus pesos a veces proporciona intuición sobre el problema. Finalmente, hay casos en los que los modelos lineales superan a los no lineales, dependiendo de la cantidad de datos, el número de características y el dominio del problema.

  • En otras palabras, prueba primero ideas más simples. Por ejemplo, tratar la autocorrelación espacial sería una buena idea, pero no es necesario si tu modelo funciona bien sin ella.

  • Con "predicción de latitud y longitud" asumo que estás resolviendo un problema de regresión donde la salida son dos valores reales y acotados.

    • El primer intento sería tratar la latitud y longitud por separado: usando dos modelos no relacionados para predecir cada uno de ellos.

0 votos

Gracias por tus ideas Sangwoon. También pensé que probar modelos más simples primero es una decisión sabia, pero no lo mencioné para evitar sesgo en las respuestas. ¿Crees que estandarizar los datos de latitud/longitud podría ayudar en k-means (ya que asume la distribución gaussiana para los grupos)?

0 votos

En la mayoría de los casos, estandarizar o al menos escalar (transformar linealmente el rango de la variable a [0,1]) es casi necesario (especialmente para datos "reales"), porque la diferencia de escalas podría confundir al algoritmo. Esto también es cierto para la agrupación de k-medias, ya que k-medias es sensible a la elección de la métrica de distancia. Buena suerte con tu proyecto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X