5 votos

Longitudinal k-means de datos de ejemplo

Habiendo terminado el Coursera de la Máquina de Aprendizaje del curso, me gustaría poner de las teorías a la práctica. Gracias de antemano en guiar a un novato!

En particular, estoy buscando alguna guía de cómo:

  1. Algunos ejemplos de datos longitudinales que podría ilustrar k-means agrupación

  2. cómo incluir la dimensión temporal en el análisis? Dicen que si me recogido 10 días de datos, la captura de long/lat cada 5 minutos, yo esperaría a la hora x cada día hay un patrón.

Gracias, Simon

1voto

usεr11852 Puntos 5514

Hay una serie de muy buenas referencias sobre este asunto. Tres de inmediato me puede pensar en:

  1. La agrupación funcional y la identificación de la presencia de estructuras de datos longitudinales por Chiou y Li (2007)
  2. La agrupación de Escasamente Muestreados Datos Funcionales por James y el Azúcar (2003) y
  3. Distancia basado en la agrupación de escasamente observada procesos estocásticos por Peng y Mueller (2008)

Para su problema en particular, yo diría (en muy corto) que en vez de hacer la $k$-es decir, en la matriz de datos en sí mismos calcular las componentes principales de los datos (claro esta después de suavizado y de la interpolación de los datos en una rejilla común). A continuación, realizar la $k$-means clustering sobre los principales componentes de las puntuaciones. Este enfoque de dos pasos es casi seguro que le permiten visualizar los datos de agrupación en clústeres de manera más eficaz.

Otros enfoques (sobre todo en la no-paramétrico de la agrupación) también existe, pero creo que son una exageración en este punto. Jacques y Preda (2013) recientemente han proporcionado un excelente estudio sobre el asunto: datos Funcionales de agrupamiento: encuesta a (I trató de vincular al autor-siempre reimpresiones donde sea posible).

0voto

Soltys Puntos 41
  1. Google es Mi Pista de android app permite la salida de long/lat. Sin embargo, yo escribí mi propio cliente para la captura de los datos cada 5 minutos.

  2. Dimensión de tiempo - dependiendo de cómo quieres hacerlo... yo "normalizar" los datos iniciales para hacer cada hora, por lo que la agrupación tiene más sentido. Por ejemplo

2

37.88    -122.22    11
37.88    -122.22    11
37.88    -122.22    11
37.88    -122.22    11
37.33    -122.50    12
37.33    -122.51    12
37.33    -122.52    12

El k-means el algoritmo, si se implementan adecuadamente, puede manejar una matriz. El uso de la coursera del aprendizaje automático ejercicio #8, la he modificado para manejar/visualizar en 3 dimensiones de los datos. No es demasiado malo.

No creo que más de 3 dimensiones puede ser visualizada, aunque un vectorizados la aplicación seguirá funcionando.

Saludos, Simon

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X