Estoy trabajando con un gran conjunto de datos de acelerómetros recogidos con múltiples sensores llevados por muchos sujetos. Desgraciadamente, nadie aquí parece conocer las especificaciones técnicas de los dispositivos y no creo que se hayan recalibrado nunca. No tengo mucha información sobre los dispositivos. Estoy trabajando en mi tesis de maestría, los acelerómetros fueron prestados por otra universidad y en conjunto la situación fue un poco intransparente. Entonces, ¿el preprocesamiento a bordo del dispositivo? Ni idea.
Lo que sí sé es que son acelerómetros triaxiales con una frecuencia de muestreo de 20Hz; digitales y presumiblemente MEMS. Me interesa el comportamiento no verbal y la gesticulación, que según mis fuentes debería producir principalmente actividad en el rango de 0,3-3,5Hz.
Normalizar los datos parecen bastante necesarios, pero no estoy seguro de qué utilizar. Una gran parte de los datos está cerca de los valores del resto (valores brutos de ~1000, de la gravedad), pero hay algunos extremos como hasta 8000 en algunos registros, o incluso 29000 en otros. Vea la siguiente imagen . Creo que esto hace que sea una mala idea dividir por el max o stdev para normalizar.
¿Cuál es el enfoque habitual en un caso como éste? ¿Dividir por la mediana? ¿Un valor percentil? ¿Otra cosa?
Como cuestión secundaria, tampoco estoy seguro de si debo recortar los valores extremos..
Gracias por cualquier consejo.
Editar : Aquí hay un gráfico de unos 16 minutos de datos (20000 muestras), para que te hagas una idea de cómo se distribuyen normalmente los datos.
1 votos
¿Puede proporcionar un poco más de información sobre su configuración de medición? Preguntas que se me ocurren: ( 1 ) ¿Son acelerómetros de un solo eje o de varios ejes? ( 2 ) ¿Están filtrados en paso alto o no y, si es así, cómo? (Por su descripción, parece que no lo están). 3 ) ¿Qué está midiendo exactamente y cuál es el rango de frecuencia de la señal de interés? ( 4 ) ¿Cuál es el mecanismo de detección (es decir, MEMS, piezoeléctrico, capacitivo, etc.) o, incluso, el número de pieza (!) de los acelerómetros que está utilizando? ...
0 votos
... (cont) ( 5 ) ¿Son totalmente digitales o tienes tu propio ADC (de 16 bits, tal vez, por la descripción que das)?
0 votos
@cardinal: He editado las respuestas a tus preguntas, gracias por preguntar. No estoy seguro de lo que es un ADC. Yo estaba involucrado en el experimento, pero no en la extracción de los datos de la memoria del dispositivo, hay una brecha entre la recolección de datos y donde recibí un montón de registros binarios.
0 votos
Hola, Junuxx. Disculpa el acrónimo inexplicable (ADC="analog-to-digital converter"); implícitamente supuse que lo reconocerías por tu pregunta.
0 votos
@cardinal: Ah, cierto. Importa para el tema de la normalización que sea totalmente digital?
1 votos
¿Qué intenta averiguar con estos datos? ¿Quizás intentas detectar ciertos tipos de eventos, estimar frecuencias de eventos, estimar aceleraciones medias, encontrar correlaciones entre diferentes acelerómetros, ...? La cuestión es que si quiere un consejo bueno y relevante, no pregunte por los procedimientos técnicos con los datos (que pueden ser irrelevantes o incluso inútiles, dependiendo de la aplicación): primero díganos qué problema que está tratando de resolver.
0 votos
@whuber: Como se indica en la pregunta, estoy interesado en los gestos y el comportamiento social. Estoy usando varias técnicas de aprendizaje automático (HMMs, SVMs y otras) para clasificar tipos de comportamiento como gestos de la mano, el habla, la risa de estos datos. También caminar y algunas posturas para variar. Ya tengo algunos resultados razonables, estoy tratando de entender si algún tipo de normalización podría/debería mejorar los resultados. Dividir por el máximo para cada sujeto parece una mala idea aquí. Intenté restar la media pero no tuvo un efecto notable.
0 votos
Gracias. Sin embargo, todavía no he visto suficiente información para responder a la pregunta: sin saber sobre las técnicas específicas que pretendes utilizar y qué tipo de características de los datos buscas para identificar y clasificar los "comportamientos" basados en componentes de aceleración, es imposible decir si la estandarización es necesaria o qué tipo de estandarización podría ayudar.
0 votos
@whuber: Bueno, varía realmente; el objetivo es comparar una serie de características y clasificadores. Pero estoy entrenando y probando en ventanas cortas de datos, digamos 1-5 segundos, que he anotado manualmente. Las características incluyen la media de las ventanas, la desviación estándar, la asimetría, la curtosis y también las magnitudes de la FFT. Todas las características se pueden calcular para cada eje por separado, o a partir de la magnitud del vector. Así que hay hasta 12 características del dominio del tiempo y, en la mayoría de los casos, 21 características del dominio de la frecuencia por instancia/ventana. Siento no haber sido lo suficientemente claro en primer lugar; ¡no pretendo ser un vampiro de ayuda!
0 votos
No hay problema. La situación se va aclarando, pero me cuesta ver cómo alguna de esas características podría estar relacionada con los gestos (excepto posiblemente algunas de las amplitudes del FT). ¿No te interesaría sobre todo detectar las ocurrencias de aceleraciones cortas y grandes y quizás también conocer sus direcciones?
0 votos
Cómo has conseguido sincronizar todos los sensores múltiples. Me refiero a cómo has conseguido los datos de todos los sensores en un determinado momento t, sin retrasos ni lecturas erróneas. Es decir, en el momento t tienes los valores precisos correspondientes a ese instante de todos los sensores. Saludos,
0 votos
Los dispositivos sensores que utilizamos estaban todos conectados de forma inalámbrica a nodos que enviaban señales de impulso para la sincronización.
0 votos
Sí, pero ¿cómo has tratado las señales/mensajes que llegan desde esos nodos? ¿Qué lenguaje de programación has utilizado? Mi preocupación es cuando guardo los datos. Quiero asociarlo con una marca de tiempo. Si tengo varios nodos transmitiendo quiero asegurarme de obtener los datos de todos los sensores en el mismo instante.