2 votos

Aprendizaje supervisado: fijación de etiquetas en ventanas deslizantes de datos de sensores

Supongamos que tengo un conjunto de datos de acelerómetro recogidos con un sensor y una etiqueta para cada punto de datos medido. Estas etiquetas describen diferentes estados de mi sistema Por ejemplo, $state_A, state_B, state_C$ etc.., y quiero utilizar esta información para entrenar un clasificador que reconozca estos estados mencionados anteriormente.

Ahora, digamos que quiero utilizar una ventana deslizante fija para extraer algunas características en lugar de alimentar los datos brutos al clasificador. El tema es que algunas de estas ventanas deslizantes podrían contener más de una etiqueta única: Por ejemplo la ventana de tiempo contiene la transición de $state_A$ a $state_C$ . ¿Qué debo hacer con este tipo de ventanas? ¿Debo descartarlas? ¿Debo establecer un umbral para determinar si los utilizo o no ( Por ejemplo si el 90% o más de los puntos medidos coinciden con la misma etiqueta, entonces es correcto utilizar la ventana)? ¿Existe alguna práctica recomendada para manejar este tipo de situaciones?

En la siguiente figura añado un ejemplo de esta cuestión: la imagen muestra un gráfico de tres estados diferentes que podría tener el sistema, y están codificados como 1,2 y 3 para su visualización. Digamos que quiero tomar ventanas de cada 25 muestras sin que se solapen, por lo que las líneas verticales rojas muestran el principio y el final de cada ventana temporal.
Hay ventanas que sólo poseen un único estado, pero otras contienen más de uno.

Example

1voto

Loren Pechtel Puntos 2212

Su ventana deslizante generará algo en cada período de tiempo, suponiendo que la deslice por una porción de tiempo a la vez. Así que la característica que estás generando de la ventana deslizante tendrá un valor en cada punto de tiempo, que corresponde a tu estado objetivo.

La pregunta es: ¿a qué franja de tiempo contenida en su ventana se le asigna el valor? Por ejemplo, digamos que tu ventana de tiempo tiene 10 de ancho. Si el primer tiempo es el 0, no podrás generar una característica para los tiempos 0 a 8, pero en el tiempo 9 tu ventana contendrá del 0 al 9 y generarás una característica para el tiempo 9. Entonces deslízala una vez más (a los tiempos 1-10), y calcula tu característica de nuevo y asigna ese valor al tiempo 10. Y así sucesivamente.

Si su característica fuera la media de los valores en su ventana, esto se llamaría media de arrastre . Es posible que no quiera utilizar el centrado media, que es a lo que la mayoría de la gente se refiere cuando dice "media móvil". ¿Por qué? Porque una media centrada en una ventana de 11 de ancho, en el tiempo 20 utilizaría los tiempos 15-25, que incluirían cinco unidades de tiempo que aún no habrían ocurrido.

Si lo haces todo después de haber reunido todos los datos, echar un vistazo "al futuro" puede no ser un problema, pero si vas a intentar predecir lo que viene después, no tendrás acceso al futuro. Además, he utilizado el ejemplo de una "media móvil" o una "media corrida", y ambas pueden introducir artefactos en tus cálculos porque las cosas entran y salen de la ventana. Es posible que desee utilizar algún tipo de "caída en el tiempo" en su ventana para que las cosas no se salgan.

¿O quieres comprimir tus datos de manera que sólo se registren/modelen las lecturas de los sensores y el estado en cada salto? (Suponiendo que tus datos sean tan saltarines como tu ejemplo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X