Estoy trabajando en un proyecto en el que se realiza una prueba física a lo largo del tiempo para decidir si un objeto es diagnosticado como clase A o clase B. Normalmente, estas pruebas pueden durar alrededor de 2.5-3 horas, por lo que se registra cada paso de tiempo t. t suele durar alrededor de un segundo, por lo que cada fila tiene un conjunto de características en un segundo en particular durante la prueba. Una vez completada la prueba, se decide si el objeto es del tipo A o B. Normalmente, los humanos miran el gráfico de la serie temporal de la prueba para determinar esta clasificación, pero a mí me han encargado automatizarlo.
El problema es que cada archivo CSV de una prueba tiene aproximadamente de 9000 a 11000 (2.5 a 3 multiplicado por 3600 segundos en una hora) filas, ya que la duración de la prueba puede variar. La cantidad de características/columnas es fija. Tengo N archivos CSV, que representan los datos de la serie temporal de una prueba realizada en un objeto de muestra (nota: siempre se evalúa una muestra una vez). Entonces, mi pregunta: ¿Hay alguna manera de agregar cada muestra para tener un solo marco de datos para entrenar mi clasificador? ¿O hay otro enfoque?
Para agregar más claridad, tendré que hacer predicciones en archivos CSV que tienen dimensiones de fila inconsistentes debido a la variabilidad en el tiempo de prueba.
Por ejemplo:
- csv1.shape = (8751, 1257) --> Predicción: Clase A
- csv2.shape = (10321, 1257) --> Predicción: Clase A
- csv3.shape = (9978, 1257) --> Predicción: Clase B
0 votos
Entonces, en tu conjunto de entrenamiento, digamos que hay M objetos. ¿Significa esto que tienes MN archivos?
0 votos
@gunes una prueba realizada para un objeto, por lo que tengo N archivos para N objetos (realicé una edición en la publicación original).
0 votos
En mi opinión, no es una buena idea clasificar esto como un problema de clasificación (elección forzada, decisión prematura) (ver esto). En su lugar, considere usar un modelo de probabilidad (por ejemplo, regresión logística) o una máquina de probabilidad. Lo que más interesa es estimar la tendencia para la clase de diagnóstico B, no hacer clasificaciones arbitrarias (que son especialmente irrelevantes cuando la probabilidad de pertenencia a la clase es alrededor de 0.5).
0 votos
@FrankHarrell, estoy de acuerdo, pero ¿qué sugerirías que haga con los datos en sí para que realmente se puedan utilizar como entrada, por ejemplo, en una regresión logística?
0 votos
Sin conocer más sobre tu diseño y objetivos, yo empezaría con un simple proceso de Markov para manejar la dependencia entre ciertas observaciones, por ejemplo, Pr.
0 votos
@FrankHarrell No estoy seguro si un MP aplica aquí porque la clase se decide teniendo en cuenta todas las filas de un archivo CSV (los datos de series temporales de la prueba realizada en el objeto) que constituyen un ejemplo de entrenamiento. Además, no creo que necesites saber sobre algún diseño u objetivo en este caso. Ten en cuenta que he realizado ediciones en la publicación original que pueden ayudar a aclarar más mi declaración de problema.