Actualmente estoy trabajando sobre los datos de audio tratando de realizar un reconocimiento de determinadas clases (por ejemplo la molienda de café, etc.). Sin embargo, tengo algunos problemas para distinguir el nulo clase de interesantes segmentos de sonido. En la actualidad, me basta con mirar la intensidad del audio. Como tengo un limitado, conocido el número de clases que desea detectar, yo pensé en ahorrar algunos agregados de las señales media (fft) la comparación de los no clasificados de la señal. Si está lo suficientemente cerca a uno de los salvados, los agregados de hacer una clasificación, si no acaba de caer. Mi enfoque me parece bastante ingenuo. Por lo tanto, de entrada/ideas apreciada ;)
Respuestas
¿Demasiados anuncios?
David Pokluda
Puntos
4284
Hay ideas interesantes que ya han comenzado a cavar en. Usted sólo debe profundizar un poco más.
- El uso de la descomposición en un significativo como fft o wavelet es muy interesante. Esta es la representación alternativa. Usted puede pensar en un montón de representaciones alternativas... wavelet es mi favorito para los datos de audio.
- El uso de "directamente" la señal entera para intentar discriminar si es de la anulación de la clase no es una buena idea, y como ya inició, usted necesita para construir resumen estadístico. Esto puede ser un resumen, pero puede haber algunos más. Tienes que pensar si este resumen estadístico contiene información de interés para el discimination que quieres hacer o no. Por ejemplo, dudo que la media de la FFT es muy interesante, en su caso. Esta es la reducción de dimensionalidad.
- Existe automática de formas de buscar significativo resumen estadístico. Por ejemplo, usted puede construir automáticamente un gran número de candidatos (por ejemplo la combinación lineal de su coeficiente wavelet, o simplemente el coeficiente de sí mismos, o alguna otra combinación, o coeficiente wavelet y fft coef, ...) y de medida no poder de discriminación de alguna manera y mantener el que tiene mejor discriminación, el poder.
Boris Tsirelson
Puntos
191
Creo que el paquete de R rggobi es exactamente lo que usted está buscando. Audo reconocimiento es aún su problema de ejemplo!