Estoy escribiendo un pequeño prototipo de reconocimiento de voz como mi proyecto paralelo, que coincide con las palabras pregrabadas del hablante. Así que ahora estoy pensando en comparar dos conjuntos de datos (resultado de la FFT) que son dos listas con una longitud aproximada de 7000-10000 cada una. ¿Cuál sería un análisis estadístico apropiado en este caso? Quiero encontrar qué tan significativa es la similitud (o diferencia) entre esas dos muestras y si es lo suficientemente significativa como para asumir que son iguales/diferentes. No busco nada demasiado complicado, sólo un punto de partida tal vez.
Gracias por la respuesta. Por favor, corrígeme si me equivoco, ¿es necesaria la D.S. conjunta en este caso debido a la gran diferencia de tamaño de las dos muestras?
1 votos
¿Por qué se necesita una prueba de significación? ¿Por qué no utilizar simplemente una métrica de distancia?