1 votos

¿Qué análisis estadístico utilizar para comparar el nivel de similitud entre dos grandes muestras?

Estoy escribiendo un pequeño prototipo de reconocimiento de voz como mi proyecto paralelo, que coincide con las palabras pregrabadas del hablante. Así que ahora estoy pensando en comparar dos conjuntos de datos (resultado de la FFT) que son dos listas con una longitud aproximada de 7000-10000 cada una. ¿Cuál sería un análisis estadístico apropiado en este caso? Quiero encontrar qué tan significativa es la similitud (o diferencia) entre esas dos muestras y si es lo suficientemente significativa como para asumir que son iguales/diferentes. No busco nada demasiado complicado, sólo un punto de partida tal vez.

1 votos

¿Por qué se necesita una prueba de significación? ¿Por qué no utilizar simplemente una métrica de distancia?

0voto

subhash c. davar Puntos 337

Puede calcular la media de cada una de las dos muestras y la D.S. agrupada. A continuación, calcule la estadística t o Z para una prueba de significación.

0 votos

Gracias por la respuesta. Por favor, corrígeme si me equivoco, ¿es necesaria la D.S. conjunta en este caso debido a la gran diferencia de tamaño de las dos muestras?

1 votos

Todo lo contrario, Emily: como tienes muestras relativamente grandes, puedes permitirte inspeccionar las desviaciones estándar por separado y no necesitas agruparlas, ni debería hacerlo. De hecho, a veces se puede aprender mucho sobre las muestras simplemente observando que un grupo tiene una dispersión sustancialmente mayor que los demás (incluso cuando sus medias pueden estar cerca).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X