Trabajo bastante en la modelización estadística, como los modelos ocultos de Markov y los modelos de mezclas gaussianas. Veo que el entrenamiento de buenos modelos en cada uno de estos casos requiere una gran (> 20000 frases para los HMM) cantidad de datos que se toman de entornos similares al uso final. Mi pregunta es
- ¿Existe un concepto de "suficientes" datos de entrenamiento en la literatura? ¿Cuántos datos de entrenamiento son "suficientes"?
- ¿Cómo puedo calcular cuántas frases se necesitan para entrenar modelos "buenos" (que den una buena precisión de reconocimiento (> 80%))?
- ¿Cómo puedo saber si un modelo ha sido entrenado correctamente? ¿Empezarán los coeficientes del modelo a mostrar fluctuaciones aleatorias? Si es así, ¿cómo puedo distinguir las fluctuaciones aleatorias y los cambios reales debidos a la actualización del modelo?
Por favor, siéntase libre de volver a etiquetar esta pregunta en caso de que necesite más etiquetas.