10 votos

¿Existe el concepto de datos "suficientes" para el entrenamiento de modelos estadísticos?

Trabajo bastante en la modelización estadística, como los modelos ocultos de Markov y los modelos de mezclas gaussianas. Veo que el entrenamiento de buenos modelos en cada uno de estos casos requiere una gran (> 20000 frases para los HMM) cantidad de datos que se toman de entornos similares al uso final. Mi pregunta es

  1. ¿Existe un concepto de "suficientes" datos de entrenamiento en la literatura? ¿Cuántos datos de entrenamiento son "suficientes"?
  2. ¿Cómo puedo calcular cuántas frases se necesitan para entrenar modelos "buenos" (que den una buena precisión de reconocimiento (> 80%))?
  3. ¿Cómo puedo saber si un modelo ha sido entrenado correctamente? ¿Empezarán los coeficientes del modelo a mostrar fluctuaciones aleatorias? Si es así, ¿cómo puedo distinguir las fluctuaciones aleatorias y los cambios reales debidos a la actualización del modelo?

Por favor, siéntase libre de volver a etiquetar esta pregunta en caso de que necesite más etiquetas.

10voto

On Freund Puntos 3479

Puede dividir su conjunto de datos en subconjuntos consecutivos con un 10%, 20%, 30%, ... 100% de sus datos y, para cada subconjunto, estimar la varianza de la precisión de su estimador utilizando la validación cruzada k-fold o el bootstrapping. Si tiene "suficientes" datos, el trazado de las varianzas debería mostrar una línea monótona decreciente que debería alcanzar una meseta antes del 100%: añadir más datos no disminuye la varianza de la precisión del estimador de forma significativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X