13 votos

Diferencia entre la distribución de datos de entrenamiento y de prueba

La suposición básica en el aprendizaje automático es que los datos de entrenamiento y prueba siguen la misma distribución. Pero en realidad, esto es muy poco probable. El cambio covariable aborda este problema en el que las distribuciones de entrenamiento y prueba son diferentes. ¿Alguien puede aclarar las siguientes dudas al respecto?

  1. ¿Cómo verificar estadísticamente si dos distribuciones son diferentes?
  2. ¿Se puede usar el enfoque de estimación de densidad de núcleo (KDE) para estimar la distribución de probabilidad y detectar la diferencia?
  3. Supongamos que tengo 100 imágenes de una categoría específica. El número de imágenes de prueba es de 50. Estoy cambiando el número de imágenes de entrenamiento de 5 a 50 en pasos de 5. ¿Puedo decir que las distribuciones de probabilidad son diferentes al usar 5 imágenes de entrenamiento y 50 imágenes de prueba después de estimarlas por KDE?

1voto

Aaron Puntos 36

Por lo general, obtendrías tus datos de entrenamiento como una muestra aleatoria simple de tu conjunto de datos total. Esto te permite aprovechar todas las propiedades conocidas de las muestras aleatorias, incluyendo el hecho de que los datos de entrenamiento y prueba tienen las mismas distribuciones subyacentes. De hecho, el objetivo principal de esta división es utilizar un conjunto de datos para "entrenar" tu modelo (es decir, ajustar el modelo) y el otro conjunto de datos para establecer hipótesis de interés en ese modelo. Si no muestreas aleatoriamente tus datos de entrenamiento, entonces surgen todo tipo de problemas debido al hecho de que puede haber diferencias sistemáticas entre las dos partes de tus datos.

0voto

que que Puntos 1435

Creo que estás confundiendo la distribución subyacente de la cual se extraen tanto las distribuciones de entrenamiento como las de prueba, con las distribuciones de las muestras específicas de entrenamiento y prueba.

A menos que la distribución subyacente sea, por ejemplo, sensible al tiempo, cambie durante el tiempo entre, por ejemplo, la extracción de las muestras de entrenamiento y prueba, la distribución subyacente es idéntica cada vez.

El objetivo al aprender un modelo de aprendizaje automático generalmente no es aprender la distribución de entrenamiento, sino aprender la distribución subyacente latente, de la cual la distribución de entrenamiento es solo una muestra. Por supuesto, no se puede ver la distribución subyacente en realidad, pero por ejemplo, si realmente solo te importara aprender las muestras de entrenamiento, podrías simplemente memorizar las muestras de entrenamiento en una tabla de búsqueda, fin de la historia. En realidad, estás utilizando la muestra de entrenamiento como un proxy en la distribución subyacente. "Generalización" es más o menos sinónimo de "tratar de aprender la distribución subyacente, en lugar de simplemente sobreajustarse a las muestras de entrenamiento".

Para estimar qué tan bien los datos de entrenamiento, y tu modelo ajustado, coinciden con la distribución subyacente, un enfoque es extraer un conjunto de entrenamiento, un conjunto de prueba. Entrenar en el conjunto de entrenamiento, probar en el conjunto de prueba. En realidad, como es probable que estés ajustando un montón de hiperparámetros, sobreajustará estos contra el conjunto de prueba, pensará que estás obteniendo una precisión súper increíble, luego fallará horriblemente cuando pongas el modelo en producción.

Un enfoque mejor es usar la validación cruzada:

  • extraer un montón de datos de entrenamiento
  • dividirlos aleatoriamente en 80% de datos de entrenamiento, 20% de datos de validación/desarrollo
    • ejecutar entrenamiento/prueba en esto, tomar nota de la precisión, etc.
  • volver a dividir, por ejemplo, usando una semilla aleatoria diferente
    • volver a ejecutar entrenamiento/evaluación
  • volver a hacer esto, por ejemplo, 5, 10, 20 veces, dependiendo de la cantidad de varianza que estés viendo
  • esto te dará una visión bastante realista de qué tan bien tus conjuntos de entrenamiento y modelo se están ajustando a la distribución subyacente
  • es bastante general. puedes usar este enfoque para cualquier conjunto de datos i.i.d.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X