2 votos

¿Es siempre malo volver a entrenar el modelo para incluir los datos previstos?

Comprendo intuitivamente por qué es una idea horrible: supones que tu modelo es correcto y luego aumentas el número de observaciones, lo que probablemente dará lugar a un mal ajuste en los datos futuros.

Me pregunto si hay alguna propiedad matemática/estadística que describa esto, o si hay algún caso raro en el que esto no sea tan fatal como estoy pensando.

1voto

daknowles Puntos 274

Puedo darle una interpretación probabilística/bayesiana de por qué esto no es útil. Un modelo probabilístico para los datos $X$ y parámetros $\theta$ se define por una probabilidad $P(X|\theta)$ y una previa $P(\theta)$ . Ahora imagine que tengo algunos datos de entrenamiento $X_\text{train}$ y quieren hacer predicciones sobre datos futuros $X_\text{future}$ lo que significa que tengo que calcular, o aproximar $$ P(X_\text{future}|X_\text{train}) = \int P(X_\text{future}|\theta) P(\theta|X_\text{train}) d\theta $$ donde $P(\theta|X_\text{train})$ es la posterior. Lo que usted sugiere es muestrear las predicciones $X_\text{pred}$ de $P(X_\text{pred}|X_\text{train})$ (que puede representarse de la misma manera que la ecuación anterior). Sin embargo, como $X_\text{pred}$ no se observa se puede integrar lejos y su posterior en $\theta$ no se modificará. Condicionamiento en $X_\text{pred}$ por lo tanto, no es algo razonable.

Para especular sobre el efecto típico que podría tener: si usted muestra de $P(X_\text{pred}|X_\text{train})$ entonces está añadiendo ruido a su estimación, y reduciendo la incertidumbre en la estimación de $\theta$ (por lo que probablemente se estaría confiando demasiado y equivocándose más), mientras que si se optimiza $P(X_\text{pred}|X_\text{train})$ Supongo que el efecto principal sería la reducción de la incertidumbre en la parte posterior y, por lo tanto, el exceso de confianza en las predicciones (es decir, el sobreajuste).

0voto

vladr Puntos 299

No está mal y, de hecho, puede mejorar bastante la calidad si tiene muchos datos sin etiquetar (por ejemplo $X$ 's sin $Y$ ) y algunos datos etiquetados: se entrena un modelo con datos etiquetados, se etiquetan los no etiquetados con su modelo y se vuelve a entrenar el modelo. Esto entra en la clase de los llamados métodos de aprendizaje semisupervisado: http://en.wikipedia.org/wiki/Semi-supervised_learning

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X