Sebastian Ruder tiene un trabajo sobre la medición de la distancia de los conjuntos de datos de su objetivo, utilizando la optimización bayesiana:
http://ruder.io/learning-select-data/
Papel: https://arxiv.org/abs/1707.05246 "Aprender a seleccionar datos para el aprendizaje de transferencia con la optimización bayesiana"
Primer par de párrafos de la entrada del blog anterior:
"En el aprendizaje automático, la suposición tradicional es que los datos a los que se aplica nuestro modelo son los mismos que los que utilizamos para el entrenamiento. Esta suposición se demuestra falsa en cuanto pasamos al mundo real: muchas de las fuentes de datos que encontremos serán muy diferentes a nuestros datos de entrenamiento originales (lo mismo significa aquí que proceden de la misma distribución). En la práctica, esto hace que el rendimiento de nuestro modelo se deteriore considerablemente.
"La adaptación al dominio es un enfoque destacado del aprendizaje por transferencia que puede ayudar a salvar esta discrepancia entre los datos de entrenamiento y los de prueba. Los métodos de adaptación de dominio suelen tratar de identificar características que se comparten entre los dominios o aprender representaciones que son lo suficientemente generales como para ser útiles para ambos dominios. En esta entrada del blog, hablaré de la motivación y los resultados del reciente artículo que he publicado con Barbara Planck. En él, esbozamos un enfoque complementario a la adaptación de dominios: en lugar de aprender un modelo que pueda adaptarse entre los dominios, aprenderemos a seleccionar datos que sean útiles para entrenar nuestro modelo."