Si el conjunto de pruebas no se encuentra en el dominio de datos del conjunto de entrenamiento, el resultado de la predicción del conjunto de pruebas debería ser peor que los del dominio del conjunto de entrenamiento.
Sí y no: normalmente, si los datos de prueba están fuera del dominio de entrenamiento, los resultados suelen ser peores. Pero ten en cuenta que esto es un síntoma de que tu modelo se ha ajustado demasiado al dominio de entrenamiento. Lo que importa es la calidad de las predicciones para su dominio de aplicación (tiene que ser adecuado para el propósito). Por tanto, las pruebas deben comprobar el dominio de aplicación deseado, y a menudo tiene sentido probar varios aspectos de éste de forma más detallada. A continuación, se puede pensar y juzgar en qué medida el dominio de entrenamiento debe coincidir con el dominio de la aplicación.
En ciertos aspectos, los modelos de predicción suelen aplicarse fuera del dominio de entrenamiento, mientras que para otros aspectos las predicciones se realizan dentro del dominio de entrenamiento.
Consideremos un modelo que predice alguna concentración de analito de relevancia clínica en función de algún tipo de medición (por ejemplo, espectroscópica).
El ámbito de aplicación serán los espectros de nuevos pacientes (desconocidos y medidos en el futuro). Para formación Puede que me salga con la preparación de muestras de calibración*. Sin embargo, como el dominio de aplicación son los pacientes, necesito probar también las predicciones de las muestras de pacientes contra los valores de referencia. Incluso si me entreno con muestras de pacientes, necesito probar para el dominio de aplicación de pacientes desconocidos . Además, tengo que establecer la frecuencia con la que hay que volver a realizar la calibración. Es decir, necesito probar el dominio de aplicación de muestras de pacientes desconocidos adquiridas y medidas horas, días, semanas después de los datos de entrenamiento.
Entonces, ¿cómo puedo cuantificar el dominio de aplicabilidad de un modelo predictivo? es decir, cuando tengo el nuevo conjunto de datos, ¿cómo puedo comprobar si se encuentra en el dominio de aplicabilidad del modelo?
Puedo especificar a partir de los espectros de entrenamiento los límites de la distribución a los que quiero restringir mis predicciones. Este sería el dominio de entrenamiento en los espectros ( $\mathbf X$ ) y a menudo se guían - bien por los datos de entrenamiento ("no extrapolar fuera del rango de la señal calibrada") - o por conocimientos externos, por ejemplo, exigiendo 0 $\leq$ absorbancia $\leq$ 1 en una prueba de calidad del espectro.
Esta es una forma de especificar la aplicabilidad.
Para otros aspectos de la aplicabilidad, el razonamiento suele ser a la inversa: se especifica cuánto deterioro de la calidad predictiva se está dispuesto a tolerar y, a continuación, se busca, por ejemplo, durante cuánto tiempo se puede utilizar la misma calibración. Así, se acaba especificando "rehacer la calibración semanalmente", o se especifica que las muestras de prueba deben realizarse cada cierto tiempo.
Estos argumentos funcionan exactamente igual para una clasificación en lugar de una regresión/calibración. (Sólo que medir la capacidad de predicción de un clasificador es más difícil).
Por tus etiquetas supongo que preguntas por el QSAR. También en ese caso, el modelo se construye normalmente para predecir la actividad de compuestos desconocidos para el modelo, es decir, fuera de los datos de entrenamiento. Es decir, cualquiera que sea la selección de compuestos con la que se entrene, hay que probar con compuestos desconocidos para el modelo. A continuación, se pueden dividir los resultados de las pruebas en función, por ejemplo, de los distintos grupos de compuestos. También puede excluir grupos enteros de compuestos del entrenamiento y comprobar cómo funciona el modelo para este grupo.