Lo más sencillo sería ajustar un proceso gaussiano con la función de covarianza no-ARD (usualmente la RBF) y comparar las tasas de error de prueba. Para muchos problemas, una función de covarianza ARD funciona peor que una función de covarianza no-ARD debido al sobreajuste en la sintonización de los hiperparámetros. Dado que la covarianza RBF es un caso especial de la covarianza ARD, si la RBF funciona mejor, es una fuerte indicación de que el núcleo ARD está sobreajustando (comience a optimizar los coeficientes ARD en los valores óptimos para la covarianza RBF correspondiente, esto es más rápido y también ayuda a asegurar que el problema con la covarianza ARD no se deba simplemente a mínimos locales en la verosimilitud marginal). Este es un problema mucho más grande de lo que generalmente se aprecia.
He escrito un par de artículos sobre esto:
G. C. Cawley y N. L. C. Talbot, Prevención del sobreajuste durante la selección del modelo a través de la regularización bayesiana de los hiperparámetros, Journal of Machine Learning Research, volumen 8, páginas 841-861, abril de 2007 (pdf)
y
G. C. Cawley y N. L. C. Talbot, Sobreajuste en la selección del modelo y sesgo de selección subsecuente en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Investigación, vol. 11, pp. 2079-2107, julio de 2010 (pdf)
El primero incluye algunos experimentos con GPs, que muestran que el sobreajuste en la selección del modelo también es un problema para GPs con selección de modelo basada en la maximización de la verosimilitud marginal.
Un análisis más exhaustivo sería evaluar el error de prueba del GP en cada paso del proceso de optimización de la verosimilitud marginal. Es muy probable que obtenga la característica señal de sobreajuste, donde el criterio de selección del modelo disminuye de forma monótona, pero el error de prueba inicialmente disminuye, pero luego comienza a aumentar nuevamente a medida que se sobreoptimiza el criterio de selección del modelo (cf. Figura 2a en el artículo de JMLR de 2010).