Scikit Learn Página sobre la selección de modelos menciona el uso de la validación cruzada anidada:
>>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits)
Se realizan dos bucles de validación cruzada en paralelo: uno por el estimador GridSearchCV para establecer gamma y el otro por cross_val_score para medir el rendimiento de predicción del estimador. Las puntuaciones resultantes son estimaciones insesgadas de la puntuación de la predicción en los nuevos datos.
Por lo que tengo entendido, clf.fit
utilizará la validación cruzada de forma nativa para determinar la mejor gamma. En ese caso, ¿por qué tendríamos que utilizar cv anidado como se indica más arriba? La nota menciona que cv anidado produce "estimaciones insesgadas" de la puntuación de predicción. ¿No ocurre lo mismo con clf.fit
?
Además, no he podido obtener las mejores estimaciones clf del cross_validation.cross_val_score(clf, X_digits, y_digits)
procedimiento. ¿Podría indicarme cómo hacerlo?