[editado 21.7.15 8:31 AM CEST]
Supongo que habrá utilizado RF para la clasificación. Porque en este caso, el algoritmo produce árboles completamente crecidos con nodos terminales puros de una sola clase objetivo.
predict(model, data=X_train)
Esta línea de codificación es como un perro persiguiéndose [~66% de] su propia cola. La predicción de cualquier muestra de entrenamiento es la clase de la propia muestra de entrenamiento. Para la regresión RF se detiene si el nodo tiene 5 o menos muestras en él o si el nodo es puro. En este caso, el error de predicción será pequeño, pero no del 0%.
En el aprendizaje automático trabajamos a menudo con grandes espacios de hipótesis. Esto significa que siempre habrá muchas hipótesis/explicaciones/modelos aún no falsados para la estructura de datos de nuestro conjunto de entrenamiento. En la estadística clásica, el espacio de hipótesis suele ser pequeño y, por lo tanto, el ajuste directo del modelo es informativo de acuerdo con una teoría de la probabilidad asumida. En el aprendizaje automático, ¿se relaciona la falta de ajuste directo con la teoría de la probabilidad? sesgo del modelo. El sesgo es la "inflexibilidad" del modelo. No tiene proporcionan en cualquier caso una aproximación del poder de generalización (la capacidad de predecir nuevos acontecimientos). Para los modelos algorítmicos, la validación cruzada es la mejor herramienta para aproximar el poder de generalización, ya que no se formula ninguna teoría. Sin embargo, si fallan los supuestos del modelo de muestreo independiente, el modelo puede ser inútil de todos modos, incluso cuando una validación cruzada bien realizada sugiera lo contrario. Al final, la prueba más sólida es predecir satisfactoriamente una serie de conjuntos de pruebas externas de origen diverso.
Volver a CV: El CV fuera de bolsa suele ser un tipo de CV aceptado. Personalmente, sostengo que OOB-CV proporciona resultados similares a 5-fold-CV, pero se trata de una molestia muy pequeña. Si comparamos, por ejemplo, RF con SVM, entonces OOB-CV no es útil, ya que normalmente evitaríamos utilizar SVM de bolsa. En su lugar, tanto SVM como RF se integrarían exactamente en el mismo esquema de validación cruzada, por ejemplo, 10 veces 10 repeticiones con particiones coincidentes para cada repetición. Cualquier paso de ingeniería de características también necesitaría a menudo una validación cruzada. Para mantener la limpieza, toda la línea de datos podría integrarse en el CV.
Si ajusta su modelo con su conjunto de pruebas (o validación cruzada), estará inflando de nuevo su espacio de hipótesis y el rendimiento de la predicción validada será probablemente demasiado optimista. En su lugar, necesitará un conjunto de calibración (o bucle CV de calibración) para ajustar y un conjunto de validación de prueba (o bucle CV de validación) para evaluar su modelo óptimo final.
En el sentido extremo, su puntuación de validación sólo será imparcial si nunca actúa sobre este resultado, cuando lo vea. Esta es la paradoja de la validación, ya que por qué íbamos a obtener un conocimiento que sólo es cierto si no se actúa en consecuencia. En la práctica, la comunidad acepta de buen grado cierto sesgo de publicación, ya que los investigadores que obtienen una validación demasiado optimista al azar tienen más probabilidades de publicar que aquellos que, por desgracia, obtienen una validación demasiado pesimista. Por eso, a veces no se pueden reproducir los modelos de otros.