Digamos que estoy tratando de predecir, sobre un total de 10 de las características físicas (altura, peso, etc..), si una persona es hombre o mujer. El tamaño de la población es de 150, así que tengo un 150x10 matriz de datos. Voy a construir un árbol de decisión utilizando el rpart paquete , y obtener un 80% de la retrospectiva de precisión para hombres y mujeres. Animado, me proceder a la validación cruzada a través de salir de-50-out: selección aleatoria de 100 individuos a actuar como el conjunto de entrenamiento para el árbol de decisión y 50 individuos para actuar como el conjunto de pruebas. La exactitud de la predicción se guarda como un dos vector columna (pred. la precisión para los varones, pred. la precisión de las hembras). Me repito 1000 veces, y la parcela resultante 1000x2 de la matriz. No sé qué hacer con el patrón resultante (que se adjunta también una parcela de 10.000 iteraciones para que el patrón que estoy hablando puede ser más fácil de ver). Es simplemente un caso de algún sesgo en el muestreo de la función combinada con los pobres de la capacidad predictiva del modelo?
Edit: Una parcela para la 10k iteraciones, de color basado en la cantidad de varones en el subconjunto de prueba. (Edición #2 - prettyfied a través de ggplot2)
Edit 3 : un diagrama de densidad de los resultados