En el rpart() rutina para crear modelos de CARRITO, se debe especificar la complejidad de parámetro que desea podar su árbol. He visto dos diferentes recomendaciones para la elección de la complejidad de los parámetros:
Elija la complejidad parámetro asociado con el mínimo posible de la cruz-validado error. Este método es recomendado por Quick-R y HSAUR.
Elija el mayor complejidad parámetro cuyo estimación de la cruz-validado error es todavía dentro de un SE de el mínimo posible de la cruz-validado error. Esta es mi interpretación de la documentación del paquete, que dice: "Una buena opción de cp para la poda es a menudo el valor de la izquierda para que la media se encuentra por debajo de la línea horizontal", en referencia a esta parcela.
Las dos opciones de cp producir muy diferentes de árboles en mis datos.
Parece que el primer método siempre producirá una más compleja, potencialmente overfitted, árbol. Hay otras ventajas, desventajas, las recomendaciones en la literatura, etc. Que debo tener en cuenta a la hora de decidir qué método utilizar? Me puede dar más información acerca de mi problema del modelo si que sería útil, pero estoy tratando de mantener a esta pregunta lo suficientemente amplia como para ser relevante para otros.