17 votos

La elección de la complejidad de parámetros en el CARRITO

En el rpart() rutina para crear modelos de CARRITO, se debe especificar la complejidad de parámetro que desea podar su árbol. He visto dos diferentes recomendaciones para la elección de la complejidad de los parámetros:

  1. Elija la complejidad parámetro asociado con el mínimo posible de la cruz-validado error. Este método es recomendado por Quick-R y HSAUR.

  2. Elija el mayor complejidad parámetro cuyo estimación de la cruz-validado error es todavía dentro de un SE de el mínimo posible de la cruz-validado error. Esta es mi interpretación de la documentación del paquete, que dice: "Una buena opción de cp para la poda es a menudo el valor de la izquierda para que la media se encuentra por debajo de la línea horizontal", en referencia a esta parcela.

Las dos opciones de cp producir muy diferentes de árboles en mis datos.

Parece que el primer método siempre producirá una más compleja, potencialmente overfitted, árbol. Hay otras ventajas, desventajas, las recomendaciones en la literatura, etc. Que debo tener en cuenta a la hora de decidir qué método utilizar? Me puede dar más información acerca de mi problema del modelo si que sería útil, pero estoy tratando de mantener a esta pregunta lo suficientemente amplia como para ser relevante para otros.

8voto

Brian J Puntos 11

En la práctica he visto ambos enfoques, y creo que en general los resultados no se espera que difieren mucho de cualquier manera.

Dicho esto, Hastie et al recomendar el "error estándar" de la regla en los Elementos de Aprendizaje Estadístico, y tiendo a confiar en su juicio (Sección 7.10, pg. 244 en mi versión). La comilla es:

A menudo un "error estándar" se usa la regla con la validación cruzada, en la que podemos elegir el modelo más parsimonioso cuyo error no es más que un error estándar por encima de la de error de la mejor modelo".

Su intuición de por qué a uno le sigue el error estándar de la regla se haga lo haría para evitar la selección de un modelo que overfits los datos.

1voto

Ayman Hijazy Puntos 1

Primero debe iniciar mediante el uso de los argumentos minsplit=0 y cp=0 (complejidad parámetro), a continuación, utilizar la función plotcp(T.max) y printcp(T.max) elegir el valor de cp correspondiente al mínimo el error relativo y podar el árbol de la función prune.rpart(T.max, cp=....)

Esto debería ir en el óptimo de árbol de clasificación, ya que tienden a ser demasiado optimistas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X