La elección de la complejidad de parámetros en el CARRITO

Question

La elección de la complejidad de parámetros en el CARRITO

Preguntado el 9 de Octubre, 2012: Cuando se hizo la pregunta
4018 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

En el rpart() rutina para crear modelos de CARRITO, se debe especificar la complejidad de parámetro que desea podar su árbol. He visto dos diferentes recomendaciones para la elección de la complejidad de los parámetros:

Elija la complejidad parámetro asociado con el mínimo posible de la cruz-validado error. Este método es recomendado por Quick-R y HSAUR.
Elija el mayor complejidad parámetro cuyo estimación de la cruz-validado error es todavía dentro de un SE de el mínimo posible de la cruz-validado error. Esta es mi interpretación de la documentación del paquete, que dice: "Una buena opción de cp para la poda es a menudo el valor de la izquierda para que la media se encuentra por debajo de la línea horizontal", en referencia a esta parcela.

Las dos opciones de cp producir muy diferentes de árboles en mis datos.

Parece que el primer método siempre producirá una más compleja, potencialmente overfitted, árbol. Hay otras ventajas, desventajas, las recomendaciones en la literatura, etc. Que debo tener en cuenta a la hora de decidir qué método utilizar? Me puede dar más información acerca de mi problema del modelo si que sería útil, pero estoy tratando de mantener a esta pregunta lo suficientemente amplia como para ser relevante para otros.

Preguntado el 9 de Octubre, 2012 por Roger Willcocks

Answer 1

2 Respuestas

Answer 2

8voto

Brian J Puntos 11

En la práctica he visto ambos enfoques, y creo que en general los resultados no se espera que difieren mucho de cualquier manera.

Dicho esto, Hastie et al recomendar el "error estándar" de la regla en los Elementos de Aprendizaje Estadístico, y tiendo a confiar en su juicio (Sección 7.10, pg. 244 en mi versión). La comilla es:

A menudo un "error estándar" se usa la regla con la validación cruzada, en la que podemos elegir el modelo más parsimonioso cuyo error no es más que un error estándar por encima de la de error de la mejor modelo".

Su intuición de por qué a uno le sigue el error estándar de la regla se haga lo haría para evitar la selección de un modelo que overfits los datos.

Respondido el 17 de Agosto, 2015 por Brian J (11 Puntos )

Answer 3

1voto

Ayman Hijazy Puntos 1

Primero debe iniciar mediante el uso de los argumentos minsplit=0 y cp=0 (complejidad parámetro), a continuación, utilizar la función plotcp(T.max) y printcp(T.max) elegir el valor de cp correspondiente al mínimo el error relativo y podar el árbol de la función prune.rpart(T.max, cp=....)

Esto debería ir en el óptimo de árbol de clasificación, ya que tienden a ser demasiado optimistas.

Respondido el 5 de Octubre, 2015 por Ayman Hijazy (1 Puntos )

La elección de la complejidad de parámetros en el CARRITO

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

La elección de la complejidad de parámetros en el CARRITO

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: