Hay sobreajuste en este enfoque modellng

Question

Hay sobreajuste en este enfoque modellng

Preguntado el 22 de Abril, 2013: Cuando se hizo la pregunta
483 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Hace poco me dijeron que el proceso que he seguido (componente de una de MS Tesis) podría ser visto como más ajustada. Estoy buscando para obtener una mejor comprensión de este y ver si los demás están de acuerdo.

El objetivo de esta parte del documento es

Comparar el rendimiento de Gradiente Impulsado Árboles de Regresión contra Bosques aleatorios en un conjunto de datos.
Mira el rendimiento de la final del modelo elegido (GBM o RF).

El gbm y randomForest paquetes en R se utilizan, junto con
caret.

El proceso seguido fue el siguiente:

Preliminar de pre-procesamiento de los datos (por ejemplo, el taponamiento de los valores perdidos de la tensión nominal de los predictores con una categoría distinta llamada "Perdidos"). La variable objetivo no era mirado con respecto a cualquier pre-procesamiento (que era muy mínima).
Crear una cuadrícula de valores para el meta-parámetros de cada algoritmo (por ejemplo, el número de iteraciones para GBM).
Crear 25 al azar se divide el conjunto de datos (65% de la formación y el 35% de la prueba).

Repetir 25 veces el siguiente para GBM (Cada vez que la utilización de uno de los aleatorios de tren/prueba de la división. Cada vez, que de entrenamiento y de prueba son "actuales" de los cambios de curso - esto se repite dejar-grupo-out cross validation):

Uso 5 veces validación cruzada para encontrar el "óptimo" ajustes de los parámetros del algoritmo a través de la cuadrícula de búsqueda. Nada de antes de ejecuta utilizados en la ejecución actual.
Una vez determinado, se ajustan a un modelo para la plena "actual" conjunto de entrenamiento y de predecir el "actual" de la prueba de conjunto. Aparte de la medida de rendimiento de esta carrera.

Una vez que el 25 de medidas de desempeño (en realidad un dominio específico de la medida, pero pensar en él como exactitud) son obtenidos de esta manera, seguir exactamente el mismo proceso, y utiliza las mismas muestras independientes de tren y de la prueba, para la RF (con el mismo proceso, sólo que con diferentes cuadrícula de la búsqueda por supuesto).

Ahora,tengo 25 medidas de rendimiento de la entonces "actual" conjuntos de pruebas para GBM y RF. Se podría comparar con una de Wilcoxon Signed Rank Test y también una prueba de permutación. He encontrado GBM ser superior. Yo también afirmó que la distribución de la medida de rendimiento de estos 25 pistas para GBM es el rendimiento esperado de la final GBM clasificador.

Lo que yo no hice, fue para sacar una al azar de prueba desde el principio y déjela a un lado para ser comparado con el último modelo de GBM construido a partir de todos los datos de entrenamiento. Yo sostengo que lo que hice fue mucho mejor de como lo he repetido la división de datos / tune / modelo de prueba en espera de un proceso de 25 veces en comparación con sólo una vez.

Hay más ajustada aquí? Desde el 25 de carreras fueron utilizados para seleccionar GBM frente a RF eso no significa que las medidas de rendimiento que adquirió desde el proceso no puede ser utilizado como el rendimiento de la estimación del modelo completo?

EDITAR En respuesta a Wayne comentario, aquí es lo que se hizo durante cada uno de los 25 pistas:

Los datos de la muestra para la i-ésima conjunto de entrenamiento (i=1,..,25) se dividen en 5 grupos de igual tamaño. Un modelo que se ajuste con 4 de los 5 grupos, estableciendo el GBM parámetros (por ejemplo, el número de iteraciones), igual a los valores de la j (j=1,..,18) de la cuadrícula.
El rendimiento en el 5º grupo fue calculado utilizando este modelo.
Los pasos 1 y 2 se repiten 4 veces más (regular viejo k-fold CV con k=5). La actuación fue en promedio de los 5 sub-ejecuta y esto hizo que el rendimiento esperado de GBM con que cierto conjunto de valores de parámetros.
Pasos del 1 al 3 se repite para los otros 17 "filas" en la red.

Una vez completado, los mejores valores de los parámetros del ejercicio anterior se determinaron y una GBM se ajuste utilizando los valores de estos parámetros y la completa on del conjunto de entrenamiento. Su rendimiento fue estimado en la i-ésima prueba de conjunto.

Una vez que todo este proceso se llevó a cabo el 25 veces, hubo 25 medidas de rendimiento disponibles para GBM. Luego de que se reunieron para la RF en la misma forma.

Después de comparar y elegir GBM, la miré a los 25 medidas de rendimiento y tomó la media y la Stnd de Error para determinar un intervalo de confianza para un modelo de GBM en este tipo de datos.

Preguntado el 22 de Abril, 2013 por Psycho Bob

Answer 1

2 Respuestas

Answer 2

5voto

Jason Abate Puntos 421

Imagine que en lugar de simplemente seleccionar GBM vs RF, en su lugar, elegir entre más de 100 diferentes GBM clasificadores (suponiendo GBM formación utiliza algún tipo de aleatoriedad, y se les asignan al azar semillas de 1 a 100). A continuación, se quedaría con uno de esos 100 GBMs como el mejor de GBM. Pero es casi seguro que el caso de que uno de 100 modelos que has elegido tiene suerte para vencer a sus 99 hermanos, por lo que su rendimiento estimación optimista.

Sólo utilizó dos estudiantes, y ellos no estaban capacitados por idéntica de un algoritmo, de modo que su único GBM probablemente no tenía la presión de selección sobre él (sobre todo si se superó radicalmente el RF), pero su error de estimación es todavía va a ser un poco optimista.

Respondido el 22 de Abril, 2013 por Jason Abate (421 Puntos )

Answer 3

3voto

Loren Pechtel Puntos 2212

Suena como si hubieras tratado de la mezcla de dos técnicas, cada una de las cuales es legítimo, pero la forma en que has hecho se siente como si usted va a terminar con filtraciones de datos entre los casos.

En el nivel inferior, parecen estar utilizando CV correctamente. Lo que podría sugerir que el nivel superior también debe ser un CV, lo que resulta en un anidada CV, pero su nivel superior no está CV.

En el nivel superior, suena como que podría haber querido hacer un bootstrap de validación, en cuyo caso un doble-bootstrap trabajo para la parte superior y los niveles inferiores, pero su nivel superior no es una adecuada bootstrap.

Es posible que desee buscar en este stackexchange artículo. y los artículos a los que se vincula, y tal vez la reestructuración de su nivel superior para ser un CV. También, tenga en cuenta que no es otro que Frank Harrell comentarios en ese hilo y sugiere que la CV se repite una gran cantidad de veces. (Yo estaba sorprendido, pensando que una repetición debe hacerlo.)

Respondido el 22 de Abril, 2013 por Loren Pechtel (2212 Puntos )

Hay sobreajuste en este enfoque modellng

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Hay sobreajuste en este enfoque modellng

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: