11 votos

Hay sobreajuste en este enfoque modellng

Hace poco me dijeron que el proceso que he seguido (componente de una de MS Tesis) podría ser visto como más ajustada. Estoy buscando para obtener una mejor comprensión de este y ver si los demás están de acuerdo.

El objetivo de esta parte del documento es

  • Comparar el rendimiento de Gradiente Impulsado Árboles de Regresión contra Bosques aleatorios en un conjunto de datos.

  • Mira el rendimiento de la final del modelo elegido (GBM o RF).

El gbm y randomForest paquetes en R se utilizan, junto con
caret.

El proceso seguido fue el siguiente:

  • Preliminar de pre-procesamiento de los datos (por ejemplo, el taponamiento de los valores perdidos de la tensión nominal de los predictores con una categoría distinta llamada "Perdidos"). La variable objetivo no era mirado con respecto a cualquier pre-procesamiento (que era muy mínima).
  • Crear una cuadrícula de valores para el meta-parámetros de cada algoritmo (por ejemplo, el número de iteraciones para GBM).
  • Crear 25 al azar se divide el conjunto de datos (65% de la formación y el 35% de la prueba).

Repetir 25 veces el siguiente para GBM (Cada vez que la utilización de uno de los aleatorios de tren/prueba de la división. Cada vez, que de entrenamiento y de prueba son "actuales" de los cambios de curso - esto se repite dejar-grupo-out cross validation):

  • Uso 5 veces validación cruzada para encontrar el "óptimo" ajustes de los parámetros del algoritmo a través de la cuadrícula de búsqueda. Nada de antes de ejecuta utilizados en la ejecución actual.
  • Una vez determinado, se ajustan a un modelo para la plena "actual" conjunto de entrenamiento y de predecir el "actual" de la prueba de conjunto. Aparte de la medida de rendimiento de esta carrera.

Una vez que el 25 de medidas de desempeño (en realidad un dominio específico de la medida, pero pensar en él como exactitud) son obtenidos de esta manera, seguir exactamente el mismo proceso, y utiliza las mismas muestras independientes de tren y de la prueba, para la RF (con el mismo proceso, sólo que con diferentes cuadrícula de la búsqueda por supuesto).

Ahora,tengo 25 medidas de rendimiento de la entonces "actual" conjuntos de pruebas para GBM y RF. Se podría comparar con una de Wilcoxon Signed Rank Test y también una prueba de permutación. He encontrado GBM ser superior. Yo también afirmó que la distribución de la medida de rendimiento de estos 25 pistas para GBM es el rendimiento esperado de la final GBM clasificador.

Lo que yo no hice, fue para sacar una al azar de prueba desde el principio y déjela a un lado para ser comparado con el último modelo de GBM construido a partir de todos los datos de entrenamiento. Yo sostengo que lo que hice fue mucho mejor de como lo he repetido la división de datos / tune / modelo de prueba en espera de un proceso de 25 veces en comparación con sólo una vez.

Hay más ajustada aquí? Desde el 25 de carreras fueron utilizados para seleccionar GBM frente a RF eso no significa que las medidas de rendimiento que adquirió desde el proceso no puede ser utilizado como el rendimiento de la estimación del modelo completo?

EDITAR En respuesta a Wayne comentario, aquí es lo que se hizo durante cada uno de los 25 pistas:

  1. Los datos de la muestra para la i-ésima conjunto de entrenamiento (i=1,..,25) se dividen en 5 grupos de igual tamaño. Un modelo que se ajuste con 4 de los 5 grupos, estableciendo el GBM parámetros (por ejemplo, el número de iteraciones), igual a los valores de la j (j=1,..,18) de la cuadrícula.
  2. El rendimiento en el 5º grupo fue calculado utilizando este modelo.
  3. Los pasos 1 y 2 se repiten 4 veces más (regular viejo k-fold CV con k=5). La actuación fue en promedio de los 5 sub-ejecuta y esto hizo que el rendimiento esperado de GBM con que cierto conjunto de valores de parámetros.
  4. Pasos del 1 al 3 se repite para los otros 17 "filas" en la red.

Una vez completado, los mejores valores de los parámetros del ejercicio anterior se determinaron y una GBM se ajuste utilizando los valores de estos parámetros y la completa on del conjunto de entrenamiento. Su rendimiento fue estimado en la i-ésima prueba de conjunto.

Una vez que todo este proceso se llevó a cabo el 25 veces, hubo 25 medidas de rendimiento disponibles para GBM. Luego de que se reunieron para la RF en la misma forma.

Después de comparar y elegir GBM, la miré a los 25 medidas de rendimiento y tomó la media y la Stnd de Error para determinar un intervalo de confianza para un modelo de GBM en este tipo de datos.

5voto

Jason Abate Puntos 421

Imagine que en lugar de simplemente seleccionar GBM vs RF, en su lugar, elegir entre más de 100 diferentes GBM clasificadores (suponiendo GBM formación utiliza algún tipo de aleatoriedad, y se les asignan al azar semillas de 1 a 100). A continuación, se quedaría con uno de esos 100 GBMs como el mejor de GBM. Pero es casi seguro que el caso de que uno de 100 modelos que has elegido tiene suerte para vencer a sus 99 hermanos, por lo que su rendimiento estimación optimista.

Sólo utilizó dos estudiantes, y ellos no estaban capacitados por idéntica de un algoritmo, de modo que su único GBM probablemente no tenía la presión de selección sobre él (sobre todo si se superó radicalmente el RF), pero su error de estimación es todavía va a ser un poco optimista.

3voto

Loren Pechtel Puntos 2212

Suena como si hubieras tratado de la mezcla de dos técnicas, cada una de las cuales es legítimo, pero la forma en que has hecho se siente como si usted va a terminar con filtraciones de datos entre los casos.

En el nivel inferior, parecen estar utilizando CV correctamente. Lo que podría sugerir que el nivel superior también debe ser un CV, lo que resulta en un anidada CV, pero su nivel superior no está CV.

En el nivel superior, suena como que podría haber querido hacer un bootstrap de validación, en cuyo caso un doble-bootstrap trabajo para la parte superior y los niveles inferiores, pero su nivel superior no es una adecuada bootstrap.

Es posible que desee buscar en este stackexchange artículo. y los artículos a los que se vincula, y tal vez la reestructuración de su nivel superior para ser un CV. También, tenga en cuenta que no es otro que Frank Harrell comentarios en ese hilo y sugiere que la CV se repite una gran cantidad de veces. (Yo estaba sorprendido, pensando que una repetición debe hacerlo.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X