Hace poco me dijeron que el proceso que he seguido (componente de una de MS Tesis) podría ser visto como más ajustada. Estoy buscando para obtener una mejor comprensión de este y ver si los demás están de acuerdo.
El objetivo de esta parte del documento es
Comparar el rendimiento de Gradiente Impulsado Árboles de Regresión contra Bosques aleatorios en un conjunto de datos.
Mira el rendimiento de la final del modelo elegido (GBM o RF).
El gbm
y randomForest
paquetes en R se utilizan, junto concaret
.
El proceso seguido fue el siguiente:
- Preliminar de pre-procesamiento de los datos (por ejemplo, el taponamiento de los valores perdidos de la tensión nominal de los predictores con una categoría distinta llamada "Perdidos"). La variable objetivo no era mirado con respecto a cualquier pre-procesamiento (que era muy mínima).
- Crear una cuadrícula de valores para el meta-parámetros de cada algoritmo (por ejemplo, el número de iteraciones para GBM).
- Crear 25 al azar se divide el conjunto de datos (65% de la formación y el 35% de la prueba).
Repetir 25 veces el siguiente para GBM (Cada vez que la utilización de uno de los aleatorios de tren/prueba de la división. Cada vez, que de entrenamiento y de prueba son "actuales" de los cambios de curso - esto se repite dejar-grupo-out cross validation):
- Uso 5 veces validación cruzada para encontrar el "óptimo" ajustes de los parámetros del algoritmo a través de la cuadrícula de búsqueda. Nada de antes de ejecuta utilizados en la ejecución actual.
- Una vez determinado, se ajustan a un modelo para la plena "actual" conjunto de entrenamiento y de predecir el "actual" de la prueba de conjunto. Aparte de la medida de rendimiento de esta carrera.
Una vez que el 25 de medidas de desempeño (en realidad un dominio específico de la medida, pero pensar en él como exactitud) son obtenidos de esta manera, seguir exactamente el mismo proceso, y utiliza las mismas muestras independientes de tren y de la prueba, para la RF (con el mismo proceso, sólo que con diferentes cuadrícula de la búsqueda por supuesto).
Ahora,tengo 25 medidas de rendimiento de la entonces "actual" conjuntos de pruebas para GBM y RF. Se podría comparar con una de Wilcoxon Signed Rank Test y también una prueba de permutación. He encontrado GBM ser superior. Yo también afirmó que la distribución de la medida de rendimiento de estos 25 pistas para GBM es el rendimiento esperado de la final GBM clasificador.
Lo que yo no hice, fue para sacar una al azar de prueba desde el principio y déjela a un lado para ser comparado con el último modelo de GBM construido a partir de todos los datos de entrenamiento. Yo sostengo que lo que hice fue mucho mejor de como lo he repetido la división de datos / tune / modelo de prueba en espera de un proceso de 25 veces en comparación con sólo una vez.
Hay más ajustada aquí? Desde el 25 de carreras fueron utilizados para seleccionar GBM frente a RF eso no significa que las medidas de rendimiento que adquirió desde el proceso no puede ser utilizado como el rendimiento de la estimación del modelo completo?
EDITAR En respuesta a Wayne comentario, aquí es lo que se hizo durante cada uno de los 25 pistas:
- Los datos de la muestra para la i-ésima conjunto de entrenamiento (i=1,..,25) se dividen en 5 grupos de igual tamaño. Un modelo que se ajuste con 4 de los 5 grupos, estableciendo el GBM parámetros (por ejemplo, el número de iteraciones), igual a los valores de la j (j=1,..,18) de la cuadrícula.
- El rendimiento en el 5º grupo fue calculado utilizando este modelo.
- Los pasos 1 y 2 se repiten 4 veces más (regular viejo k-fold CV con k=5). La actuación fue en promedio de los 5 sub-ejecuta y esto hizo que el rendimiento esperado de GBM con que cierto conjunto de valores de parámetros.
- Pasos del 1 al 3 se repite para los otros 17 "filas" en la red.
Una vez completado, los mejores valores de los parámetros del ejercicio anterior se determinaron y una GBM se ajuste utilizando los valores de estos parámetros y la completa on del conjunto de entrenamiento. Su rendimiento fue estimado en la i-ésima prueba de conjunto.
Una vez que todo este proceso se llevó a cabo el 25 veces, hubo 25 medidas de rendimiento disponibles para GBM. Luego de que se reunieron para la RF en la misma forma.
Después de comparar y elegir GBM, la miré a los 25 medidas de rendimiento y tomó la media y la Stnd de Error para determinar un intervalo de confianza para un modelo de GBM en este tipo de datos.