6 votos

Dejar uno-Cruz validación y potenciado árboles de regresión

Algunos de mis colegas han presentado recientemente un trabajo donde calibrar impulsado árboles de regresión (BRT) modelos en pequeños conjuntos de datos ($n= 30$). Se validan los modelos de uso de leave-one-out cross validation (LOOCV) usando R2, RMSPE y DPR índices. También se proporcionaron estos índices calculados por la formación y la validación del modelo sobre el conjunto de datos completo. El R2, RMSPE y la RPD de los valores obtenidos a través de LOOCV eran casi exactamente igual a la R2, RMSPE y la RPD de los valores obtenidos a la hora de validar en el conjunto de datos de entrenamiento.

Mis preguntas son :

  • Es un resultado esperado para LOOCV en BRT?

  • Es esto debido a que el BRT es relativamente insensible a los valores atípicos (y a personas solteras?) eso sin contar con que un individuo durante LOOCV no hacer una diferencia, proporcionando casi similar calibrado de los modelos con las mismas mediciones de desempeño de los individuos excluidos?

  • En ese caso, ¿LOOCV para el BRT tiene ningún sentido, en comparación con el repetido k veces CV con $k < n$?

Gracias de antemano

4voto

ESRogs Puntos 1381

Es difícil decir sin datos, pero el conjunto puede ser "demasiado homogéneo" para hacer LOO trabajo -- imagine que usted tiene un conjunto $X$ y duplicar todos los objetos para hacer un set $X_d$ -, mientras que el BRT suelen tener muy buena precisión en su tren, es bastante obvio que LOO en $X_d$ probablemente le dará resultados idénticos a los de la prueba-en el tren -.

Así que si la exactitud si bien me atrevería a tratar de remuestreo CV (en cada uno de digamos 10 pliegues de realizar tren de igual tamaño que el conjunto completo mediante el muestreo de los objetos con la sustitución y la prueba de los objetos que no fueron colocadas en tren; esto se debe escupir en alrededor de 1:2 proporción) en este tipo de datos para verificar este resultado.

EDIT: Más precisos algoritmo de remuestreo CV

Dado un conjunto de datos con $N$ objetos y $M$ atributos:

  1. Conjunto de entrenamiento se realiza mediante la selección aleatoria de los $N$ objetos de la serie original con el reemplazo
  2. Los objetos que no fueron seleccionados en el paso 1 del formulario de la prueba de conjunto (esto es aproximadamente el $\frac{1}{3}N$ objetos)
  3. Clasificador entrenado en un tren y probado en la prueba de conjunto, y la medida de error se reunieron
  4. Los pasos 1 al 3 se repiten $T$ veces $T$ es más o menos arbitraria, digamos 10, 15 o 30

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X