5 votos

Sesgo en la selección del modelo clasificador

Decir que tengo un conjunto de clasificador de modelos, cada generado mediante la selección de características en el interior de la repetición de una k-fold cross-validation. Cada clasificador modelo es generado a partir de un conjunto diferente de parámetros de regularización o hyperparameters.

Entiendo que la elección de la "mejor" modelo de este conjunto, es decir, que los rendimientos de los mejores k-fold cross validation clasicación estimar podría producir un optimista estimación sesgada de la generalizada rendimiento. Sin embargo, es el sesgo evitarse si el rendimiento final de la estimación, se basa en un repetido k-fold cross validation con las características y hyperparameters seleccionado anteriormente?

He encontrado este procedimiento (10 pliegues, 10 repeticiones) funciona bien en la práctica (modelo parece estable en realmente invisible de datos) en un conjunto de datos con los Casos > Características, sin embargo me pregunto si alguno de los restantes sesgo podría ser considerada inaceptable? Sospecho que este procedimiento es menos aceptable en el caso de que las Características de >> los Casos

Mi pregunta está relacionada con la Formación, con el completo conjunto de datos después de la validación cruzada?

Disculpas si esta pregunta parece ignorante o repite el material discutido en otra parte.

6voto

John Richardson Puntos 1197

La pregunta clave es "tener los ejemplos de la prueba en la final de validación cruzada sido involucrados en la selección de cualquier aspecto de la modelo"; si la respuesta es "sí", entonces el rendimiento de estimación de probabilidades de ser sesgada. Si la respuesta es "no", entonces es probable que sea imparcial.

Por ejemplo anidada de validación cruzada es buena (como todas las opciones de modelo se determinan utilizando sólo los ejemplos en la "formación" de la partición de la parte exterior de validación cruzada. Si el uso repetido de validación cruzada para establecer el hyper-parámetros o seleccionar funciones y, a continuación, el uso repetido de validación cruzada (utilizando un conjunto diferente de azar partitionings), a continuación, que le dará una visión sesgada de rendimiento de la estimación, ya que todos los datos han influido en una decisión sobre el modelo evaluado por el segundo de validación cruzada.

2voto

Heather Puntos 21

Hay una diferencia entre repetidas de validación cruzada y nested-validación cruzada. El último es útil para la determinación de hyper-parámetros y la selección de características.

He visto un par de artículos recientes sobre el sesgo de la varianza implicaciones de repetirse la validación cruzada. Rodríguez y Lozano (IEEE T. PAMI 2010) prueba artificiales conjuntos de datos (basado en parameterisations de un único modelo de mezcla) y a la conclusión de que se repite la validación cruzada es útil y reduce la varianza, mientras que el interior de k-fold cross-validation da un equilibrio entre el sesgo y la varianza (con k = 5 o 10 recomendado para la comparación de algoritmos como un razonable equilibrio) - que se utiliza 10 repeticiones, pero nada de 2 o de 3 a 20 o 30 es razonable en mi experiencia. El exacto equilibrio y la relación con el "verdadero" precisión depende del conjunto de datos.

Vanwinckelen y Blockeel (2012) explorar con 9 de los más grandes conjuntos de datos de la UCI, con subconjuntos de 200 y 1000 utilizados para la validación cruzada, y la totalidad del conjunto de datos utilizado para aproximar la población total. 10-CV normalmente todos, pero un par de "verdadero" precisiones están dentro del intervalo de confianza determinado por el 10-CV, pero para 10x10-CV y 30x10-CV todos, pero un par se encuentran fuera del intervalo de confianza. También para todos, pero un par, la diferencia entre el estimado y verdadero precisión es mejor para el 1000 de las 200 muestras. Estos conjuntos de datos varían en tamaño (y ya se puede utilizar el 30% de los datos) por lo que su representatividad de la población es una suposición injustificada, y este uso es, pues, de hecho, también artificial. Pero los resultados contradictorios de los dos papeles, no obstante, no parece válido para sus datos, sin embargo, pienso que la verdad, y el enfoque ideal, se encuentra en algún lugar entre.

Para CxK-CV aumento de C por un factor de cuatro mitades el tamaño del intervalo de confianza. Pero usted todavía está utilizando los mismos datos de diferentes maneras, y esta aparente reducción de la variación en la final llegan a ser cada vez más falsas (porque la independencia supuesto es violado). Para los datos artificiales con el simple modelo de mezcla en el primer estudio, 10x10-CV parece permanecer dentro de la gama útil, pero para la mayoría de los conjuntos de datos reales, el 10 repeticiones parece ya demasiado.

Yo tiendo a usar 2x5-CV (no 5x2-CV según lo recomendado por Dietterich) si no estoy demasiado apretado en los datos. Donde realmente estamos escarbando para la cantidad suficiente de datos (en muy grande muy difícil de procesamiento de señal de problemas), pero no puede permitirse el lujo de hacer LOO, utilizamos Cx20-CV con C hasta 10, pero el uso de una temprana parada significado, la estimación técnica parar cuando no hay una mejora significativa que se puede esperar, normalmente, evitando la mitad de las pistas, lo que sugiere que la C de 5 es suficiente. Ver: David M W Poderes y Adham Atyabi, "El Problema de la Validación Cruzada: un Promedio de Prejuicios, Reptition y Significado", de la Primavera Congreso Mundial de Ingeniería y Tecnología, en Xian, China, en Mayo de 2012, IEEE, Estados Unidos, V2:93-97

Lo que falta en este momento es una buena manera de ver cómo muchas repeticiones son útiles, y cuando la reducción en la varianza creciente CxK-CV pretende lograr en realidad deja de ser real. La repetición contar C de 5 es un compromiso entre el por y en contra de las recomendaciones de los dos artículos que he citado anteriormente, y con el original de la varianza para el intervalo de confianza, y la repetición sólo para mejorar la estimación, es una sugerencia de la agin de papel. Pero realmente necesitamos un método de evaluación cuando esta es, una de las primeras parada técnica como en nuestro papel que evita ser engañados por una subestimación - aunque no vimos ninguna señal de esto en nuestros estudios en datos reales, que realmente no tienen forma de saber como se utilizó toda la información disponible para el CxK-CV.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X