10 votos

Comparación de las distribuciones de rendimiento de generalización

Decir que tengo dos métodos de aprendizaje para una clasificación de problema, $A$$B$, y que estimo sus generalización de rendimiento con algo como repite validación cruzada o bootstrapping. A partir de este proceso puedo obtener una distribución de puntuaciones $P_A$ $P_B$ por cada método, a través de estas repeticiones (por ejemplo, la distribución de los valores de AUC ROC para cada modelo).

Mirando estas distribuciones, puede ser que $\mu_A \ge \mu_B$ pero $\sigma_A \ge \sigma_B$ (es decir, el esperado rendimiento de la generalización de $A$ es superior a la de $B$, pero que hay más incertidumbre sobre esta estimación).

Creo que este es el llamado sesgo de la varianza dilema en la regresión.

¿Qué métodos matemáticos puedo utilizar para comparar los $P_A$ $P_B$ y, finalmente, tomar una decisión informada sobre cuál es el modelo a utilizar?

Nota: en aras de la simplicidad, me estoy refiriendo a los dos métodos de $A$ $B$ aquí, pero estoy interesado en métodos que pueden ser utilizados para comparar la distribución de las puntuaciones de ~1000 métodos de aprendizaje (por ejemplo, a partir de una cuadrícula de búsqueda) y, finalmente, tomar una decisión final sobre el modelo a utilizar.

2voto

John Richardson Puntos 1197

Si sólo hay dos métodos a y B, me gustaría calcular la probabilidad de que para un arbitrario de entrenamiento/prueba de partición que el error (según algunos adecuado de las métricas de rendimiento) para el modelo a fue menor que el error para el modelo B. Si esta probabilidad fue mayor que 0.5, yo elegí el modelo de Una y de otra manera, el modelo B (c.f. Prueba de Mann-Whitney?) Sin embargo, tengo la fuerte sospecha de que va a terminar hasta la elección de la modelo con la media más baja, a menos que las distribuciones de las estadísticas de rendimiento son muy asimétricas.

La red de búsqueda por otro lado, la situación es un poco diferente como usted no está realmente en la comparación de los diferentes métodos, pero en lugar de sintonía de la (hiper-) parámetros del mismo modelo para que se ajuste de una muestra finita de datos (en este caso indirectamente a través de la validación cruzada). He encontrado que este tipo de tuning puede ser muy propenso a la sobre-ajuste, véase mi artículo

Gavin C. Cawley, Nicola L. C. Talbot, "En Más de ajuste en el Modelo de Selección y Posterior Sesgo de Selección en la Evaluación de Desempeño", Revista de la Máquina de Aprendizaje de la Investigación, 11(Julio):2079-2107, 2010. (www)

Tengo un papel en la revisión que muestra que es probablemente la mejor manera de utilizar un relativamente gruesa de la cuadrícula para el kernel de máquinas (por ejemplo, SVMs) para evitar la sobre-ajuste del modelo criterio de selección. Otro enfoque (que no lo he investigado, por lo que caveat lector!) sería elegir el modelo con el mayor error que no es estadísticamente inferior a la mejor modelo encontrado en la red de búsqueda (a pesar de que puede ser un enfoque pesimista, especialmente para los pequeños conjuntos de datos).

La verdadera solución, aunque no es probablemente para optimizar los parámetros a través de la cuadrícula de búsqueda, pero el promedio de los valores de los parámetros, ya sea en un enfoque Bayesiano, o simplemente como un conjunto de método. Si no optimizar, es más difícil de sobre-ajuste!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X