6 votos

Medición de la significación estadística de la comparación de algoritmos de aprendizaje automático

Consideremos una comparación de dos algoritmos de aprendizaje automático (A y B) en un conjunto de datos. Los resultados (error medio cuadrático) de ambos algoritmos dependen de una aproximación inicial generada aleatoriamente (parámetros).

Preguntas:

  1. Cuando utilizo los mismos parámetros para ambos algoritmos, "normalmente" A supera ligeramente a B. ¿Cuántos experimentos diferentes ( con diferentes parámetros / actualizado / ) tengo que realizar para estar "seguro" de que A es mejor que B?
  2. ¿Cómo medir la importancia de mis resultados? (¿Hasta qué punto estoy "seguro"?)

¡Los enlaces relevantes son bienvenidos!

PS. He visto artículos en los que los autores utilizan la prueba t y el valor p; pero no estoy seguro de si es correcto utilizarlos en una situación como ésta.

ACTUALIZACIÓN. El problema es que A (casi) siempre supera a B si los parámetros iniciales y los conjuntos de aprendizaje/validación/prueba son los mismos; pero no necesariamente si difieren.

Veo los siguientes enfoques aquí:

  • dividir los datos en conjuntos disjuntos D_1, D_2, ...; generar parámetros params_1; comparar A(params_1, D_2, ...,) y B(params_1, D_2, ...,) en D_1; generar params_2; comparar A(params_2, D_1, D_3,...) y B(params_2, D_1, D_3,...) en D_2 y así sucesivamente. Recuerda la frecuencia con la que A supera a B.

  • dividir los datos en conjuntos disjuntos D_1, D_2, ...; generar los parámetros params_1a y params_1b; comparar A(params_1a, D_2, ...,) y B(params_1b, D_2, ...,) en D_1; .... Recuerda la frecuencia con la que A supera a B.

  • Primero, haga una validación cruzada para A. Luego, independientemente, para B. Compare los resultados.

¿Qué enfoque es mejor? ¿Cómo encontrar la importancia del resultado en este mejor caso?

4voto

ESRogs Puntos 1381
  1. Aquí hay que eliminar dos sesgos: la selección del conjunto de parámetros iniciales y la selección de los datos de entrenamiento/prueba. Por lo tanto, no creo que sea bueno comparar los algoritmos basados en el mismo conjunto de parámetros iniciales; yo sólo ejecutaría la evaluación sobre algunos conjuntos iniciales diferentes para cada uno de los algoritmos para obtener una aproximación más general. El siguiente paso es algo que probablemente ya esté haciendo, así que utilice algún tipo de validación cruzada.
  2. La prueba t es una forma de hacerlo (asumo que está obteniendo esta RMS como una media de la validación cruzada [y la evaluación sobre algunos parámetros iniciales diferentes, suponiendo que decidió utilizar mi primera sugerencia], por lo que también puede calcular la desviación estándar); un método más elegante es utilizar la prueba de Mann-Whitney-Wilcoxon.

Artículo de Wikipedia sobre la validación cruzada es bastante agradable y tiene algunas referencias que vale la pena leer.

ACTUALIZACIÓN TRAS ACTUALIZACIÓN : Sigo pensando que hacer la prueba por parejas (a la manera de Dikran) parece sospechoso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X