Consideremos una comparación de dos algoritmos de aprendizaje automático (A y B) en un conjunto de datos. Los resultados (error medio cuadrático) de ambos algoritmos dependen de una aproximación inicial generada aleatoriamente (parámetros).
Preguntas:
- Cuando utilizo los mismos parámetros para ambos algoritmos, "normalmente" A supera ligeramente a B. ¿Cuántos experimentos diferentes ( con diferentes parámetros / actualizado / ) tengo que realizar para estar "seguro" de que A es mejor que B?
- ¿Cómo medir la importancia de mis resultados? (¿Hasta qué punto estoy "seguro"?)
¡Los enlaces relevantes son bienvenidos!
PS. He visto artículos en los que los autores utilizan la prueba t y el valor p; pero no estoy seguro de si es correcto utilizarlos en una situación como ésta.
ACTUALIZACIÓN. El problema es que A (casi) siempre supera a B si los parámetros iniciales y los conjuntos de aprendizaje/validación/prueba son los mismos; pero no necesariamente si difieren.
Veo los siguientes enfoques aquí:
-
dividir los datos en conjuntos disjuntos D_1, D_2, ...; generar parámetros params_1; comparar A(params_1, D_2, ...,) y B(params_1, D_2, ...,) en D_1; generar params_2; comparar A(params_2, D_1, D_3,...) y B(params_2, D_1, D_3,...) en D_2 y así sucesivamente. Recuerda la frecuencia con la que A supera a B.
-
dividir los datos en conjuntos disjuntos D_1, D_2, ...; generar los parámetros params_1a y params_1b; comparar A(params_1a, D_2, ...,) y B(params_1b, D_2, ...,) en D_1; .... Recuerda la frecuencia con la que A supera a B.
-
Primero, haga una validación cruzada para A. Luego, independientemente, para B. Compare los resultados.
¿Qué enfoque es mejor? ¿Cómo encontrar la importancia del resultado en este mejor caso?