Hace poco leí el artículo de Loeppky et al. sobre Cómo elegir el tamaño de la muestra de un experimento informático: guía práctica y tenía curiosidad por saber si existen reglas empíricas sobre las consideraciones relativas al tamaño de la muestra para la clasificación mediante procesos gaussianos (GP). El documento sugiere un valor de $n=10\times d$ donde $d$ es la dimensión del espacio de entrada, sin embargo, este resultado es para regresión GP y no para el caso de clasificación GP. Me imagino que la clasificación probablemente requiere más puntos, ya que parece ser un problema más difícil, pero no estoy seguro de si se ha publicado algo sobre el tema. Si importa, en mi aplicación la dimensión del espacio de entrada NUNCA es mayor que 1.
Respuestas
¿Demasiados anuncios?La clasificación puede necesitar más puntos que la regresión, por varias razones:
1) Si sólo hay 2 clases, la variable de respuesta contiene mucha menos información que una variable continua, que podría tomar muchos valores.
2) Con un número reducido de puntos, es especialmente fácil conseguir separación completa lo que hace que la estimación de máxima verosimilitud sea indefinida.
Con ~10 puntos, sería realmente difícil saber qué está pasando, incluso si tu variable de predicción es unidimensional. Este gráfico se generó aleatoriamente con 10 lanzamientos de moneda independientes. Aunque se podría imaginar fácilmente añadir una curva que se moviera arriba y abajo para ajustarse mejor a los puntos, hacerlo sería un error. Por esta razón, probablemente no tenga sentido siquiera empezar a pensar en clasificadores no lineales antes de tener unas cuantas docenas de puntos.
Como mínimo, habría que restringir en gran medida el modelo de GP para evitar que se ajuste en exceso, y/o tener un núcleo predeterminado basado en los primeros principios. Con tan pocos puntos, es probable que el proceso de ajuste del modelo fracase (si las restricciones son demasiado débiles) o que produzca algo que se ajuste a las suposiciones iniciales (si las restricciones son demasiado fuertes).
Esa regla general es errónea. La GP se utiliza en entornos de alta dimensión con d >> n sin ningún problema (genómica, resonancia magnética) digamos 500 000 vóxeles en una imagen utilizada para clasificar 100 sujetos en 2 clases. No sé si existe algún límite teórico, el número real dependería mucho de la naturaleza de los datos en cuestión, es decir, de la intensidad de la señal y de la proporción de características que son puro ruido.