Tamaño de muestra necesario para la clasificación del proceso gaussiano

Question

Tamaño de muestra necesario para la clasificación del proceso gaussiano

Preguntado el 6 de Abril, 2016: Cuando se hizo la pregunta
1318 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Hace poco leí el artículo de Loeppky et al. sobre Cómo elegir el tamaño de la muestra de un experimento informático: guía práctica y tenía curiosidad por saber si existen reglas empíricas sobre las consideraciones relativas al tamaño de la muestra para la clasificación mediante procesos gaussianos (GP). El documento sugiere un valor de $n=10\times d$ donde $d$ es la dimensión del espacio de entrada, sin embargo, este resultado es para regresión GP y no para el caso de clasificación GP. Me imagino que la clasificación probablemente requiere más puntos, ya que parece ser un problema más difícil, pero no estoy seguro de si se ha publicado algo sobre el tema. Si importa, en mi aplicación la dimensión del espacio de entrada NUNCA es mayor que 1.

Preguntado el 6 de Abril, 2016 por Jasmeet

Answer 1

2 Respuestas

Answer 2

4voto

Bou Puntos 1859

La clasificación puede necesitar más puntos que la regresión, por varias razones:

1) Si sólo hay 2 clases, la variable de respuesta contiene mucha menos información que una variable continua, que podría tomar muchos valores.

2) Con un número reducido de puntos, es especialmente fácil conseguir separación completa lo que hace que la estimación de máxima verosimilitud sea indefinida.

Con ~10 puntos, sería realmente difícil saber qué está pasando, incluso si tu variable de predicción es unidimensional. Este gráfico se generó aleatoriamente con 10 lanzamientos de moneda independientes. Aunque se podría imaginar fácilmente añadir una curva que se moviera arriba y abajo para ajustarse mejor a los puntos, hacerlo sería un error. Por esta razón, probablemente no tenga sentido siquiera empezar a pensar en clasificadores no lineales antes de tener unas cuantas docenas de puntos.

Como mínimo, habría que restringir en gran medida el modelo de GP para evitar que se ajuste en exceso, y/o tener un núcleo predeterminado basado en los primeros principios. Con tan pocos puntos, es probable que el proceso de ajuste del modelo fracase (si las restricciones son demasiado débiles) o que produzca algo que se ajuste a las suposiciones iniciales (si las restricciones son demasiado fuertes).

Respondido el 17 de Octubre, 2017 por Bou (1859 Puntos )

Answer 3

1voto

Thieme Hennis Puntos 31

Esa regla general es errónea. La GP se utiliza en entornos de alta dimensión con d >> n sin ningún problema (genómica, resonancia magnética) digamos 500 000 vóxeles en una imagen utilizada para clasificar 100 sujetos en 2 clases. No sé si existe algún límite teórico, el número real dependería mucho de la naturaleza de los datos en cuestión, es decir, de la intensidad de la señal y de la proporción de características que son puro ruido.

Respondido el 11 de Octubre, 2017 por Thieme Hennis (31 Puntos )

Tamaño de muestra necesario para la clasificación del proceso gaussiano

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Tamaño de muestra necesario para la clasificación del proceso gaussiano

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: