El conjunto de datos contiene 213 ejemplos de 7 clases. Cada ejemplo son 25000. Quiero aprender el modelo SVM (escenario de prueba utilizado son 10 veces validación cruzada). Soy un principiante en el aprendizaje de máquina, me gustaría saber qué tipo de kernel debo usar en el caso de mis datos: lineal o no lineal (como kernel RBF). También, quiero algunos consejos para elegir el valor del parámetro C. gracias!
Respuesta
¿Demasiados anuncios?Por los elementos que la media de las muestras y ejemplos de la derecha?
Si el conjunto de datos consta de 213 muestras de 25000 características de cada uno de ustedes tiene una mucho más grave problema a resolver que la selección de su SVM hyper-parámetros.
En resumen 213 muestras de proporcionar son muy pocos para la dimensionalidad del problema. En altas dimensiones de los espacios que normalmente se necesita una gran cantidad de datos tienen una suficiente representación del espacio (y esto es sólo uno de los problemas asociados con datos de alta dimensión). El principal problema que tiene es el de la selección de características, con el fin de reducir el número de características.
Ahora, para responder a su pregunta:
Si yo tuviera que elegir, me gustaría tomar un kernel lineal en un problema. La última cosa que usted necesita es el proyecto de los datos a una aún mayor espacio tridimensional.