Me estoy haciendo de categorización de texto con R y SVM en el paquete e1071. Tengo alrededor de 30000 archivos de texto para la formación, y 10000 para la prueba. El objetivo es jerárquicamente categorizar estos archivos. Por ejemplo, yo tengo 13 categorías en el nivel 1, tales como los deportes, la literatura, la política, etc, y en el segundo nivel, hay más de 300 categorías. Por ejemplo, por debajo de la categoría de deportes, hay sub-categorías, como el fútbol, baloncesto, rugby, etc.
Hay dos estrategias para alcanzar la clasificación en el nivel 2. Primero es clasificar los archivos en el primer nivel (13 categorías) y, a continuación, de forma recursiva, clasificar los archivos entre sus propias subcategorías. La segunda estrategia es la más directa, es decir podemos asignar distintas etiquetas para todas las categorías (más de 300) en el nivel 2, luego formamos el modelo con SVM.
Para la segunda estrategia, aunque yo he usado de enfermedad vesicular porcina para doc plazo de la matriz, la reducción de su dimensión 30.000 * 10. El svm función en el paquete e1071 todavía se descompone, dando el error no puede asignar un vector de tamaño 12.4 Gb.
Así que me gustaría pedir a los gurús, si el gran número de categorías es un problema real para la SVM? Específicamente, en mi caso, el tipo de estrategia que se producirán mejores resultados y es más factible en la práctica ?
Muchas gracias por cualquier útiles comentarios y soluciones !