Estoy tratando de ponerme al día con R. Eventualmente quiero usar las bibliotecas de R para hacer la clasificación de textos. Me preguntaba cuáles son las experiencias de la gente con respecto a la escalabilidad de R cuando se trata de hacer la clasificación de texto.
Es probable que me encuentre con datos de alta dimensión (~300k dimensiones). Estoy estudiando el uso de SVM y Random Forest en particular como algoritmos de clasificación.
¿Las bibliotecas R se adaptarían al tamaño de mi problema?
Gracias.
EDIT 1: Sólo para aclarar, mi conjunto de datos es probable que tenga 1000-3000 filas (tal vez un poco más) y 10 clases.
EDIT 2: Dado que soy muy nuevo en R, pediré a los carteles que sean más específicos cuando sea posible. Por ejemplo, si sugieren un flujo de trabajo o una línea de trabajo, por favor, asegúrense de mencionar las bibliotecas de R involucradas en cada paso, si es posible. Algunas indicaciones adicionales (ejemplos, código de muestra, etc.) serían la guinda del pastel.
EDITAR 3: En primer lugar, gracias a todos por vuestros comentarios. Y en segundo lugar, pido disculpas, tal vez debería haber dado más contexto para el problema. Soy nuevo en R pero no tanto en la clasificación de textos. Ya he hecho un preprocesamiento (stemming, eliminación de palabras clave, conversión tf-idf, etc.) en una parte de mis datos utilizando tm tm era tan lento incluso con 200 documentos que me preocupaba la escalabilidad. Entonces empecé a jugar con FSelector e incluso eso era realmente lento. Y ese es el punto en el que hice mi OP.
EDIT 4: Se me acaba de ocurrir que tengo 10 clases y unos ~300 documentos de entrenamiento por clase, y que de hecho estoy construyendo la matriz términoXdoc a partir de todo el conjunto de entrenamiento, lo que resulta en una dimensionalidad muy alta. Pero, ¿qué tal si reducimos cada problema de clasificación de 1 de k a una serie de problemas de clasificación binaria? Eso reduciría drásticamente el número de documentos de entrenamiento (y por tanto la dimensionalidad) en cada uno de los k-1 pasos de forma considerable, ¿no es así? Entonces, ¿es bueno este enfoque? ¿Cómo se compara en términos de precisión con la implementación habitual de varias clases?