Estoy considerando utilizar bibliotecas de Python para hacer mis experimentos de Aprendizaje Automático. Hasta ahora, he estado confiando en WEKA, pero he estado bastante insatisfecho en general. Esto es principalmente porque he encontrado que WEKA no está bien soportado (muy pocos ejemplos, la documentación es escasa y el apoyo de la comunidad es menos que deseable en mi experiencia), y me he encontrado en situaciones difíciles sin ayuda. Otra razón por la que estoy contemplando este movimiento es porque me está gustando mucho Python (soy nuevo en Python), y no quiero volver a codificar en Java.
Así que mi pregunta es, ¿cuáles son las
- completo
- escalable (100k características, 10k ejemplos) y
- ¿hay bibliotecas bien soportadas para hacer ML en Python?
Estoy especialmente interesado en la clasificación de textos, por lo que me gustaría utilizar una biblioteca que tenga una buena colección de clasificadores, métodos de selección de características (Information Gain, Chi-Sqaured, etc.) y capacidades de preprocesamiento de texto (stemming, eliminación de palabras clave, tf-idf, etc.).
Basándome en los hilos de correo electrónico anteriores aquí y en otros lugares, he estado mirando PyML, scikits-learn y Orange hasta ahora. Cómo han sido las experiencias de la gente con respecto a las 3 métricas mencionadas anteriormente que menciono?
¿Alguna otra sugerencia?