Actualmente estoy tratando de analizar Tweets y clasificarlos como positivos, negativos o neutrales utilizando la biblioteca NLTK en Python.
Puedo ver que hay potencial en el enfoque que estoy tomando, sin embargo, estoy teniendo problemas con mi proceso de selección de características.
De hecho, las entradas de Twitter no son precisamente convencionales, por lo que no hay muchos ejemplos de uso de TF-IDF para eliminar palabras poco interesantes en los Tweets.
Mi implementación del algoritmo está funcionando bien pero no sé cuántas palabras debería eliminar de mi lista de características basándome en las puntuaciones TF-IDF: ¿25%? 15%? 30%?
Además, y este es el principal problema, dado que los Tweets son diferentes al inglés normal, muchas palabras poco interesantes, como "the" y "is", no aparecen tan a menudo, y por tanto el algoritmo TF-IDF les asigna buenas puntuaciones.
Ahora bien, sé que puedo utilizar una lista de parada, pero si pudiera evitarla, sería feliz (tengo una multitud de razones no para utilizar una lista de paradas).
Así que, para resumir, ¿hay alguna forma de evitar este problema de que las palabras poco interesantes obtengan buenas puntuaciones con TF-IDF?
Edición: Estoy utilizando un clasificador Naive Bayes.