6 votos

Porcentaje de corte del TF-IDF para los tweets

Actualmente estoy tratando de analizar Tweets y clasificarlos como positivos, negativos o neutrales utilizando la biblioteca NLTK en Python.

Puedo ver que hay potencial en el enfoque que estoy tomando, sin embargo, estoy teniendo problemas con mi proceso de selección de características.

De hecho, las entradas de Twitter no son precisamente convencionales, por lo que no hay muchos ejemplos de uso de TF-IDF para eliminar palabras poco interesantes en los Tweets.

Mi implementación del algoritmo está funcionando bien pero no sé cuántas palabras debería eliminar de mi lista de características basándome en las puntuaciones TF-IDF: ¿25%? 15%? 30%?

Además, y este es el principal problema, dado que los Tweets son diferentes al inglés normal, muchas palabras poco interesantes, como "the" y "is", no aparecen tan a menudo, y por tanto el algoritmo TF-IDF les asigna buenas puntuaciones.

Ahora bien, sé que puedo utilizar una lista de parada, pero si pudiera evitarla, sería feliz (tengo una multitud de razones no para utilizar una lista de paradas).

Así que, para resumir, ¿hay alguna forma de evitar este problema de que las palabras poco interesantes obtengan buenas puntuaciones con TF-IDF?

Edición: Estoy utilizando un clasificador Naive Bayes.

4voto

A.Schulz Puntos 264

Probablemente el enfoque más eficaz (pero también el que requiere más tiempo) sea elegir a mano un conjunto de ejemplos que sepas que son positivos, negativos y neutros. A continuación, puede entrenar un clasificador (Naive Bayes, SVM, Fisher Discriminant o lo que sea) en estos ejemplos (ya que está utilizando 3 clases, tendrá que hacer una clasificación multiclase, aunque para empezar podría simplificar su problema para mirar sólo a +ve/ve e introducir la clase neutral más tarde). Debe asegurarse de que tiene suficientes ejemplos para poder realizar validación cruzada k-fold de los hiperparámetros del clasificador de forma eficaz. Cuantos más ejemplos de entrenamiento tenga, mejor será la estimación de su umbral.

Sin ejemplos de formación, tendrá que recurrir a reglas ad hoc que probablemente no sean sólidas.

0voto

jtbandes Puntos 39804

Para el entrenamiento, si es posible, busca usuarios que tuiteen mayoritariamente positivo (como celebridades, políticos, etc.) y otros que tuiteen mayoritariamente negativo (no hay ejemplo en este momento) y usa sus tuits en consecuencia. habrá algunos errores de cálculo en los datos de entrenamiento pero puedes obtener muchos datos usando esta técnica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X