Porcentaje de corte del TF-IDF para los tweets

Question

Porcentaje de corte del TF-IDF para los tweets

Preguntado el 13 de Enero, 2012: Cuando se hizo la pregunta
1349 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Actualmente estoy tratando de analizar Tweets y clasificarlos como positivos, negativos o neutrales utilizando la biblioteca NLTK en Python.

Puedo ver que hay potencial en el enfoque que estoy tomando, sin embargo, estoy teniendo problemas con mi proceso de selección de características.

De hecho, las entradas de Twitter no son precisamente convencionales, por lo que no hay muchos ejemplos de uso de TF-IDF para eliminar palabras poco interesantes en los Tweets.

Mi implementación del algoritmo está funcionando bien pero no sé cuántas palabras debería eliminar de mi lista de características basándome en las puntuaciones TF-IDF: ¿25%? 15%? 30%?

Además, y este es el principal problema, dado que los Tweets son diferentes al inglés normal, muchas palabras poco interesantes, como "the" y "is", no aparecen tan a menudo, y por tanto el algoritmo TF-IDF les asigna buenas puntuaciones.

Ahora bien, sé que puedo utilizar una lista de parada, pero si pudiera evitarla, sería feliz (tengo una multitud de razones no para utilizar una lista de paradas).

Así que, para resumir, ¿hay alguna forma de evitar este problema de que las palabras poco interesantes obtengan buenas puntuaciones con TF-IDF?

Edición: Estoy utilizando un clasificador Naive Bayes.

Preguntado el 13 de Enero, 2012 por zov

Answer 1

2 Respuestas

Answer 2

4voto

A.Schulz Puntos 264

Probablemente el enfoque más eficaz (pero también el que requiere más tiempo) sea elegir a mano un conjunto de ejemplos que sepas que son positivos, negativos y neutros. A continuación, puede entrenar un clasificador (Naive Bayes, SVM, Fisher Discriminant o lo que sea) en estos ejemplos (ya que está utilizando 3 clases, tendrá que hacer una clasificación multiclase, aunque para empezar podría simplificar su problema para mirar sólo a +ve/ve e introducir la clase neutral más tarde). Debe asegurarse de que tiene suficientes ejemplos para poder realizar validación cruzada k-fold de los hiperparámetros del clasificador de forma eficaz. Cuantos más ejemplos de entrenamiento tenga, mejor será la estimación de su umbral.

Sin ejemplos de formación, tendrá que recurrir a reglas ad hoc que probablemente no sean sólidas.

Respondido el 1 de Febrero, 2012 por A.Schulz (264 Puntos )

Answer 3

0voto

jtbandes Puntos 39804

Para el entrenamiento, si es posible, busca usuarios que tuiteen mayoritariamente positivo (como celebridades, políticos, etc.) y otros que tuiteen mayoritariamente negativo (no hay ejemplo en este momento) y usa sus tuits en consecuencia. habrá algunos errores de cálculo en los datos de entrenamiento pero puedes obtener muchos datos usando esta técnica.

Respondido el 20 de Enero, 2015 por jtbandes (39804 Puntos )

Porcentaje de corte del TF-IDF para los tweets

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Porcentaje de corte del TF-IDF para los tweets

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: