¿Cómo calcular la frecuencia de los términos y encontrar clusters en un conjunto de datos compuesto por cadenas?

Question

¿Cómo calcular la frecuencia de los términos y encontrar clusters en un conjunto de datos compuesto por cadenas?

Preguntado el 3 de Abril, 2011: Cuando se hizo la pregunta
1268 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Actualmente estoy buscando algunas técnicas de recuperación de información.

Tengo una tabla de base de datos SQL que contiene cadenas. Tiene 1000 registros, cada uno de los cuales es una frase aleatoria que elegí de sitios web al azar. Necesito obtener la frecuencia del término y representar cada cadena en un vector. También necesito agrupar los registros, por ejemplo, utilizando k-means.

¿Alguien sabe cuál es la mejor manera de hacerlo? ¿Hay alguna herramienta que pueda utilizar? Soy nuevo en esto y busco un punto de partida.

Preguntado el 3 de Abril, 2011 por Martin Salias

Answer 1

2 Respuestas

Answer 2

2voto

karatchov Puntos 230

El estado de la técnica consiste en utilizar el hashing semántico de Hinton y Salakhutdinov . Si echas un vistazo al documento, hay algunos gráficos 2D realmente impresionantes de varios conjuntos de datos de referencia.

Sin embargo, es un algoritmo bastante avanzado. Se entrena una pila de máquinas de Boltzmann restringidas con divergencia contrastiva. Al final, su representación de un documento será un vector de bits. Esto se puede utilizar para hacer búsquedas basadas en la distancia hamming.

Se requieren muchos conocimientos de aprendizaje automático para implementar esto con éxito, y por lo que yo sé no hay nada fuera de la caja. Si quieres hacer esto y no tienes conocimientos previos en redes neuronales y demás, te costará bastante esfuerzo.

Respondido el 4 de Abril, 2011 por karatchov (230 Puntos )

Answer 3

1voto

James Sutherland Puntos 2033

Por su comentario, probablemente no quiera agrupar, sino clasificar (presumiblemente, spam y no spam). Para ello debería familiarizarse con un conjunto de herramientas de aprendizaje automático. Sin embargo, el negocio tf-idf puede ser útil para el preprocesamiento.

Si estás contento con Java, entonces Mazo y LingPipe son muy fáciles de usar. Todos estos conjuntos de herramientas harán las cosas de construcción de la matriz de documentos de términos, pero representarán los datos muy dispersos que resultan mucho más eficientemente y también le permitirán aplicar una variedad de modelos de clasificación. También he tenido buena suerte con BMLR pero para ello es necesario que construyas tú mismo los datos de entrada, aunque no es especialmente complicado.

Si desea permanecer en el modo de agrupación, la mayoría de las bases de datos tienen un módulo de búsqueda de texto completo que le permite identificar registros similares según tf-idf o métodos relacionados. Tratar directamente con esa función de similitud podría ser más útil para la posterior agrupación. Mejor aún, podría utilizar simplemente Lucene que está disponible en varios idiomas.

Respondido el 2 de Septiembre, 2011 por James Sutherland (2033 Puntos )

¿Cómo calcular la frecuencia de los términos y encontrar clusters en un conjunto de datos compuesto por cadenas?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo calcular la frecuencia de los términos y encontrar clusters en un conjunto de datos compuesto por cadenas?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: