Estoy buscando la diferencia intuitiva entre el modelo de bolsa de palabras y el de espacio vectorial. ¿Existe alguna relación entre el modelo de bolsa de palabras y el de espacio vectorial? He intentado buscar pero no he podido encontrar una respuesta satisfactoria. ¿Modelo de bolsa de palabras o de espacio vectorial? también se ha preguntado pero no se ha respondido de forma satisfactoria.
Respuestas
¿Demasiados anuncios?Me parece que la respuesta existente es muy engañosa.
El Vector de palabras (alias incrustación de palabras ) es un concepto procedente de los modelos lingüísticos probabilísticos (véase [1]). Describe la similitud contextual entre las palabras del modelo lingüístico y surgió varias décadas después del VSM fue propuesto y aplicado con éxito para la categorización de textos, el resumen de documentos y la recuperación de información.
En el modelo de espacio vectorial (véase [2]), es no palabra/término que se representa como vector en un espacio n-dimensional pero documento . El VSM se construye para tener dimensión separada para cada palabra unigrama distinta/ término que existe en la colección de términos agregados de todos los BOWs de la colección de documentos. En otras palabras, en el VSM: distinct términos se convirtió en dimensiones , no vectores de palabras. Documentos son vectores en el VSM, situados en los pesos de los términos asociados por cada dimensión correspondiente.
La bolsa de palabras (BOW), como enfoque de representación de documentos en RI, no permite múltiples instancias de la misma palabra, sino que representa una lista desordenada de palabras distintas, asociadas a sus frecuencias en el documento (véase [3]).
[1] Y. Bengio, R. Ducharme, P. Vincent, C. Janvin, A Neural Probabilistic Language Model, J. Mach. Learn. Res. 3 (2003) 1137-1155. doi:10.1162/153244303322533223.
[2] G. Salton, A. Wong, C. Yang S., A vector space model for automatic indexing, Commun. ACM. 18 (1975) 613-620. doi:10.1145/361219.361220.
[3] G. SALTON, C.S. YANG, ON THE SPECIFICATION OF TERM VALUES IN AUTOMATIC INDEXING, J. Doc. 29 (1973) 351-372. doi:10.1108/eb026562.
Obsérvese que la palabra "bolsa" significa conjunto múltiple, es decir, permite múltiples instancias para cada palabra. Así pues:
- Bolsa de palabras indica el recuento de cada palabra en el documento. Este modelo sencillo se utiliza, por ejemplo, en el modelo de Bayes ingenuo
- Vector de palabras generaliza la idea de bolsa de palabras asignando una clasificación a cada palabra del documento. A menudo es el recuento de ocurrencias, pero también puede ser otro ranking, como el TF-IDF
Tenga en cuenta que cada fila de una matriz de términos del documento (DTM) corresponde a un vector de palabras.