3 votos

¿Qué significa el valor medio de todos los vectores de palabras de la frase?

Hoy he visto un artículo sobre análisis de sentimientos aquí . Hay una pieza difícil de entender:

A continuación, tenemos que construir vectores de palabras para el texto de entrada con el fin de promediar el valor de todos los vectores de palabras en el tweet utilizando la siguiente función:

#Build word vector for training set by using the average value of all word vectors in the tweet, then scale
def buildWordVector(text, size):
    vec = np.zeros(size).reshape((1, size))
    count = 0.
    for word in text:
        try:
            vec += imdb_w2v[word].reshape((1, size))
            count += 1.
        except KeyError:
            continue
    if count != 0:
        vec /= count
    return vec

El escalado mueve nuestro conjunto de datos es parte del proceso de normalización en el que movemos nuestro conjunto de datos a una distribución gaussiana con una media de cero, lo que significa que los valores por encima de la media serán positivos, y los por debajo de la media serán negativos. Muchos modelos ML requieren conjuntos de datos de datos a escala, especialmente los que tienen muchas características (como los clasificadores de texto).

Simplemente suma todos los vectores de palabras de la frase (tweet), los divide por el número de palabras y obtiene un nuevo vector para el entrenamiento.

Como sé, un vector de palabras son los parámetros de una capa oculta. Así que el valor medio de los parámetros de la capa oculta, ¿cuál es el significado que presentan y por qué se puede utilizar para la formación?

3voto

user2514608 Puntos 11

La media de las palabras incrustadas puede considerarse una versión de espacio continuo de la representación tradicional de bolsa de palabras. La bolsa de palabras (BoW) representa un documento con un vector del tamaño del vocabulario en el que las entradas del vector contienen el recuento de cada palabra. BoW trata cada palabra de forma independiente e ignora el orden de las palabras, pero funciona bastante bien para la clasificación de textos.

Si se multiplica el vector BoW por la matriz de incrustación de palabras y se divide por el número total de palabras del documento, se obtiene la representación media word2vec. Contiene casi la misma información que BoW, pero en una codificación de menor dimensión. De hecho, se puede entrenar un modelo para recuperar las palabras utilizadas en el documento a partir del vector palabra2vec medio. Por lo tanto, no se pierde mucha información al comprimir la representación de este modo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X