Hoy he visto un artículo sobre análisis de sentimientos aquí . Hay una pieza difícil de entender:
A continuación, tenemos que construir vectores de palabras para el texto de entrada con el fin de promediar el valor de todos los vectores de palabras en el tweet utilizando la siguiente función:
#Build word vector for training set by using the average value of all word vectors in the tweet, then scale def buildWordVector(text, size): vec = np.zeros(size).reshape((1, size)) count = 0. for word in text: try: vec += imdb_w2v[word].reshape((1, size)) count += 1. except KeyError: continue if count != 0: vec /= count return vec
El escalado mueve nuestro conjunto de datos es parte del proceso de normalización en el que movemos nuestro conjunto de datos a una distribución gaussiana con una media de cero, lo que significa que los valores por encima de la media serán positivos, y los por debajo de la media serán negativos. Muchos modelos ML requieren conjuntos de datos de datos a escala, especialmente los que tienen muchas características (como los clasificadores de texto).
Simplemente suma todos los vectores de palabras de la frase (tweet), los divide por el número de palabras y obtiene un nuevo vector para el entrenamiento.
Como sé, un vector de palabras son los parámetros de una capa oculta. Así que el valor medio de los parámetros de la capa oculta, ¿cuál es el significado que presentan y por qué se puede utilizar para la formación?