3 votos

Bolsa de palabras visuales: el número de palabras es igual al número de centroides de k-means?

Estaba leyendo estos diapositivas sobre la Bolsa de Características (BoF), en particular en la diapositiva 23:

Se genera un vocabulario visual de 1M de palabras utilizando un K-means basado en árboles aleatorios.

¿Por "palabras" se refieren a los centroides obtenidos por k-means? Si no, ¿qué quieren decir?

1voto

Amadiere Puntos 5606

El "centroide" se refiere realmente a las coordenadas.

El concepto de "palabra" significa que es simplemente un símbolo, no algo significativo como las coordenadas.

Cada vector SIFT se asigna a una palabra (por ejemplo, "42"); la imagen se representa como una bolsa de tales palabras ("42 13 17 42 17"), no como una cadena de coordenadas de centroides.

El "diccionario" traduce las coordenadas a palabras.

Sí, puede haber un millón de palabras (aunque parece que la mayoría sólo utiliza unos pocos miles ). Pero la mayoría serán 0, y no es necesario almacenar estos valores cero. Al igual que con texto .

0voto

Jimmy R.T. Puntos 111

Una vez creado el vocabulario, tiene una lista de todas las palabras posibles en el conjunto de entrenamiento (diccionario). Hagamos un ejemplo fácil. El conjunto de entrenamiento contiene un "ojo", una "boca" y una "nariz". Cuando llega una nueva imagen de prueba, se extraen las características y se intenta detectar estas tres características. Entonces, lo que haces es crear un histograma, teniendo como índice estos tres. 1. e ye 2. m de la mano. 3. n ose. Por cada rasgo que sea similar a un ojo, vas a añadir un +1. Digamos que ahora usted prueba con una imagen donde hay 100 ojos. Entonces su histograma para esa imagen va a ser [100 0 0] (sin boca y sin nariz.) Por lo tanto, en este caso, esta imagen se representa con 3 componentes.

100 | 0 | 0

e | m | n

Espero que ahora esté más claro. Una imagen, tendrá una especie de "firma" que será una especie de resumen de sus características. En este caso, el histograma definiría perfectamente la imagen como ¡100 ojos! Y es precisamente lo que sería la imagen, ¿no?

Avísame si algo no está claro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X