¿Por qué BERT tiene la limitación de permitir sólo la longitud máxima de los tokens de entrada como 512?

Question

¿Por qué BERT tiene la limitación de permitir sólo la longitud máxima de los tokens de entrada como 512?

Preguntado el 24 de Julio, 2020: Cuando se hizo la pregunta
772 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

He visto que BERT era uno de los métodos de incrustación de palabras del estado del arte en 2018 y luego se propone XLNet en 2019 para cuidar las limitaciones de BERT. He visto que una de las limitaciones de BERT es la longitud máxima de los tokens de entrada (que es 512, ver este enlace-,Absorbing%20Transformer-XL,supports%20up%20to%20512%20token) ). ¿Alguien sabe la razón?

Preguntado el 24 de Julio, 2020 por RockTheStar

Answer 1

1 Respuestas

Answer 2

7voto

Dipstick Puntos 4869

Es un valor arbitrario. Es la mayor longitud del vector de entrada que suponen posible. Es de suponer que no tenían vectores más largos en el conjunto de entrenamiento. Además, siempre se puede truncar un vector e ignorar la historia más lejana, por lo que en ese caso la longitud del vector sería la historia más lejana que se considerara útil. 512 es una potencia de dos, lo que también sugiere que el valor es elegido arbitrariamente por una persona con mentalidad informática.

Respondido el 4 de Octubre, 2021 por Dipstick (4869 Puntos )

¿Por qué BERT tiene la limitación de permitir sólo la longitud máxima de los tokens de entrada como 512?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué BERT tiene la limitación de permitir sólo la longitud máxima de los tokens de entrada como 512?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: