10 votos

¿Por qué BERT tiene la limitación de permitir sólo la longitud máxima de los tokens de entrada como 512?

He visto que BERT era uno de los métodos de incrustación de palabras del estado del arte en 2018 y luego se propone XLNet en 2019 para cuidar las limitaciones de BERT. He visto que una de las limitaciones de BERT es la longitud máxima de los tokens de entrada (que es 512, ver este enlace-,Absorbing%20Transformer-XL,supports%20up%20to%20512%20token) ). ¿Alguien sabe la razón?

7voto

Dipstick Puntos 4869

Es un valor arbitrario. Es la mayor longitud del vector de entrada que suponen posible. Es de suponer que no tenían vectores más largos en el conjunto de entrenamiento. Además, siempre se puede truncar un vector e ignorar la historia más lejana, por lo que en ese caso la longitud del vector sería la historia más lejana que se considerara útil. 512 es una potencia de dos, lo que también sugiere que el valor es elegido arbitrariamente por una persona con mentalidad informática.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X