He visto que BERT era uno de los métodos de incrustación de palabras del estado del arte en 2018 y luego se propone XLNet en 2019 para cuidar las limitaciones de BERT. He visto que una de las limitaciones de BERT es la longitud máxima de los tokens de entrada (que es 512, ver este enlace-,Absorbing%20Transformer-XL,supports%20up%20to%20512%20token) ). ¿Alguien sabe la razón?
Respuesta
¿Demasiados anuncios?Es un valor arbitrario. Es la mayor longitud del vector de entrada que suponen posible. Es de suponer que no tenían vectores más largos en el conjunto de entrenamiento. Además, siempre se puede truncar un vector e ignorar la historia más lejana, por lo que en ese caso la longitud del vector sería la historia más lejana que se considerara útil. 512 es una potencia de dos, lo que también sugiere que el valor es elegido arbitrariamente por una persona con mentalidad informática.