Cuando ejecuto una búsqueda de "hers" en Google Ngram Viewer, obtengo la frecuencia de aparición de la palabra en forma de porcentaje. Conocemos el porcentaje del resultado; ¿cuál es el denominador del otro tamaño? ¿Son 100 millones de palabras? ¿Más?
Respuesta
¿Demasiados anuncios?Michel, Jean-Baptiste, et al. " Análisis cuantitativo de la cultura a partir de millones de libros digitalizados. " ciencia 331.6014 (2011): 176-182. es la publicación que describe el conjunto de datos:
El corpus resultante contiene más de 500.000 millones de palabras, en inglés (361.000 millones), francés (45B), español (45B), alemán (37B), chino (13B), ruso (35B) y hebreo (2B). Las obras más antiguas se publicaron en el siglo XVI. Las primeras décadas están representadas por sólo unos pocos libros al año, que comprenden varios cientos de miles de palabras. Hacia 1800, el corpus aumenta a 60 millones de palabras por año; hacia 1900, 1.400 millones; y hacia 2000, 8.000 millones.