2 votos

¿Cuántas palabras busca el algoritmo en Google Ngram?

Cuando ejecuto una búsqueda de "hers" en Google Ngram Viewer, obtengo la frecuencia de aparición de la palabra en forma de porcentaje. Conocemos el porcentaje del resultado; ¿cuál es el denominador del otro tamaño? ¿Son 100 millones de palabras? ¿Más?

4voto

Franck Dernoncourt Puntos 2128

Michel, Jean-Baptiste, et al. " Análisis cuantitativo de la cultura a partir de millones de libros digitalizados. " ciencia 331.6014 (2011): 176-182. es la publicación que describe el conjunto de datos:

El corpus resultante contiene más de 500.000 millones de palabras, en inglés (361.000 millones), francés (45B), español (45B), alemán (37B), chino (13B), ruso (35B) y hebreo (2B). Las obras más antiguas se publicaron en el siglo XVI. Las primeras décadas están representadas por sólo unos pocos libros al año, que comprenden varios cientos de miles de palabras. Hacia 1800, el corpus aumenta a 60 millones de palabras por año; hacia 1900, 1.400 millones; y hacia 2000, 8.000 millones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X