Processing math: 50%

16 votos

Donde encontrar una gran texto del corpus?

Estoy buscando grandes (>1000) texto del corpus para descargar. Preferiblemente con noticias del mundo o de algún tipo de informes. Sólo he encontrado uno con las patentes. Alguna sugerencia?

Gracias de antemano.

9voto

Adam Ernst Puntos 6939

No los Wikileaks textos se adaptan a ti?

6voto

alastairs Puntos 3281

¿Qué acerca de wikinoticias? Aquí está el último volcado de base de datos que pude encontrar: http://dumps.wikimedia.org/enwikinews/20111120/

Usted probablemente desea que el de "Todas las páginas, las versiones actuales solo."-versión.

6voto

MGOwen Puntos 122

Reuters texto del corpus es un clásico en el campo, y puede ser encontrado aquí

1voto

Pablo Fernandez Puntos 32003

Si la inmediatez no es un problema, usted puede intentar

http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version

y hay otros muchos más similar conjunto de datos en infochimp dependiendo de su presupuesto.

Saludos, Andy.

1voto

A.Schulz Puntos 264

Si desea precalculadas de n-gramas, usted podría tratar de la búsqueda de libros de google archivo:

http://books.google.com/ngrams/datasets

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X