Estoy buscando grandes (>1000) texto del corpus para descargar. Preferiblemente con noticias del mundo o de algún tipo de informes. Sólo he encontrado uno con las patentes. Alguna sugerencia?
Gracias de antemano.
Estoy buscando grandes (>1000) texto del corpus para descargar. Preferiblemente con noticias del mundo o de algún tipo de informes. Sólo he encontrado uno con las patentes. Alguna sugerencia?
Gracias de antemano.
¿Qué acerca de wikinoticias? Aquí está el último volcado de base de datos que pude encontrar: http://dumps.wikimedia.org/enwikinews/20111120/
Usted probablemente desea que el de "Todas las páginas, las versiones actuales solo."-versión.
Si la inmediatez no es un problema, usted puede intentar
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
y hay otros muchos más similar conjunto de datos en infochimp dependiendo de su presupuesto.
Saludos, Andy.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.