2010-08-02 11 views
5

Estoy buscando hacer un análisis de texto en un programa que estoy escribiendo. Estoy buscando fuentes alternativas de texto en su forma cruda similar a lo que se proporciona en los vertederos de Wikipedia (download.wikimedia.com).¿Dónde puedo encontrar un vertedero de texto en bruto en la web?

prefiero no tener que pasar por la molestia de arrastrarse sitios web, tratando de analizar el HTML, la extracción de texto, etc ..

Respuesta

7

¿Qué tipo de texto es lo que buscas?

Hay muchos libros electrónicos gratuitos (de ficción y no ficción) en formato .txt disponibles en Project Gutenberg.

También tienen large DVD images lleno de libros disponibles para descargar.

+0

+1 Vine aquí para publicar PG. – Joe

0

la gutenberg project tiene enormes cantidades de libros electrónicos en varios formatos (incluyendo texto plano)

3

NLTK proporciona una sencilla API Python para acceder many text corpora, incluyendo Gutenberg, Reuters, Shakespeare y otros.

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 
Cuestiones relacionadas