2012-01-21 15 views
20

¿Hay algún lugar donde pueda descargar frases de Treebank of English gratis o por menos de $ 100? Necesito datos de capacitación que contengan un montón de oraciones sintácticas analizadas (> 1000) en inglés en cualquier formato. Básicamente, todo lo que necesito es que las palabras en estas oraciones sean reconocidas por una parte del discurso.¿Hay algún Treebank gratis?

+1

¿NLTK no contiene un subconjunto considerable del Penn Treebank? –

+6

@ en espera: en realidad, esta es una pregunta muy útil y las respuestas también son muy útiles, ya que estos recursos son comparativamente escasos. Tenga en cuenta que esta no es una pregunta "es mejor que B", sino una "lista de todos los recursos de tipo X bajo la condición Y". – rec

+1

Es ridículo que el LDC cobre por los conjuntos de datos ... De todos modos, consulte https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –

Respuesta

15

NLTK (para Python) ofrece varios treebanks for free.

+0

Gracias, +1. No estoy familiarizado con Python, así que avíseme, por favor, ¿cómo puedo analizar estos archivos * .pickle? ¿Hay algún conversor que sea más fácil de usar como XML o simplemente texto sin formato? – YMC

+2

¿Qué archivo de pickle? Los Treebanks están en formato de texto. Por ejemplo, http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip. – cyborg

+4

19 idiomas gratis aquí: http://universaldependencies.github.io/docs/ – CpILL

-1

¿qué pasa con Penn Treebank? Espero que sea gratis o al menos asequible. http://www.cis.upenn.edu/~treebank/cdrom2.html

+1

Cuesta $ 3150 en LDC: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC

+7

Está incluido , junto con muchos otros bancos de árboles, en OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03 que es gratuito (aunque debe pagar un costo de distribución). –

+0

¿cómo le cuesta la distribución? – CpILL

Cuestiones relacionadas