¿Hay algún lugar donde pueda descargar frases de Treebank of English gratis o por menos de $ 100? Necesito datos de capacitación que contengan un montón de oraciones sintácticas analizadas (> 1000) en inglés en cualquier formato. Básicamente, todo lo que necesito es que las palabras en estas oraciones sean reconocidas por una parte del discurso.¿Hay algún Treebank gratis?
Respuesta
NLTK (para Python) ofrece varios treebanks for free.
Gracias, +1. No estoy familiarizado con Python, así que avíseme, por favor, ¿cómo puedo analizar estos archivos * .pickle? ¿Hay algún conversor que sea más fácil de usar como XML o simplemente texto sin formato? – YMC
¿Qué archivo de pickle? Los Treebanks están en formato de texto. Por ejemplo, http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip. – cyborg
19 idiomas gratis aquí: http://universaldependencies.github.io/docs/ – CpILL
¿qué pasa con Penn Treebank? Espero que sea gratis o al menos asequible. http://www.cis.upenn.edu/~treebank/cdrom2.html
Cuesta $ 3150 en LDC: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC
Está incluido , junto con muchos otros bancos de árboles, en OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03 que es gratuito (aunque debe pagar un costo de distribución). –
¿cómo le cuesta la distribución? – CpILL
Aquí hay un par (Inglés) treebanks disponible de forma gratuita:
American National Corpus: MASC
Preguntas: QuestionBank y Stanford's corrections
de noticias británica: BNC
charlas TED: NAIST-NTT TED Treebank
Universidad de Georgetown multicapa Corpus: GUM
Biomédica:
Ver también Wikipedia para obtener una lista enorme.
- 1. ¿Hay algún traductor OCaml to C gratis?
- 2. ¿Hay algún texto para voz gratis para los navegadores?
- 3. ¿Hay algún buen control de cuadrícula Delphi gratis/barato?
- 4. ¿Hay algún daño al llamar "gratis" para el mismo puntero dos veces en un programa C?
- 5. ¿Hay un JSF Webhost gratis por ahí?
- 6. ¿Hay algún conversor de archivos DBF gratuito?
- 7. ¿Hay algún perfilador decente de C#?
- 8. ¿Hay algún embellecedor CoffeeScript?
- 9. ¿Hay algún evento onDocumentChange?
- 10. ¿Hay algún IDE de Windows Perl libre con depuración?
- 11. android application sound gratis
- 12. ¿Hay algún servicio SVN-> GIT sincronizado?
- 13. ¿Hay alguna lista de películas gratis y API de showtime?
- 14. Usando una implementación comprobada de STL, ¿hay algo disponible gratis?
- 15. ¿Hay algún Principio de Clojure?
- 16. ¿Hay algún inconveniente con ConcurrentHashMap?
- 17. ¿Hay algún libro sobre WiX?
- 18. ¿Hay algún tutorial sobre giza ++?
- 19. ¿Hay algún libtorrent para C#?
- 20. ¿Hay algún resumen de guayaba?
- 21. ¿Hay algún problema con CGColorGetComponents?
- 22. ¿Hay algún límite para setTimeout?
- 23. ¿Hay algún podcast sobre Delphi?
- 24. ¿Hay algún problema con Log4Net?
- 25. ¿Diseña Windows WPF gratis?
- 26. ¿Qué es preferible: gratis o gratis y nulo?
- 27. realista programa TTS gratis
- 28. Motor java 3d gratis
- 29. ¿Es JQGrid gratis?
- 30. ¿Algún servicio web que puedo usar para almacenar pequeñas cantidades de datos (gratis)?
¿NLTK no contiene un subconjunto considerable del Penn Treebank? –
@ en espera: en realidad, esta es una pregunta muy útil y las respuestas también son muy útiles, ya que estos recursos son comparativamente escasos. Tenga en cuenta que esta no es una pregunta "es mejor que B", sino una "lista de todos los recursos de tipo X bajo la condición Y". – rec
Es ridículo que el LDC cobre por los conjuntos de datos ... De todos modos, consulte https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –