2010-09-25 16 views
31

Me gustaría descargar un diccionario de inglés - no solo un word list - en un formato estructurado como TXT, XML o SQL.¿Dónde puedo obtener un diccionario de inglés con datos estructurados?

Específicamente, necesito pronunciación fonética y partes del discurso (no se requiere la definición).

Sorprendentemente, no puedo encontrar esto en línea en cualquier lugar. Wiktionary está disponible for download, pero son solo los artículos de MediaWiki. Arrastrar todos los artículos y extraer la fonética y las partes del discurso sería un gran ejercicio.

¿Está disponible en cualquier lugar? No me importa pagar

Editar: algunas personas me han preguntado qué me gustaría hacer. Mi necesidad inmediata es solo la curiosidad, por ejemplo, "¿cuáles son los verbos de dos sílabas más comunes?". Eventualmente mi esperanza sería una herramienta que te ayude a encontrar los nombres de dominio disponibles, y lo hace emparejando las partes correctas del discurso, con puntos de bonificación para las coincidencias fonéticas.

Nota: publicación cruzada en English Language and Usage.

+0

Compruebe el archivo de Excel presente aquí: http://www.freedownloadscenter.com/Themes/School_Themes/AsIfSound_Dictionary.html –

+1

Es bueno tener en cuenta que si decide rastrear que no debería ser demasiado difícil. Tienen clases CSS establecidas en la pronunciación: '/stʌf/' – Earlz

+0

Esto se archiva como https://phabricator.wikimedia.org/T38881 – Nemo

Respuesta

2

Portman, mientras usaba el SpellChecker tool from DevExpress, sabía que existía the OpenOffice dictionaries Estoy bastante seguro de que tienen una estructura de datos bien definida. Te recomiendo usar eso en combinación con cualquier herramienta de texto a voz gratuita/pagada.

Espero que ayude,

+0

busca pronunciaciones y partes de la oración, no solo una lista de palabras (que es lo que proporcionan DevExpress y OpenOffice). –

+0

@Jess - DevExpress usa la lista de palabras de OpenOffice, pero también tiene un SpellChecker. Le recomendé que usara archivos .dic y .aff estándar para encontrar las palabras, luego una herramienta para garantizar la pronunciación. –

+0

los archivos de OpenOffice son en realidad un subconjunto de Aspell. Incluyen solo ortografía. Sin partes del discurso y sin pronunciación. – Portman

1

Ésta no es una respuesta directa a su pregunta, pero el algoritmo de doble Metaphone es muy bueno en la búsqueda de palabra o frase coincide con los servidores de aplicaciones de motores de búsqueda (como Solr y otros).

No puedo decir cuál es su uso previsto de este, por lo que no puedo decir si mi sugerencia es útil o no. Si está cerca de su uso previsto, la página de Wikipedia sobre Double Metaphone tiene una lista de aproximadamente una docena de implementaciones de la cual puede valdría la pena explorar.

http://en.wikipedia.org/wiki/Double_Metaphone

6

Wordnet es uno de los mejores diccionarios que conozco. Tal vez usted encontrará algo allí: http://wordnet.princeton.edu/wordnet/related-projects/

+0

Esto parece prometedor. Desearía que los datos no estuvieran en un formato personalizado, pero parecen extraíbles. – Portman

+0

Parece que no contiene información sobre pronunciación como la IPA o la información de sílaba de una palabra. Sin embargo, podría estar equivocado. – pilcrowpipe

15

Ir a http://www.speech.cs.cmu.edu/cgi-bin/cmudict y encontrará la página de descarga para el diccionario de pronunciación en https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/

La última versión es actualmente cmudict.0.7a.

Esto es lo que estoy usando actualmente para implementar el contador de sílabas para http://www.haikuvillage.com. Está en Ruby y me encantaría abrirlo para ti si eso ayuda.

+0

¡Genial! Esto es extremadamente útil. Ahora necesito partes de mi discurso ... – Portman

+0

¡http://haikuvillage.com/ es maravilloso! – Gourneau

+0

Esta es una pregunta muy antigua y tengo un corto período de tiempo, pero me gustaría obtener una fuente o una explicación de cómo está convirtiendo los teléfonos ARPAbet a sílabas si aún está abierto para compartirlo – TheXenocide

8

Partes de diccionario de voz en el dominio público con formato altamente estructurado: http://icon.shef.ac.uk/Moby/mpos.html

Cada línea es una entrada, separados por ×, con el valor de palabra de la izquierda y el valor de la parte de discurso (verbo, etc.) a la derecha. Archivo de texto simple

Cuestiones relacionadas