2009-01-16 11 views
21

Necesito la lista de palabras en inglés más exhaustiva que puedo encontrar para varios tipos de operaciones de procesamiento del lenguaje, pero no pude encontrar nada en Internet que tenga la calidad suficiente.Palabras en lenguaje natural en inglés

Hay 1,000,000 palabras en el idioma inglés que incluyen palabras extranjeras y/o técnicas.

¿Puede sugerir tal fuente (o cerca de 500k de palabras) que se puede descargar de Internet que está quizás un poco categorizada? ¿Qué entrada usas para tus aplicaciones de procesamiento de lenguaje?

+1

Si su diccionario tiene 1 millón de palabras, puede apostar que las faltas de ortografía de las palabras comunes se confundirán con alguna oscura palabra de 1 en un millón. Eso podría afectar la utilidad de un diccionario tan grande. –

+0

@Germstorm: ¿de dónde sacaste este millón? ¿Tiene una referencia específica, o es este rumor? –

+0

Acabo de escucharlo en algún lado, no puedo validarlo – Germstorm

Respuesta

25

Kevin's wordlists es lo mejor que conozco solo para listas de palabras.

WordNet es mejor si usted quiere saber acerca de las cosas que son sustantivos, verbos, etc., sinónimos, etc.

+0

He usado las listas de Kevin antes. Combiné un montón de ellos para obtener una lista enorme para poder generar todas las palabras posibles de un conjunto dado de caracteres. – dotjoe

+0

@dotjoe tienen una buena [interfaz web] (http://app.aspell.net/create) ahora que lo hará por usted (: – drevicko

3

¿Quién te dijo que había 1 millón de palabras? De acuerdo con Wikipedia, el Oxford English Dictionary solo tiene 600,000. Y el OED intenta incluir todos los términos técnicos y de jerga que se usan.

+1

¿Cuál es la potencia de dos entre amigos? – zaratustra

+0

El inglés es un lenguaje sintético.También he escuchado el número 1M, generalmente como un límite inferior en la cantidad de palabras que puedes crear sobre la marcha. – rmeador

4

Investigué para Purdue sobre el dominio controlado/natural de inglés y el procesamiento del conocimiento del dominio del idioma.

Me gustaría echar un vistazo al proyecto de intento: http://attempto.ifi.uzh.ch/site/description/ que es un proyecto para ayudar a construir un inglés natural controlado.

Puede descargar su léxico completo de la palabra en: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip tiene ~ 100,000 palabras en inglés natural.

También puede proporcionar su propio léxico para palabras específicas del dominio, esto es lo que hicimos en nuestra investigación. Ofrecen servicios web para analizar y formatear el texto en inglés natural.

0

No hay demasiadas palabras base (171K de acuerdo con esto- oxford Que es lo que recuerdo que me dijeron en mi programa de CS en la universidad pero si incluir todas las formas de las palabras: a continuación, se eleva considerablemente.

dicho esto, ¿por qué no hacer uno mismo? Obtener un volcado de Wikipedia y analizarlo y crear un conjunto de todas las fichas que encuentre.

esperar faltas de ortografía sin embargo, como todas las cosas c rowd-sources habrá errores.

Cuestiones relacionadas