La respuesta a su pregunta obviamente depende de la taxonomía de destino en la que intenta mapear sus términos. Una vez que haya decidido esto, necesitará averiguar qué tan detallados deben ser los conceptos. WordNet, como se ha sugerido en otras respuestas, le dará sinones, es decir, conjuntos de términos que son más o menos sinónimos, pero que tendrá que mapear a conceptos como 'Diseño web' o 'Noticias del mundo' por algún otro mecanismo desde estos no están codificados en WordNet. Si está apuntando a una categorización semántica muy amplia, podría usar nodos de concepto de alto nivel de WordNet que diferencien, p. (subiendo en la jerarquía) humano de animal, animal de plantas, sustancias de sólidos, concreto de cosas abstractas, etc.
Otro tipo de taxonomía que puede ser bastante útil para usted es el sistema de categoría de Wikipedia. Esta no es solo una idea espontánea que acabo de presentar, sino que ha habido a lot of work para obtener ontologías reales de las categorías de Wikipedia. Eche un vistazo al Java Wikipedia Library - la idea sería encontrar un artículo de Wikipedia para el término en cuestión (por ejemplo, 'css3'), extraer las categorías a las que pertenece este artículo, y elegir las mejores con respecto a algún criterio (es decir, 'programación ',' tecnología 'y' desarrollo web '). Dependiendo de lo que esté tratando de hacer, este último paso (elegir la mejor de varias categorías) puede ser difícil o no.
Consulte here para obtener una lista de otras ontologías/bases de conocimiento que podría utilizar.
No creo que haya una solución preparada para eso. Tal vez algunos algoritmos de aprendizaje automático? –
Por favor intente y enmarque mejor el problema. Por ejemplo: a) son las palabras dentro de la "lista de palabras" [a priori] completamente independientes o podemos inferir algunas su "contexto" a partir de palabras vecinas. b) es la lista de contexto predefinido o debería el algoritmo descubrir esto c) puede una palabra simultáneamente pertenecer a contextos múltiples d) cómo se relaciona esto con el árbol de palabras centrado en la imagen de "Voz" ... – mjv
@RadiantHex: En vista de las pocas respuestas hasta ahora, puede ver por qué sugiero que se enmarque mejor el problema ... '¡Las preguntas vagas engendran respuestas vagas!' – mjv