2008-10-09 13 views
25

Estoy buscando una biblioteca de reconocimiento de entidades (y un diccionario) con nombre simple pero "lo suficientemente buena" para Java. Estoy buscando procesar correos electrónicos y documentos y extraer "información básica" como: Nombres , lugares, dirección y fechasBibliotecas de reconocimiento de entidades con nombre para Java

He estado mirando a mi alrededor, y la mayoría parece estar en el lado pesado y el tipo completo de proyectos de PNL.

¿Alguna recomendación?

Respuesta

1

Por cierto, me encontré recientemente con OpenCalais que parece tener la funcionalidad que estaba buscando.

+2

no es de código abierto. – wolfgang

22

Es posible que desee echar un vistazo a uno de my earlier answers a un problema similar.

Aparte de eso, los sistemas NER más ligeros dependen en gran medida del dominio utilizado. Encontrará una gran cantidad de herramientas y documentos sobre sistemas NER biomédicos, por ejemplo. Además de mi post anterior (que ya contiene mi recomendación principal, si usted quiere hacer NER), aquí están algunas de las herramientas más es posible que desee ver en:

  • El Stanford CER-NER
  • El Postech Biomedical NER System si está interesado en este dominio particular
  • OpenCalais parece ser un sistema comercial. Hay UIMA wrappers for OpenCalais pero parecen anticuados. También hay un anotador Context-Mapper basado en diccionario para UIMA que puede ayudarte. Tenga en cuenta que UIMA implica una sobrecarga significativa en la curva de aprendizaje ;-)
  • OpenNLP también tienen una herramienta NER.
  • Balie hace NER, también, entre otras cosas.
  • ABNER hace NER, pero una vez más se centra en el dominio biomédico.
  • El JULIE Lab Tools de la universidad de Jena, Alemania también hace NER. Tienen versiones independientes y motores de análisis UIMA.

Una observación adicional: no saldrá sin tokenización en la entrada. La tokenización del lenguaje natural es ligeramente no trivial, por eso te sugiero que uses una caja de herramientas que hace las dos cosas por ti.

+0

GENIA etiquetador/tokenizer funciona bien como lo hace del Analizador de Stanford construida en tokenizer! – nflacco

0

Es posible que desee intentar Alchemy API también. Es similar a Open Calais.

Cuestiones relacionadas