5

Estoy desarrollando una herramienta de anotación semiautomática para textos médicos y estoy completamente perdido al encontrar los tripletes RDF para anotación.Herramienta de anotación semiautomática: cómo encontrar RDF Triplets

Actualmente estoy tratando de utilizar un enfoque basado en PNL. Ya he examinado Stanford NER y OpenNLP y ambos no tienen modelos para extraer nombres de enfermedades.

Mi pregunta es: * ¿Cómo puedo crear un nuevo modelo NER para extraer nombres de enfermedades? y ¿puedo obtener ayuda de OpenNLP o Standford NER? * ¿Existe algún otro enfoque, aparte de NLP, para extraer los tripletes RDF de un texto?

¡Cualquier ayuda sería apreciada! Gracias.

Respuesta

4

He hecho algo similar a lo que necesita con OpenNLP y LingPipe. Encontré la fragmentación exacta de LingPipe basada en el diccionario lo suficientemente buena para mi caso de uso y la utilicé. Documentación disponible aquí: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

se puede encontrar una pequeña demostración aquí:

Si un diccionario geográfico/enfoque de diccionario no es lo suficientemente bueno para usted, usted puede intentar crear su propio modelo, OpenNLP también tiene API para modelos de entrenamiento. La documentación está aquí: http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

La extracción de RDF triplicado del lenguaje natural es un problema diferente que identificar entidades con nombre. NER es un paso relacionado y tal vez necesario, pero no suficiente. Para extraer una declaración RDF del lenguaje natural, no solo necesita identificar entidades como el sujeto y el objeto de una declaración. Pero también necesita identificar el verbo y/o la relación de esas entidades y también debe asignarlas a URI.

+0

mmmmmmm .. ok Ya he examinado la herramienta de capacitación de OpenNLP pero mi pregunta es: ¿Puedo capacitar al modelo para descubrir nombres de enfermedades cuando está diseñado originalmente para nombres de personas? –

+0

Puede intentar y medir lo bueno que es. Cualquiera que sea la herramienta que use, probablemente necesite un conjunto de datos para entrenarlo (a menos que use un enfoque de diccionario geográfico/diccionario). Entonces, puede usar el mismo conjunto de datos para entrenar diferentes sistemas y compararlos. La API de capacitación de OpenNLP es lo suficientemente simple como para hacer un experimento con ella no es costoso. Pero, necesitas un conjunto de datos de entrenamiento. – castagna

+0

Sí exactamente ... He buscado un conjunto de datos de entrenamiento/prueba y encontré algunos gratuitos, el mejor de los cuales parece ser la base de datos de PubMed. ¿Conoces algún otro conjunto de datos de entrenamiento que pueda usar? ¡Muchas gracias! –

Cuestiones relacionadas