Estoy desarrollando una herramienta de anotación semiautomática para textos médicos y estoy completamente perdido al encontrar los tripletes RDF para anotación.Herramienta de anotación semiautomática: cómo encontrar RDF Triplets
Actualmente estoy tratando de utilizar un enfoque basado en PNL. Ya he examinado Stanford NER y OpenNLP y ambos no tienen modelos para extraer nombres de enfermedades.
Mi pregunta es: * ¿Cómo puedo crear un nuevo modelo NER para extraer nombres de enfermedades? y ¿puedo obtener ayuda de OpenNLP o Standford NER? * ¿Existe algún otro enfoque, aparte de NLP, para extraer los tripletes RDF de un texto?
¡Cualquier ayuda sería apreciada! Gracias.
mmmmmmm .. ok Ya he examinado la herramienta de capacitación de OpenNLP pero mi pregunta es: ¿Puedo capacitar al modelo para descubrir nombres de enfermedades cuando está diseñado originalmente para nombres de personas? –
Puede intentar y medir lo bueno que es. Cualquiera que sea la herramienta que use, probablemente necesite un conjunto de datos para entrenarlo (a menos que use un enfoque de diccionario geográfico/diccionario). Entonces, puede usar el mismo conjunto de datos para entrenar diferentes sistemas y compararlos. La API de capacitación de OpenNLP es lo suficientemente simple como para hacer un experimento con ella no es costoso. Pero, necesitas un conjunto de datos de entrenamiento. – castagna
Sí exactamente ... He buscado un conjunto de datos de entrenamiento/prueba y encontré algunos gratuitos, el mejor de los cuales parece ser la base de datos de PubMed. ¿Conoces algún otro conjunto de datos de entrenamiento que pueda usar? ¡Muchas gracias! –