Me gustaría descubrir una buena forma de realizar extracción de términos en datos de texto de consumidor de formato libre. En un escenario ideal podría extraer frases nominales de al menos dos palabras que incluyen algún tipo de contexto de su uso. Estos son mi conjunto ideal de requisitos.Extracción de términos con relevancia contextual (frases nominales) del texto en un proyecto .NET
- sintagma nominal extracción
- Fácil integración en un proyecto .NET
- No hay servicio de 3 ª parte la integración
que he hecho algunas investigaciones ya y he incluido algunas notas a continuación.
Hay muchas bibliotecas de PNL diferentes por ahí. Los grandes contendientes parecen ser NLTK y OpenNLP. Ambos admiten tokenizar datos de texto y extraer, entre otras cosas, frases nominales. Sin embargo, ninguno de los dos se implementa en .NET y se necesitaría algún tipo de capa de IPC. Ambos también tienen curvas de aprendizaje bastante altas.
SharperNLP es un puerto C# de OpenNLP. Tuvo una breve ráfaga de actividad en 2006, pero no mucho desde entonces.
Aquí hay algunas notas de alguien que intentó integrarse con NLTK en una implementación .NET utilizando IronPython.
Open Source NLP in C# 3.5 using NLTK.
La solución más fácil que he encontrado hasta el momento es SQL Server Integration Services Term Extraction Transformation. Fue muy simple de configurar y poner en marcha. Pudo extraer frases nominales significativas con un alto grado de precisión. Sin embargo, tiene una serie de limitaciones.
- Es un paquete SSIS, ideal para analizar texto después de los hechos, pero no en tiempo real.
- Requiere una licencia empresarial de SQL Server.
- Solo es compatible con inglés sin planes de compatibilidad con otros idiomas.
Para cerrar, me doy cuenta de que mis requisitos pueden ser demasiado estrictos, así que no dude en responder con cualquier tipo de solución que al menos extraiga fragmentos de frases nominales.
No, en absoluto el mismo algoritmo, pero es C# derivada de algoritmo. http://tartarus.org/~martin/PorterStemmer/csharp2.txt Una frase nominal es claramente más compleja – Paparazzi