Alguien sabe de cualquier alternativa C# a TiKa capaz de extraer texto de HTML, PDF, etc.?C# Alternativas a Tika
Respuesta
Tengo una necesidad similar ... Tengo un proyecto .Net donde necesito extraer texto de varios archivos (.XLS, .DOC, .PDF, etc.) para indexar con Lucene. Net
This blog post parece ser exactamente lo que estoy buscando: ¡Un contenedor .Net alrededor del archivo .jar!
estoy poniendo en práctica ahora, pero si no funciona, entonces voy a actualizar mi respuesta aquí ...
Editar: Ok, le toca, correr y trabajar bien (si es una poco despacio). Hay una disputa de dependencia bastante desagradable con los bits de IKVM, pero es la mejor alternativa que he encontrado.
Su pregunta es un poco vaga, pero para analizar HTML puede usar el Html Agility Pack que le da acceso DOM total al HTML y permite extraer elementos usando expresiones XPath.
Vago no, conciso sí. Tika es un extractor/analizador de texto que extraerá el texto que usaré con Lucene para indexar. Estoy buscando algo así para C#. – Jesse
Puede usar Lucene.Net y probar algunos analizadores .... Acabo de encontrar este blog que tiene algunos enlaces interesantes ... ¡Espero que ayude!
http://kalanir.blogspot.com.ar/2008/08/indexing-pdf-documents-with-lucene.html
he implementado un marco llamado Toxy. Se basa en .NET y es más fácil de usar que Tika. favor visite http://toxy.codeplex.com
- 1. C/C++ alternativa a Apache Tika
- 2. tika
- 3. Alternativas a las plantillas C++?
- 4. Adición de perfil lingüístico a Apache Tika
- 5. Alternativas a tipos anulables en C#
- 6. Alternativas a la compilación condicional en C#
- 7. Alternativas a Ctags/Cscope con Objective-c?
- 8. Alternativas a dlsym() y dlopen() en C++
- 9. Alternativas a stats :: reshape
- 10. C++ ¿Informar alternativas?
- 11. Alternativas a ppl
- 12. hay alternativas a yUML
- 13. Alternativas a ERB
- 14. Alternativas a YQL
- 15. Alternativas a window.scrollMaxY?
- 16. Alternativas a JUnit
- 17. Alternativas a DWR (www.directwebremoting.org)
- 18. Alternativas a GNU diff?
- 19. Alternativas a Inflector.Net
- 20. alternativas a jpivot?
- 21. Alternativas a Neptuno
- 22. Alternativas a CKAN
- 23. Alternativas a gettext?
- 24. Alternativas ORM a ActiveRecord
- 25. Alternativas a Thread.Sleep()
- 26. Alternativas a System.exit (1)
- 27. Alternativas a Applescript?
- 28. Alternativas a TOAD (Linux)
- 29. Alternativas a HtmlAgilityPack?
- 30. Alternativas a expresiones regulares
algunas preguntas no deben cerrarse rápidamente bajo la alegación de fuera de tema, desde mi opinión este tipo de acciones son muy irresponsables y afectan a la calidad de servicios prestados por SO página web – Alrehamy
de acuerdo, cuestión totalmente válido que probablemente habría ayudado alguien buscando la respuesta. – Jesse