C# Alternativas a Tika

Alguien sabe de cualquier alternativa C# a TiKa capaz de extraer texto de HTML, PDF, etc.?C# Alternativas a Tika

2010-06-24 Jesse

algunas preguntas no deben cerrarse rápidamente bajo la alegación de fuera de tema, desde mi opinión este tipo de acciones son muy irresponsables y afectan a la calidad de servicios prestados por SO página web – Alrehamy

de acuerdo, cuestión totalmente válido que probablemente habría ayudado alguien buscando la respuesta. – Jesse

Tengo una necesidad similar ... Tengo un proyecto .Net donde necesito extraer texto de varios archivos (.XLS, .DOC, .PDF, etc.) para indexar con Lucene. Net

This blog post parece ser exactamente lo que estoy buscando: ¡Un contenedor .Net alrededor del archivo .jar!

estoy poniendo en práctica ahora, pero si no funciona, entonces voy a actualizar mi respuesta aquí ...

Editar: Ok, le toca, correr y trabajar bien (si es una poco despacio). Hay una disputa de dependencia bastante desagradable con los bits de IKVM, pero es la mejor alternativa que he encontrado.

Fuente

2010-09-15 12:59:04 NeilD

Parece prometedor. Le daré una oportunidad. ¡Gracias! – Jesse

Soy el autor de la publicación del blog mencionada. El resultado de esta publicación es el proyecto TikaOnDotnet. Puede encontrar más información en este enlace. https://kevm.github.io/tikaondotnet/ – KevM

Su pregunta es un poco vaga, pero para analizar HTML puede usar el Html Agility Pack que le da acceso DOM total al HTML y permite extraer elementos usando expresiones XPath.

Fuente

2010-06-24 16:16:16

Vago no, conciso sí. Tika es un extractor/analizador de texto que extraerá el texto que usaré con Lucene para indexar. Estoy buscando algo así para C#. – Jesse

-1

Puede usar Lucene.Net y probar algunos analizadores .... Acabo de encontrar este blog que tiene algunos enlaces interesantes ... ¡Espero que ayude!

http://kalanir.blogspot.com.ar/2008/08/indexing-pdf-documents-with-lucene.html

Fuente

2013-03-09 18:34:36

he implementado un marco llamado Toxy. Se basa en .NET y es más fácil de usar que Tika. favor visite http://toxy.codeplex.com

Fuente

2014-01-11 09:34:14

Respuesta

Cuestiones relacionadas