2010-06-24 14 views
9

Alguien sabe de cualquier alternativa C# a TiKa capaz de extraer texto de HTML, PDF, etc.?C# Alternativas a Tika

+1

algunas preguntas no deben cerrarse rápidamente bajo la alegación de fuera de tema, desde mi opinión este tipo de acciones son muy irresponsables y afectan a la calidad de servicios prestados por SO página web – Alrehamy

+2

de acuerdo, cuestión totalmente válido que probablemente habría ayudado alguien buscando la respuesta. – Jesse

Respuesta

2

Tengo una necesidad similar ... Tengo un proyecto .Net donde necesito extraer texto de varios archivos (.XLS, .DOC, .PDF, etc.) para indexar con Lucene. Net

This blog post parece ser exactamente lo que estoy buscando: ¡Un contenedor .Net alrededor del archivo .jar!

estoy poniendo en práctica ahora, pero si no funciona, entonces voy a actualizar mi respuesta aquí ...

Editar: Ok, le toca, correr y trabajar bien (si es una poco despacio). Hay una disputa de dependencia bastante desagradable con los bits de IKVM, pero es la mejor alternativa que he encontrado.

+0

Parece prometedor. Le daré una oportunidad. ¡Gracias! – Jesse

+0

Soy el autor de la publicación del blog mencionada. El resultado de esta publicación es el proyecto TikaOnDotnet. Puede encontrar más información en este enlace. https://kevm.github.io/tikaondotnet/ – KevM

2

Su pregunta es un poco vaga, pero para analizar HTML puede usar el Html Agility Pack que le da acceso DOM total al HTML y permite extraer elementos usando expresiones XPath.

+5

Vago no, conciso sí. Tika es un extractor/analizador de texto que extraerá el texto que usaré con Lucene para indexar. Estoy buscando algo así para C#. – Jesse

4

he implementado un marco llamado Toxy. Se basa en .NET y es más fácil de usar que Tika. favor visite http://toxy.codeplex.com