2011-06-03 10 views
6

Estoy buscando una alternativa de C/C++ para marco de Apache Tika que se basa en Java. Específicamente, estoy buscando meatadatos de archivos y extracción de texto estructurado, todo bajo un marco. Después de algunas búsquedas en línea y navegar lo más cercano que tenemos es GNU libextractor y un montón de filtros de archivos individuales que analizan documentos para extraer datos de texto (pdftoext, xls2csv .etc)C/C++ alternativa a Apache Tika

Puede alguien por favor recomiendan una buena biblioteca comparables a Tika de Apache?

Gracias

Respuesta

2

Tika tiene un modo de servidor de red, por lo que siempre se puede empezar a usar ese Tika y luego enviarlo solicita de su código C++?

Alternativamente, Tika tiene un modo CLI, por lo que podría disparar un nuevo proceso Tika cada vez y leer los datos de la tubería.

+0

Esta es una buena idea en teoría, pero ¿ha sido documentada alguna vez? Comprender el modo de servidor puede requerir algo de excavación a través del código y grupos de discusión. La documentación parece ser un problema en el proyecto Tika, lo cual es desafortunado, porque parece ser una herramienta integral. – Jason

+0

Probablemente solo esté documentado en el código por ahora, ya que está en desarrollo activo. Si está interesado, la mejor opción es preguntar en la lista de correo, que podría presionar a uno de los committers que se ocupan de escribir algunos documentos :) – Gagravarr

+1

Para cualquier persona que venga a esto en el futuro, la pregunta [ahora se ha preguntado en la lista de usuarios de Tika] (http://mail-archives.apache.org/mod_mbox/tika-user/201206.mbox/%3C4FEF52DA.7070908%40consil.co.uk%3E): a largo plazo, ese hilo contendrá con suerte ¡la respuesta correcta! – Gagravarr

1

KDE proporciona una biblioteca llamada KFileMetaData que utilizan internamente para su indexador de archivos.

Utiliza C++, Qt5 y admite la mayoría de los formatos básicos, como - ms-office-2007, odfs, pdfs, imágenes, video, audio y libros electrónicos.