Estoy buscando una alternativa de C/C++ para marco de Apache Tika que se basa en Java. Específicamente, estoy buscando meatadatos de archivos y extracción de texto estructurado, todo bajo un marco. Después de algunas búsquedas en línea y navegar lo más cercano que tenemos es GNU libextractor y un montón de filtros de archivos individuales que analizan documentos para extraer datos de texto (pdftoext, xls2csv .etc)C/C++ alternativa a Apache Tika
Puede alguien por favor recomiendan una buena biblioteca comparables a Tika de Apache?
Gracias
Esta es una buena idea en teoría, pero ¿ha sido documentada alguna vez? Comprender el modo de servidor puede requerir algo de excavación a través del código y grupos de discusión. La documentación parece ser un problema en el proyecto Tika, lo cual es desafortunado, porque parece ser una herramienta integral. – Jason
Probablemente solo esté documentado en el código por ahora, ya que está en desarrollo activo. Si está interesado, la mejor opción es preguntar en la lista de correo, que podría presionar a uno de los committers que se ocupan de escribir algunos documentos :) – Gagravarr
Para cualquier persona que venga a esto en el futuro, la pregunta [ahora se ha preguntado en la lista de usuarios de Tika] (http://mail-archives.apache.org/mod_mbox/tika-user/201206.mbox/%3C4FEF52DA.7070908%40consil.co.uk%3E): a largo plazo, ese hilo contendrá con suerte ¡la respuesta correcta! – Gagravarr