Tengo un gran conjunto de archivos (hdf) que necesito para habilitar la búsqueda. Para Java, usaría Lucene para esto, ya que es un motor de indexación de archivos y documentos. Aunque no sé cuál sería el equivalente de Python.indexación y búsqueda de archivos en Python
¿Alguien puede recomendar qué biblioteca debería usar para indexar una gran colección de archivos para una búsqueda rápida? ¿O es la forma preferida de rodar la tuya?
He visto pylucene y lupy, pero ambos proyectos parecen bastante inactivos y no soportados, por lo que no estoy seguro de si deberían confiar en ellos.
Notas finales: Woosh y pylucene parecen prometedores, pero woosh sigue siendo alfa, por lo que no estoy seguro de querer confiar en ello, y tengo problemas para compilar pylucene, y no hay versiones reales de él. Después de haber analizado un poco más los datos, se trata principalmente de números y cadenas de texto predeterminadas, por lo que, ahora que no está disponible, un motor de indexación no me ayudará. Esperemos que estas bibliotecas se estabilicen y más tarde los visitantes encuentren algún uso para ellas.
Puedo leer bien los archivos hdf5 usando pytables, solo necesito encontrar la herramienta adecuada para indexar la información que extraigo. – Staale
Tengo poca experiencia en el área. Como ya puede leer archivos hd5, creo que pyIndexer podría funcionar para usted. Tengo poca experiencia en el área y espero que su proyecto funcione bien. – batbrat