Estoy escribiendo un indexador Lucene.NET personalizado para permitir la indexación de documentos de MS Word. El indexador debe ser capaz de manejar las últimas tres versiones de MS Word: 2010, 2007 y 2003.Cómo indexar documentos de Word 2003, 2007 y 2010 usando Lucene.NET
El plan es utilizar conjuntos de interconexión VSTO que se instalan como parte de VS2010 para extraer el contenido de texto de los documentos.
¿Existe alguna forma mejor de implementar la indexación de documentos de Word? ¿Esto significa que tendré que instalar las tres versiones de Word en el servidor? ¿O solo Word 2010?
Herramientas/Medio ambiente:
- Lucene.NET 2.3.1.3
- VS2010/.NET 3.5
- Windows 2008/IIS 7
Nota: Para obtener más detalles sobre cómo para implementar esto, vea Sitecore text search in PDF or Word documents