Básicamente estoy tratando de indexar documentos word o pdf en Solr y encontré el ExtractingRequestHandler, pero no puedo descifrar cómo escribir código en C# que realiza la solicitud HTTP POST como en el Solr wiki: http://wiki.apache.org/solr/ExtractingRequestHandler.Documentos de índice PDF en Solr desde C# client
He instalado Solr 3.4 en Tomcat 7 (7.0.22) usando los archivos del directorio de ejemplo/solr en el zip de Solr y no he alterado nada. El ExtractingRequestHandler debe configurarse de fábrica en el archivo solrconfig.xml y listo para usar, ¿no?
¿Alguno de ustedes puede dar un ejemplo de C# (HttpWebRequest) de cómo realiza la solicitud HTTP POST y cargar un archivo PDF como se hace usando curl en la wiki de Solr?
He buscado en todo este sitio y muchos otros tratando de encontrar un ejemplo o un tutorial sobre cómo se hace esto, pero no he encontrado nada.
EDIT:
que finalmente lograron conseguir que funcione utilizando SolrNet!
Con el fin de que funcione tiene que copiar esto a una carpeta lib del directorio de instalación de la cremallera Solr Solr: archivo
- -Solr de células Apache-3.4.0.jar de la carpeta dist
- contenido del contrib \ extracción \ lib
Con SolrNet 0.4.0 beta 2, este código se encarga del trabajo:
Startup.Init<IndexDocument>("YOUR-SOLR-SERVICE-PATH");
var solr = ServiceLocator.Current.GetInstance<ISolrOperations<IndexDocument>>();
using (FileStream fileStream = File.OpenRead("FILE-PATH-FOR-THE-FILE-TO-BE-INDEXED"))
{
var response =
solr.Extract(
new ExtractParameters(fileStream, "doc1")
{
ExtractFormat = ExtractFormat.Text,
ExtractOnly = false
});
}
solr.Commit();
Disculpe las molestias. Sin embargo, espero que a otros les resulte útil.
Información muy útil -> funciona para mí. – FrenkyB
¿Puedes publicar tu clase IndexDocument? ¡Gracias! – CmdrTallen
Para utilizar ExtractParameters necesita SolrNet> 0.3.1 ("Install-Package SolrNet -Pre") – CmdrTallen