2010-03-02 12 views
5

Hola chicos, he logrado eliminar HTML del contenido al indexar datos en SOLR.Eliminación de HTML en SOLR para almacenamiento, no indexación

¿Pero es posible eliminar HTML de datos simplemente al almacenar datos?

Esta es mi campo:

<field name="Content" type="textNoHTML" indexed="true" stored="true"/> 

Y, el tipo de campo "textNoHTML" implementa la solr.HTMLStripCharFilterFactory:

<charFilter class="solr.HTMLStripCharFilterFactory" /> 

Como ya he dicho, esto funciona bien para la indexación, pero ¿es posible aplicar un filtro similar para almacenar?

¡salud!

Respuesta

3

Si está utilizando DataImportHandler puede usar el HTMLStripTransformer.

De lo contrario, tendrá que implementar este lado del cliente por su cuenta. Si su cliente es .NET puede usar HtmlAgilityPack.

+0

+1 Ya veo. Entonces, si estoy importando datos desde un data store usando el DataImportHandler, puedo usar ese transformador ... pero si estoy agregando a través de los comandos XML, ¿no puedo? ¿Porque eso? De todos modos, genial, veré el paquete de agility. ¡aclamaciones! – andy

+0

Los campos almacenados de AFAIK siempre se almacenan textualmente. El DIH actúa como un cliente por lo que puede tener transformadores. –

+0

ahh, ya veo. aplausos mauricio – andy

Cuestiones relacionadas