Estoy trabajando en un proyecto de base de conocimiento utilizando SQL Server 2008 Full Text Search Engine. Proyecto incluido en artículos y archivos donde cada artículo tiene múltiples archivos. En esos artículos todo el contenido es html puro.Cómo ignorar las etiquetas html en Sql Server 2008 Búsqueda de texto completo
En este momento, he creado con éxito el catálogo de texto completo y el índice en SQL Server 2008 y mi base de datos es compatible con la versión 10.
Aquí están mis preguntas:
1) ¿Es posible ignorar las etiquetas HTML, los textos que contienen más claramente en "< ...>", mientras que la búsqueda en estos artículos, porque si quiero buscar div , tabla, etc. no debería haber resultado devuelto?
2) Los artículos se actualizarán en cualquier momento, por lo que el índice de texto completo se debe actualizar cuando se inserte un nuevo registro. ¿Es suficiente establecer solo "PISTA DE CAMBIOS AUTOMÁTICA" al crear un catálogo de texto completo?
3) Podemos usar la característica FILESTREAM de aquí en adelante, ¿SQL Server 2008 tiene un buen rendimiento en archivos que usan el índice de texto completo? ¿Qué tipos de documentos específicos tiene SQL Server 2008 para indexar?
Saludos
amigo Hola, Creo que la mejor solución es reemplazar HTML con expresiones regulares '<(.|\n)*?>' con un cheque ensamblado de SQL CLR este enlace http://justgeeks.blogspot.com/2008/08/adding-regular-expressions-regex-to-sql.html –