He creado un script de tablas de bases de datos, vistas y procedimientos almacenados de MsSqlServer en una estructura de directorios que luego estoy indexando con Lucene.net. La mayoría de los nombres de mi tabla, vista y procedimiento contienen guiones bajos.Lucene.Net Underscores causando división de tokens
Uso el StandardAnalyzer. Si consulto una tabla llamada tIr_ InvoiceBtnWtn01, por ejemplo, recibo visitas para tIr y para InvoiceBtnWtn01, en lugar de solo para _InvoiceBtnWtn01.
Creo que el problema es que el tokenizer se está dividiendo en _ (guión bajo) ya que es la puntuación.
¿Hay alguna manera (simple) de eliminar los guiones bajos de la lista de puntuación o hay otro analizador que debería usar para sql y lenguajes de programación?
Estoy intentando el StopAnalyzer y la WhitespaceAnalyzer ahora. Entonces, parece que WhitespaceAnalyzer puede ser el camino a seguir. – automatic