Ich habe ein Skript für eine MsSqlServer-Datenbank mit Tabellen, Ansichten und gespeicherten Prozeduren in einer Verzeichnisstruktur erstellt, die ich dann mit Lucene.net indizieren werde. Die meisten meiner Tabellen-, View- und Prozedurnamen enthalten Unterstriche.
Ich verwende den StandardAnalyzer. Wenn ich eine Abfrage für eine Tabelle namens tIr_ InvoiceBtnWtn01, zum Beispiel, erhalte ich Treffer für tIr und für InvoiceBtnWtn01 zurück, anstatt nur für tIr _InvoiceBtnWtn01.
Ich denke, das Problem ist der Tokenizer ist auf _ (Unterstrich) aufgeteilt, da es Satzzeichen ist.
Gibt es eine (einfache) Möglichkeit, Unterstriche aus der Interpunktionsliste zu entfernen, oder gibt es einen anderen Analyzer, den ich für Sql und Programmiersprachen verwenden sollte?