Hopphopp Tschingbum!
Stoppwörter nennt man Wörter die in nahezu jedem Text in einer Sprache auftreten, wie beispielsweise Artikel (der, die, das) und Präpositionen (an, auf, unter). Aufgrund ihrer Häufigkeit und meist geringen inhaltlichen Bedeutung werden sie bei der Suche nach Texten und bei der Erstellung des dazu genutzten Index normalerweise nicht berücksichtigt.
Die Volltextsuche in SQL Server 2008 nutzt natürlich auch Stoppwörter. Wenn man diese nicht selbst festlegen möchte kann man die von Microsoft in der Tabelle sys.fulltext_system_stopwords für 46 Sprachen mitgeliferten Wörter nutzen. Dabei fällt auf, daß die Liste für Deutsch sehr umfangreich ist. Nur Russisch und brasilianisches Portugiesisch haben noch mehr Einträge. Im Deutschen werden zwar offensichtlich mehr Stoppwörter benötigt als im Englischen. Aber gleich elf mal so viele erscheint mir doch etwas sehr viel. Ansehen kann man sich die Wörterliste mit:
SELECT stopword
FROM sys.fulltext_system_stopwords
WHERE language_id=1031
Etwa 600 der Einträge sind Zahlwörter in verschiedenen Formen (dreißig, -ste, -stem, -sten, -ster, -stes). Unter den übrigen findet sich jedoch allerlei Seltsames. Pscht paff peng piep patsch padautz, quak quiek ksch kuckuck. Es ist schon erstaunlich, was demzufolge in fast jedem Text in deutscher Sprache vorkommen soll. Boing, buh, bum, bums. Bäh. Welche Literatur mag Microsoft da wohl ausgewertet haben? Comics? Fob Eiapopeia, Pö.
Ojemine!
Posted: September 6th, 2008 under SQL Server.
Comments: none
Write a comment