Main menu:

Suchen

 
web
kriegermartin.de

Kategorien

September 2008
M D M D F S S
« Aug   Mai »
1234567
891011121314
15161718192021
22232425262728
2930  

Archiv

Hopphopp Tschingbum!

Stoppwörter nennt man Wörter die in nahezu jedem Text in einer Sprache auftreten, wie beispielsweise Artikel (der, die, das) und Präpositionen (an, auf, unter). Aufgrund ihrer Häufigkeit und meist geringen inhaltlichen Bedeutung werden sie bei der Suche nach Texten und bei der Erstellung des dazu genutzten Index normalerweise nicht berücksichtigt.

StoppwörterDie Volltextsuche in SQL Server 2008 nutzt natürlich auch Stoppwörter. Wenn man diese nicht selbst festlegen möchte kann man die von Microsoft in der Tabelle sys.fulltext_system_stopwords für 46 Sprachen mitgeliferten Wörter nutzen. Dabei fällt auf, daß die Liste für Deutsch sehr umfangreich ist. Nur Russisch und brasilianisches Portugiesisch haben noch mehr Einträge. Im Deutschen werden zwar offensichtlich mehr Stoppwörter benötigt als im Englischen. Aber gleich elf mal so viele erscheint mir doch etwas sehr viel. Ansehen kann man sich die Wörterliste mit:

SELECT stopword
  FROM sys.fulltext_system_stopwords
  WHERE language_id=1031

Etwa 600 der Einträge sind Zahlwörter in verschiedenen Formen (dreißig, -ste, -stem, -sten, -ster, -stes). Unter den übrigen findet sich jedoch allerlei Seltsames. Pscht paff peng piep patsch padautz, quak quiek ksch kuckuck. Es ist schon erstaunlich, was demzufolge in fast jedem Text in deutscher Sprache vorkommen soll. Boing, buh, bum, bums. Bäh. Welche Literatur mag Microsoft da wohl ausgewertet haben? Comics? Fob Eiapopeia, Pö.

Ojemine!

Write a comment