Zu deinem Edit: das Clustering ist eine Kernidee der erstgenannten Publikation, denn wenn man Cluster bildet, reduziert sich das Suchproblem drastisch (von allen Vektoren auf die Cluster).
Außerdem kann man, wenn man den Haupt-Zentrodien bestimmt, die Diskriminanz der Anfrage bestimmen. Wenn die Anfrage zu nah am Durchschnitt liegt, ist sie ungünstig formuliert, frage also wenig Merkmale ab, die zur Unterscheidung der Dokumente nützlich sind.
Danke für die Antworten. Jetzt warte ich noch auf mein vorklassifiziertes Korpus, um zu Testen :) [das mit dem Warten ist kein Witz].