ähnlichkeiten ermitteln? - #35375 (Datenbanken und Verzeichnisdienste)

Froschpopo

2007-03-27 04:19

User since
2003-08-15
2653 Artikel
BenutzerIn
[default_avatar]

Leider lässt mich meine studierende Freundin nicht schlafen.
Ein Grund, sich mit etwas Neuem zu beschäftigen.

Heute:
Einige User meine Community versenden leider Kettenmails.
Ich unterbinde dies, indem die letzten 50 Mails miteinander verglichen werden. Punkte und leerzeichen werden dabei ignoriert.

Leider funktioniert das nicht, wenn ein User Buchstaben verdreht, z.b. absichtlich aus "ich", "ihc", "ichh" oder "i ch" macht.
Deshalb bin ich auch folgende Idee gekommen:

Mails, die mehr als 100 Zeichen haben und sich zu 95% ähneln, sind Kettenmails.
Bei dem neuen Verfahren wird also für eine gewisse Anzahl von Zeichen ein Prozentwert festgelegt. Wird dieser Prozentwert erreicht, handelt es sich offenbar um eine mehrfach versandte Kettenmail.

Gibt es da in MySQL irgendeinen Trick, wie man z.b. 50 Datensätze miteinander vergleichen und dann ähnlichkeiten ermitteln kann?
Das Ergebnis muss nicht unbedingt ein Prozentwert sein. Es können auch nur die doppelt vorkommenden Zeichen, oder die "nicht-doppelt"-vorkommenden, sein.
Oder irgendetwas anderes.

Ideen sind jederzeit willkommen. Aber auch andere Vorschläge, wie man über Kettenmails tätig werden könnte.
Leider fühlen sich viele Frauen gestört, wenn sie wie "am Fließband" behandelt werden.
Dagegen muss dringend etwas unternommen werden.
Letztendlich kommt es ja auch den Männern zugute, wenn die Athmosphaere etwas gebessert wird und weibliche Mitglieder ein wenig euphorischer Nachrichten entgegennehmen.