Font
[thread]7260[/thread]

Phonetische Suche: Doku/Beispiele zur Berechnung phon. Code



<< |< 1 2 >| >> 15 entries, 2 pages
Cremator
 2005-09-07 17:01
#57725 #57725
User since
2003-11-26
97 articles
BenutzerIn
[default_avatar]
Huhu!

Ich überlege mir grade ein Teil meiner Programme um eine phonetische Suche zu erweitern und suche Doku zur Errechnung der phonetischen Codes. Ich kann leider nur mit diesen Codes arbeiten, da ich in einer Datenbank suchen muss. Solche Dinge wie die Levenshtein-Distanz scheiden also aus, da sich die in einem SELECT nun mal nicht berechnen läßt.

Stichworte die ich bisher dazu gefunden habe:

- Wiener Phonetik
- Kölner Phonetik
- Erweiterte Kölner Phonetik
- Hannoveraner Phonetik
- Russel-Soundex
- Metaphone

Zu den letzten beiden gibt's ja massig Doku und auf CPAN auch Module, aber zu den ersten (den eigentlich Interressanten, weil nicht englischlastigen) find ich irgendwie nix.

Webseiten die zu Krebsregistern gehören oder Planungen für Patientendaten beinhalten erwähnen meist die Kölner Phonetik - aber eben nur erwähnen, mit keinerlei Bezug oder Quellenangabe. Da lauf ich jedesmal gegen die Wand.

Kennt hier jemand irgendwas dazu? Bücher, Zeitschriften, Webseiten, mir Wurscht, hauptsache irgendwas...

*gefrustet*

Cremator\n\n

<!--EDIT|Cremator|1126098129-->
guest Gast
 2005-09-07 17:03
#57726 #57726
Ich würd' als erstes bei CPAN vorbeischauen.
vayu
 2005-09-07 17:07
#57727 #57727
User since
2005-01-13
782 articles
BenutzerIn
[default_avatar]
evtl ist hier was dabei? :)

Literaturverzeichnis zum PID-Dienst

[2] H.-J. Postel: Die Kölner Phonetik - Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. IBM-Nachrichten 19 (1969), 925-931.

[3] H.-J. Postel: Probleme beim Aufbau eines Informationssystems für Sicherheitsbehörden (II). Datenverarbeitung in Steuer, Wirtschaft und Recht, 2/1975, 55-61.

[4] J. Michael: Doppelgänger gesucht - Ein Programm für kontextsensitive phonetische Textumwandlung. c't 25/1999, 252-261.\n\n

<!--EDIT|vayu|1126098518-->
Cremator
 2005-09-07 17:21
#57728 #57728
User since
2003-11-26
97 articles
BenutzerIn
[default_avatar]
Naja, 1969 und 1975.. Koennte ein Problem werden da ranzukommen...

Aber [4] sieht gut aus.. Extrem gut sogar. Die c't war auch so nett das auf Ihre Site zu packen. Hier die zugehoerige URL:
http://www.heise.de/ct/ftp/99/25/252/

Das scheint wirklich das Einzige zu sein, was es an konkretem Beispiel gibt. :rock:
Dabei sollte man eigentlich meinen, das waere ein allgemein weit verbreitetes Problem...
vayu
 2005-09-07 17:27
#57729 #57729
User since
2005-01-13
782 articles
BenutzerIn
[default_avatar]
hrhr, das datum habbich idT ned gesehen :D

aber CT is doch schonmal gut.
guest Gast
 2005-09-07 17:33
#57730 #57730
Gut, dann halt nicht von CPAN.
Cremator
 2005-09-07 17:35
#57731 #57731
User since
2003-11-26
97 articles
BenutzerIn
[default_avatar]
@phaylon:

Aeh.. Hab ich schon..

Porter-Stemming mit Text::English oder die deutschen Varianten mit Lingua::Stem::De oder Text::German scheiden aus. Eine monstroese Wortliste fuer alles was in der DB vorkommt und dessen Grundform wollte ich dann doch nicht speichern.

Bearbeitungsdistanz mit Text::Levenshtein, String::Approx oder Text::PhraseDistance wuesste ich beim besten Willen nicht wie ich das einigermassen schnell mit einer Datenbank umsetzen soll. Da muesste ich ja jedesmal alles selektieren und dann berechnen. Selbiges gilt fuer Text::Ngram. Wie lange soll das denn dauern?

Und die einzigen beiden Module fuer phon. Codes auf dem CPAN sind Text::Metaphone und Text::Soundex ... Und die funktionieren nun mal nur im englischen richtig gut...\n\n

<!--EDIT|Cremator|1126100319-->
guest Gast
 2005-09-07 17:49
#57732 #57732
Spontan würde ich dann mal Text::TransMetaphone oder Text::MultiPhone versuchen.

Aufgrund der meist eher kurzen Codes würde ich mal sagen, dass sprach*übergreifende* phonetische Berechnungen schwierig sind.
Cremator
 2005-09-07 17:59
#57733 #57733
User since
2003-11-26
97 articles
BenutzerIn
[default_avatar]
OK, dann schau ich mir die zwei Module noch mal an und benutze in Zukunft nur noch die CPAN-Suche, denn auf http://search.cpan.org/modlist/String_Language_Text_Processing/ und dessen Unterseiten sind die zwei nicht aufgelistet.

Und sprachuebergreifend muss ja gar nicht sein. Fuer deutsch reicht mir ja schon voellig :-)
guest Gast
 2005-09-07 18:23
#57734 #57734
Die Modulliste an der Front enthält nur die Registrierten. Ich hab im Mozilla schon ein "cp" ShortCut für die Suche, es ist einfach viel ergiebiger :)
<< |< 1 2 >| >> 15 entries, 2 pages



View all threads created 2005-09-07 17:01.