Schrift
Wiki:Tipp zum Debugging: use Data::Dumper; local $Data::Dumper::Useqq = 1; print Dumper \@var;
[thread]8111[/thread]

Wortsegmentierer: Modul? (Seite 2)



<< |< 1 2 >| >> 16 Einträge, 2 Seiten
renee
 2006-06-27 21:19
#67652 #67652
User since
2003-08-04
14371 Artikel
ModeratorIn
[Homepage] [default_avatar]
Und was machst Du mit Absätzen wie: Dies ist ein Test.Ohne Leerzeichen geht es weiter... ??
OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/
pktm
 2006-06-27 22:03
#67653 #67653
User since
2003-08-07
2921 Artikel
BenutzerIn
[Homepage]
user image
Jaja, so mal eben mit RegEx und Splitten an \w oder \s geht es nicht.
Diverse Ausnahmen werden vorher abgefangen und getaggt (z.B. Daten, Namen - soweit überhaupt möglich, Kompisita und diverse Strukturen wie Zitate, wörtliche Rede, Klammern).

Geht man also davon aus, dass man einen Text hat, der voll von "Ausnahmen" befreit ist würde die obige RegEx greifen. Aber einen solchen Text gibt es höchstens in linguistischen Korpora, nicht in der Realität.

Ich hatte gehofft, vielleicht ein Modul zu finden, dass mir ein bischen Arbeit abnimmt.
Text::ParseWords hat sich als ungeeignet erwiesen. Die anderenmuss ich noch testen.
http://www.intergastro-service.de (mein erstes CMS :) )
Ronnie
 2006-06-27 22:05
#67654 #67654
User since
2003-08-14
2022 Artikel
BenutzerIn
[default_avatar]
offtopic: Bin ich der Einzige der unter Wortsegmentierer den politisch korrekten Begriff für einen Menschen der stottert vermutet hat?
pktm
 2006-06-27 22:06
#67655 #67655
User since
2003-08-07
2921 Artikel
BenutzerIn
[Homepage]
user image
Ich denke schon :-D
http://www.intergastro-service.de (mein erstes CMS :) )
GwenDragon
 2006-06-27 22:22
#67656 #67656
User since
2005-01-17
14603 Artikel
Admin1
[Homepage]
user image
Pida
 2006-06-27 23:35
#67657 #67657
User since
2006-06-09
52 Artikel
BenutzerIn
[default_avatar]
Von Modulen habe ich leider gar keine Ahnung... aber sag' doch mal ein bisschen was zu deiner Problemstellung. Bei den meisten deiner "Ausnahmen" kann ich nicht nachvollziehen, wo du ein Problem siehst... am ehesten noch bei den Namen, wenn du diese nicht als Worte ansehen möchtest.
Und es muss natürlich geklärt sein, welche Voraussetzungen auf Seiten des Textes vorliegen. Soll etwa der Fehler in renees Beispiel toleriert werden? Und natürlich: Was ist ein Wort?

Ein simples Splitten an whitespace + Tokenisierung + Entfernung dessen, was kein Wort ist mit einer RegEx hat schon eine ziemlich hohe Trefferquote. Funktionierte bei einem kleinen Testlauf ohne Fehler.

Gruß, Pida
<< |< 1 2 >| >> 16 Einträge, 2 Seiten



View all threads created 2006-06-27 01:56.