Wortsegmentierer: Modul? (Seite 2) (Allgemeines zu Perl)

[thread]8111[/thread]

Wortsegmentierer: Modul? (Seite 2)

renee

2006-06-27 21:19

User since
2003-08-04
14371 Artikel
ModeratorIn

Und was machst Du mit Absätzen wie: Dies ist ein Test.Ohne Leerzeichen geht es weiter... ??

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/

pktm

2006-06-27 22:03

User since
2003-08-07
2921 Artikel
BenutzerIn

Jaja, so mal eben mit RegEx und Splitten an \w oder \s geht es nicht.
Diverse Ausnahmen werden vorher abgefangen und getaggt (z.B. Daten, Namen - soweit überhaupt möglich, Kompisita und diverse Strukturen wie Zitate, wörtliche Rede, Klammern).

Geht man also davon aus, dass man einen Text hat, der voll von "Ausnahmen" befreit ist würde die obige RegEx greifen. Aber einen solchen Text gibt es höchstens in linguistischen Korpora, nicht in der Realität.

Ich hatte gehofft, vielleicht ein Modul zu finden, dass mir ein bischen Arbeit abnimmt.
Text::ParseWords hat sich als ungeeignet erwiesen. Die anderenmuss ich noch testen.

http://www.intergastro-service.de (mein erstes CMS :) )

Ronnie

2006-06-27 22:05

User since
2003-08-14
2022 Artikel
BenutzerIn
[default_avatar]

offtopic: Bin ich der Einzige der unter Wortsegmentierer den politisch korrekten Begriff für einen Menschen der stottert vermutet hat?

pktm

2006-06-27 22:06

User since
2003-08-07
2921 Artikel
BenutzerIn

Ich denke schon :-D

http://www.intergastro-service.de (mein erstes CMS :) )

GwenDragon

2006-06-27 22:22

User since
2005-01-17
14944 Artikel
Admin1

Versuch mal so: http://search.cpan.org/search?mode=all&query=german

die Drachin Gwen

Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten

Pida

2006-06-27 23:35

User since
2006-06-09
52 Artikel
BenutzerIn
[default_avatar]

Von Modulen habe ich leider gar keine Ahnung... aber sag' doch mal ein bisschen was zu deiner Problemstellung. Bei den meisten deiner "Ausnahmen" kann ich nicht nachvollziehen, wo du ein Problem siehst... am ehesten noch bei den Namen, wenn du diese nicht als Worte ansehen möchtest.
Und es muss natürlich geklärt sein, welche Voraussetzungen auf Seiten des Textes vorliegen. Soll etwa der Fehler in renees Beispiel toleriert werden? Und natürlich: Was ist ein Wort?

Ein simples Splitten an whitespace + Tokenisierung + Entfernung dessen, was kein Wort ist mit einer RegEx hat schon eine ziemlich hohe Trefferquote. Funktionierte bei einem kleinen Testlauf ohne Fehler.

Gruß, Pida

View all threads created 2006-06-27 01:56.