Text nahe bei anderem Text (Allgemeines zu Perl)

[thread]19140[/thread]

Text nahe bei anderem Text

Tags: perl5 Ähnliche Threads

Leser: 18

Articles: hide open all | hide show old branches

+14 replies
Raubtier

2014-06-10 17:36

User since
2012-05-04
1083 Artikel
BenutzerIn

Hallo,

ich suche gerade eine Möglichkeit, Text, der nahe bei anderem Text steht, zu finden.

Beispiel: Angenommen ich habe folgenden Text:

Quote
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.

Nun möchte ich herausfinden, ob z.B. "sed diam" in der Nähe von "sit amet" steht (Nähe kann z.B. "innerhalb von 8 Wörtern" oder irgendwas Klügeres bedeuten). Wie mache ich sowas sinnvoll, wenn ich viele Suchphrasen habe, die in der Nähe von jeweils wenigeren anderen Begriffen/Phrasen sein sollen? Gibt es passende Module?
Last edited: 2014-06-10 17:38:14 +0200 (CEST)
- +2 replies
- hlubenow
  
  2014-06-10 19:36
  
  User since
  2009-02-22
  888 Artikel
  BenutzerIn
  
  Kommt wohl auch darauf an, was "in der Nähe" bedeutet. Wenn's in derselben Zeile ist, wär's z.B. einfach.
  - Raubtier
    
    2014-06-10 20:58
    
    User since
    2012-05-04
    1083 Artikel
    BenutzerIn
    
    2014-06-10T17:36:33 hlubenow
    Kommt wohl auch darauf an, was "in der Nähe" bedeutet. Wenn's in derselben Zeile ist, wär's z.B. einfach.
    
    Schrieb ich ja: z.B. "innerhalb von 8 Wörtern"
    
    Zeilen spielen keine Rolle, d.h. der zu durchsuchende Text hat eine freie Form, d.h. ein aus mehreren Wörtern bestehender Suchbegriff kann auch einen Zeilenumbruch dazwischen haben. Ich behandle Zeilenumbrüche wie normalen Whitespace.
- +5 replies
- betterworld
  
  2014-06-10 20:18
  User since
  2003-08-21
  2614 Artikel
  ModeratorIn
  Naja, erstmal die Wörter in der Nähe extrahieren und dann darauf die Suche machen. Du sagst ja, dass es wenige Begriffe sind, deren Nähe untersucht werden soll. Also sollte das doch kein Problem sein.
  
  Code (perl): (dl )
  
  1 2 3 4 5
  
  my ($naehe) = $text =~ /(.{,100}sit amet.{,100})/ or die; my @suchphrasen = ("sed diam"); for (@suchphrasen) { warn "ja!" if $naehe =~ /\Q$_/; }
  
  Lieblingsmodule: IPC::System::Simple, Path::Class
  - +4 replies
  - Raubtier
    
    2014-06-10 20:56
    
    User since
    2012-05-04
    1083 Artikel
    BenutzerIn
    
    Na gut, du nimmst jetzt einfach 100 Zeichen links und rechts mit. Ich würde dann noch von beiden Seiten bis \b wegschneiden, damit ich Wortgrenzen bekomme. Ich hatte ursprünglich eher an eine Wortanzahl gedacht (also bis +-8 oder 9 Wörter), das scheint mir naiv besser eine Nähe auszudrücken.
    
    Daher hatte ich überlegt, mit split an Whitespace zunächst Worte zu bilden und dann - tja, und dann? Die Suchphrasen haben 1 bis 3 oder 4 Wörter, selten auch mal mehr. Und effizient sollte es auch sein.
    
    Vielleicht ist der Ansatz, erstmal +-100 Zeichen auszuwählen, ganz gut. Ist ja vor allem einfach zu implementieren und vermutlich ebenso gut :-)
    - betterworld
      
      2014-06-10 23:08
      
      User since
      2003-08-21
      2614 Artikel
      ModeratorIn
      
      Das war nur ein Beispiel. Du kannst den Regexp natürlich beliebig anpassen, um Wörter abzuzählen o.ä.
      Lieblingsmodule: IPC::System::Simple, Path::Class
    - +2 replies
    - Muffi
      
      2014-06-11 09:24
      
      User since
      2012-07-18
      1465 Artikel
      BenutzerIn
      
      2014-06-10T18:56:10 Raubtier
      Daher hatte ich überlegt, mit split an Whitespace zunächst Worte zu bilden und dann - tja, und dann? Die Suchphrasen haben 1 bis 3 oder 4 Wörter, selten auch mal mehr.
      
      Und wenn du erst nach Phrasen und den Rest nach Wörtern splittest?
      1 + 1 = 10
      - Raubtier
        
        2014-06-11 11:06
        
        User since
        2012-05-04
        1083 Artikel
        BenutzerIn
        
        Hört sich sinnvoll an! Ich glaube, bei dieser schwülen Wärme kann ich nicht nachdenken, da hätte ich auch selbst drauf kommen können :-)
- +2 replies
- bianca
  
  2014-06-11 08:13
  
  User since
  2009-09-13
  7016 Artikel
  BenutzerIn
  
  Für Textvergleiche verwende ich gern String::Diff. Wenn du deine Vergleichstexte in Häppchen aufteilst, die die gewünschte Größe haben könnte ich mir vorstellen, dass man damit auch arbeiten kann. Wenn sich auf dem Weg noch die Anforderung herausstellt, dass die Texte ganz leicht voneinander abweichen dürfen (z.B. Paragraf soll auch Paragraph als "gleich" erkennen), wäre das Modul bestimmt dafür geeignet.
  
  Edit: Hat das mit SEO und Keywords zu tun?
  
  Editiert von bianca: Edit ergänzt
  Last edited: 2014-06-11 08:15:37 +0200 (CEST)
  10 print "Hallo"
  20 goto 10
  - Raubtier
    
    2014-06-11 11:28
    
    User since
    2012-05-04
    1083 Artikel
    BenutzerIn
    
    Aktuell enthält die Suchliste oft mehrere Schreibweisen von ein und demselben Begriff (z.B. oft Singular und Plural). Andererseits möchte ich so wenig false positives wie möglich haben...
    
    SEO: nein, hat nix damit zu tun. Ich konsumiere die Texte nur und werte sie aus.
- +2 replies
- payx
  
  2014-06-11 10:24
  User since
  2006-05-04
  564 Artikel
  BenutzerIn
  Hallo Raubtier,
  
  in der Korpuslinguistik spricht man von Textumgebung oder Kontext.
  
  Ich habe mit Deinem Beispiel mal versucht, die Kontextsuche bei Korpora.org beispielhaft nachzuprogrammieren:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
  
  #!/usr/bin/perl use strict; use warnings; # Mögliche Kollokationen (statische Vorgabe) my %colls = ( 0 => 'vor' , 1 => 'nach' , 2 => 'vor oder nach' ); # Das Korpus my $txt = 'Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.'; # Der Suchstring (Benutzereingabe) my $such = "sed diam"; # Die Textumgebungen (Benutzereingabe) mit Abständen (Anzahl Wörter im Zwischenraum) und Kollokationen (s.o. %colls) my %kontexts = ( "sit amet" => {'dist' => 3, 'coll' => 1} , "eirmod" => {'dist' => 2, 'coll' => 2} , "Lorem" => {'dist' => 8, 'coll' => 0} ); for my $ktxt (keys %kontexts) { my $dist = $kontexts{$ktxt}->{dist}; my $coll = $kontexts{$ktxt}->{coll}; my ($s1, $s2) = ($such, $ktxt); print "Suche '$such' bis zu $dist Textsegmente $colls{$coll} '$ktxt'\n"; my $hit; for (1..($coll ? $coll : 1)) { ($s1, $s2) = ($s2, $s1) if $coll; $hit = $1 if $txt =~ /(\b$s1\W*(?:\w+\W+){0,$dist}$s2\b)/i; last if $hit; } if ($hit) { print " Treffer: '$hit'\n"; } else { print " Kein Treffer\n"; } }
  
  Es funktioniert mit Deinem Beispiel. Für weitergreifende Anwendungen wird man da noch tunen müssen. Für den professionellen Einsatz würde ich auf eine Search Engine wie Lucene mit SolR oder ElasticSearch zurückgreifen; die können solche Suchen out of the box.
  
  HTH
  Grüße
  payx
  - Raubtier
    
    2014-06-11 11:23
    
    User since
    2012-05-04
    1083 Artikel
    BenutzerIn
    
    Danke für das Beispiel. Sieht auch sehr gut aus.
    
    Ich muss alle Texte nur genau 1x durchsuchen, daher glaube ich nicht, dass es sich dafür lohnt, eine "richtige" Suchmaschine zu nutzen.
    
    Die Texte, die ich durchsuchen möchte, bekomme ich von kommerziellen Anbietern, die mir schon eine Vorauswahl der Texte ermöglichen. Dabei teste ich gerade mehrere Anbieter, von denen einige bereits eine Nahe-Suche in der Vorauswahl unterstützen, andere aber nicht.
- Muffi
  
  2014-06-11 10:30
  
  User since
  2012-07-18
  1465 Artikel
  BenutzerIn
  
  Oder du baust dir am Anfang eine "Tabelle" mit Nähebereichen (index von / index bis) für jede Phrase auf. Und bei der Suche schlägst du dann immer nur in der Tabelle nach, ob dein gesuchtes Wort im Nähebereich einer Phrase ist.
  1 + 1 = 10
- rosti
  
  2014-06-11 15:19
  
  User since
  2011-03-19
  3812 Artikel
  BenutzerIn
  
  Text::Query kennt near.
  
  --rosti
  https://www.rolfrost.de/
  
  Forum zu Fragen unserer Zeit

View all threads created 2014-06-10 17:36.