Reguläre Ausdrücke (Allgemeines zu Perl)

no1gizmo

2008-03-07 13:41

User since
2007-02-20
21 Artikel
BenutzerIn

Hallo,

ich habe ein Problem mit den regulären Ausdrücken (die mir irgendwie jedes Jahr einmal begegnen und ich dann immer wieder ins kalte Wasser dabei falle).

Einen String, etwa wie:

Code: (dl )

\P{\H1.4x;Proximitar-Objekt, type Ni 22U-Q40-AP6X2-H1141,  Example,  see \fTimes New Roman|b0|i0|c0|p18;\C170;((B2 3503_0 Sh.14))}

Da will ich "Proximitar-Objekt, type Ni 22U-Q40-AP6X2-H1141, Example, see ((B2 3503_0 Sh.14))" raus haben. Also nur den text ohne RTF-Infos drumherum.

Den regulären Ausdruck dafür könnte man ja rech schnell aufstellen, nur ist das Problem, dass es keine feste Reihenfolge für die Infos gibt, es könnte auch erst der Text kommen, dann die Infos oder umgekehrt oder wie in diesem Fall, durchmischt.

Wie kann man den reg. Ausdruck so ausrichten, dass er einfach nur den Text herausfischt, also alles, was [\w] entspricht?

no1gizmo

2008-03-07 13:42

User since
2007-02-20
21 Artikel
BenutzerIn

Doppelpost :-( sorry!! Bitte löschen..

renee

2008-03-07 13:48

User since
2003-08-04
14371 Artikel
ModeratorIn

Das sieht nach LaTeX oder so aus. Für LaTeX gibt es - soweit ich weiß - ein CPAN-Modul zum Parsen...

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/

murphy

2008-03-07 14:39

User since
2004-07-19
1776 Artikel
HausmeisterIn

Für mich sieht das eher nach RTF aus -- vielleicht hilft da ja CPAN:

File::Extract::RTF weiter.

When C++ is your hammer, every problem looks like your thumb.

no1gizmo

2008-03-11 13:11

User since
2007-02-20
21 Artikel
BenutzerIn

Danke Jungs, leider ist es doch nicht so ganz einfach.

1) ist es leider kein Latex und auch kein RTF (hatte ich zuerst auch gedacht). Latex kenne ich selber ganz gut. Als RTF Infos einlesen (z.B. in eine Textbox.RTF) funktioniert auch nicht. Ich muss es wohl mit Regulären Ausdrücken lösen.

2) Arbeite ich gerade nicht auf Perl (dass es diese Module gibt, ist aber gut zu wissen!). Ich arbeite gerade mit C#. Aber bei Regulären Ausdrücken ist das ja (fast) egal. (da aber hier Experten für Reguläre Ausdrücke sind, frage ich hier)

Also ich sehe dem String nun an, dass all das, was ich nicht brauche mit \H oder \f anfängt und mit einem Semikolon aufhört. Das will ich herausfiltern mit einem Muster in Regulären Ausdrücken.

Leider bekomme ich den Ausdruck nicht hin.

Er sollte so lauten: Suche alles, was nicht zwischen einem "\H" (oder "\f") und einem Simikolon steht.

Also vielleicht etwa so: (?!)

"(^[\H]^[\f]^;)" (alles außer "\H", "\f" und ";")

Oder: Entferne alles, was zwischen einem "\H" (oder "\f") und einem Simikolon steht.

moritz

2008-03-11 13:17

User since
2007-05-11
923 Artikel
HausmeisterIn

Code (perl): (dl )

s{
   \\ [Hf]   # start eines tokens
   [^;]*     # alles ausser ;
   ;
}{}x; # ersetze mit mit leerem String

Das sollte mit C# änlich gehen, nur nicht mit so schöner Syntax ;-)

Perl 6 - Perls Zukunft

Linuxer

2008-03-11 13:21

User since
2006-01-27
3894 Artikel
HausmeisterIn

user image

Hi,

Quote
Oder: Entferne alles, was zwischen einem "\H" (oder "\f") und einem Simikolon steht.

Vorschlag:

Code (perl): (dl )

$text =~ s{\\[Hf][^;]+;}{}g;

meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!

renee

2008-03-11 13:23

User since
2003-08-04
14371 Artikel
ModeratorIn

In Perl würde ich es dann vermutlich so ungefähr machen:

Code (perl): (dl )

#!/usr/bin/perl

use strict;
use warnings;

my $string = '\P{\H1.4x;Proximitar-Objekt, type Ni 22U-Q40-AP6X2-H1141,  Example,  see \fTimes New Roman|b0|i0|c0|p18;\C170;((B2 3503_0 Sh.14))}';
my ($text) = $string =~ m~ \\P\{ (.*) \} ~x;
$text =~ s!\\[A-Za-z].*?;!!g;
print $text;

Keine Ahnung, ob das auch in C# so funktioniert.

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/

no1gizmo

2008-03-11 13:28

User since
2007-02-20
21 Artikel
BenutzerIn

@moritz: Genial! DANKE!

In C# siehts dann so aus:

Code: (dl )

1
2
3

Regex regex = new Regex(@"\\[HfC][^;]*;");

return_string = regex.Replace(line, "");

Neben \H und \f ist noch \C hinzugekommen.

Die Variable "line" ist der Quellstring, z.B.:

\P{\H1.4x;Proximitar-Objekt, type Ni 22U-Q40-AP6X2-H1141, Example, see \fTimes New Roman|b0|i0|c0|p18;\C170;((B2 3503_0 Sh.14))}

Nochmals Danke @moritz, auch an renee und murphy!

EDIT: So viele Antworten in kurzer Zeit!? UIIIiiii.
Danke. Auch der von Linuxer vorgeschlagene reg. Ausdruck funktioniert.