Thread HTML::Entities - decode_entities() erzeugt kein Unicode sondern Latin1 (40 answers)
Opened by GwenDragon at 2024-03-19 12:49

haj
 2024-03-21 17:38
#195962 #195962
User since
2015-01-07
531 articles
BenutzerIn

user image
Das ist eine dumme Idee.

Wenn in der Datei dann ein ä drinsteht und Du suchst nach einem a, dann ist das ein Treffer, auch wenn Du im Suchstring die Entities ersetzt.

Reguläre Ausdrücke wie qr/\w/ oder qr/\d/ funktionieren nur mit Characters, nicht mit Bytes. Wenn man sowas auf UTF-8-encodierte Strings losläßt, gibt's unsinnige Resultate, und auch bei Entities: Ein ← matcht qr/\w/, weil eben ein "l" und ein "e" usw. drin sind.

View full thread HTML::Entities - decode_entities() erzeugt kein Unicode sondern Latin1