Thread XML::LibXML Webseite parsen (5 answers)
Opened by Willy at 2010-04-21 20:06

murphy
 2010-04-21 20:21
#136350 #136350
User since
2004-07-19
1776 Artikel
HausmeisterIn
[Homepage]
user image
Um XHTML korrekt als XML zu verarbeiten braucht man in der Tat Namespaceunterstützung, denn rein prinzipiell können in einem XHTML-Dokument neben HTML-Tags auch allerhand Dinge aus anderen XML-Namespaces vorkommen — zum Beispiel MathML-Formeln oder eingebettete SVG-Grafiken.

Du kannst Dich bei der Verwendung von CPAN:XML::LibXML mit einem XHTML-Dokument entscheiden, ob Du es mittels $parser->parse_file(...); als XML parsen und mit Namespaces arbeiten willst oder ob Du es mittels $parser->parse_html_file(...); als "normales" HTML parsen möchtest, das Du dann ohne Namespaces verarbeiten kannst, wobei aber eventuell eingebettete Tags aus anderen XML-Namespaces ihre Bedeutung verlieren.
When C++ is your hammer, every problem looks like your thumb.

View full thread XML::LibXML Webseite parsen