Thread XML::LibXML Webseite parsen
(5 answers)
Opened by Willy at 2010-04-21 20:06
Um XHTML korrekt als XML zu verarbeiten braucht man in der Tat Namespaceunterstützung, denn rein prinzipiell können in einem XHTML-Dokument neben HTML-Tags auch allerhand Dinge aus anderen XML-Namespaces vorkommen — zum Beispiel MathML-Formeln oder eingebettete SVG-Grafiken.
Du kannst Dich bei der Verwendung von XML::LibXML mit einem XHTML-Dokument entscheiden, ob Du es mittels $parser->parse_file(...); als XML parsen und mit Namespaces arbeiten willst oder ob Du es mittels $parser->parse_html_file(...); als "normales" HTML parsen möchtest, das Du dann ohne Namespaces verarbeiten kannst, wobei aber eventuell eingebettete Tags aus anderen XML-Namespaces ihre Bedeutung verlieren. When C++ is your hammer, every problem looks like your thumb.
|