Passendes Paar-Tag mit Regex

Question

Passendes Paar-Tag mit Regex

Gefragt el 7 de November, 2009: Wann wurde die Frage gestellt
7031 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich versuche, bestimmte Tags mit ihrem Inhalt aus einem Xhtml-Dokument abzurufen, aber es werden die falschen End-Tags gefunden.

Im folgenden Inhalt:

<cache_namespace name="content">
    <content_block id="15">
    some content here

        <cache_namespace name="user">
            <content_block id="welcome">
            Welcome Apikot!
            </content_block>
        </cache_namespace>
    </content_block>
</cache_namespace>

Das endende content_block-Tag für id="welcome" wird tatsächlich als endendes Tag des ersten öffnenden content_block-Tags angepasst.

Die Regex, die ich verwende, lautet:

/<content_block id="(.*)">([\w\W]*?)<\/content_block>/i

Gibt es Hinweise darauf, wo ich versage?

Gefragt el 7 de November, 2009 von Andrei Serdeliuc ॐ

0 Stimmen

Warum verwenden Sie nicht XPath?

Kommentiert el 7 de November, 2009 von jitter

0 Stimmen

Duplikat: stackoverflow.com/questions/701166

Kommentiert el 7 de November, 2009 von Piskvor left the building

0 Stimmen

Können Sie die Einrückung garantieren?

Kommentiert el 31 de August, 2012 von FrankieTheKneeMan

Answer 1

5 Antworten

Answer 2

6voto

Konrad Rudolph Punkte 503837

Und die Antwort ist immer die gleiche: HTML + Regex kann nicht durchgeführt werden . Entschuldigung. Verwenden Sie eine HTML-Parsing-Bibliothek für Ihr spezielles Framework. Oder, wenn Ihr Dokument garantiert nur gültiges XHTML enthalten soll, wählen Sie den XPath-Ansatz, wie von jitter in einem Kommentar vorgeschlagen.

Beantwortet el 7 de November, 2009 von Konrad Rudolph (503837 Punkte )

0 Stimmen

Ich wollte gerade dasselbe antworten. ich frage mich, wie oft diese Frage schon gestellt und beantwortet wurde und ob diese Art von Fragen als Duplikat gekennzeichnet werden sollte.

Kommentiert el 7 de November, 2009 von ax.

0 Stimmen

Danke. Ich habe mich so sehr darauf konzentriert, es zum Laufen zu bringen, dass ich völlig übersehen habe, dass es vielleicht einfach nicht funktioniert.

Kommentiert el 7 de November, 2009 von Andrei Serdeliuc ॐ

0 Stimmen

Je nachdem, welche Sprache/Regex-Variante Sie dort verwenden, können Sie es vielleicht mit "rekursiven Ausdrücken" hacken. Aber in der Tat ist Regex das völlig falsche Werkzeug für das Parsen von HTML.

Kommentiert el 7 de November, 2009 von bobince

Anzeigen 1 weitere Kommentare

Answer 3

3voto

Saurabh Punkte 445

Das könnte helfen Ich habe eine Anleitung gefunden auf http://www.regular-expressions.info/examples.html die ein Paar von Zeichenketten erfasst, die im angegebenen Text wiederkehren. Es wird vorgeschlagen, ? nach .* zu verwenden, damit es nach dem ersten Auftreten der Endzeichenkette des Paares im Text aufhört.

Beantwortet el 18 de April, 2013 von Saurabh (445 Punkte )

Answer 4

1voto

Paul Butcher Punkte 6794

Dies ist ein bekanntes Problem mit Regex - man kann keine Paare vergleichen. Die Anpassung ist entweder gierig, d.h. sie passt auf den letzten gefundenen Ausdruck, oder nicht gierig, d.h. sie passt auf den ersten. Man kann eine Regex nicht dazu bringen, öffnende und schließende Klammern zu zählen.

Ich würde empfehlen, sie in ein DOM zu laden und dieses zu verwenden. Wenn Sie versuchen, einen HTML-Parser zu implementieren, würde ich empfehlen, Regex zu verwenden, um es zu lexen, und dann einen Links-Rechts-Parser, um die Ausgabe Ihres Lexers zu parsen.

Beantwortet el 7 de November, 2009 von Paul Butcher (6794 Punkte )

Answer 5

0voto

jk2K Punkte 3851

Dank @Jan Zankowski y @ikegami ihre Antwort hat mich inspiriert

Zur Veranschaulichung des Codes möchte ich PHP verwenden

<?php
$xml = <<<EOT
<cache_namespace name="content">
    <content_block id="15">
    some content here

        <cache_namespace name="user">
            <content_block id="welcome">
            Welcome Apikot!
            </content_block>
        </cache_namespace>
    </content_block>
</cache_namespace>
EOT;

preg_match('/<cache_namespace[^>]+>((?:(?!(<\/?div>)).)*)<\/cache_namespace>/s', $xml, $matches);
print_r($matches);

Regex-Notiz

s Option: a . im Muster passt auf alle Zeichen, auch auf Zeilenumbrüche
Der Schlüssel dazu ist, dass (?:(?!STRING).)* ist für Zeichenketten wie [^CHAR]* ist für Zeichen

Ergebnis

Array
(
    [0] => <cache_namespace name="content">
    <content_block id="15">
    some content here

        <cache_namespace name="user">
            <content_block id="welcome">
            Welcome Apikot!
            </content_block>
        </cache_namespace>
    </content_block>
</cache_namespace>
    [1] => 
    <content_block id="15">
    some content here

        <cache_namespace name="user">
            <content_block id="welcome">
            Welcome Apikot!
            </content_block>
        </cache_namespace>
    </content_block>

)

Beantwortet el 4 de Marsch, 2018 von jk2K (3851 Punkte )

Answer 6

-2voto

Maxim Suslov Punkte 3347

Das Parsen von XHTML oder XML ist nicht schwer. Ich bin davon ausgegangen, dass Sie gültigen oder wohlgeformten Code haben.

#!/usr/bin/perl
use strict;
use warnings;
use v5.10;
my $xml = <<"EOF";
<cache_namespace name="content">
    <content_block id="15">
    some content here

        <cache_namespace name="user">
            <content_block id="welcome">
            Welcome Apikot!
            </content_block>
        </cache_namespace>
    </content_block>
</cache_namespace>
EOF

while ($xml =~ m!
<(content_block)\sid="welcome"> # Start tag definition.
 (\s*                           # It may consists of
   (?: <\!--.*?-->              # - comment
   |  [^<]*                     # - text
   |  <[^>]+/>                  # - another closed tag
   |  <\s*(\w+)[^>]*>           # - another tag with some content
       (?2)+                    # (recursive definition of possible tag content)
      </\3>
   )
 )*
</\1>
!sxgc) {
    print "==> $&\n\n";
}

Bitte ändern Sie die Start-Tag-Definition für einen anderen Inhalt (wie <\s*(\w+)[^>]*+> ). Auf jeden Fall ist es ein guter Startpunkt.

Wenn Sie keine Rekursion verwenden wollen (Zeile mit (?2)+ ) werden Sie auf solche Beispiele . Dieser Code kann sie alle verarbeiten (siehe aquí ) oder sich leicht an neue Situationen anpassen kann.

Beantwortet el 6 de Februar, 2015 von Maxim Suslov (3347 Punkte )

1 Stimmen

Bricht ab, wenn es ein zusätzliches Leerzeichen zwischen content_block und id, ein Attribut zwischen content_block und id oder ein Attribut nach id gibt. Hängt, wenn Sie <other foo="hi>" /> (nur < muss in Attributwerten kodiert werden). Die Liste lässt sich zweifelsohne fortsetzen. Verwenden Sie immer eine XML-Parsing-Bibliothek. Sie sind einfach zu benutzen und erfordern nicht, dass Sie die unzähligen Probleme umgehen, auf die Sie stoßen, wenn Sie versuchen, sie von Hand mit einer Regex zu parsen.

Kommentiert el 9 de Februar, 2015 von Chas. Owens

Passendes Paar-Tag mit Regex

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Passendes Paar-Tag mit Regex

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: