46 Stimmen

Wie funktioniert ein Parser (z. B. HTML)?

Nehmen wir einmal an, es handelt sich um einen HTML-Parser.

Ich habe gelesen, dass es tokenisiert alles zuerst und analysiert es dann.

Was bedeutet "tokenisieren"?

Liest der Parser jedes einzelne Zeichen und baut ein mehrdimensionales Array auf, um die Struktur zu speichern?

Liest sie zum Beispiel eine < und dann beginnen, das Element zu erfassen, und dann, sobald es auf eine schließende > (außerhalb eines Attributs) irgendwo auf einen Array-Stapel geschoben wird?

Ich bin daran interessiert, weil ich es wissen will (ich bin neugierig).

Wenn ich mir die Quelle von etwas wie HTML-Reiniger würde mir das eine gute Vorstellung davon vermitteln, wie HTML geparst wird?

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X