9 Stimmen

Welche Unicode-Zeichen sind in IDN-Hostbezeichnungen erlaubt?

Ich arbeite derzeit an einem "richtigen" URI-Validator, und derzeit läuft alles auf die Validierung von Hostnamen hinaus; der Rest ist nicht so schwierig.

Ich stecke bei IDN-Hostnamen fest (d. h., sie enthalten Unicode; mögliche Punycode-kodierte Zeichenfolgen wurden bereits dekodiert).

Meine erste Idee war im Grunde eine Regex für TLDs, die keine IDNs unterstützen, und eine für solche, die dies tun. Dies könnte vielleicht auf folgender Grundlage geschehen Mozillas Liste der IDN-aktivierten TLDs . Respektive, ^[a-zA-Z0-9\-]+$ y ^[a-zA-Z0-9\-\p{L}]+$ . Dies ist jedoch keine ideale Situation, da jede IDN-Registrierungsstelle entscheiden kann, welche Zeichen sie zulässt.

Was ich suche, ist eine ordentliche, konsistente und aktuelle Datentabelle mit den in den verschiedenen TLDs zulässigen Unicode-Zeichen. Es sieht langsam so aus, als müsste ich alle Daten selbst auf russischen und chinesischen Registrierungsseiten finden (was ziemlich schwierig ist).

Bevor ich also versuche, all diese Daten selbst zu sammeln, habe ich mich gefragt, ob eine solche Liste bereits existiert. Oder gibt es bessere Ansätze, beste/übliche Praktiken usw.? (Ich möchte, dass die Validierung so streng wie möglich ist.)

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X