Welche Zeichen machen eine URL ungültig?

Question

Welche Zeichen machen eine URL ungültig?

Gefragt el 10 de Oktober, 2009: Wann wurde die Frage gestellt
606648 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Sind diese URLs gültig?

example.com/file[/].html
http://example.com/file[/].html

Gefragt el 10 de Oktober, 2009 von good

Answer 1

5 Antworten

Answer 2

9voto

Ciro Santilli Путлер Капут 六四事 Punkte 296949

Einige der Unicode-Zeichenbereiche sind gültige HTML5 obwohl es vielleicht trotzdem keine gute Idee ist, sie zu verwenden.

Z.B., href Die Ärzte sagen http://www.w3.org/TR/html5/links.html#attr-hyperlink-href :

Das href-Attribut von a- und area-Elementen muss einen Wert haben, der eine gültige URL ist, die möglicherweise von Leerzeichen umgeben ist.

Die Definition von "gültiger URL" zeigt dann auf http://url.spec.whatwg.org/ die nach eigenen Angaben darauf abzielt:

Anpassung von RFC 3986 und RFC 3987 an zeitgemäße Implementierungen und damit deren Überwindung.

Dieses Dokument definiert URL-Code-Punkte als:

ASCII alphanumerisch, "!", "$", "&", "'", "(", ")", "*", "+", ",", "-", ".", "/", ":", ";", "=", "? ", "@", "_", "~", und Codepunkte in den Bereichen U+00A0 bis U+D7FF, U+E000 bis U+FDCF, U+FDF0 bis U+FFFD, U+10000 bis U+1FFFD, U+20000 bis U+2FFFD, U+30000 bis U+3FFFD, U+40000 bis U+4FFFD, U+50000 bis U+5FFFD, U+60000 bis U+6FFFD, U+70000 bis U+7FFFD, U+80000 bis U+8FFFD, U+90000 bis U+9FFFD, U+A0000 bis U+AFFFD, U+B0000 bis U+BFFFD, U+C0000 bis U+CFFFD, U+D0000 bis U+DFFFD, U+E1000 bis U+EFFFD, U+F0000 bis U+FFFFD, U+100000 bis U+10FFFD.

In der Erklärung wird dann der Begriff "URL-Codepunkte" verwendet:

Wenn c kein URL-Codepunkt und nicht "%" ist, Parse-Fehler.

in mehreren Teilen des Parsing-Algorithmus, einschließlich des Schemas, der Autorität, des relativen Pfads, der Abfrage und des Fragmentstatus: also im Grunde die gesamte URL.

Auch der Validator http://validator.w3.org/ geht für URLs wie "" und gilt nicht für URLs mit Zeichen wie Leerzeichen "a b"

Natürlich geht es, wie von Stephen C. erwähnt, nicht nur um Zeichen, sondern auch um den Kontext: Sie müssen den gesamten Algorithmus verstehen. Aber da die Klasse "URL-Code-Punkte" auf Schlüsselpunkte des Algorithmus angewendet wird, gibt sie eine gute Vorstellung davon, was man verwenden kann und was nicht.

Siehe auch: Unicode-Zeichen in URLs

Beantwortet el 29 de August, 2014 von Ciro Santilli Путлер Капут 六四事 (296949 Punkte )

Answer 3

8voto

Bunyk Punkte 6965

Ich musste Zeichen auswählen, um URLs in einer Zeichenkette aufzuteilen, also beschloss ich, eine Liste von Zeichen zu erstellen, die in der URL selbst nicht gefunden werden konnten:

>>> allowed = "-_.~!*'();:@&=+$,/?%#[]?@ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789"
>>> from string import printable
>>> ''.join(set(printable).difference(set(allowed)))
'`" <\x0b\n\r\x0c\\\t{^}|>'

Die möglichen Optionen sind also Zeilenumbruch, Tabulator, Leerzeichen, Backslash und "<>{}^| . Ich denke, ich werde das Leerzeichen oder den Zeilenumbruch nehmen :)

Beantwortet el 11 de Februar, 2014 von Bunyk (6965 Punkte )

Answer 4

3voto

puchu Punkte 2963

Ich implementiere eine alte HTTP (0.9, 1.0, 1.1) Anfrage und Antwort Leser / Schreiber. Die Anfrage-URI ist die problematischste Stelle.

Sie können nicht einfach RFC 1738, 2396 oder 3986 verwenden. Es gibt viele alte HTTP-Clients und -Server, die mehr Zeichen zulassen. Deshalb habe ich Nachforschungen angestellt, die auf zufällig veröffentlichten Webserver-Zugriffsprotokollen basieren: "GET URI HTTP/1.0" 200 .

Ich habe festgestellt, dass die folgenden nicht standardisierten Zeichen häufig in URIs verwendet werden:

\ { } < > | ` ^ "

Diese Zeichen wurden beschrieben in RFC 1738 als unsicher .

Wenn Sie mit allen alten HTTP-Clients und -Servern kompatibel sein wollen, müssen Sie diese Zeichen erlauben in der Anfrage-URI.

Weitere Informationen über diese Forschung finden Sie unter oghttp-request-collector .

Beantwortet el 12 de April, 2020 von puchu (2963 Punkte )

0 Stimmen

Gibt es eine API zum Entfernen dieser Zeichen aus einer Zeichenkette

Kommentiert el 1 de Marsch, 2021 von Sandeep Das

Answer 5

2voto

ChrisR Punkte 14182

Das ist nicht wirklich eine Antwort auf Ihre Frage, aber die Validierung von URLs ist wirklich ein ernstes Problem. Es ist wahrscheinlich besser, nur den Domänennamen zu validieren und den Abfrageteil der URL zu lassen. Das ist meine Erfahrung.

Sie könnten auch die URL anpingen und sehen, ob sie eine gültige Antwort liefert, aber das könnte zu viel für eine so einfache Aufgabe sein.

Reguläre Ausdrücke zur Erkennung von URLs gibt es zuhauf, googeln Sie mal danach :)

Beantwortet el 10 de Oktober, 2009 von ChrisR (14182 Punkte )

0 Stimmen

Verwandt: Was ist der beste reguläre Ausdruck zu überprüfen, ob eine Zeichenfolge eine gültige URL ist?

Kommentiert el 17 de September, 2014 von DavidRR

0 Stimmen

Diese Antwort weist darauf hin, dass die URL-Validierung keine Aufgabe für eine Regex ist, sondern für eine Sprach-/Plattform-spezifische Bibliothek .

Kommentiert el 17 de September, 2014 von DavidRR

Answer 6

-7voto

relipse Punkte 1559

Ich habe mir ein paar reguläre Ausdrücke für PHP ausgedacht, die URLs im Text in Anker-Tags umwandeln. (Zuerst konvertiert es alle www. URLs zu http:// und konvertiert dann alle URLs mit https?:// zu einer href=... HTML-Links

$string = preg_replace('/(https?:\/\/)([!#$&-;=?\-\[\]_a-z~%]+)/sim', '<a href="$1$2">$2</a>', preg_replace('/(\s)((www\.)([!#$&-;=?\-\[\]_a-z~%]+))/sim', '$1http://$2', $string) );

Beantwortet el 26 de Dezember, 2016 von relipse (1559 Punkte )

10 Stimmen

-1; abgesehen von der Tatsache, dass beide in irgendeiner Weise mit URLs zu tun haben, hat dies nichts mit der gestellten Frage zu tun.

Kommentiert el 11 de September, 2018 von Mark Amery

Welche Zeichen machen eine URL ungültig?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Welche Zeichen machen eine URL ungültig?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: