Nicht gieriger (zurückhaltender) Regex-Abgleich in sed?

Question

Nicht gieriger (zurückhaltender) Regex-Abgleich in sed?

Gefragt el 9 de Juli, 2009: Wann wurde die Frage gestellt
279417 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich versuche, sed zu verwenden, um Zeilen von URLs zu bereinigen, um nur die Domain zu extrahieren.

Also von:

http://www.suepearson.co.uk/product/174/71/3816/

Ich will:

http://www.suepearson.co.uk/

(entweder mit oder ohne den abschließenden Schrägstrich, es spielt keine Rolle)

Ich habe es versucht:

 sed 's|\(http:\/\/.*?\/\).*|\1|'

und (unter Auslassung des nicht-gierigen Quantors)

sed 's|\(http:\/\/.*\?\/\).*|\1|'

aber ich scheine den nicht-gierigen Quantifizierer nicht zu bekommen ( ? ), um zu funktionieren, so dass am Ende immer die ganze Zeichenfolge übereinstimmt.

Gefragt el 9 de Juli, 2009 von Joel

68 Stimmen

Eine Randbemerkung: Wenn Sie Ihre Regexe mit "|" abgrenzen, brauchen Sie die "/"s nicht zu escapen. Tatsächlich grenzen die meisten Leute mit "|" anstelle von "/" ab, um die "Zäune" zu vermeiden.

Kommentiert el 14 de November, 2009 von AttishOculus

15 Stimmen

@AttishOculus Das erste Zeichen nach dem 's' in einem Ersatzausdruck in sed ist das Trennzeichen. Daher funktionieren auch 's^foo^bar^' oder 's!foo!bar!'

Kommentiert el 6 de Februar, 2014 von Squidly

1 Stimmen

Für erweiterte Regex, verwenden Sie sed -E 's... . Dennoch, kein unwilliger Betreiber.

Kommentiert el 3 de Kann, 2018 von Ondra Žižka

Anzeigen 1 weitere Kommentare

Answer 1

5 Antworten

Answer 2

5voto

peterh Punkte 16923

sed hat sicherlich seine Berechtigung, aber das hier gehört nicht dazu!

Wie Dee bereits erwähnt hat: Verwenden Sie einfach cut . In diesem Fall ist es viel einfacher und viel sicherer. Hier ist ein Beispiel, in dem wir verschiedene Komponenten aus der URL mit der Bash-Syntax extrahieren:

url="http://www.suepearson.co.uk/product/174/71/3816/"

protocol=$(echo "$url" | cut -d':' -f1)
host=$(echo "$url" | cut -d'/' -f3)
urlhost=$(echo "$url" | cut -d'/' -f1-3)
urlpath=$(echo "$url" | cut -d'/' -f4-)

gibt Ihnen:

protocol = "http"
host = "www.suepearson.co.uk"
urlhost = "http://www.suepearson.co.uk"
urlpath = "product/174/71/3816/"

Wie Sie sehen können, ist dies ein sehr viel flexiblerer Ansatz.

(alle Angaben zu Dee)

Beantwortet el 30 de August, 2013 von peterh (16923 Punkte )

Answer 3

4voto

Lucero Punkte 57715

sed 's|(http:\/\/[^\/]+\/).*|\1|'

Beantwortet el 9 de Juli, 2009 von Lucero (57715 Punkte )

3 Stimmen

Wenn Sie "|" als Trennzeichen verwenden, brauchen Sie "/" nicht zu escapen.

Kommentiert el 30 de Oktober, 2015 von Michael Back

Answer 4

4voto

stepancheg Punkte 4124

Sed -E interpretiert reguläre Ausdrücke als erweiterte (moderne) reguläre Ausdrücke

Aktualisierung: -E unter MacOS X, -r in GNU sed.

Beantwortet el 9 de Juli, 2009 von stepancheg (4124 Punkte )

4 Stimmen

Nein, tut es nicht... Zumindest nicht GNU sed.

Kommentiert el 1 de Februar, 2011 von Michel de Ruiter

7 Stimmen

Im weiteren Sinne, -E ist einzigartig für BSD sed und damit OS X. Links zu man pages. -r bietet erweiterte reguläre Ausdrücke für GNU sed wie in der Korrektur von @stephancheg erwähnt. Seien Sie vorsichtig, wenn Sie einen Befehl verwenden, dessen Variabilität bei verschiedenen 'nix-Distributionen bekannt ist. Ich habe das auf die harte Tour gelernt.

Kommentiert el 24 de Kann, 2012 von fny

1 Stimmen

Dies ist die richtige Antwort, wenn Sie sed verwenden wollen, und sie ist am ehesten auf die ursprüngliche Frage anwendbar.

Kommentiert el 22 de Juli, 2013 von Will Tice

Anzeigen 3 weitere Kommentare

Answer 5

2voto

BrianB Punkte 21

Da Sie ausdrücklich angegeben haben, dass Sie sed (anstelle von perl, cut usw.) verwenden wollen, versuchen Sie es mit grouping. Damit umgehen Sie, dass die nicht gierigen Bezeichner möglicherweise nicht erkannt werden. Die erste Gruppe ist das Protokoll (z.B. 'http://', 'https://', 'tcp://', usw.). Die zweite Gruppe ist die Domäne:

echo "http://www.suon.co.uk/product/1/7/3/" | sed "s|^\\(.\*//\\)\\(\[^/\]\*\\).\*$|\\1\\2|"

Wenn Sie mit der Gruppierung nicht vertraut sind, beginnen Sie aquí .

Beantwortet el 6 de Februar, 2014 von BrianB (21 Punkte )

Answer 6

1voto

Iain Henderson Punkte 119

Ich weiß, dass dies ein alter Eintrag ist, aber vielleicht findet ihn jemand nützlich. Da der vollständige Domänenname eine Gesamtlänge von 253 Zeichen nicht überschreiten darf, ersetzen Sie .* durch .\{1, 255\}

Beantwortet el 29 de Juni, 2011 von Iain Henderson (119 Punkte )

Nicht gieriger (zurückhaltender) Regex-Abgleich in sed?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Nicht gieriger (zurückhaltender) Regex-Abgleich in sed?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: