Extraktion von Daten aus einer einfachen XML-Datei

Question

Extraktion von Daten aus einer einfachen XML-Datei

Gefragt el 8 de Februar, 2010: Wann wurde die Frage gestellt
93882 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe eine XML-Datei mit dem Inhalt:

<?xml version="1.0" encoding="utf-8"?>
<job xmlns="http://www.sample.com/">programming</job>

Ich brauche einen Weg, um zu extrahieren, was sich in der <job..> </job> Tags, in diesem Fall programmin. Dies sollte in der Linux-Eingabeaufforderung mit grep/sed/awk geschehen.

Gefragt el 8 de Februar, 2010 von Zacky112

0 Stimmen

Wenn Ihre XML-Datei dies enthalten würde: <?xml version="1.0" encoding="utf-8"?> <job xmlns=" sample.com/">Tom & Jerry</job> würden Sie wollen, dass das Ergebnis XML-Escaping in Ruhe gelassen wird: Tom & Jerry oder möchten Sie, dass das Escaping rückgängig gemacht wird, wie es ein XML-Parser tun würde: Tom & Jerry Wenn letzteres der Fall ist, weiß ich leider nicht, wie man das mit Unix-Textprogrammen macht.

Kommentiert el 9 de Februar, 2010 von Paul Clapham

0 Stimmen

@Paul s/&/\&/g , auch für " usw., natürlich wird es nicht für benutzerdefinierte Entitäten usw. verallgemeinert.

Kommentiert el 10 de Februar, 2010 von 13ren

0 Stimmen

https://stackoverflow.com/a/17333829/3291390

Kommentiert el 25 de Januar, 2020 von Stack Underflow

Answer 1

5 Antworten

Answer 2

6voto

vldbnc Punkte 389

Verwendung von sed Befehl:

Exemple :

$ cat file.xml
<note>
        <to>Tove</to>
                <from>Jani</from>
                <heading>Reminder</heading>
        <body>Don't forget me this weekend!</body>
</note>

$ cat file.xml | sed -ne '/<heading>/s#\s*<[^>]*>\s*##gp'
Reminder

Erläuterung:

cat file.xml | sed -ne '/<pattern_to_find>/s#\s*<[^>]*>\s*##gp'

n - Drucken aller Zeilen unterdrücken
e - Skript

/<pattern_to_find>/ - findet Zeilen, die ein bestimmtes Muster enthalten, was z.B. sein könnte. <heading>

der nächste Teil ist die Substitution s///p die alles außer dem gewünschten Wert entfernt, wobei / wird ersetzt durch # für eine bessere Lesbarkeit:

s#\s*<[^>]*>\s*##gp
\s* - enthält Leerzeichen, falls vorhanden (auch am Ende)
<[^>]*> steht für <xml_tag> als nicht-gierige Regex-Alternative verursachen <.*?> funktioniert nicht für sed
g - ersetzt alles, z.B. das Schließen von xml </xml_tag> Tag

Beantwortet el 8 de Februar, 2016 von vldbnc (389 Punkte )

Answer 3

5voto

13ren Punkte 11339

Angenommen, dieselbe Zeile, Eingabe von stdin:

sed -ne '/<\/job>/ { s/<[^>]*>\(.*\)<\/job>/\1/; p }'

Anmerkungen: -n verhindert, dass alles automatisch ausgegeben wird; -e bedeutet, dass es sich um einen Einzeiler handelt (und nicht um ein Skript) /<\/job> verhält sich wie ein grep; s entfernt den Opentag + Attribute und den Endtag; ; ist eine neue Anweisung; p Drucke; {} bewirkt, dass grep auf beide Anweisungen als eine einzige angewendet wird.

Beantwortet el 10 de Februar, 2010 von 13ren (11339 Punkte )

Answer 4

0voto

codaddict Punkte 426877

Wie wäre es damit:

cat a.xml | grep '<job' | cut -d '>' -f 2 | cut -d '<' -f 1

Beantwortet el 8 de Februar, 2010 von codaddict (426877 Punkte )

4 Stimmen

UUOC. grep '<job' a.xml | ...

Kommentiert el 9 de Februar, 2010 von ghostdog74

0 Stimmen

@Geist aber aber aber, ich denke, es ist sauberer / schöner / nicht so sehr eine Verschwendung / mein Vorrecht, Prozesse zu verschwenden! partmaps.org/era/unix/award.html#cat (Ich denke, es ist einfacher, den Dateinamen zu bearbeiten, da er näher am Anfang liegt)

Kommentiert el 10 de Februar, 2010 von 13ren

3 Stimmen

Wenn Sie < a.xml | grep ... erhalten Sie es noch näher am Start.

Kommentiert el 23 de August, 2012 von Thor

Answer 5

0voto

miku Punkte 170688

Ich bin etwas zu spät gekommen.

xmlcutty schneidet Knoten aus XML aus:

$ cat file.xml
<?xml version="1.0" encoding="utf-8"?>
<job xmlns="http://www.sample.com/">programming</job>
<job xmlns="http://www.sample.com/">designing</job>
<job xmlns="http://www.sample.com/">managing</job>
<job xmlns="http://www.sample.com/">teaching</job>

El path gibt den Pfad zu dem Element an, das Sie ausschneiden möchten. Da wir in diesem Fall überhaupt nicht an den Tags interessiert sind, benennen wir das Tag um in \n so dass wir eine schöne Liste erhalten:

$ xmlcutty -path /job -rename '\n' file.xml
programming
designing
managing
teaching

Beachten Sie, dass das XML zu Beginn nicht gültig war (kein Root-Element). xmlcutty kann auch mit leicht beschädigtem XML arbeiten.

Beantwortet el 6 de Dezember, 2015 von miku (170688 Punkte )

Answer 6

0voto

m.nguyencntt Punkte 750

Ihrexmldatei.xml

<item> 
  <title>15:54:57 - George:</title>
  <description>Diane DeConn? You saw Diane DeConn!</description> 
</item> 
<item> 
  <title>15:55:17 - Jerry:</title> 
  <description>Something huh?</description>
</item>

grep 'Titel' yourxmlfile.xml

  <title>15:54:57 - George:</title>
  <title>15:55:17 - Jerry:</title>

grep 'Titel' yourxmlfile.xml | awk -F">" '{print $2}'

  15:54:57 - George:</title
  15:55:17 - Jerry:</title

grep 'title' yourxmlfile.xml | awk -F">" '{print $2}' | awk -F"<" '{print $1}'

  15:54:57 - George:
  15:55:17 - Jerry:

Beantwortet el 4 de Juni, 2020 von m.nguyencntt (750 Punkte )

Extraktion von Daten aus einer einfachen XML-Datei

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Extraktion von Daten aus einer einfachen XML-Datei

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: