Ich bin neu bei Python und auch bei Beatiful Soup! Ich habe von BS gehört. Es soll ein großartiges Werkzeug zum Parsen und Extrahieren von Inhalten sein. Also hier bin ich...:
Ich möchte den Inhalt des ersten td einer Tabelle in einer html Dokument. Zum Beispiel habe ich diese Tabelle
<table class="bp_ergebnis_tab_info">
<tr>
<td>
This is a sample text
</td>
<td>
This is the second sample text
</td>
</tr>
</table>
Wie kann ich beautifulsoup verwenden, um den Text "Dies ist ein Beispieltext" zu übernehmen? Ich verwende soup.findAll('table' ,attrs={'class':'bp_ergebnis_tab_info'}), um Folgendes zu erhalten die gesamte Tabelle.
Danke... oder sollte ich versuchen, das ganze Zeug mit Perl zu bekommen... womit ich nicht so vertraut bin. Eine andere Lösung wäre eine Regex in PHP.
Siehe das Ziel [1]: http://www.schulministerium.nrw.de/BP/SchuleSuchen?action=799.601437941842&SchulAdresseMapDO=142323
Hinweis: Da die HTML-Datei etwas ungültig ist, müssen wir wohl etwas aufräumen. Das kann eine Menge PHP-Code verursachen - da wir die Aufgabe in PHP lösen wollen. Perl wäre auch eine gute Lösung.
Vielen Dank für einige Hinweise und Ideen für einen Ausgangspunkt null