Ich versuche, die Webseite in einen einfachen Text zu konvertieren. Aber wenn ich auf die Tabelle stoße, erhalte ich auch td- und tr-Tags. Wenn ich diese Tabellen-Tags ersetze, kann ich einige der Inhalte nicht erhalten.
Hier ist mein Code
string s = Regex.Replace(htmldoc, "<script.*?</script>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<!--.*?-->", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<style.*?style>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<a.*?a>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<img.*?img>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<table.*?table>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(s);
s = doc.DocumentNode.SelectSingleNode("//body").InnerText.Trim();
Bitte überprüfen Sie es und sagen Sie mir, wie kann ich den Inhalt der Tabelle erhalten, ohne td und tr Tags.