3 Stimmen

Welcher rdfa-Parser für Java, der die derzeit verwendeten rdfa-Attribute unterstützt?

Ich baue eine App in Java mit Jena für semantisches Information Scraping. Ich bin auf der Suche nach einem RDFa-Parser, mit dem ich alle RDFa-Anweisungen korrekt extrahieren kann. Insbesondere einen, der Informationen über verwendete Namespaces extrahiert und unter der Annahme, dass die RDFa-Tags auf der Seite korrekt sind, korrekte Triples erzeugt, die zwischen Objekt- und Dateneigenschaften unterscheiden.

Ich bin alle RDFa-Parser der Website durchgegangen http://rdfa.info/wiki/Consume für Java. Sie alle haben Mühe, RDFa-Anweisungen zu extrahieren, und wenn sie nicht abstürzen, zeigt der Jenaer RDFa-Parser viele Fehler an und stirbt dann einen schrecklichen Tod, die Daten sind kaum zu gebrauchen, da sie falsch verarbeitet und im Allgemeinen durcheinander sind. Ich bin Neuling auf diesem Gebiet, also seien Sie bitte nachsichtig:)

Ich dachte auch an die Verwendung einer Bibliothek, die in einer anderen Sprache geschrieben wurde, aber dann wiederum weiß ich nicht wirklich, wie man sie in Java-Code einfügt. Irgendwelche Vorschläge?

3voto

cygri Punkte 9212

Die meisten RDFa-Parser haben Probleme mit ungültigem HTML. Die any23 Bibliothek enthält einen RDFa-Parser, der mit ungültigem HTML umgehen kann. Er parst jedes RDFa in vollständiges RDF, einschließlich Namespace-Mappings und so weiter, und wird derzeit aktiv weiterentwickelt.

3voto

user205512 Punkte 8598

Utilice java-rdfa . Es unterstützt Jena und verwendet die validator.nu html 5 Parser, der das Parsen von HTML wie ein Browser handhabt (d.h. er repariert fehlerhaftes Markup).

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X