Ich baue eine App in Java mit Jena für semantisches Information Scraping. Ich bin auf der Suche nach einem RDFa-Parser, mit dem ich alle RDFa-Anweisungen korrekt extrahieren kann. Insbesondere einen, der Informationen über verwendete Namespaces extrahiert und unter der Annahme, dass die RDFa-Tags auf der Seite korrekt sind, korrekte Triples erzeugt, die zwischen Objekt- und Dateneigenschaften unterscheiden.
Ich bin alle RDFa-Parser der Website durchgegangen http://rdfa.info/wiki/Consume für Java. Sie alle haben Mühe, RDFa-Anweisungen zu extrahieren, und wenn sie nicht abstürzen, zeigt der Jenaer RDFa-Parser viele Fehler an und stirbt dann einen schrecklichen Tod, die Daten sind kaum zu gebrauchen, da sie falsch verarbeitet und im Allgemeinen durcheinander sind. Ich bin Neuling auf diesem Gebiet, also seien Sie bitte nachsichtig:)
Ich dachte auch an die Verwendung einer Bibliothek, die in einer anderen Sprache geschrieben wurde, aber dann wiederum weiß ich nicht wirklich, wie man sie in Java-Code einfügt. Irgendwelche Vorschläge?