Ich bin dabei, einige Web-Daten-Klassifizierung Aufgabe und dachte, wenn ich die bekommen könnte Koordinaten von HTML-Elementen, wie sie auf einem Webbrowser erscheinen würden ohne Berücksichtigung von CSS oder Javascript, auf die in der Webseite verwiesen wird.
Meine Programmiersprache ist C++ und der Bedarf an Ergebnissen für einige Millionen Seiten, also muss es schnell gehen. Ich weiß, dass es eine Microsoft COM-Komponente gibt, die die Seite in einem Webbrowser-Steuerelement darstellt und dann nach der Position der verschiedenen HTML-Tags abgefragt werden kann. Aber das ist für meinen Fall nicht geeignet, da zuerst die ganze Seite gerendert wird, was sehr viel Zeit in Anspruch nimmt.
Wie ich herausgefunden habe, gibt es Open-Source-Layout-Engines wie WebKit und Gecko, die wahrscheinlich für diesen Zweck verwendet werden können. Aber das ist ein riesiges Stück Code, und ich brauche jemanden, der mich zu den richtigen Klassen oder richtigen Modulen leitet, in die ich schauen kann, oder eine frühere/ähnliche Arbeit, die jemand vorher gemacht hat. Bitte lasst mich auch wissen, was ihr für eine gute Wahl haltet, wenn ich den bestehenden Code für die Verwendung mit mehreren Threads anpassen möchte, um ihn schneller zu machen.
Danke