10 Stimmen

Kostenlose Datenbank mit Google-Worthäufigkeiten?

Im Stackoverflow-Podcast dieser Woche erwähnte Jeff, dass er 2004 ein Skript geschrieben hat, das 110.000 englische Wörter bei Google abfragte und eine Datenbank mit der Anzahl der Treffer für jedes Wort erstellte. Dies wird bei Stackoverflow z. B. für die "Related"-Liste auf der rechten Seite einer jeden Frageseite verwendet.

Da es schwierig wäre, so etwas heute mit einem ähnlichen Skript zu erstellen (wie Joel erwähnte, "bei 30.000 Wörtern klopft man an die Tür"), habe ich mich gefragt, ob jemand eine aktuellere, kostenlose Datenbank mit Google-Worthäufigkeiten kennt (z. B. für IT-Wörter, die sich seitdem sicherlich geändert haben, wie jquery, ruby, azure usw.).

0 Stimmen

Ein Link zu dem entsprechenden Podcast wäre interessant.

5voto

Mitch Wheat Punkte 287474

Eine schnelle Google-Suche(!) ergibt ein paar Treffer. Diese Link sieht vielversprechend aus:

Aber sie ist nicht auf IT-Wörter ausgerichtet.

3voto

Es ist vielleicht zu spät für eine Antwort, aber ich kann Ihnen einen anderen Weg vorschlagen. Anstatt die "Anzahl der Treffer" von Google zu erhalten, sollten Sie selbst eine Annäherung an diese Zahl berechnen. Besorgen Sie sich eine große Sammlung von Textseiten (Corpus) und zählen Sie die Anzahl der einzelnen Wörter darin. Ich habe dies mit der Wikipedia gemacht. Es gibt einen Dump aller Wiki-Seiten. Sie müssen nur einen Parser schreiben, um den Text zu extrahieren und die Wörter zu zählen. Das Ergebnis ist eine Liste von mehr als 110K Wörtern (mindestens 2M-3M). Wenn Sie wirklich Zahlen in den Google-Suchergebnissen benötigen, können Sie einige Wortproben nehmen und Google abfragen und dann die berechneten Werte normalisieren, damit sie mit den Google-Werten übereinstimmen. Ich hoffe, das hilft.

1voto

Skuta Punkte 5656

Laut Google können Sie pro Tag 50.000 Abfragen pro IP senden. Ich glaube nicht, dass es illegal ist, sie zwischen Ihren Freunden aufzuteilen

Ich hatte ein ähnliches Problem mit Abfragen pro Tag und IP, aber wir haben es mit einem völlig anderen Ansatz gelöst.

0voto

Boris Gorelik Punkte 27067

Sie können eine Liste unter Ihren Freunden/Kollegen aufteilen und ausreichend große Timeouts verwenden, damit Sie 50.000 Anfragen pro Tag und IP nicht überschreiten, und dann die Ergebnisse zusammenführen. Ich bin mir über die Rechtmäßigkeit dieses Ansatzes nicht sicher, aber die Wahrscheinlichkeit, dass Google-Leute mit dieser Methode "an Ihre Tür klopfen", ist ziemlich gering.

ANMERKUNG : bearbeitet nach Angaben von Skuta

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X