3 Stimmen

Google Spracherkennungsbibliothek oder API

Google hat in letzter Zeit große Fortschritte mit ihrer Spracherkennungssoftware gemacht, die in mehreren Open Source-Produkten verwendet wird, z.B. Chromium Web Speech und Android Handsfree-Texteingabe. Ich würde gerne ihre Spracherkennung als Teil meines Servers verwenden, aber ich finde nicht viel darüber.

Ist die Texterkennungssoftware als Bibliothek oder Paket verfügbar? Oder kann ich alternativ Chromium von einem anderen Programm aus aufrufen, um eine Audiodatei in Text zu transkribieren?

1voto

Kinlan Punkte 15934

Die Web Speech APIs sind nur für die Verwendung im Zusammenhang mit Chrome oder Android konzipiert. Auf dem Client wird viel Arbeit geleistet, daher gibt es keine öffentliche Server-zu-Server-API, die einfach eine Audiodatei entgegennehmen und verarbeiten würde.

Wenn Sie auf github suchen, finden Sie Tools wie https://gist.github.com/alotaiba/1730160, aber ich bin ziemlich sicher, dass diese Zugriffsmethode zu 100% nicht unterstützt, empfohlen oder bestätigt ist, um weiterhin zu funktionieren.

1voto

Mighty Mitch Punkte 11

Die zuvor genannte Methode unter https://gist.github.com/alotaiba/1730160 funktioniert für mich. Ich verwende sie täglich in meinen Hausautomatisierungsprogrammen. Ich verwende ein Python-Skript, um Audio aufzunehmen und zu bestimmen, ob es nützliches Audio oder nur Rauschen ist, dann sendet es das kleine Audio-Schnipsel an Google und gibt den Text in weniger als einer Sekunde zurück!! Ich habe es erfolgreich in meine Programme integriert und wenn Sie im Internet suchen, werden Sie feststellen, dass es auch andere Leute erfolgreich integriert haben!

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X