Funktionsweise - Google Speach API

Alles rund um sicherheitsrelevante Fragen und Probleme.
Antworten
buhtz
Beiträge: 1099
Registriert: 04.12.2015 17:54:49
Kontaktdaten:

Funktionsweise - Google Speach API

Beitrag von buhtz » 23.03.2018 14:24:50

Bisher hatte ich noch nicht mit der Google Speach API (z. B. "in" einem Roboter) gearbeitet.
Aus sicherheitstechnischer Perspektive stelle ich mir da einige Fragen und hoffe das von euch jemand damit schon Erfahrung hat.

Ein Mikrofon zeichnet gesprochenes auf, was dann als Audiodatei (z.B. wav) im RAM und/oder der Festplatte des Aufzeichnungsgerätes (z. B. ein Roboter) landet. Soweit richtig?
Was passiert dann? Wird diese Datei so an Google gesendet? Oder findet bereits lokal auf dem Gerät eine Art Vor-Analyse statt und es werden nur die Ergebnisse dieser Analyse an Google weitergeleitet?
Was hört Google?
Debian 11 & 12; Desktop-PC, Headless-NAS, Raspberry Pi 4
Teil des Upstream Betreuer Teams von Back In Time (Debianbackintime)

Nice
Beiträge: 416
Registriert: 14.06.2017 19:36:20

Re: Funktionsweise - Google Speach API

Beitrag von Nice » 23.03.2018 16:23:05

@buhtz:
Was hört Google?
Eine gute Frage.
Genau so könnte man auch berechtigt fragen "was hört Windows-10 (mit)"?
Ich befürchte, das kann Dir niemand genau sagen, weil diese Dinge eben "closed source" ablaufen.

Und diese mögliche Beeinträchtigung meiner Privatsphäre war - obwohl ich nicht das Geringste zu verbergen habe - unter Anderem mein Grund, von Windows-10 zu Debian zu wechseln, im Browser diverse Sicherheitseinstellungen vorzunehmen und alle Google-Angebote links liegen zu lassen.

Benutzeravatar
Tintom
Moderator
Beiträge: 3029
Registriert: 14.04.2006 20:55:15
Wohnort: Göttingen

Re: Funktionsweise - Google Speach API

Beitrag von Tintom » 23.03.2018 20:06:24

Eine Audiodatei zu versenden wäre nicht sehr effizient. Eher findet auf dem Gerät selbst eine Umwandlung statt (Speech to text). Das hat den Vorteil, dass nur Text an die Google-Server geschickt werden muss und das Gerät auch unter sehr langsamer Internetverbindung nutzbar ist.

Ich weiß jedoch nichts näheres, das sind alles Beobachtungen von meinem Smartphone.

Benutzeravatar
Lord_Carlos
Beiträge: 5578
Registriert: 30.04.2006 17:58:52
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Dänemark

Re: Funktionsweise - Google Speach API

Beitrag von Lord_Carlos » 23.03.2018 20:09:41

So viel ich weis funktionieren die alle so das die Lokal nur ganz einfache und wenige Schluesselwoerter erkennen. z.B. "ok google" "Alex" etc.
Wenn das Schluesselwort erkannt wird, werden alle danach folgenden Woerter an den Server gesendet.

So habe ich es jedenfalls immer verstanden.

Code: Alles auswählen

╔═╗┬ ┬┌─┐┌┬┐┌─┐┌┬┐╔╦╗
╚═╗└┬┘└─┐ │ ├┤ │││ ║║
╚═╝ ┴ └─┘ ┴ └─┘┴ ┴═╩╝ rockt das Forum!

TomL

Re: Funktionsweise - Google Speach API

Beitrag von TomL » 23.03.2018 20:50:53

Da Alexa ja auch auf aktuelle weltweite öffentliche Daten zugreifen kann (z.B. Wetter, Fahrpläne, Radiosender, etc.etc.etc. ) und weil dieser Datenbestand viel zu mächtig ist, um das lokal vorzuhalten, wird es auch auf die Google-Suche zurückgreifen. Und da ja jeder häusliche Sprachgebrauch auch eine Anweisung für Alexa enthalten könnte, gehe ich davon aus, dass es zur Prüfung, ob es wirklich eine Anweisung ist, schlichtweg alles Gequatsche (in welcher Form auch immer) nach Google überträgt.

Wie an anderer Stelle heute schon angemerkt wurde, ist auch das für mich „worked as intended“. Die Aufgabe.... für eine irgendwann möglicherweise kommende Liberalisierung des Datenhandels so viel wie nur irgendmöglich über seine Klientel zu wissen... um dann die bestmöglichen persönlichen Profile gegen Cash anzubieten. Vielleicht kann das irgendwann jeder Vermieter abfragen, oder jeder Kredigeber (dagegen ist die Schufa ja regelrecht ein Analphabet), oder jeder potentielle Arbeitgeber. Kann man noch besser Daten über Menschen sammeln, als direkt bei denen zuhause?

j.m.2.c.

Benutzeravatar
Lord_Carlos
Beiträge: 5578
Registriert: 30.04.2006 17:58:52
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Dänemark

Re: Funktionsweise - Google Speach API

Beitrag von Lord_Carlos » 23.03.2018 23:03:33

TomL hat geschrieben: ↑ zum Beitrag ↑
23.03.2018 20:50:53
Da Alexa ja auch auf aktuelle weltweite öffentliche Daten zugreifen kann (z.B. Wetter, Fahrpläne, Radiosender, etc.etc.etc. ) und weil dieser Datenbestand viel zu mächtig ist, um das lokal vorzuhalten, wird es auch auf die Google-Suche zurückgreifen. Und da ja jeder häusliche Sprachgebrauch auch eine Anweisung für Alexa enthalten könnte, gehe ich davon aus, dass es zur Prüfung, ob es wirklich eine Anweisung ist, schlichtweg alles Gequatsche (in welcher Form auch immer) nach Google überträgt.
Alex ist von Amazon.
Und ja, die Programme laufen alle in der Amazon Cloud, wo man auch eigene Sprachbefehle hinzufuegen kan.
Nein, es wird nicht alles dirket uebertragen. Erst wenn eines der Wenigen Schluesselwoerter gehoert wird, welche lokal erkannt werden.

Code: Alles auswählen

╔═╗┬ ┬┌─┐┌┬┐┌─┐┌┬┐╔╦╗
╚═╗└┬┘└─┐ │ ├┤ │││ ║║
╚═╝ ┴ └─┘ ┴ └─┘┴ ┴═╩╝ rockt das Forum!

TomL

Re: Funktionsweise - Google Speach API

Beitrag von TomL » 23.03.2018 23:11:52

Lord_Carlos hat geschrieben: ↑ zum Beitrag ↑
23.03.2018 23:03:33
Alex ist von Amazon.
Oh... shit... stimmt.... :mrgreen: ... aber ist für mich alles dasselbe.... keines von diesen Geräten bekäme eine Erlaubnis, bei uns zuzuhören... egal von wem es ist....

buhtz
Beiträge: 1099
Registriert: 04.12.2015 17:54:49
Kontaktdaten:

Re: Funktionsweise - Google Speach API

Beitrag von buhtz » 25.03.2018 10:09:55

Ich danke euch sehr für eure Beiträge, aber die gehen an meiner Frage vorbei. Das hier ist nicht die "Smalltalk" Gruppe.

Es geht weiterhin um die Frage, wie die API (vermutlich) technisch arbeitet. Wenn es schon lokal in Text umgewandelt wird, braucht man es doch nicht mehr in die Cloud zu senden.
Ich ging davon aus, dass die Rechenleistung und das neuronale Netz mit der entsprechenden astronomisch großen Datengrundlagen dahinter in der Cloud zur Analyse genutzt wird.

Bei einem Roboter geht es nicht darum einen tiefen Sinn oder semantische Zusammenhänge im gesprochenen zu sehen, sondern einfach nur das Gesprochene in Text (also Strings) umzuwandeln. Die Interpretation ist dann mir als Programmierer überlassen - das ist anders als bei Alexa, Echo und Co.
Allerdings weiß ich aus Erfahrung mit Aldeberan Softbanks Robotics Gerät "Pepper", dass die Spracherkennung auf einer lokalen Maschine (also ohne Cloud) schon sehr problematisch ist - allerdings ist bei Pepper auch die Qualität des Micros und Positionierung nah der viel zu lauten Lüfter mit ein Faktor.

Es geht hier also um Spracherkennung, im Sinne von Audiodaten von Gesprochenen in Text (Strings) umzuwandeln.
Debian 11 & 12; Desktop-PC, Headless-NAS, Raspberry Pi 4
Teil des Upstream Betreuer Teams von Back In Time (Debianbackintime)

DeletedUserReAsG

Re: Funktionsweise - Google Speach API

Beitrag von DeletedUserReAsG » 25.03.2018 10:27:58

buhtz hat geschrieben: ↑ zum Beitrag ↑
25.03.2018 10:09:55
Wenn es schon lokal in Text umgewandelt wird, braucht man es doch nicht mehr in die Cloud zu senden.
Soweit mir bekannt, wird’s lokal in ein Format umgewandelt, das weniger Bandbreite benötigt und dann ins Wölkchen geschickt wird (das muss nicht notwendigerweise ein Audioformat sein, ist aber mit Sicherheit kein Plaintext), wo dann der wahrscheinlichste Inhalt errechnet wird.

Antworten