Die zunehmende Funktionalität von intelligenten Lautsprechern führt auch zu einer wachsenden Angriffsfläche für Hacker. Im Jahr 2019 enthüllte eine Studie von SRLabs zwei Szenarien, wie Hacker Alexa oder Google Home missbrauchen können, um Nutzer auszuspionieren. Die Schwachstelle ermöglicht es Dritten, Funktionen zu erstellen, die Vishing-Methoden (Voice Phishing) anwenden oder den Nutzer ausspionieren. Die Forscher demonstrierten die Hacks, indem sie Sprachanwendungen für beide Geräteplattformen erstellten und die intelligenten Assistenten in “intelligente Spione” verwandelten.

Entwickler von Drittanbietern erhalten Zugang zu Benutzereingaben

Sowohl Skills (Alexa) als auch Actions (Google Home) können durch den Aufruf des vom Entwickler gewählten Namens aktiviert werden: “Alexa, öffne Netflix”. Benutzer können dann Funktionen (Intents) innerhalb der Anwendung aufrufen, indem sie bestimmte Phrasen sprechen: “Star Trek: The Next Generation abspielen”. Benutzer können variable Argumente als Slot-Werte in diese Phrasen eingeben. Die Eingabeslots werden in Text umgewandelt und an das Backend der Anwendung gesendet, das in der Regel von Amazon oder Google unabhängig betrieben wird.

Wie Hacker die Entwicklungsfunktionen von intelligenten Lautsprechern missbrauchen können

Über die Standardentwicklungsschnittstellen konnten die SRLabs-Forscher den Datenschutz der Nutzer auf zwei Arten gefährden:

  • Abfragen und Sammeln persönlicher Daten, einschließlich Benutzerpasswörtern
  • Abhören von Nutzern, nachdem diese glauben, dass der intelligente Lautsprecher nicht mehr zuhört

Die “Smart Spies”-Hacks kombinieren drei Bausteine:

  • Der “Fallback Intent”, eine Standardantwort der Sprachapplikation, wenn sie den letzten Befehl des Nutzers nicht einem Intent zuordnen kann und Hilfe anbieten soll: “Es tut mir leid, ich habe das nicht verstanden. Kannst du es bitte wiederholen?”
  • Um Alexa-Nutzer auszuspionieren, nutzte das Team den eingebauten “Stop Intent”, den Entwickler auch dann noch ändern können, wenn die Anwendung den Prüfprozess der Plattform durchlaufen hat.
  • Schließlich nutzten die Forscher die Möglichkeit in den Text-to-Speech-Engines, die es Entwicklern erlaubt, lange Pausen in die Sprachausgabe einzufügen.

Hack 1: Abfrage des Passworts eines Benutzers

Es ist möglich, über eine beliebige Sprachapplikation nach sensiblen Daten wie einem Passwort zu fragen. Um eine Passwort-Phishing-Skill/Aktion zu erstellen, würde ein Hacker die folgenden Schritte ausführen:

Erstelle eine scheinbar harmlose Anwendung, die einen Intent enthält, der durch “Start” ausgelöst wird und die nächsten Wörter als Slot-Werte annimmt. Diese Absicht verhält sich wie die Fallback-Absicht.
Im Test änderten die Forscher die Begrüßungsnachricht in eine Fehlermeldung, um dem Benutzer vorzugaukeln, dass die Anwendung nicht gestartet wurde: “Diese Fähigkeit ist in Ihrem Land derzeit nicht verfügbar”. Diese Änderung wurde vorgenommen, nachdem die Anwendung überprüft worden war, und führte nicht zu einer zweiten Überprüfung.
Nach der Fehlermeldung fügte das Team eine lange Audiopause hinzu, indem es die Sprach-App die Zeichenfolge “�” “sagen” ließ. ” (U+D801, Punkt, Leerzeichen). Da diese Sequenz nicht ausgesprochen werden kann, bleibt der Sprecher stumm, ist aber immer noch aktiv. Durch Wiederholung der Sequenz wird die Dauer der Stille verlängert.
Nach einiger Zeit wird die Stille durch das Abspielen einer Phishing-Nachricht beendet: “Ein wichtiges Sicherheitsupdate ist für Ihr Gerät verfügbar. Bitte sagen Sie Update starten, gefolgt von Ihrem Passwort”.
Jetzt wird alles, was der Benutzer nach “Start” sagt, an das Backend des Hackers gesendet. Das liegt daran, dass der Intent, der zuvor wie der Fallback Intent funktionierte, die Benutzereingaben nach dem “Start” als Slot-Wert speichert.

Hack 2: Abhören von Nutzern

In einem zweiten Experiment konnten die Forscher von SRLabs auch Gespräche belauschen, nachdem die Nutzer glaubten, unsere Sprach-App beendet zu haben. Um dies zu erreichen, musste das Team seine Strategie für jede der Sprachlautsprecherplattformen anpassen.

Lauschangriff mit Amazon Alexa

Bei Alexa-Geräten wird die Sprachaufzeichnung gestartet, indem der Benutzer bestimmte Auslösewörter nennt, die vom Entwickler des Skills festgelegt werden. Dazu können auch allgemeine Wörter wie “Ich” oder Wörter gehören, die darauf hinweisen, dass persönliche Informationen folgen, wie “E-Mail”, “Passwort” oder “Adresse”.

Die Forscher erstellten einen Abhörskill, der diese Schritte befolgt:

Wenn der Benutzer versucht, den bösartigen Skill zu beenden, hört er eine Abschiedsnachricht, aber der Skill läuft noch einige Sekunden lang weiter. Wenn der Benutzer innerhalb dieser Zeit einen Satz beginnt, der mit dem in Schritt 1 ausgewählten Wort beginnt, speichert der Skill den Satz als Slot-Werte und sendet sie an den Angreifer.

Lauschangriff mit Google Home

Google Home-Geräte bieten einen noch wirkungsvolleren Hack, da keine spezifischen Auslösewörter erforderlich sind, was eine unbegrenzte Überwachung von Nutzergesprächen ermöglicht.

Google ermöglicht es, dass der Nutzer in einer Schleife gefangen ist, in der kontinuierlich erkannte Sprache an den Server des Hackers gesendet wird, mit kurzen Pausen dazwischen.

Um eine solche Abhöraktion zu erstellen, geht ein Hacker wie folgt vor:

Erstelle eine Aktion und reiche sie zur Überprüfung ein.
Nach der Überprüfung änderten die Forscher die Hauptabsicht, indem sie die Speech Synthesis Markup Language (SSML) verwendeten, um eine Aufnahme des Bye-Earcon-Sounds abzuspielen. Durch diese Änderung wird expectUserResponse auf “true” gesetzt, was in der Regel den Abschluss einer Sprachanwendung anzeigt. Danach werden mehrere noInputPrompts hinzugefügt, die nur aus einer kurzen Stille bestehen, wobei das SSML -Element oder die unaussprechliche Unicode-Zeichenfolge “�. ” genutzt wird.
Erstelle einen zweiten Intent, der immer dann gestartet wird, wenn eine actions.intent.TEXT-Anfrage empfangen wird. Dieser Intent gibt eine kurze Stille zurück und definiert mehrere stumme noInputPrompts.

Nach der Ausgabe der angeforderten Informationen und dem Abspielen des Bye-Earcon wartet das Google Home-Gerät etwa 9 Sekunden lang. Wenn es keine Spracheingabe erkennen kann, “spielt” das Gerät eine kurze Stille ab und wartet erneut auf Benutzereingaben. Die Aktion wird abgebrochen, wenn innerhalb von 3 Wiederholungen keine Spracheingabe erkannt wird.

Wird eine Spracheingabe erkannt, beginnt der zweite Intent. Dieser Intent besteht nur aus einer stummen Ausgabe, wiederum mit mehreren stummen Reprompt-Texten. Jedes Mal, wenn eine Spracheingabe erkannt wird, wird die Anzahl der Wiederholungen zurückgesetzt.

Der Hacker erhält eine vollständige Abschrift der nachfolgenden Gespräche des Benutzers, bis eine 30-sekündige Pause ohne Spracheingabe eintritt. Hacker können diese Pause verlängern, indem sie die Dauer der Stille verlängern und so das Abhören vorübergehend unterbrechen.

In diesem Zustand leitet das Google Home-Gerät auch alle Befehle mit dem Präfix “OK Google” (außer “Stopp”) an den Hacker weiter. Daher könnte der Hacker diesen Hack auch nutzen, um andere Anwendungen zu imitieren, die Interaktion des Benutzers mit den gefälschten Aktionen zu manipulieren und glaubwürdige Phishing-Angriffe zu starten.

Die Forscher wären auch in der Lage gewesen, die entsprechende E-Mail-Adresse abzufragen und zu versuchen, Zugang zum Amazon- oder Google-Konto des Nutzers zu erhalten.

Fazit

Alexa und Google Home sind leistungsstark, und die intelligenten Geräte können sehr nützlich sein, vor allem im privaten Umfeld. Ihre Auswirkungen auf die Privatsphäre reichen jedoch weiter, als vielen Nutzern vielleicht bewusst ist. Die Nutzer müssen sich der Möglichkeiten bewusst sein, dass Hacker bösartige Sprach-Apps verwenden können, um ihre intelligenten Lautsprecher zu missbrauchen. Bei der Verwendung einer neuen Sprachapplikation solltest du ähnlich vorsichtig sein wie bei der Installation einer neuen App auf deinem Smartphone.

Amazon und Google müssen einen besseren Schutz einführen, angefangen bei einer gründlicheren Überprüfung der Anwendungen von Drittanbietern, die in ihren Sprach-App-Stores angeboten werden. Bei der Überprüfung von Sprachanwendungen muss explizit auf Kopien von eingebauten Intents geprüft werden. Unaussprechliche Zeichen wie “�. “und stumme SSML-Nachrichten müssen entfernt werden, um willkürliche lange Pausen in der Sprachausgabe zu verhindern. Texte, die “Passwort” enthalten, sollten besonders beachtet und aufgrund ihrer verdächtigen Natur nicht zugelassen werden.

Die ursprüngliche Untersuchung wurde von Fabian Bräunlein (@breakingsystems) & Luise Frerichs durchgeführt und auf SRLabs.com veröffentlicht.

Die Forscher teilten ihre Ergebnisse mit Amazon und Google im Rahmen ihres verantwortungsvollen Offenlegungsprozesses.