Springe zum Inhalt

Deepfake-Betrug: Wie gut erkennen Menschen Sprach-Deepfakes?

Bereits seit mehreren Jahren wird KI für Deepfakes benutzt, um verschiedene Betrügereien durchzuführen. Sehr beliebt ist der sogenannte CEO-Fraud, bei dem versucht wird, Angestellte eines Unternehmens zur Überweisung hoher Geldsummen auf Anweisung eines gefälschten hohen Vorgesetzten zu verleiten.

Das ging früher bereits per Sprach-Deepfake und kann heutzutage schon als Video-Deepfake durchgeführt werden. Solche künstlichen Stimmen und Avatare können mithilfe maschineller Lernverfahren auf der Basis weniger Sekunden Audio- und/oder Bildmaterial erzeugt werden. Diese Technologie ist so gut, dass sie Identitätsdiebstahl, Phishing-Angriffe, die Verbreitung von Fake-News und die Umgehung biometrischer Sicherheitssysteme ermöglicht.

Die Forschung konzentriert sich eher auf Sprach-Deepfakes zur Entwicklung automatisierter Fraud-Erkennungssysteme zur Verbesserung der Sprachbiometrie. Studien zur menschlichen Fähigkeit, Deepfakes zu erkennen, sind selten. Deshalb hat sich ein Forscherteam der Abteilung für Sicherheits- und Kriminalwissenschaften am University College London mit diesem Thema beschäftigt.

Wie gut können Menschen erkennen, dass sie getäuscht werden?

Sprach-Deepfakes sind eine große kriminelle Bedrohung. Experten warnen, dass Deepfakes langfristig das Vertrauen in Individuen und Institutionen untergraben könnten. Um herauszufinden, wie gut Menschen Sprach-Deepfakes erkennen, wurde ein Experiment mit Probanden durchgeführt. Ihnen wurden echte und falsche Sprachaufnahmen vorgespielt und sie sollten die Fälschung erkennen.

Die Teilnehmer wurden zufällig in zwei Gruppen eingeteilt. Die erste Gruppe hörte jeweils nur eine Sprachaufzeichnung und sollte entscheiden, ob sie echt oder gefälscht ist. Die zweite Gruppe hörte die echte und gefälschte Sprachaufzeichnung und sollte dann die Unterscheidung treffen. Für beide Gruppen wurden je 20 Aufzeichnungen zufällig ausgewählt.

Das Experiment wurde in Englisch und Mandarin durchgeführt, um zu prüfen, ob sich die Erkennungsfähigkeit zwischen den Sprachen unterscheidet. Die Clips konnten beliebig oft angehört werden, aber es gab kein Zwischen-Feedback über die Richtigkeit ihrer Entscheidungen.

Zusätzlich zu diesem Setting erhielt die Hälfte der Teilnehmenden eine spezielle Einführung zu Deepfakes. Im Rahmen der Schulung wurden ihnen gefälschte Aufzeichnungen vorgespielt.

Insgesamt nahmen 529 Personen an der Studie teil. Der Altersdurchschnitt lag bei etwa 29 Jahren und die Geschlechter waren 50/50 % verteilt.

Einschränkungen der Studie

Das Forscherteam führt folgende Einschränkungen an:

  • In den Experimenten war das Verhältnis von Deepfakes zu echten Sprachaufzeichnungen gleich. In der Praxis kommen Deepfakes allerdings überaus selten vor.
  • Die Teilnehmenden wussten, worum es geht. In der Praxis ist man auf einen Deepfake normalerweise unvorbereitet.
  • Die Forscher verwendeten neutrale Aufzeichnungen. Es kam zu keiner Beeinflussung, etwa durch bekannte Sprecher, emotionale Aufreger oder politische Trigger, die die Teilnehmenden hätten beeinflussen können. In der Realität wird so etwas allerdings bei der Verbreitung von Fake-News ausgenutzt.
  • Es wurde eine ältere Sprachsynthesemethode eingesetzt und keine auf dem neuesten Stand.

Die Ergebnisse der Untersuchung

Die Studie fand heraus, dass Menschen zwar Sprach-Deepfakes erkennen können, jedoch unzuverlässig. Sie neigen dazu, die Natürlichkeit der Stimme als Hauptmerkmal zu bewerten. Dummerweise werden die KI-Synthesizer darauf trainiert, immer natürlicher zu klingen. Es gab keine wesentlichen Unterschiede zwischen englisch- und mandarinsprachigen Probanden.

Die Gruppe, die jeweils nur eine Sprachaufzeichnung anhörte, konnte etwa 70 % der Fälle korrekt als richtig bzw. falsch klassifizieren. Deepfakes erkannten sie in gut drei Vierteln der Fälle. Die andere Gruppe, die eine Vergleichsmöglichkeit hatte, erkannte in gut 86 % der Fälle die Fälschung. Ein Vergleichsszenario ist in der Praxis jedoch unrealistisch, da bei Fraud-Angriffen eher keine Vergleichsaufnahme für das potenzielle Opfer zur Verfügung steht.

Die Schulung zur Erkennung von Sprach-Deepfakes hatte nur einen geringen Effekt. Für deren Teilnehmer ergaben sich keine wesentlichen Vorteile bei der Erkennung der Fälschungen. Die Forscher kamen zu der Einschätzung, dass eine Verbesserung der menschlichen Erkennungsfähigkeit unrealistisch ist. Selbst unter kontrollierten Bedingungen und ohne den Einsatz fortschrittlicher Sprachsynthesizer bleibt die Erkennungsrate niedrig. Menschen können leider mit einer hohen Wahrscheinlichkeit getäuscht werden.

Das Team geht davon aus, dass für einen guten Schutz automatisierte und zuverlässige elektronische Erkennungsprogramme benötigt werden. Doch auch solche Systeme haben noch Schwächen und sind nicht zuverlässig. Insgesamt kann man sagen, dass im Alltag ohne eine Vorahnung eines Angriffs Menschen kaum eine Chance haben, eine Fälschung sofort zu erkennen. Eher der vom Angreifer geführte Dialog am Telefon kann Misstrauen wecken. Ungereimtheiten hatten etwa einen Ferrari-Manager vor einem Betrug bewahrt. Ebenso wurde ein Opfer in den USA aufgrund dubioser Geldüberweisungswege misstrauisch.

Mehr dazu:


👉 Auf Mastodon kommentieren