Künstliche Intelligenz entwickelt sich zwar stetig weiter, doch eine neue Studie zeigt, dass größere Versionen von KI-Chatbots zunehmend falsche Antworten liefern, anstatt zuzugeben, dass sie keine Antwort wissen. Das Problem: Viele Menschen erkennen diese Fehler nicht.
Es ist schon lange bekannt, dass große Sprachmodelle (LLMs) von KI-Chatbots manchmal fehlerhafte Antworten geben oder „halluzinieren“. Nun hat ein Forschungsteam vom Valencianischen Forschungsinstitut für Künstliche Intelligenz (VRAIN) in Spanien diese Fehler genauer untersucht. Sie analysierten, wie sich diese Fehler mit zunehmender Größe der Modelle durch mehr Trainingsdaten, mehr Parameter und mehr Rechenleistung verändern. Ebenso wurde untersucht, ob Menschen solche falschen Antworten noch erkennen können.
Erwartet wurde, dass weiterentwickelte und größeren LLMs grundsätzlich besser abschneiden. Solche Modelle profitieren etwa vom Reinforcement Learning aus menschlichem Feedback (z. B. Daumen hoch, Daumen runter in Chatbots). Doch die Forscher stellten fest, dass die Modelle weniger zuverlässig geworden sind. Laut ihrer Studie steigt der Anteil falscher Antworten unter den ungenauen Reaktionen, weil die Modelle eher versuchen, irgendeine statt keine Antwort zu geben.
Also Chatbots sagen seltener, dass sie keine Antwort wissen. Das führt dazu, dass die Modelle heutzutage fast alles beantworten, ähnlich wie viele Politiker zu allem etwas sagen, obwohl es keine Substanz hat. Für Menschen sieht das auf den ersten Blick so aus, als seien die Chatbots schlauer geworden. Ein Team der Universität Glasgow in Großbritannien schlägt sogar vor, dieses Phänomen „Bullshitting“ zu bezeichnen.
Falsche und ausweichende Antworten der LLMs
Das spanische Forschungsteam untersuchte drei Familien großer Sprachmodelle (LLMs): GPT von OpenAI, LLaMA von Meta und das Open-Source-Modell BLOOM. Verglichen wurden alte, nicht verfeinerte Modelle mit neueren, optimierten Modellversionen. Das Team verwendete für die Tests Tausende Fragen zu Arithmetik, Anagrammen, Geografie, Naturwissenschaften und Textkonvertierung.
Wie erwartet nahm die Genauigkeit der Antworten mit der Größe der verfeinerten Modelle zu und sank, wenn die Fragen schwieriger wurden. Für die Seriosität und Außenwahrnehmung der Modelle wäre es besser, schwierigen Fragen aus dem Weg zu gehen und klarzustellen, dass dazu keine Informationen vorliegen. Aber die neueren Modelle verhielten sich nicht derart vorsichtig. Stattdessen beantwortet etwa GPT-4 fast jede Frage. Der Anteil falscher Antworten unter denen, die entweder falsch oder ausweichend waren, stieg mit der Größe der Modelle an und erreichte bei einigen verfeinerten Modellen mehr als 60 %.
Leider fanden die Forscher in den Antworten sowohl falsche Reaktionen auf einfache als auch schwere Fragen. Man kann sich also nicht darauf verlassen, dass weit entwickelte LLMs nur bei komplexen oder seltenen Fragen aussteigen.
Noch unschöner wurde es, als letztlich Menschen die Antworten der LLMs als korrekt, falsch oder ausweichend einordnen sollten. Die Testpersonen erkannten falsche Antworten nicht zuverlässig. In 10 % bis 40 % der Fälle stuften sie diese als korrekt ein. Daraus ergibt sich wiederum ein großes praktisches Problem, denn Menschen können sich ohnehin nicht auf die Antworten von LLMs verlassen und sind angehalten, alle KI-generierten Texte zu prüfen.
Sichere Anwendung von KI-Chatbots
Im Ergebnis rät das Forscherteam dazu, die Modelle so zu trainieren, dass sie schwierige Fragen unbeantwortet lassen und das dem Benutzer jeweils deutlich sagen. Ein einfaches „Ich habe nicht genügend Informationen, um Ihre Frage zu beantworten“ würde schon genügen. Menschen könnten auf diese Weise zuverlässiger mit solchen KI-Assistenten arbeiten. Ein solches Verhalten stände allerdings im Konflikt mit Unternehmensinteressen, wenn Hersteller ihre Chatbots als besonders universal anpreisen und dann kommt keine Antwort.
Mehr dazu:
- Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable. Nature (2024). https://doi.org/10.1038/s41586-024-07930-y
- Hicks, M.T., Humphries, J. & Slater, J. ChatGPT is bullshit. Ethics Inf Technol 26, 38 (2024). https://doi.org/10.1007/s10676-024-09775-5
👉 Auf Mastodon kommentieren