Wie sicher sind KI-Suchmaschinen bei Gesundheitsfragen?

Mit der Ausweitung des World Wide Webs hat sich der Zugang zu Gesundheits- und Arzneimittelinformationen deutlich verändert. Musste man früher Bücher wälzen und Fachleute fragen, geht das nun bequem am Computer von zu Hause. Etwa die Hälfte der Europäer und US-Amerikaner recherchiert im Internet zu Gesundheitsthemen. Bisher verlief das durch die Nutzung herkömmlicher Suchmaschinen.

Doch im Jahr 2023 hat die Künstliche Intelligenz (KI) bei Suchmaschinen Einzug gehalten. Bei Microsoft gibt es den Bing-Copilot, Google sucht mit Gemini und Perplexity ist als neuer Player auf dem Markt. Die Anbieter versprechen präzisere Suchergebnisse und ausführliche Antworten. Die Chatbots nehmen den Nutzern das Sichten der Top-Treffer ab. Und damit werden natürlich auch die Medikamentenrecherche und „Krankheitsgoogeln“ leichter.

Doch auch die Chatbots bzw. KI-unterstützten Suchmaschinen können sinnlose oder gesundheitsschädliche Ergebnisse liefern. Ohne das Grundlagenwissen von medizinischem Personal können Laien die Fehler nicht erahnen und Schaden nehmen.

Wissenschaftler aus Erlangen haben daher eine Analyse der Verständlichkeit, Vollständigkeit und Genauigkeit der Antworten solcher Chatbots durchgeführt. Sie wollten wissen, inwiefern sich aus den Tools Gefahren für Patienten ergeben. Die konzentrierten sich dabei auf den Bing-Copilot.

Das Setting für die Untersuchung

Für die Studie wurde der KI-gestützte „Bing Copilot“ von Microsoft untersucht. Der Chatbot basiert auf einem großen Sprachmodell (Large Language Model, LLM) und bietet mehrere Modi zum Beeinflussen der „Kreativität“ der Antworten an. Genutzt wurde allerdings nur die Einstellung „ausgewogen“. Alle Anfragen wurden in englischer Sprache gestellt.

Für die Untersuchung wurden die 50 am häufigsten verschriebenen Medikamente in den USA aus dem Jahr 2020 ausgewählt. Es wurden dazu aus Gesprächen zwischen Patienten und Ärzten zehn häufig gestellte Fragen vorbereitet. Dem Bing-Copiloten wurde anschließend zu jedem der 50 Medikamente jeweils diese 10 Fragen gestellt, sodass im Ergebnis 500 Antworten zur Analyse bereitstanden. Da der Chatbot bei seinen Antworten auf externe Webseiten als Quellen verweist, wurden auch diese Links auf Seriosität überprüft.

Innerhalb der Antworten wurden 1727 Aussagen gefunden – im Schnitt zwei pro Antwort. Die Antworten wurden auf Lesbarkeit, Vollständigkeit, Genauigkeit und Gefährdungspotenzial analysiert.

Ergebnisse der Untersuchung

Der Bing-Copilot verwies in seinen Antworten auf Quellen von 234 verschiedenen Websites. Die durchschnittliche Lesbarkeit der Antworten lag auf dem Bildungsniveau einer Hochschule und damit eigentlich recht hoch. Bei einzelnen Fragen war mindestens das Niveau der 10. bis 12. Schulklasse erforderlich.

Die Antworten wiesen eine durchschnittliche Vollständigkeit von etwa 77 % bezogen auf offizielle Unterlagen zu den Medikamenten auf. Einige Fragen wurden jedoch kaum beantwortet und hatten nur eine Quote von 23 %. Vereinzelt enthielten die Antworten gar keine Informationen im Vergleich zur Referenzdatenbank. Die Genauigkeit lag bei durchschnittlich 89 %. Es gab Fälle mit starken Abweichungen von den Referenzdaten, und etwa 3 % der Antworten waren komplett falsch.

Die Risikoanalyse wurde von sieben Experten für Arzneimittelsicherheit an Stichprobe von lediglich 20 Chatbot-Antworten durchgeführt. Es wurde beurteilt, ob die Antworten dem wissenschaftlichen Konsens entsprechen und wie hoch das Risiko möglicher Schäden für Patienten wäre. Nur etwa die Hälfte der Antworten stimmte mit dem wissenschaftlichen Konsens überein. 39 % der Antworten verstießen gegen den Wissensstand und 6 % hatten keine klare wissenschaftliche Grundlage. Die Experten schätzten, dass 3 % der Antworten ein hohes Risiko für PAtienten bergen könnten. Etwa 22 % der Antworten könnten im schlimmsten Fall zu schweren Schäden oder sogar zum Tod führen, während 36 % als unbedenklich eingestuft wurden.

Einschränkungen der Studie

Die Studie wurde nicht mit Patienten als Bewerter durchgeführt. Die Analyse und Risikoeinschätzung wurde durch Experten vorgenommen. Patienten können die Antworten anders einschätzen. Allerdings ging es bei der Studie auch vornehmlich um eine Expertenbewertung der Antworten aus Sicht der Medizin.

In der Studie wurden nur die zehn Beispielfragen gestellt. Es wurden keine Nachfragen an den Chatbot gestellt und keine Dialoge geführt. Das entspricht nicht unbedingt der täglichen Praxis. Auch konnte nicht begutachtet werden, inwiefern Nachfragen von Patienten zu besseren Auskünften geführt hätten. Schließlich können Patienten mangels Fachwissen falsche Antworten evtl. gar nicht erkennen.

Die Analyse wurde nur auf Englisch durchgeführt und kann auf andere Länder und Sprachen nicht übertragen werden.

Unterschiedliche Suchmaschinen-Chatbots oder ein anderer Modus als „ausgewogen“ können zu völlig anderen Ergebnissen führen. Obendrein werden die LLMs ständig weiterentwickelt und die Ergebnisse lassen sich bei neueren Modellen nicht reproduzieren. Sie könnten besser, aber auch schlechter werden.

Schlussfolgerungen aus dem Ergebnis der Analyse

Die Studie zeigte, dass KI-gestützte Suchmaschinen zwar im Prinzip vollständige und genaue Antworten auf Patientenfragen geben können, jedoch in der Ausdrucksweise oft schwer verständlich sind und gelegentlich ungenaue oder unvollständige Informationen liefern. Es besteht grundsätzlich ein potenzielles Risiko für die Gesundheit der Patienten, wenn sie sich blind auf die Auskünfte der Maschine verlassen. Suchmaschinen sind allerdings insofern vorteilhaft, als sie Patienten leicht einen Zugang zu Informationen gewähren, ohne dass diese passende medizinische Quellen kennen müssen.

Die Wissenschaftler stellen auch fest, dass der Suchmaschinen-Chatbot manchmal Antworten formulierte, die an der Frageintention vorbeigingen. Als Beispiel wurde angeführt, dass auf Fragen zu Wechselwirkungen zwischen Medikamenten mit Wechselwirkungen zwischen Medikamenten und Krankheiten geantwortet wurde. Auch andere widersprüchliche und verwirrende Antworten wurden bei der Auswertung entdeckt.

Die Quote der Antworten, die nicht mit dem aktuellen wissenschaftlichen Konsens übereinstimmten und die Risiken aufgrund falscher oder unvollständiger Antworten, wurde bei der Stichprobe recht hoch eingeschätzt. Die Verwendung von Internetsuchen kann also weiterhin keinesfalls bedenkenlos empfohlen werden. Der Bing-Copilot greift anscheinend sowohl auf verlässliche als auch unzuverlässige Quellen zu und erkennt den Unterschied nicht. Ebenso kann die Suchmaschine nicht prüfen, ob die Angaben auf Webseiten veraltet sind.

Trotz des Potenzials von KI-gestützten Suchmaschinen betonen die Studienautoren, dass es wichtig sei, dass sich Patienten weiterhin an medizinisches Fachpersonal wenden. Chatbots sind keine Garantie für vollständige, verständliche und risikoarme Auskünfte in medizinischen Belangen!

Mehr dazu:

Andrikyan W, Sametinger SM, Kosfeld F, et al, Artificial intelligence-powered chatbots in search engines: a cross-sectional study on the quality and risks of drug information for patients. BMJ Quality & Safety, Published Online First: 01 October 2024. DOI: https://doi.org/10.1136/bmjqs-2024-017476

👉 Auf Mastodon kommentieren