Springe zum Inhalt

Mit der Ausweitung des World Wide Webs hat sich der Zugang zu Gesundheits- und Arzneimittelinformationen deutlich verändert. Musste man früher Bücher wälzen und Fachleute fragen, geht das nun bequem am Computer von zu Hause. Etwa die Hälfte der Europäer und US-Amerikaner recherchiert im Internet zu Gesundheitsthemen. Bisher verlief das durch die Nutzung herkömmlicher Suchmaschinen.

Doch im Jahr 2023 hat die Künstliche Intelligenz (KI) bei Suchmaschinen Einzug gehalten. Bei Microsoft gibt es den Bing-Copilot, Google sucht mit Gemini und Perplexity ist als neuer Player auf dem Markt. Die Anbieter versprechen präzisere Suchergebnisse und ausführliche Antworten. Die Chatbots nehmen den Nutzern das Sichten der Top-Treffer ab. Und damit werden natürlich auch die Medikamentenrecherche und „Krankheitsgoogeln“ leichter.

Doch auch die Chatbots bzw. KI-unterstützten Suchmaschinen können sinnlose oder gesundheitsschädliche Ergebnisse liefern. Ohne das Grundlagenwissen von medizinischem Personal können Laien die Fehler nicht erahnen und Schaden nehmen.

Wissenschaftler aus Erlangen haben daher eine Analyse der Verständlichkeit, Vollständigkeit und Genauigkeit der Antworten solcher Chatbots durchgeführt. Sie wollten wissen, inwiefern sich aus den Tools Gefahren für Patienten ergeben. Die konzentrierten sich dabei auf den Bing-Copilot.

Das Setting für die Untersuchung

Für die Studie wurde der KI-gestützte „Bing Copilot“ von Microsoft untersucht. Der Chatbot basiert auf einem großen Sprachmodell (Large Language Model, LLM) und bietet mehrere Modi zum Beeinflussen der „Kreativität“ der Antworten an. Genutzt wurde allerdings nur die Einstellung „ausgewogen“. Alle Anfragen wurden in englischer Sprache gestellt.

Für die Untersuchung wurden die 50 am häufigsten verschriebenen Medikamente in den USA aus dem Jahr 2020 ausgewählt. Es wurden dazu aus Gesprächen zwischen Patienten und Ärzten zehn häufig gestellte Fragen vorbereitet. Dem Bing-Copiloten wurde anschließend zu jedem der 50 Medikamente jeweils diese 10 Fragen gestellt, sodass im Ergebnis 500 Antworten zur Analyse bereitstanden. Da der Chatbot bei seinen Antworten auf externe Webseiten als Quellen verweist, wurden auch diese Links auf Seriosität überprüft.

Innerhalb der Antworten wurden 1727 Aussagen gefunden – im Schnitt zwei pro Antwort. Die Antworten wurden auf Lesbarkeit, Vollständigkeit, Genauigkeit und Gefährdungspotenzial analysiert.

Ergebnisse der Untersuchung

Der Bing-Copilot verwies in seinen Antworten auf Quellen von 234 verschiedenen Websites. Die durchschnittliche Lesbarkeit der Antworten lag auf dem Bildungsniveau einer Hochschule und damit eigentlich recht hoch. Bei einzelnen Fragen war mindestens das Niveau der 10. bis 12. Schulklasse erforderlich.

Die Antworten wiesen eine durchschnittliche Vollständigkeit von etwa 77 % bezogen auf offizielle Unterlagen zu den Medikamenten auf. Einige Fragen wurden jedoch kaum beantwortet und hatten nur eine Quote von 23 %. Vereinzelt enthielten die Antworten gar keine Informationen im Vergleich zur Referenzdatenbank. Die Genauigkeit lag bei durchschnittlich 89 %. Es gab Fälle mit starken Abweichungen von den Referenzdaten, und etwa 3 % der Antworten waren komplett falsch.

Die Risikoanalyse wurde von sieben Experten für Arzneimittelsicherheit an Stichprobe von lediglich 20 Chatbot-Antworten durchgeführt. Es wurde beurteilt, ob die Antworten dem wissenschaftlichen Konsens entsprechen und wie hoch das Risiko möglicher Schäden für Patienten wäre. Nur etwa die Hälfte der Antworten stimmte mit dem wissenschaftlichen Konsens überein. 39 % der Antworten verstießen gegen den Wissensstand und 6 % hatten keine klare wissenschaftliche Grundlage. Die Experten schätzten, dass 3 % der Antworten ein hohes Risiko für PAtienten bergen könnten. Etwa 22 % der Antworten könnten im schlimmsten Fall zu schweren Schäden oder sogar zum Tod führen, während 36 % als unbedenklich eingestuft wurden.

Einschränkungen der Studie

Die Studie wurde nicht mit Patienten als Bewerter durchgeführt. Die Analyse und Risikoeinschätzung wurde durch Experten vorgenommen. Patienten können die Antworten anders einschätzen. Allerdings ging es bei der Studie auch vornehmlich um eine Expertenbewertung der Antworten aus Sicht der Medizin.

In der Studie wurden nur die zehn Beispielfragen gestellt. Es wurden keine Nachfragen an den Chatbot gestellt und keine Dialoge geführt. Das entspricht nicht unbedingt der täglichen Praxis. Auch konnte nicht begutachtet werden, inwiefern Nachfragen von Patienten zu besseren Auskünften geführt hätten. Schließlich können Patienten mangels Fachwissen falsche Antworten evtl. gar nicht erkennen.

Die Analyse wurde nur auf Englisch durchgeführt und kann auf andere Länder und Sprachen nicht übertragen werden.

Unterschiedliche Suchmaschinen-Chatbots oder ein anderer Modus als „ausgewogen“ können zu völlig anderen Ergebnissen führen. Obendrein werden die LLMs ständig weiterentwickelt und die Ergebnisse lassen sich bei neueren Modellen nicht reproduzieren. Sie könnten besser, aber auch schlechter werden.

Schlussfolgerungen aus dem Ergebnis der Analyse

Die Studie zeigte, dass KI-gestützte Suchmaschinen zwar im Prinzip vollständige und genaue Antworten auf Patientenfragen geben können, jedoch in der Ausdrucksweise oft schwer verständlich sind und gelegentlich ungenaue oder unvollständige Informationen liefern. Es besteht grundsätzlich ein potenzielles Risiko für die Gesundheit der Patienten, wenn sie sich blind auf die Auskünfte der Maschine verlassen. Suchmaschinen sind allerdings insofern vorteilhaft, als sie Patienten leicht einen Zugang zu Informationen gewähren, ohne dass diese passende medizinische Quellen kennen müssen.

Die Wissenschaftler stellen auch fest, dass der Suchmaschinen-Chatbot manchmal Antworten formulierte, die an der Frageintention vorbeigingen. Als Beispiel wurde angeführt, dass auf Fragen zu Wechselwirkungen zwischen Medikamenten mit Wechselwirkungen zwischen Medikamenten und Krankheiten geantwortet wurde. Auch andere widersprüchliche und verwirrende Antworten wurden bei der Auswertung entdeckt.

Die Quote der Antworten, die nicht mit dem aktuellen wissenschaftlichen Konsens übereinstimmten und die Risiken aufgrund falscher oder unvollständiger Antworten, wurde bei der Stichprobe recht hoch eingeschätzt. Die Verwendung von Internetsuchen kann also weiterhin keinesfalls bedenkenlos empfohlen werden. Der Bing-Copilot greift anscheinend sowohl auf verlässliche als auch unzuverlässige Quellen zu und erkennt den Unterschied nicht. Ebenso kann die Suchmaschine nicht prüfen, ob die Angaben auf Webseiten veraltet sind.

Trotz des Potenzials von KI-gestützten Suchmaschinen betonen die Studienautoren, dass es wichtig sei, dass sich Patienten weiterhin an medizinisches Fachpersonal wenden. Chatbots sind keine Garantie für vollständige, verständliche und risikoarme Auskünfte in medizinischen Belangen!

Mehr dazu:

  • Andrikyan W, Sametinger SM, Kosfeld F, et al, Artificial intelligence-powered chatbots in search engines: a cross-sectional study on the quality and risks of drug information for patients. BMJ Quality & Safety, Published Online First: 01 October 2024. DOI: https://doi.org/10.1136/bmjqs-2024-017476

👉 Auf Mastodon kommentieren

Das dänische Unternehmen Corti führt eine KI-Plattform zur Dokumentation im Gesundheitswesen in Deutschland ein. Corti hat mehrere Jahre lang ein großes Sprachmodell entwickelt. Der Trainingsdatenschatz umfasst über 100 Millionen Patienteninteraktionen. Das KI-System hört Arzt-Patienten-Gesprächen zu und extrahiert die notwendigen Informationen für die Dokumentation des Gesprächs. Es funktioniert damit nach einem ähnlichen Prinzip wie Jamedas AI Assistant.

...weiterlesen "Corti bringt seine KI-Plattform ins deutsche Gesundheitswesen"

Das Internet-Portal Jameda hat einen Jameda AI Assistant zur Unterstützung der Dokumentation von Arzt-Patienten-Gesprächen veröffentlicht. Die Technik funktioniert ähnlich wie der Copilot von Microsoft Teams, der aus Meetings Protokolle erstellen kann. Der Anbieter verspricht, dass relevante Inhalte aus den mitgehörten Gesprächen durch das KI-System nach vorgegebenen Vorlagen strukturiert werden und nach wenigen Sekunden als Dokumentation bereitstehen.

...weiterlesen "Jameda AI Assistant zur Dokumentation von Arzt-Patienten-Gesprächen"

Die Erderwärmung begünstigt durch wärmere Luft zunehmend Extremwetter. Dazu gehören enorme Starkregen, die bestehende Deiche überfordern können. Deichbrüche führen oft zu weiträumigen und langwierigen Überschwemmungen mit hohen Sachschäden. Die Erkennung von Schwachstellen bei der Deichüberwachung ist daher sehr wichtig.

...weiterlesen "KI-System zur Deichüberwachung: Neuer Ansatz im Hochwasserschutz"

Jedes Jahr werden weltweit viele Millionen Elektrokardiogramme (EKGs) durchgeführt, um die Gesundheit des Herzens zu überwachen oder zu überprüfen. Bisher kamen in den meisten EKG-Systemen regelbasierte Algorithmen zum Einsatz. Diese arbeiten nach festen Regeln, die über Jahre entwickelt und in medizinischen Richtlinien festgelegt wurden. Seit mehreren Jahren hat zusätzlich das Maschinelle Lernen in der Medizin Einzug gehalten. Mithilfe sogenannter neuronaler Netzwerke, die große Datenmengen analysieren können, erhoffen sich Forscher präzisere Diagnosen.

Das Schöne an maschinellen Lernverfahren ist, dass sie sich nicht auf Regeln beziehen müssen. Stattdessen lernen die Computer aus echten EKG-Daten und den Diagnosen von Ärzten, um ihre Vorhersagen immer weiter zu verbessern. Die KI kann mit mathematischen Verfahren Muster in den Daten erkennen. Allerdings ist das „Innere“ neuronaler Netze oft ein Rätsel. Es ist nicht oder sehr schwer nachzuvollziehen, warum eine KI eine bestimmte Entscheidung getroffen hat.

Ein KI-Modell für EKG-Daten

Um die Leistungsfähigkeit solcher neuronalen Netze zu prüfen, haben Forscher aus Kalifornien (USA) ein Convolutional Neural Network (CNN) entwickelt, das sie mit EKG-Daten trainierten. An der University of California (UCSF) wurden in einer breit angelegten Studie tausende EKG-Daten aus den Jahren 2003 und 2017 analysiert. Die EKGs der Patienten wurden in drei Teile unterteilt: einen Trainingssatz, mit dem das Modell lernen konnte, einen Entwicklungssatz, um das Modell weiter zu verbessern, und einen Testsatz, um es auf seine Genauigkeit zu prüfen.

Das Lernmodell wurde mit 38 häufig auftretende Herzproblemen trainiert. Dazu gehörten verschiedene Arten von Herzrhythmusstörungen sowie Strukturveränderungen und Leitungsstörungen im Herzen. Da einige Herzprobleme viel häufiger auftreten als andere, musste das Forschungsteam sicherstellen, dass alle Diagnosen im Trainingssatz angemessen vertreten waren. Deshalb wurden besonders häufige Diagnosen absichtlich seltener gemacht, um das Ungleichgewicht zwischen den 38 untersuchten Krankheitsbildern auszugleichen.

Zusätzlich wurden auch noch zufällig ausgewählte EKGs aus dem Jahr 2018 verwendet, bis dieses Datenset für alle 38 Diagnosekategorien mindestens elf Fälle enthielt. Alle verwendeten Datensätze beinhalteten unterschiedliche Patientengruppen, sodass es keine Überschneidungen zwischen den Sets gab. Das sorgte dafür, dass die Testergebnisse besonders aussagekräftig waren. Letztlich bestanden die Trainingsdaten aus über einer Million EKGs.

Das System wurde anschließend in zwei Tests mit klinischen Standards verglichen. Zum einen musste es gegen menschliche Kardiologen und zum anderen gegen das kommerzielle EKG-Analyseprogramm MUSE von GE Healthcare bestehen.

Maschinelles Lernen im Vergleich zu Ärzten und Software

In einer ersten Auswertung wurde das Modell an fast 100.000 EKGs geprüft und zeigte für 32 der 38 untersuchten Herzprobleme eine hohe Genauigkeit. In einem zweiten Test wurden 328 EKGs von einem Expertengremium aus Kardiologen begutachtet, um die Diagnosen als Maßstab zu verwenden. Hier zeigte das maschinelle Lernmodell bessere Ergebnisse als die Kardiologen und die MUSE-Software in den meisten Kategorien.

Das Modell war besonders gut bei der Erkennung von Rhythmusstörungen und Problemen in der elektrischen Leitung des Herzens. Lediglich bei der Diagnose von Vorhofflimmern und einigen anderen seltenen Herzrhythmusstörungen schnitten die Kardiologen besser ab.

Einschränkungen der Studie

Das Medizinerteam wies darauf hin, dass das Ärzteteam zur Begutachtung (Vergleichsteam) in dieser Studie relativ klein war. Auch wurde das KI-System nicht an Daten aus anderen Krankenhäusern getestet. Wenn in anderen Häusern die EKG-Daten leicht unterschiedlich erhoben würden, etwa bei der Platzierung der Elektroden, könnte das neuronale Netzwerk vielleicht Schwierigkeiten haben.

Schlussfolgerungen für die Zukunft

Die Ergebnisse waren insgesamt beeindruckend. Das CNN übertraf eine weit verbreitete kommerzielle EKG-Analyse-Software bei nahezu allen untersuchten Diagnosen und lieferte vergleichbare Ergebnisse wie erfahrene Kardiologen.

Und das ist nicht das Ende der Fahnenstange, denn das neuronale Netzwerk kann mit neuen EKGs weiterhin lernen und noch besser werden. Zudem kann es Diagnosen stellen, die mit herkömmlichen Methoden kaum möglich sind, wie etwa bei Herzproblemen wie der verringerten Ejektionsfraktion oder der pulmonalen Hypertonie.

Eine verringerte Ejektionsfraktion des Herzens bedeutet, dass das Herz weniger effizient Blut in den Körper pumpt. Pulmonale Hypertonie ist eine Erkrankung, bei der der Blutdruck in den Blutgefäßen, die das Blut vom Herz zu den Lungen transportieren (die sogenannten Lungenarterien), zu hoch ist.

Die Forscher erkannten weiterhin, dass regelbasierte Systeme bei der Messung von Intervallen oder der Auswertung bestimmter Herzachsen zuverlässiger arbeiten. Eine Kombination aus maschinellem Lernen und Regeln könnte daher ein guter Ansatz für zukünftige Analysesysteme sein.

Weiter lesen:


👉 Auf Mastodon kommentieren

Parkinson ist die am schnellsten wachsende neurologische Erkrankung weltweit, und bis heute gibt es keine Heilung. Trotz der Fortschritte bei der Behandlung und der Möglichkeit, Symptome zu lindern, haben viele Betroffene keinen oder nur eingeschränkten Zugang zu neurologischer Versorgung.

Ein Hauptsymptom der Parkinson-Krankheit ist die Bewegungsverlangsamung. Um diese zu diagnostizieren, wird häufig ein einfacher, sogenannter Fingertipp-Test durchgeführt. Dabei soll der Patient so schnell wie möglich mit dem Daumen die Spitze des Zeigefingers berühren. Videos dieser Tests wurden in der Vergangenheit in kleinen Studien bereits mit Computern ausgewertet. Hierbei kommt maschinelles Lernen zum Einsatz.

Schwierig an diesem Unterfangen ist, dass viele KI-Modelle auf perfekte, störungsfreie Videos aus klinischen Umgebungen trainiert sind. Dadurch versagen sie eher in Alltagssituationen, etwa zu Hause. Für eine praktische Anwendung müssten die Computer in der Lage sein, überall auf der Welt einfach nur auf der Basis einer Webcam den Fingertipp-Test analysieren zu können.

Neue Studie mit Alltagsvideos

Forschende haben daher in einer neuen Studie Videos von über 250 Teilnehmern gesammelt, die den Test größtenteils von zu Hause aus durchführten. Dabei wurde die Plattform Parktest.net zu Hilfe genommen. Es sollte untersucht werden, wie KI-Systeme bei der Einschätzung des Fingertipp-Tests gegenüber erfahrenen Experten abschneiden. Für die Bewertung gibt es eine sogenannte Unified Parkinson’s Disease Rating Scale (MDS-UPDRS).

Von den 250 Probanden hatten 172 Parkinson, die übrigen 78 bildeten eine Kontrollgruppe ohne die Erkrankung. Jeder Teilnehmer nahm den Test mit beiden Händen per Video auf, was insgesamt 500 Videos ergab. Eine kleinere Gruppe von 48 Teilnehmern absolvierte den Test unter Aufsicht in einer Klinik, wobei die gleiche Online-Plattform verwendet wurde. Die Videos wurden anschließend von drei erfahrenen Neurologen bewertet, die auf Parkinson-Forschung spezialisiert sind. Nach einer Qualitätskontrolle blieben 489 Videos für die Analyse übrig.

Weiterhin gab es noch zwei unabhängige Bewerter, ebenfalls mit Erfahrung auf dem Gebiet von Parkinson. Ihre Aufgabe bestand später darin, die Leistung von KI-Modellen mit den Bewertungen der drei Spezialisten zu vergleichen.

Vergleich mit interessanten Ergebnissen

Die drei Neurologen stimmten in ihrer Bewertung bei fast einem Drittel der Videos vollständig überein, und in 93 Prozent der Fälle stimmten mindestens zwei Experten in ihrer Einschätzung der Krankheitsschwere überein. Auf der anderen Seite konnten die KI-Modelle fast so präzise wie die erfahrenen Neurologen und besser als weniger spezialisierte Fachkräfte die Videos bewerten.

Daraus ergeben sich folgende Erkenntnisse:

  • Experten können Parkinson-Symptome in Videos, die aus der Ferne zu Hause aufgenommen wurden, zuverlässig bewerten. Es ist nicht unbedingt erforderlich, dafür in eine Klinik oder Arztpraxis zu fahren.
  • Ein KI-Modell kann die Fingerbewegungen aus dem Video fast so genau analysieren wie Fachärzte.
  • Die Methodik ist fair und funktioniert unabhängig von Geschlecht, Alter oder Krankheitszustand.

Gute Chancen für die Zukunft

Auf der Basis dieser Erkenntnisse und einer Weiterentwicklung könnte das langfristige Ziel erreicht werden, Menschen mit Parkinson eine kontinuierliche Beobachtung ihrer Symptome zu ermöglichen. Das Besondere an Parkinson ist nämlich, dass die Krankheit oft in Phasen verläuft. Symptome können sich je nach Tageszeit oder Medikamenteneinnahme ändern. Daher könnten regelmäßige Tests zu Hause dabei helfen, diese Schwankungen besser zu überwachen und die Behandlung individuell anzupassen.

Eine große Hilfe wäre auch in Regionen gegeben, in denen der Zugang zu Neurologen stark eingeschränkt ist. Dort könnte ein KI-gestütztes System den Patienten bei ihrer Selbstüberwachung helfen.

Dazu müssten noch einige Herausforderungen gelöst werden. Bei höheren Schweregraden der Erkrankung war das KI-Modell weniger genau als die Ärzte. Weiterhin könnten sehr ungünstige Aufnahmeorte zu Hause, etwa mit schlechter Beleuchtung, die Videoqualität stark beeinträchtigen und eine digitale Auswertung erschweren oder verfälschen. Ein KI-Modell darf auch keinen Bias hinsichtlich Geschlecht, ethnischer Herkunft und Krankheitszustand aufweisen. Eine solche Software müsste bei allen Menschen gleich zuverlässig funktionieren.

Unter dem Strich zeigt die Studie großes Potenzial von KI im Gesundheitswesen bei der Betreuung von Menschen mit Parkinson.

Weiter lesen:


👉 Auf Mastodon kommentieren

Als Teil eines dreijährigen Projekts am Alfred-Wegener-Institut, Helmholtz-Zentrum für Polar- und Meeresforschung (AWI) entsteht ein neues KI-Basismodell für die globalen Kohlenstoffkreisläufe. Es soll die dynamischen Prozesse besser verstehen helfen und zukünftige Veränderungen genauer vorhersagen. Betrachtet wird der Kohlenstoffaustausch zwischen verschiedenen natürlichen Speichern wie Vegetation, Böden und Atmosphäre.

...weiterlesen "Neues KI-Modell des AWI analysiert globalen Kohlenstoffkreislauf"

Die Verbreitung von Fehlinformationen über den Klimawandel hat jahrzehntelange Praxis, mit entsprechend weitreichend negativen Folgen. Am augenscheinlichsten ist die dadurch hervorgerufene lebensgefährliche Verzögerung für dringliche Klimaschutzmaßnahmen. Ebenso wird die effektive Kommunikation wissenschaftlicher Erkenntnisse an die Bevölkerung behindert.

...weiterlesen "KI-Modell zur Erkennung von Fehlinformationen zum Klimawandel"

In der Medizin versucht man große Sprachmodelle (LLMs) in die Diagnostik und Patientenaufklärung zu integrieren. Neben der Onkologie und Radiologie gibt es auch in der Augenheilkunde (Ophthalmologie) vielversprechende Ansätze, um die Arbeit von Fachärzten zu unterstützen. So können KI-Modelle etwa bei der Diagnose von Glaukom und Netzhauterkrankungen unterstützen.

...weiterlesen "Chatbots in der Diagnose von Glaukom und Netzhauterkrankungen"

Auch in der Klimavorhersage wird künstliche Intelligenz (KI) eingesetzt. Wissenschaftler versuchen, Extremwetterereignisse besser vorherzusagen. Extreme Wetterphänomene wie Hitzewellen, Dürren oder Starkregen führen meist zu schweren wirtschaftlichen, gesundheitlichen oder infrastrukturellen Schäden. Sie sind leider schwer lokal vorhersagbar und treten relativ selten auf. Doch generell haben die Intensität und Häufigkeit solcher Ereignisse in den vergangenen Jahren aufgrund der Erderwärmung zugenommen.

...weiterlesen "KI in der Klimaforschung: Bessere Vorhersagen für Extremwetter"