Evaluierung von LLMs für die medizinische Dokumentation

Viele Ärzte sind durch umfangreiche Dokumentationspflichten stark belastet oder überlastet. Dazu zählen etwa die Erstellung von Arztbriefen oder Zusammenfassungen von Patientenbesuchen. Auf diese Weise verbringt medizinisches Personal einen großen Teil der Arbeitszeit am Computer mit wichtigem, aber dennoch Papierkram. Unangenehm wird es, wenn man (sich gezwungen sieht) die Dokumentation nach der Arbeitszeit erledigt – quasi gratis.

Das Zeitalter der generativen künstlichen Intelligenz weckt die Neugier, ob solche KI-Systeme vielleicht bei der Dokumentation helfen könnten. Eine vielversprechende Methode ist der Einsatz von Schreibassistenten, die auf großen Sprachmodellen (engl.: Large Language Model, LLM) basieren.

Herausforderungen im Gesundheitswesen

Viele der leistungsstärksten LLMs gehören zu kommerziellen Unternehmen und laufen auf deren Infrastrukturen. Im klinischen Umfeld sind diese Dienste jedoch nicht ohne Weiteres nutzbar. Sie erfüllen in vielen Ländern nicht die gesetzlichen Anforderungen an den Umgang mit besonders geschützten und sensiblen Gesundheitsinformationen. In einigen Ländern müssen Daten von Gesundheitsdienstleistern innerhalb des Landes oder vor Ort verarbeitet werden. Die Datenschutz-Grundverordnung (DSGVO) der Europäischen Union untersagt etwa die Übertragung von sensiblen Gesundheitsdaten in US-Rechenzentren.

Ebenso muss klinische Software vor ihrer Freigabe gründlich validiert werden und unterliegt teilweise der Verordnung über Medizinprodukte. Derartige Prüfprozesse sind mit den kurzen und unerwarteten Releasezyklen der kommerziellen Anbieter gar nicht vereinbar. Schlimmer noch: Neue Modelle können sich plötzlich anders verhalten, was wiederum die Zulassung eines Softwareproduktes erlöschen lassen könnte.

Eine Alternative ist die Verwendung von freien Modellen. Solche Modelle lassen sich lokal betreiben, trainieren und anpassen. Sie können den eigenen Sicherheits- und Datenschutzvorschriften unterworfen werden. Man könnte ein großes vortrainiertes Generative Pretrained Transformer (GPT)-Modell nehmen und die Aufgabe durch Eingabe von Anweisungen in das Modell spezifizieren. Das nennt man „In-Context Learning“ (ICT).

Allerdings funktioniert das nur für Aufgaben gut, deren „Lösung“ sich in den Trainingsdaten des Modells wiederfindet. Typische Texte einer medizinischen Dokumentation gehören üblicherweise nicht dazu. Forschungsergebnisse zeigen, dass mit medizinischen Texten vortrainierte Modelle in der Regel besser abschneiden als allgemeine LLMs mit In-Context Learning.

Studiendesign

In einer Studie haben nun Forscher aus Freiburg die Machbarkeit der Verwendung von nicht proprietären GPT-Modellen als Schreibassistenten für medizinische Fachkräfte getestet. Die Rechenressourcen waren dabei lokal aufgebaut und die Rechenleistung limitiert. Die Zielsprache war nicht Englisch, also nicht die Sprache, in der die meisten Modelle überwiegend trainiert werden. Diese Studie wurde in der Augenklinik des Universitätsklinikums Freiburg durchgeführt.

Es wurden vier Modelle mit drei verschiedenen Architekturen trainiert. Die Qualität des Outputs ließen die Forscher durch Anthropics LLM Claude-v2 bewerten. Aus dieser Bewertung wurde das leistungsstärkste, selbst trainierte Modell ausgewählt. Anschließend wurde dessen praktische Anwendbarkeit durch zwei unabhängige menschliche Bewerter anhand von realen Daten eingeschätzt.

Ziel der assistierten Textgenerierung war der Abschlussbericht der medizinischen Dokumentation einer Untersuchung oder Behandlung, der sogenannte Epikrise-Bericht. Ein solcher Bericht enthält in der Regel drei Abschnitte:

Hauptdiagnose oder Grund für den Besuch des Patienten,
die durchgeführten therapeutischen Maßnahmen und/oder Medikamente,
Empfehlungen für weitere Eingriffe und/oder einen Folgetermin.

Der Datensatz für das Modelltraining bestand aus Aufzeichnungen von über 80 000 Patientenbesuchen aus etwa zehn Jahren. Der Trainingsdatensatz umfasste etwa 140 MB Text. Als Testdaten wurden 509 Patientenbesuche separiert und vom Training ausgenommen. Die Ursprungsdaten lagen auf Deutsch vor.

Es wurden folgende drei Modelle ausgewählt:

LLaMA: Zum Zeitpunkt der Studie gehörte das LLaMA-Modell von Meta AI zu den besten Modellen in verschiedenen offenen LLM-Benchmarks. Im Gegensatz zu einigen seiner Konkurrenten enthielt sein Trainingskorpus auch deutsche Texte, jedoch keine klinischen Inhalte.
LLaMA-2-Chat: Dieses Modell wurde ausgewählt, um den potenziellen Vorteil eines instruction-tuned Modells zu untersuchen.
BLOOM-CLP-German: Dieses Modell wurde für Aufgaben in deutscher Sprache entwickelt

Die Modelle besaßen eine Größe von rund 7 Milliarden Parametern. Zum Vergleich: GPT-3, das Modell hinter der ersten Version von ChatGPT, verfügt über 175 Milliarden Parameter.

Ergebnisse der Untersuchung

Das BLOOM-CLP-German-Modell zeigte bei den Tests die beste Leistung, obwohl die LLaMA-Modelle vorher viel länger trainiert wurden. Das Forscherteam vermutet deshalb, dass die Anpassung des Basismodells an die Zielsprache, in diesem Falle Deutsch, wichtiger sein könnte als eine längere Trainingsdauer.

Die Auswertung zeigte eindeutig, dass es möglich ist, mit nicht proprietären und vor Ort betriebenen KI-Systemen eine hilfreiche Schreibunterstützung zu betreiben. Die meisten der erstellten Texte wurden als verwendbar bewertet und hätten unverändert oder mit geringfügigen Anpassungen übernommen werden können. Bei den als unbrauchbar eingestuften Texten handelte es sich oft um Randfälle. Nur in sehr wenigen erzeugten Berichten waren inhaltliche Fehler entscheidend, zum Beispiel wenn das Modell ein wesentliches Detail vergaß.

Durch Optimierung zwischen Trainingszeit, Kosten, Modellgenauigkeit und maximaler Sequenzlänge sollte es möglich sein, bereits mit kleineren GPT-Modellen medizinischem Personal eine praxistaugliche Schreibunterstützung zu bieten. Dabei wurden die Evaluierungsmöglichkeiten der Modelle in der Studie noch gar nicht ausgeschöpft. Es gab einige Limitierungen. Dazu zählten eine begrenzte Rechenzeit und eine Beschränkung auf nur einige der möglichen Kombinationen von Modellen und Trainingsmodalitäten.

Außerdem fand noch kein realer klinischer Test statt, sondern nur eine Evaluierung mit einigen Bewertern. Das Forscherteam gibt zu bedenken, dass in der Praxis die notwendige Überprüfung der KI-erzeugten Texte auch zu einer hohen kognitiven Belastung beim Personal führen könnte. Eine solche Anstrengung könnte den Vorteil vielleicht wieder - teilweise - aufwiegen.

Mehr dazu:

Heilmeyer F, Böhringer D, Reinhard T, Arens S, Lyssenko L, Haverkamp C. Viability of Open Large Language Models for Clinical Documentation in German Health Care: Real-World Model Evaluation Study. JMIR Med Inform. 2024 Aug 28;12:e59617. https://doi.org/10.2196/59617

👉 Auf Mastodon kommentieren