Ein Online-Nutzer beschrieb, nach einer Sportverletzung jahrelang mit Kieferschmerzen zu leben. Trotz mehrerer Scans und Besuche bei Spezialisten wurde keine klare Lösung angeboten — bis die Person ihre Symptome in ein Sprachmodell eingab. Die KI schlug ein bestimmtes Problem mit der Ausrichtung vor und schlug eine Technik zur Positionierung der Zunge vor. Nachdem ich es versucht hatte, verschwanden die Schmerzen.

Dieser Fall, der in den sozialen Medien an Bedeutung gewonnen hat, ist alles andere als einzigartig. Andere Geschichten beschreiben Patienten, die behaupten, KI-Tools hätten Scans korrekt interpretiert oder genaue Diagnosen gestellt, was Medizinern nicht gelungen war. In einem Beispiel wandte sich eine Mutter, die jahrelang darum kämpfte, eine Diagnose für die neurologischen Probleme ihres Kindes zu stellen, einem Sprachmodell zu. Nachdem sie Aufzeichnungen und Scans eingereicht hatte, erhielt sie einen Vorschlag, der zu einer Operation führte — und zu einer deutlichen Verbesserung des Zustands des Kindes.

Verbraucherfreundliche KI verändert die Art und Weise, wie Menschen Gesundheitsberatung einholen. Die Ära von „Dr. Google“ weicht einer neuen Phase, in der Gesprächsagenten diagnostische Rollen übernehmen. Als Reaktion darauf untersuchen Universitäten, Kliniker und Entwickler, wie zuverlässig diese Systeme sind, wie sie sicher in die Behandlung integriert werden können und wie mit Fehlinformationen umgegangen werden kann, wenn sie auftreten.

Einige Ärzte begegnen bereits Patienten, die während der Behandlung KI-Tools verwenden. Einer berichtete von einem Fall, in dem eine frustrierte Patientin, die es leid war zu warten, ihre Daten in einen KI-Chatbot eingab und eine genaue Diagnose erhielt. Der Arzt war nicht verärgert, sondern sah darin eine Gelegenheit, die Bedenken der Patientin besser zu verstehen.

Studien zeigen jedoch, dass KI zwar für sich genommen sehr genau sein kann, ihre Effektivität jedoch sinkt, wenn Menschen auf dem Laufenden sind. Fehler sind häufig auf unvollständige Informationen zurückzuführen, die in das System eingegeben wurden, oder auf eine Fehlinterpretation der KI-Antworten. In einem Experiment bewerteten zwei Gruppen von Ärzten identische Patientenfälle — eine mit KI-Unterstützung, eine ohne. Beide Gruppen schnitten ähnlich ab, obwohl die KI allein eine viel höhere diagnostische Genauigkeit erzielte.

Mediziner warnen auch davor, dass KI zwar eine korrekte Diagnose stellen kann, aber die Nuancen der individuellen Situation eines Patienten nicht berücksichtigt. In der Fruchtbarkeitsbehandlung beispielsweise können Empfehlungen, die ausschließlich auf den Lebensfähigkeitswerten der Embryonen basieren, wichtige Faktoren wie der Zeitpunkt der Biopsien oder die frühere Fortpflanzungsgeschichte übersehen — Details, die ein erfahrener Arzt berücksichtigen würde.

Patienten sind manchmal von einer bestimmten Vorgehensweise überzeugt, basierend auf dem, was ihnen eine KI gesagt hat. Der Vorschlag der KI ist zwar nicht falsch, aber möglicherweise auch nicht optimal. Erfahrene Ärzte argumentieren, dass es sowohl eine Wissenschaft als auch eine Kunst ist, die richtige Behandlung zu finden, und KI ist oft nicht in der Lage, beides zu kombinieren.

Als Reaktion darauf arbeiten einige KI-Entwickler an Tools, die auf den medizinischen Gebrauch zugeschnitten sind. Ein großes Unternehmen brachte ein Benchmark-System auf den Markt, das unter Mitwirkung von Hunderten von Ärzten entwickelt wurde, um die Leistung der KI in simulierten Gesundheitsszenarien zu bewerten. Sie behaupten, dass die neueste Version ihres Modells bei der Erstellung qualitativ hochwertiger Antworten mit Ärzten mithalten oder diese übertreffen kann.

Ein anderes Technologieunternehmen führte eine Diagnoseplattform für Kliniker ein, die mehrere Sprachmodelle verwendet, die parallel arbeiten und so die Dynamik einer Gruppe von Spezialisten nachahmen. In Studien übertraf es die Ergebnisse menschlicher Ärzte deutlich.

Da diese Tools immer mehr an Bedeutung gewinnen, bringen einige medizinische Fakultäten den Studierenden nun bei, wie man mit ihnen arbeitet — und wie man mit Patienten darüber kommuniziert. Ein Pädagoge verglich die Situation mit der Zeit, als Patienten anfingen, Suchmaschinen für medizinische Informationen zu nutzen, und sagte, dass in der heutigen Welt ein Arzt, der keine KI einsetzt, als hinterher angesehen werden könnte.

In der Praxis agieren Ärzte jedoch immer noch häufig als Informationswächter. Studien zeigen, dass sie dazu neigen, KI nur zu vertrauen, wenn sie mit ihren Einschätzungen übereinstimmt, und sie andernfalls ablehnen. In einem Fall wurde eine seltene Krankheit von einer KI korrekt identifiziert, nachdem sie von mehreren Spezialisten falsch diagnostiziert worden war. Das Modell schlug sogar eine häufigere — aber weniger wahrscheinliche — alternative Diagnose vor, die von den Menschen falsch gewählt worden war.

Eine weitere große Studie mit über 1.200 Teilnehmern zeigte, dass KI, wenn sie unabhängig operierte, in fast 95% der Fälle die richtige Diagnose lieferte. Aber als die Menschen die KI als Leitfaden nutzten, sanken die Erfolgsraten auf nur ein Drittel. Das Problem lag oft in der Eingabe — wenn Benutzer kritische Symptome ausließen, gab die KI irreführende Ratschläge. Bei plötzlich auftretenden Kopfschmerzen und Nackensteifheit wäre beispielsweise sofortige medizinische Behandlung die richtige Entscheidung, aber als die plötzliche Art der Symptome nicht erwähnt wurde, schlug die KI eine einfache Schmerzlinderung zu Hause vor.

Unabhängig davon, ob der Inhalt korrekt ist oder nicht, liefert KI häufig Antworten in einem selbstbewussten, ausgefeilten Ton, der sich verbindlich anfühlt. Im Gegensatz zu einer herkömmlichen Suchmaschine, die Links zum weiterführenden Lesen bereitstellt, generieren KI-Tools strukturierten Text, der den Eindruck von Endgültigkeit vermittelt — auch wenn er falsch ist. Das kann gefährlich irreführend sein.