Nutzen der KI in der Dermatologie – Vergangenheit, Gegenwart und Zukunft1
Benefits of AI in Dermatology – Past, Present, and Future
Staffan Vanderseea, Sophia Neisingerb,c
1 Genderhinweis: Zur besseren Lesbarkeit wird in diesem Artikel das generische Maskulinum verwendet. Die in der Arbeit verwendeten Personenbezeichnungen beziehen sich – sofern nicht anders kenntlich gemacht – auf alle Geschlechter.
a Klinik für Dermatologie und Venerologie, Bundeswehrkrankenhaus Berlin,
b Institut für Allergologie, Charité – Universitätsmedizin Berlin,
c Fraunhofer-Institut für Translationale Medizin und Pharmakologie ITMP Berlin
Zusammenfassung
Die Dermatologie ist sowohl in der Makroskopie als auch Mikroskopie ein ungemein visuelles Fach. Als solches lebt es gerade in Bezug auf die richtige Einordnung eines klinischen Bildes von der Erfahrung und dem Wissensschatz des Untersuchers. Die korrekte Einordnung eines Befunds ist, vor allem wenn es um die Differenzierung zwischen malignen und benignen Erkrankungen geht, von besonderer Wichtigkeit. Da optische Systeme zur Augmentierung des menschlichen Auges bereits seit Längerem in der Diagnostik eingesetzt werden und digitale Bildverarbeitung ermöglichen, wurde das Fachgebiet frühzeitig auf die Unterstützung durch KI aufmerksam. Aktuell existieren bereits zahlreiche KI-unterstützte, aber auch generell digitale Anwendungen im Fachgebiet, vor allem im Bereich der digitalen Dermatoskopie, aber auch in Bezug auf Praxisorganisation, Dermatohistologie und seit Kurzem auch in Bezug auf generelle Diagnosestellungen bei Hauterkrankungen. Letztere werden zunehmend im privaten Sektor verortet und stützen sich in der Allgemeinbevölkerung auf die Nutzung u. a. von Chatbots.
Dermatosen sind in der Allgemeinbevölkerung und so auch den Streitkräften hochprävalent und führen häufig zur Minderung der Dienst- bzw. Einsatzfähigkeit. Dies bedingt, verbunden mit der hierzu geringen Anzahl dermatologisch ausgebildeten ärztlichen Personals in Einsatzszenarien, eine hohe Relevanz des zukünftig verstärkten Einsatzes KI-gestützter Systeme auch im telemedizinischen Kontext. Die Entwicklung und der aktuelle Stand in Bezug auf KI, rechtliche Aspekte und Ausblicke für die Wehrdermatologie sind der Gegenstand dieses Artikels.
Schlüsselwörter: Dermatologie, Künstliche Intelligenz, KI, Large Language Models, Militärmedizin
Summary
Dermatology is, in both macroscopy and microscopy, a specialty relying on visual interpretation. As such, it particularly depends on the experience and knowledge of the examining specialist in correctly interpreting clinical findings. It can be especially challenging when benign and malignant lesions need to be differentiated. Because optical systems for augmenting human eyesight have long been introduced into clinical practice and further adapted into digital image processing systems, AI support for these systems has come into focus. Currently, there are numerous AI-supported applications and digital devices in the field. This includes digital dermoscopy in particular, but also applications for organizing clinical practice, in dermatopathology, and, recently, general diagnostics of skin diseases. For this purpose, chatbots are increasingly used by the general population, enabling counseling to occur outside a professional medical setting.
Dermatoses are highly prevalent in the general population and, consequently, in military service personnel, often leading to reductions in service or operational capability. The relatively small number of dermatological specialists compared to the potential patient base highlights the high relevance for increased future use of AI-supported systems. These are especially suitable, as they can readily be used in a telemedical context. The development over time, the legal regulations applying to their use, and the current status of AI in military dermatology will be illustrated in this article.
Keywords: dermatology; artificial intelligence; AI; large language models; military medicine
Einleitung
Künstliche Intelligenz (KI) im Allgemeinen bezeichnet Systeme, die in der Lage sind, durch verschiedene Algorithmen Muster zu erkennen. Ein Teilgebiet ist die bildbasierte KI, die mithilfe von Deep-Learning-Verfahren, vor allem den sogenannten Convolutional Neural Networks (CNNs oder auch faltende neuronale Netzwerke), visuelle Informationen, u. a. Bilder, automatisiert analysieren kann. In der Medizin findet dieser Ansatz bereits zunehmend und in immer größerem Maßstab Anwendung. Dies gilt vor allem in visuell dominierten Fächern wie Radiologie und Dermatologie, aber auch in der Pathologie, die als Dermatopathologie ebenfalls als integraler Bestandteil des Gebiets angesehen werden muss. Somit steht das Fachgebiet Dermatologie hier besonders im Fokus [10].
Untrennbar verbunden ist die Entwicklung der KI mit den Träger-, Diagnose- und potenziellen Therapiesystemen, mittels derer sie an Patienten zur Anwendung gebracht werden. Neben hierfür speziell konstruierten Systemen finden diese auch zunehmend z. B. in verschiedenen Wearables wie Fitnesstrackern oder -uhren, vor allem aber integriert in Smartphones, Anwendung. Hierauf wird in der Folge noch tiefer eingegangen werden. Dieser Umstand bedingt jedoch auch die Loslösung medizinischer Expertise von hierfür speziell geschultem Personal bzw. spezialisierten Gesundheitseinrichtungen und verlagert diese in den privaten Bereich.
Erstes und einleuchtendes Einsatzgebiet in der Dermatologie waren Geräte zur digitalen Erfassung von Hautveränderungen. Hier ging es anfangs um die Erkennung von Muttermalen. Die gewonnenen Befunde dienten einerseits zur Erstellung von Datenbanken im Allgemeinen, vor allem aber zur sequenziellen Untersuchung von Hautläsionen über die Zeit, um Veränderungen erkennen zu können. Diese existieren bereits seit den frühen 1990er Jahren. In der Folge wurden diese – zunächst noch ohne Anwendung von KI – softwaregestützt zunehmend befähigt, malignitätsverdächtige von nicht suspekten Hautveränderungen zu unterscheiden. Sie sind in dieser Fähigkeit zunehmend leistungsfähiger geworden, bis dann bereits 2020 erste Studien zu Geräten mit Deep-Learning-Modellen eine Überlegenheit gegenüber Dermatologen nachweisen konnten [7][18].
Weltweit steigt die Inzidenz von Hautkrebs und auch anderen Hauterkrankungen kontinuierlich an. Gleichzeitig ist aufgrund der demografischen Entwicklung absehbar, dass in vielen Regionen in Deutschland, hier vor allem in ländlichen und strukturschwachen Regionen, die dermatologische fachärztliche Versorgung unter Umständen nicht mehr vollumfänglich gewährleistet werden kann. Diese Entwicklungen zeigen exemplarisch, dass innovative, gegebenenfalls KI-gestützte Lösungen idealerweise bereits zeitnah zur Verfügung stehen sollten, um adäquate Diagnostik wirksam anbieten zu können.
Auch im wehrmedizinischen Kontext scheint die Implementierung KI-gestützter Diagnostiksysteme daher geboten. Die Relevanz ergibt sich einerseits aus der hohen Prävalenz unter Einsatzbedingungen exazerbierender präexistenter Dermatosen wie auch der großen Zahl sich neu manifestierender, z. B. dermato-infektiologischer Erkrankungen, aber auch beispielsweise Wunden. Demgegenüber steht die relativ geringe Anzahl dermatologisch geschulten Personals. Dies gilt sowohl für die in den letzten Jahrzehnten vorherrschenden kriseninterventionsgeleiteten Einsätze, aber auch für die zukünftig möglichen Szenarien der Landes- und Bündnisverteidigung, wie auch der aktuelle Ukrainekonflikt belegt[17].
Bereits während des KFOR-Einsatzes waren teledermatologische Systeme bei Abwesenheit eines Dermatologen im Einsatzgebiet implementiert [13]. Diese etablierten Methoden könnten nun perspektivisch in neuen Einsatzszenarien, unterstützt von KI, erneut zum Einsatz kommen. Ziel dieser Übersichtsarbeit ist es daher, die aktuellen Möglichkeiten und den Nutzen von KI in verschiedenen Bereichen der Dermatologie darzustellen, hierbei auf regulatorische Aspekte einzugehen und die existierenden Systeme in Bezug auf Vorteile und Risiken kritisch zu hinterfragen.
Rechtliche Grundlagen
KI-basierte Software, die für medizinische Diagnostik oder Therapieunterstützung eingesetzt wird, gilt in der Regel als Medizinprodukt und unterliegt damit der EU Medical Device Regulation (MDR, 2017/745)[9]. Nach MDR dürfen Medizinprodukte erst in Verkehr gebracht werden, wenn sie ein Konformitätsbewertungsverfahren (inkl. CE-Kennzeichnung) durchlaufen haben. In Deutschland erfolgt dies über unabhängige benannte Stellen (z. B. TÜV SÜD, DEKRA u. a.), die die Einhaltung der MDR-Anforderungen prüfen und zertifizieren, bevor es als Medizinprodukt zugelassen werden kann. Das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) selbst übernimmt die Überwachung der Sicherheit von Medizinprodukten im Markt. Die MDR stellt hohe Anforderungen an KI-Systeme als Medizinprodukt; sie verlangt unter anderem, dass die Hersteller das Risiko ihrer KI-Systeme laufend prüfen und selbstlernende KI so konzipieren, dass Sicherheit und Performance dauerhaft gewährleistet sind. Parallel dazu plant die Europäische Union mit dem EU Artificial Intelligence Act zusätzliche Vorgaben speziell für Hochrisiko-KI-Systeme; diese müssen in Zukunft weitere Auflagen erfüllen[11]. Die EU-Datenschutz-Grundverordnung (DSGVO) bildet die zentrale Rechtsgrundlage für den Umgang mit personenbezogenen Gesundheitsdaten.
Spezielle Gesetze oder Gerichtsurteile zur Haftung von KI in der Medizin gibt es bislang nicht, die aktuelle Gesetzgebung enthält diesbezüglich keine expliziten Sonderregelungen. Eine KI selbst kann nach geltendem Recht nicht deliktsfähig oder anspruchsverpflichtet sein. Stattdessen stehen drei Gruppen in der Verantwortung, wenn durch eine KI-Anwendung ein Schaden entsteht: der Hersteller des KI-Systems, das anwendende Krankenhaus (bei angestellten Ärzten) und hier vor allem die Behandelnden, die KI-Ergebnisse immer kritisch hinterfragen müssen.
Anders als KI-basierte Systeme können digitale Gesundheitsanwendungen (DiGAs) gemäß § 33a SGB V erstattet werden. DiGAs sind medizinische Apps, welche eine CE-Kennzeichnung als Medizinprodukt besitzen müssen, DSGVO-konform sind und den Nachweis eines positiven Versorgungseffekts erbracht haben. Nur unter den genannten Voraussetzungen können sie im DiGA-Verzeichnis des BfArM gelistet und auf Rezept verordnet werden [11]. Für KI-Leistungen selbst gibt es bisher keine spezifischen Ziffern nach EBM oder GOÄ. Telemedizinische Leistungen wie Videosprechstunden oder Telekonsile sind grundsätzlich abrechnungsfähig, haben aber meist keinen direkten KI-Bezug.Die Nutzung von KI-gestützten Fotosystemen im Hautkrebsscreening kann nicht als KI-Funktion direkt abgerechnet werden. Wird beim Hautkrebsscreening ein KI-gestütztes System verwendet, wird dieses nach GOÄ als Dermatoskopie, Fotodokumentation und ggf. Bildauswertung mit Verlaufskontrolle abgerechnet. Für gesetzlich versicherte Patienten ist lediglich das Hautkrebsscreening ggf. mit Auflichtmikroskopie abrechenbar. Die Fotodokumentation erfolgt als individuelle Gesundheitsleistung.
KI und digitale Gesundheitsanwendungen in der Dermatologie: Übersicht und historische
Entwicklung
Das erste Einsatzgebiet, in dem diagnostische Verfahren in der Dermatologie durch digitale Verarbeitung und Speicherung unterstützt wurden, lag auf dem Gebiet der Dermatoskopie. Bereits in den 1990er Jahren wurden hierfür Geräte marktverfügbar. Hierzu ist zu bemerken, dass die Auflichtmikroskopie, wie sie heute genutzt wird, nur wenige Jahre früher als diagnostisches Verfahren eingeführt wurde. Somit war bei diesem Verfahren eine digitale Augmentation fast von Beginn an vorhanden.
KI in der Hautkrebsdiagnostik
Hautkrebs stellt weltweit eine der häufigsten Tumorerkrankungen dar, und seine Inzidenz steigt kontinuierlich. Eine frühzeitige und verlässliche Diagnose ist entscheidend für die Prognose. Allerdings stehen Ärzte jedoch insbesondere bei unklaren Befunden oder in ressourcenlimitierten Settings wie unterversorgten Regionen vor Herausforderungen. Vor diesem Hintergrund hat sich die Anwendung von KI in der Hautkrebsdiagnostik in den letzten Jahren zu einem intensiv beforschten Feld entwickelt[5][7].
Mehrere Studien zeigen, dass moderne Deep-Learning-Algorithmen bei der Klassifikation dermatoskopischer Bilder von gut- und bösartigen Hautläsionen eine mit Dermatologen vergleichbare oder sogar höhere Genauigkeit erreichen können. In einer Vergleichsstudie aus 2018 von Haenssle et al. hatte ein Convolutional Neural Network (CNN) eine höhere Treffergenauigkeit bei der Melanom-Erkennung als der Großteil der teilnehmenden Hautärzte [5]. Auch prospektive Studien von Heinlein und Ko-Autoren bestätigten das Potenzial solcher KI-Systeme im praktischen Einsatz. So erzielte der weiterentwickelte KI-Algorithmus (ADAE) eine deutlich höhere Sensitivität im Vergleich zu Dermatologen, bei gleichzeitig reduzierter Spezifität. Solche Systeme findet man heutzutage schon in digitalen Dermatoskopen wieder[6].
Patienten mit multiplen Naevi profitieren außerdem von technischen Verfahren, die Hautveränderungen über die Zeit verfolgen. Moderne Systeme erstellen zunächst ein vollständiges Hautabbild mit 2D-Fotos oder als 3D-Scan als Basis und erkennen bei Folgebesuchen neu aufgetauchte oder sich verändernde Läsionen mittels KI-gestützter Bilddifferenzierung (Abbildung 1).
Abb. 1: Schematischer Ablauf der KI-gestützten Hautkrebsdiagnostik: Eingabe (Input; Bildaufnahme einer Hautläsion mittels digitalem Dermatoskop oder 3D-Scan) → Verarbeitung (Analyse durch ein Convolutional Neural Network, CNN) → Ausgabe (Output; Darstellung des Befunds am Monitor mit Risikoabschätzung und Diagnosevorschlag).
Als Weiterentwicklung kann die digitale Histologie mittels beispielsweise optischer Kohärenztomographie (OCT) bzw. konfokaler Laserscan-Mikroskopie (CLSM) angesehen werden. Beide Verfahren nutzen jeweils emittiertes Laserlicht zur Darstellung zellulärer Strukturen der Haut, wobei die OCT tiefere Schichten bei weniger präziser Auflösung, die CLSM wiederum sehr hochauflösend bei geringerer Eindringtiefe ist. Die aktuellen Systeme kombinieren die Techniken (LC-OCT) und können auch auf zellulärer Ebene benigne von malignen Tumoren differenzieren, wobei Spezifität und Sensitivität zukünftig durch KI-Einsatz noch erhöht werden sollen [16]. Neben der Dignitätsbestimmung könnte die Anwendung beispielsweise auch präoperativ zur Schnittrandfestlegung eingesetzt werden, somit die Ausdehnung eines operativen Eingriffs sinnvoll eingrenzen und durch die Vermeidung von Nachexzisionen und damit einhergehend verkürzten Liegezeiten auch das stationäre Gesundheitssystem entlasten.
KI in der Wundmedizin
Ein weiteres, sich zunehmend eröffnendes und zudem wehrmedizinisch relevantes Feld ist der Einsatz KI-gestützter Systeme in der Wundbehandlung, wobei hier der Schwerpunkt derzeit auf chronischen Wunden liegt. Hierbei liegt der Fokus nicht nur auf standardisierter Erfassung und reproduzierbarer exakter Beschreibung, sondern die Systeme dienen auch zur Entscheidungshilfe in Bezug auf die gebotene adäquate Therapie; dies vor allem aber auch zur Identifikation potenzieller Risikofaktoren für eine Aggravation zur Abschätzung des Infektions- oder auch Amputationsrisikos[14][15]. Bei telemedizinischer Anwendung dieser Systeme ergibt sich der Zusatznutzen, dass die dermatologische Kompetenz in der Versorgung der Fläche gesteigert werden kann.
Chatbots, Callbots und Avatare im (zukünftigen) dermatologischen Alltag
In zunehmendem Maße werden Chatbots, die auf der Grundlage sogenannter Large Language Models entwickelt werden, für dermatologische Diagnosefindungen verwendet. Sie finden ihren Einsatz aber auch in vielen anderen Teilen der modernen Medizin. Die Inanspruchnahme von Chatbots zur Diagnostik hat sich aufgrund ihrer ständigen und ubiquitären Verfügbarkeit vom Kontext eines professionellen medizinischen Behandlungs- bzw. Beratungssettings weitestgehend entkoppelt. Zudem konnte inzwischen gezeigt werden, dass beispielsweise ChatGPT hierbei imstande war, theoretische Examinierungen, wie sie z. B. in Großbritannien (SCE – Specialty Certificate Examination) oder Portugal (TED – Título de Especialista em Dermatologie) durchgeführt werden, mit einer hinreichenden Präzision zu bestehen, wie es auch Prüflinge zu tun imstande sind. D´Agostino et al. kamen 2024 in einer Übersichtsarbeit zu dem Schluss, dass die besonderen Stärken sich hierbei auf dem Gebiet von niedergelegtem Fachwissen, aber auch bei der Beantwortung typischer, krankheitsassoziierter Patientenfragen zeigten[2]. Limitationen bestanden hingegen bei der visuellen Differenzierung von malignen vs. benignen Läsionen. Karampinis et al. fokussierten sich wiederum auf die Eignung von Large Language Models für edukative Zwecke und konnten zeigen, dass KI-generierte Fallpräsentationen vor allem genau in der Art der Präsentation waren, jedoch häufig im Vergleich zu Experten-generierten Fallszenarien klinische Relevanz wie auch lernmotivationsfördernde Elemente vermissen ließen[8].
Neben diesem Feld, in dem KI am dermatologischen Diagnosefindungsprozess beteiligt ist, sollten KI-gestützte Verfahren zur Praxis-, Klinik- bzw. Sprechstundenorganisation ebenfalls Erwähnung finden. In Zeiten von Fachärzte-, Fachkräfte- und Terminmangel können KI-gestützte Chatbots sowohl bei der Sprechstundenorganisation, der Datenverwaltung, zur Therapieüberwachung und zum Dauermedikationsmanagement eingesetzt werden und entlasten so die Mangelressource menschlicher Arbeitskraft und sind zudem zu jeder Zeit erreichbar. In Deutschland wird dieser Markt bereits von mehreren Firmen bedient, die marktreife Produkte eingeführt haben und die zunehmend Verwendung finden[1].
Avatare schließlich, also in diesem Kontext KI-generierte virtuelle „Ärztinnen und Ärzte“ werden in den USA bereits für Aufklärungs- oder Informationszwecke eingesetzt. Neben der Verfügbarkeit rund um die Uhr steht hierbei Niederschwelligkeit im Vordergrund, da Scham minimiert werden kann und zudem Patienten, welche niedergeschriebenen Informationen eher weniger zugeneigt sind, hierbei der Zugang zu Informationen erleichtert wird.
Alle diese Applikationen stellen somit ein Bindeglied bei der Verzahnung des privaten mit dem medizinischen Sektor mit dem Ziel dar, Ressourcen sinnvoll zu allozieren, medizinisches Fachpersonal zu entlasten und letztlich die Qualität von Diagnostik und Therapie zu unterstützen.
Abgrenzung KI-basierte Systeme und klassische digitale Tools
Die digitale Transformation der Dermatologie umfasst allerdings noch deutlich mehr als KI-gestützte Bildanalyse. Neben lernenden Algorithmen existieren zahlreiche klassische digitale Anwendungen, die bereits fest in die Versorgung integriert worden sind oder sich in der Entwicklung befinden. Diese Systeme erfüllen wichtige Funktionen in der Patientenversorgung, der Forschung und der Therapiebegleitung.
Ein Beispiel dafür ist die App CRUSE (Chronic Urticaria Self Evaluation), entwickelt von Dermatologen in Zusammenarbeit mit UCARE (Urticaria Centers of Reference and Excellence) des Global Allergy and Asthma Excellence Networks (e. V.). Sie ermöglicht Patienten mit chronischer spontaner Urtikaria (Nesselsucht) ein strukturiertes Monitoring ihrer Erkrankung auf Basis von validierten Patient Reported Outcome Measures. CRUSE ist in 39 Ländern in 24 Sprachen weltweit kostenfrei verfügbar[12]. Tools wie CRUSE zeigen, dass die Digitalisierung der Dermatologie nicht ausschließlich auf KI hinausläuft (Abbildung 2). Während KI-Systeme insbesondere in der Diagnostik von Hautkrebs oder der automatisierten Bildanalyse Potenzial entfalten, bieten Gesundheitsapps bereits heute praxisnahe Unterstützung in der Verlaufsdokumentation, Adhärenzförderung und Patient Empowerment, ähnlich wie es für die oben genannten Applikationen beschrieben wurde. Für die klinische Realität ergibt sich damit ein komplementäres Bild: KI als Entscheidungshilfe in komplexen Diagnosesituationen und digitale Gesundheitsanwendungen als kontinuierliche Begleiter.
Abb. 2: Digitales Monitoring für chronische Urtikaria-Patienten am Beispiel der CRUSE App
All diese Anwendungen setzen allerdings den Zugang zu Datennetzen voraus. Die Herausforderung für den Betrieb in Einrichtungen der Bundeswehr besteht daher darin, die Integrität der militärischen Daten- und Kommunikationsnetzwerke durch den Betrieb KI-gestützter Systeme nicht zu kompromittieren. Da die meisten der verfügbaren Applikationen auf Cloud-basierten Architekturen fußen, die in Bundeswehrliegenschaften nicht oder nicht ohne Weiteres implementierbar sind, leidet das selbstlernende System, wenn es als Stand-Alone-Applikation verwendet wird. Datensicherheit und dieser genannte Umstand werden im abschließenden Kapitel noch weiter thematisiert werden.
Zusammenfassung und Ausblick mit wehrmedizinischen Bezügen
Die Dermatologie als stark bildbasiertes Fach hat sich in den letzten Jahren zu einem zentralen Anwendungsgebiet für KI entwickelt. Insbesondere in der Hautkrebsdiagnostik konnten Convolutional Neural Networks eine diagnostische Treffsicherheit erreichen, die auf dem Niveau von Dermatologen liegt oder diese übertrifft. Noch wichtiger erscheint der Mehrwert in der Kombination Mensch und Maschine.
Riesiges Potenzial
Über die bereits etablierten Bereiche hinaus eröffnen sich aber auch weitere Perspektiven für den Einsatz von KI. Besonders in der Wundversorgung könnten KI-gestützte Tools zukünftig eine konsistente und ambulant einsetzbare Verlaufsdokumentation ermöglichen[14]. Darüber hinaus bietet KI das Potenzial für die automatisierte Berechnung klinischer Scores, z. B. bei entzündlichen Hauterkrankungen. Systeme könnten z. B. den Psoriasis Area and Severity Index (PASI) oder den SCORing Atopic Dermatitis (SCORAD) direkt aus Fotos errechnen und so eine objektivere Bewertung ermöglichen und Verlaufsdaten konsistenter und mit weniger Aufwand erheben[3]. Auch in der histopathologischen Beurteilung von u. a. Hauttumoren zeigt KI großes Potenzial. Typischerweise diagnostiziert die Histologie Hauttumore durch die visuelle Mikroskopie von Gewebeschnitten, was jedoch eine gewisse Subjektivität mit sich bringt. KI-Algorithmen könnten hier zur Standardisierung beitragen, zudem könnten die oben genannten digitalen Histologieapplikationen das Gebiet potenziell wesentlich weiter voranbringen[15].
Ethische Probleme
Mit dem zunehmenden Einsatz von KI in der Dermatologie entstehen neue Fragen hinsichtlich ethischer Verantwortung, Transparenz und rechtlicher Absicherung. KI-Systeme treffen Entscheidungen oft auf Basis komplexer neuronaler Netzwerke, deren interne Funktionsweise für Nutzer kaum nachvollziehbar ist. Diese eingeschränkte Erklärbarkeit kann das Vertrauen in KI-basierte Diagnosen oder Therapieempfehlungen beeinträchtigen und ist ein wesentliches ethisches Problem. Zudem besteht die Gefahr, dass unausgewogene oder nicht ausgewogen diversifiziert zusammengesetzte bzw. generierte Trainingsdatensätze zu systematischen Verzerrungen führen. Wenn beispielsweise bestimmte Hauttypen, Altersgruppen oder Ethnien in den Datensätzen unterrepräsentiert sind, kann dies die diagnostische Genauigkeit beeinträchtigen und bestehende Ungleichheiten in der Versorgung verstärken. Auch deshalb müssen KI-Systeme regelmäßig überprüft, validiert und an heterogene Bevölkerungsgruppen angepasst werden. Zudem sind Verantwortungs- und Haftungsfragen weiterhin weitgehend ungeklärt, da diesbezügliche Gesetzgebung und Rechtsprechung aktuell noch nicht mit der Rasanz der Entwicklungen Schritt halten: Während die KI technische Unterstützung bietet, liegt die medizinische Letztentscheidung weiterhin beim behandelnden Arzt oder der behandelnden Ärztin. Ergänzend ist die Einhaltung der Datenschutzgrundverordnung (DSGVO) zentral – insbesondere bei der Nutzung von Bilddaten, die Rückschlüsse auf die Identität der Patienten zulassen. Gordon et al. (2024) kommen in ihrer Analyse zu dem Schluss, dass eine ethisch vertretbare Implementierung von KI in der Dermatologie nur gelingen kann, wenn Transparenz, Datensicherheit, Fairness und ärztliche Verantwortung gemeinsam gewährleistet werden[4].
Besondere wehrmedizinische Aspekte
Viele Aspekte der Relevanz von KI in der Dermatologie in Bezug auf wehrmedizinische Belange sind bereits dargestellt worden und sollen hier noch einmal subsummiert werden: Dermatosen sind, auch abseits von Verwundungen, allein wegen ihrer hohen Prävalenz in der allgemeinen Bevölkerung und somit auch bei Angehörigen der Streitkräfte relevant. Dies hat sich in den Kriseninterventionseinsätzen der Vergangenheit stets gezeigt und gilt ebenso für das Szenario der Landes- und Bündnisverteidigung.
Im Vordergrund steht hier vor allem die Aggravation bestehender und im Inlandsbetrieb hinreichend kupierter Dermatosen wie Akne vulgaris, Ekzemerkrankungen oder Psoriasis, die unter Einsatzbedingungen aus verschiedensten Gründen exazerbieren können. Dies kann klimatische oder hygienische Ursachen haben, aber auch mit der Notwendigkeit des Tragens von (Schutz-)Ausrüstung in Zusammenhang stehen, wie es für die Akne vulgaris an Schultern und Rücken nach prolongiertem Tragen einer ballistischen Schutzweste aus dem ISAF-Einsatz gut dokumentiert ist. Daneben spielen Infektionserkrankungen mit einem hochdiversen Erregerspektrum eine Rolle. Dies umfasst sowohl bakterielle, aber auch virale, mykotische oder parasitäre Infektionen bzw. Infestationen. Bei nicht wenigen hiervon kann neben den geschilderten Symptomen, der angegebenen Anamnese und der Dynamik der Hautveränderungen auch anhand der klinischen Morphologie der Hautveränderungen oder eines Exanthems der Verdacht auf das auslösende Agens erhärtet werden. Diagnostik und Therapie können dann gezielt und rasch erfolgen. Einige Beispiele von vielen hierfür mögen ein Erythema chronicum migrans nach Zeckenstich, die typische Randbetonung und Schuppung bei Mykosen, die typische Morphologie von Ekthymata bei Staphylokokken- oder Streptokokkeninfektion aber auch das erythrodermische Erythem mit fleckförmig unbefallener Haut bei einer Dengue-Virus-Infektion sein.
Mögen weniger diffizile Fragestellungen auch truppenärztlich beherrschbar sein, so zeigt die Erfahrung, dass differenzialtherapeutische Expertise bei schwerwiegenderen Verläufen der spezialisierten Dermatologie bedarf, um vermeidbare Ausfallzeiten militärischen Personals zu minimieren. Dermatologische Expertise an sich kann denn auch im einsatzmedizinischen Szenario als Mangelressource angesehen werden. Telemedizinisch-basierte Diagnostik mit Therapieempfehlungen rückt in diesem Zusammenhang in den Fokus. KI kann diese einerseits erleichtern, ggf. sogar, bei komplett fehlender Möglichkeit zur Einholung hautärztlicher Expertise, übergangsweise Abhilfe schaffen. Auch die vorgestellten Applikationen für die Dokumentation, Therapiehilfestellung und Risikoeinschätzung von Wunden sind hier als weiteres wichtiges Feld zu nennen. Wichtig in diesem Kontext ist jedoch die Bemerkung, dass all diese Anwendungen regelhaft einen sicheren Zugang zu Datennetzen erfordern, die in ihrer Integrität dergestalt geschützt sind, dass sie idealerweise sowohl auf dem Gefechtsfeld wie auch im rückwärtigen Raum zugänglich, stabil und sicher sind. Dies macht trotz allem deutlich, dass dermatologische Expertise durch ausgebildetes Personal weiterhin unerlässlich bleibt.
Neben dem Einsatzszenario bleibt unbestritten, dass KI für den Friedensbetrieb im Inland analog zur Entwicklung des zivilen Gesundheitssektors zunehmenden Raum einnehmen wird. Dies wird notwendig, um einerseits die Patientensteuerung, andererseits aber auch die Qualität bei Diagnostik, Therapie und Verlaufskontrollen zu optimieren. Hierbei muss jedoch nach deutschem Recht stets der Facharztstandard gewahrt sein. Noch haben telemedizinische, ebenso wenig wie KI-gestützte Systeme, in den wehrdermatologischen Alltag des Sanitätsdienstes der Bundeswehr Eingang gefunden und sind somit eine bisher noch nicht adressierte Fähigkeitslücke. Die Militärmedizin sollte hier jedoch zwingend mit der sich rasch entwickelnden zivilen Gesundheitslandschaft Schritt halten, um die hohe Versorgungsqualität unserer Soldatinnen und Soldaten auch weiterhin und unter den verschiedensten Umständen im In- wie Ausland, in Frieden wie in Einsatz gewährleisten zu können.
Kernaussagen
- Dermatologie als visuelles Fachgebiet ist besonders für KI-gestützte Applikationen geeignet.
- Schon frühzeitig haben digitale und neuerdings durch KI-gestützte Tools in das Gebiet Eingang gefunden.
- Verglichen mit der Häufigkeit an Dermatosen stellt die Anzahl verfügbarer Spezialisten eine Mangelressource dar.
- KI kann potenziell auch in Einsatzszenarien helfen, dermatologische Expertise leichter verfügbar zu machen.
- Zukünftig sollten KI-gestützte Applikationen rasch Eingang in die Wehrdermatologie finden, um mit dem zivilen Sektor Schritte zu halten.
Literatur
- Busik V. Wie künstliche Intelligenz und Large Language Models die Dermatologie revolutionieren. Dermatologie 2024 Sep;75(9):743-746. mehr lesen
- D'Agostino M, Feo F, Martora F et al. ChatGPT and dermatology. Ital J Dermatol Venerol. 2024 Oct;159(5):566-571. mehr lesen
- Goessinger EV, Gottfrois P, Mueller AM et al. Image-Based Artificial Intelligence in Psoriasis Assessment: The Beginning of a New Diagnostic Era? Am J Clin Dermatol. 2024;25(6):861-872. mehr lesen
- Gordon ER, Trager MH, Kontos D, et al. Ethical considerations for artificial intelligence in dermatology: a scoping review. Br J Dermatol. 2024 May 17;190(6):789-797. mehr lesen
- Haenssle HA, Fink C, Schneiderbauer R, et al. Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists. Ann Oncol. 2018 Aug 1;29(8):1836-1842. mehr lesen
- Heinlein L, Maron RC, Hekler A, et al. Prospective multicenter study using artificial intelligence to improve dermoscopic melanoma diagnosis in patient care. Commun Med (Lond). 2024 Sep 11;4(1):177. mehr lesen
- Hekler A, Utikal JS, Enk AH, et al. Deep learning outperformed 11 pathologists in the classification of histopathological melanoma images. Eur J Cancer. 2019 Sep;118:91-96. mehr lesen
- Karampinis E, Bozi Tzetzi DA, Pappa G et al. Use of a Large Language Model as a Dermatology Case Narrator: Exploring the Dynamics of a Chatbot as an Educational Tool in Dermatology. JMIR Dermatol. 2025 Sep 16;8:e72058. mehr lesen
- Lauer W, Löbker W, Höfgen B. Digitale Gesundheitsanwendungen (DiGA): Bewertung der Erstattungsfähigkeit mittels DiGA-Fast-Track-Verfahrens im Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) [Digital Health applications (DiGA)]. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz. 2021;64(10):1232-1240. mehr lesen
- Liopyris K, Gregoriou S, Dias J, Stratigos AJ. Artificial Intelligence in Dermatology: Challenges and Perspectives. Dermatol Ther (Heidelb). 2022 Dec;12(12):2637-2651. mehr lesen
- Luckner S, Lauer W. Regulatorische Einordnung KI-basierter Produkte für die medizinische Anwendung auf Basis von EU AI Act und MDR/IVDR [Regulatory classification of AI-enabled products for medical use on the basis of the EU AI Act and MDR/IVDR]. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz. 2025 Aug;68(8):854-861. mehr lesen
- Neisinger S, Sousa Pinto B, Ramanauskaite A et al. CRUSE® -An innovative mobile application for patient monitoring and management in chronic spontaneous urticaria. Clinical Translational Allergy. 2024;14:e12328. mehr lesen
- Otto C, Weber T, Thömmes, A. Telemedizin im Sanitätsdienst der Bundeswehr. Dt Aerztebl 2003;100(3):99-102. mehr lesen
- Reifs Jiménez D, Casanova-Lozano L, Grau-Carrión S, Reig-Bolaño R. Artificial Intelligence Methods for Diagnostic and Decision-Making Assistance in Chronic Wounds: A Systematic Review. J Med Syst. 2025 Feb 19;49(1):29. mehr lesen
- Silva MA, Hamilton EJ, Russell DA et al. Diabetic Foot Ulcer Classification Models using Artificial Intelligence and Machine Learning Techniques: Systematic Review. J Med Internet Res. 2025 Sep 24;27:e69408. mehr lesen
- Suppa M, Palmisano G, Tognetti L, et al. Line-field confocal optical coherence tomography in melanocytic and non-melanocytic skin tumors. Ital J Dermatol Venerol. 2023;158(3):180-189. mehr lesen
- Szepietowski JC. Wartime dermatovenereology during the military conflict in Ukraine. Postepy Dermatol Alergol. 2023 Jun;40(3):467-469. mehr lesen
- Tschandl P, Rinner C, Apalla Z et al. Human–computer collaboration for skin cancer recognition. Nature Medicine. 2020;26(8):1229–1234. mehr lesen
Manuskriptdaten
Zitierweise
Vandersee S, Neisinger S. Nutzen der KI in der Dermatologie – Vergangenheit, Gegenwart und Zukunft. WMM 2025;69(12):525-531.
DOI: https://doi.org/10.48701/opus4-781
Für die Verfasser
Oberstarzt Priv.-Doz. Dr. Staffan Vandersee
Klinik für Dermatologie
Bundeswehrkrankenhaus Berlin
Scharnhorststr. 13, 10115 Berlin
E-Mail: staffanvandersee@bundeswehr.org
Manuscript Data
Citation
Vandersee S, Neisinger S. [Benefits of AI in Dermatology – Past, Present, and Future]. WMM 2025;69(12):525-531.
DOI: https://doi.org/10.48701/opus4-781
For the Authors
Colonel Associated Prof. Dr. Staffan Vandersee
Department of Dermatology
Bundeswehr Hospital Berlin
Scharnhorststr. 13, D-10115 Berlin
E-Mail: staffanvandersee@bundeswehr.org
Künstliche Intelligenz in Orthopädie und Unfallchirurgie – Gegenwart und zukünftige Herausforderungen
Artificial Intelligence in Orthopaedics and Trauma Surgery – Current and Future Challenges
Thorsten Tjardesa, Manije Massiha, Daniel Geisslera, Katharina Estela
a Klinik für Orthopädie, Unfallchirurgie und Septisch-Rekonstruktive Chirurgie, Bundeswehrkrankenhaus Berlin
Zusammenfassung
Künstliche Intelligenz (KI) bedeutet einen Paradigmenwechsel in der Orthopädie und Unfallchirurgie. Etablierte Anwendungen reichen von der Frakturerkennung, der robotischen OP-Unterstützung und prädiktiven Modellen bis hin zu Wearables und Natural Language Processing. KI kann Entscheidungsprozesse von der Triage bis zur Indikationsstellung unterstützen. Methodisch ist KI keine eigenständige Methode, sondern setzt auf viele verschiedene mathematische Verfahren.
Herausforderungen betreffen die Generalisierbarkeit, die Qualität und Verfügbarkeit der Trainingsdaten, die Robustheit, die Kalibrierung, die Out-of-Domain-Detektion, die Fail-safe-Fallbacks, die Human Factors, den Drift sowie regulatorische Fragen. Zwei Paradigmen werden unterschieden: procedure-focused AI standardisiert Mikroschritte, human-focused AI stärkt Urteilskraft und Teamarbeit.
Fazit: Hybride Systeme verbinden Präzision und Kontext, erfordern Interdisziplinarität in der Entwicklung und eine evidenzbasierte Evaluation.
Schlüsselwörter: Künstliche Intelligenz, Unfallchirurgie, Human Factor, Drift, Machine Learning, Awareness Guidance, Decision Support
Summary
Artificial Intelligence marks a significant shift in orthopedics and trauma surgery. Its current applications include fracture detection, robotic surgical support, predictive models, wearables, and natural language processing. AI can assist decision-making processes from triage to treatment decisions. Methodologically, AI is not a single technique, but rather it utilizes various mathematical approaches.
Challenges include generalizability, training data quality and availability, robustness, calibration, out-of-domain detection, fail-safe mechanisms, human factors, drift, and regulatory issues such as MDR. Two main paradigms exist: procedure-focused AI standardizes micro-steps, while human-focused AI improves judgment and teamwork. Ultimately, hybrid systems blend precision with contextual understanding, requiring interdisciplinary development and evidence-based assessment.
Keywords: artificial intelligence; trauma surgery; human factors; drift; machine learning; awareness guidance; decision support
Einleitung
Die Integration technischer Mittel der künstlichen Intelligenz (KI) in die klinische Medizin erfordert einen Paradigmenwechsel. Das Fachgebiet Unfallchirurgie und Orthopädie (O&U) ist gekennzeichnet durch Situationen mit hoher Entscheidungsdichte, die Umsetzung der Informationen komplexer Bildgebungsverfahren in chirurgisches Handeln und dynamische Behandlungspfade auf unterschiedlichsten Zeitskalen. Künstliche Intelligenz (KI) bietet Möglichkeiten, diagnostische und therapeutische Prozesse zu unterstützen [1]. Von der Frakturerkennung über das Reha-Management bis zur robotergestützten Operationsassistenz eröffnen KI-Technologien eine Vielzahl von technischen und technologischen Optionen.
In der militärischen Unfallchirurgie sind polytraumatisierte Patienten mit komplexen Verletzungsmustern und die Notwendigkeit schneller, ressourcenschonender Entscheidungen eine besondere und vor allem interdisziplinäre Herausforderung. KI kann dazu beitragen, im Sinne des Decision Support und der Awareness Guidance kritische Prozesse von der Triage bis zur Indikationsstellung zu begleiten.
Ziel dieses Beitrags ist es, die aktuellen und potenziellen KI-Anwendungen in O&U darzustellen und sie kritisch zu bewerten. Darüber hinaus werden die Konzepte und Rahmenbedingungen diskutiert, die zu beachten sind, um künftig das Potenzial von KI für O&U auszuschöpfen.
KI in O&U – Was bisher geschah
Frakturerkennung
Eine bereits etablierte Anwendung ist die automatisierte Frakturerkennung. Convolutional Neural Networks (CNNs), die konventionelle Röntgenbilder mit hoher Sensitivität analysieren, zeigen, dass diese Netzwerke in der Lage sind, menschliche Experten in Bezug auf die diagnostische Präzision zu unterstützen, indem sie systematisch konzeptuelle Daten wie erweiterte Patienteninformationen in die Beurteilung einfließen lassen. Darüber hinaus sind KI-basierte Systeme nicht für „menschliche“ Phänomene wie das „Satisfaction of Search-Phänomen“ anfällig und kompensieren allein damit ein menschliches Defizit.
In Notaufnahmen erleichtern KI-Systeme wie Zebra Medical Vision die Befundung von Röntgenbildern. Durch Automatisierung lassen sich kritische Befunde rascher erkennen und in der Folge besser beurteilen. Lindsey et al. berichten von signifikant höherer Accuracy bei der Erkennung von Frakturen [8].
OP-Planung und -Unterstützung
Auch die KI-gestützte Planung von robotergestützten Operationen (z. B. MAKO®, Smith&Nephew) ist bereits klinisch etabliert. Hierbei wird auf Basis von CT- oder MRT-Daten ein patientenspezifisches Modell erstellt, das die präzise Implantation von Hüft- oder Knieprothesen ermöglicht. Ob sich die nachweislich höhere Genauigkeit auch tatsächlich auf die klinischen Ergebnisse projiziert, ist allerdings noch unklar.
Prädiktive Machine-Learning (ML)-Modelle können trainiert werden, um Risiken wie Infektionen, Rehospitalisierungen oder eine verlängerte Verweildauer nach Endoprothesenoperationen frühzeitig zu erkennen. Diese Anwendungen ermöglichen eine individuellere Patientensteuerung und unterstützen die Risikostratifizierung, wie beispielsweise in der Studie von Dragosloveanu et al. dargestellt [5].
Wearables in der Rehabilitation
Im Bereich der Rehabilitation werden KI-gestützte Wearables wie ReHub® (DyCare, Bio-sensing Solutions SL, Barcelona, Spain [11]) oder DorsaVi® (dorsaVi LTD, UK [9]) eingesetzt, um Bewegungsmuster zu analysieren und die Fortschritte der Patienten objektiv zu bewerten. Algorithmen verarbeiten Sensordaten in Echtzeit und liefern personalisierte Rückmeldungen zur Optimierung der Übungen.
Individuell hergestellte Implantate
Besonders bei komplexen knöchernen Defekten oder bei Revisionsoperationen kommen zunehmend individuell hergestellte Implantate zum Einsatz. Diese werden mittels KI-gestützter CAD/CAM-Verfahren anhand bildgebender Daten entworfen. Unternehmen wie Materialise nutzen maschinelles Lernen, um die Designs zu optimieren und eine passgenaue Fertigung zu ermöglichen.
Auswertung unstrukturierter medizinischer Texte
Nicht zuletzt wird auch Natural Language Processing (NLP) eingesetzt, um unstrukturierte medizinische Texte automatisiert auszuwerten und eine Risikoprojektion für einzelne Krankheitsentitäten zu erstellen, wie Danna et al. exemplarisch für intraabdominelle Verletzungen zeigen konnten [4]. Diese Beispiele machen deutlich, dass KI nicht mehr nur ein theoretisches Konzept, sondern vielmehr ein konkretes Werkzeug in O&U ist.
Wie funktioniert KI und was kann sie denn eigentlich?
KI ist ein populäres Schlagwort für die Fähigkeit von Computern, Dinge zu tun, die die meisten Menschen in Erstaunen versetzen. Diese mediale Deutung von KI ist für die Entwicklung von Anwendungen in einem sicherheits- und qualitätsrelevanten Feld wie der Medizin jedoch nicht hilfreich und in vielen Fällen sogar fehlleitend.
Aus methodischer Perspektive bietet sich ein sehr buntes Bild (Tabelle 1), da sich unter dem Oberbegriff KI eine große Vielfalt an Methoden aus Mathematik und Informatik verbirgt, die naturgemäß keine Verbindung zur klinischen Medizin aufweisen.
Tab. 1:Die verschiedenen Methoden der KI bedienen sich sämtlicher Teilgebiete der Mathematik, um unterschiedlichste Aspekte menschlicher Intelligenz abzubilden. KI-Entwicklung kann deshalb nur in interdisziplinären Teams erfolgen, die als gemeinsame Schnittstelle über AI Literacy bzw. Med Literacy verfügen müssen, um klinisch sinnvolle AI-Anwendungen zu entwickeln.
Gemeinsam ist allen aufgezählten Methoden, dass sie einzelne Aspekte der menschlichen Intelligenz abbilden können. Bei genauerer Betrachtung können sie allerdings nur den prozeduralen Anteil der menschlichen Intelligenzleistung nachahmen. Dies bedeutet., dass sie große Datenmengen unter bestimmten Gesichtspunkten verarbeiten können. Je nach Aufgabenstellung und gewählter Methodik lassen sich so nahezu alle Leistungen des menschlichen Gehirns abbilden (Tabelle 2).
Für O&U lässt sich eine Vielzahl von Anwendungen identifizieren (Tabelle 2). Hinsichtlich der mit KI adressierbaren Themen und Probleme aus der klinischen Medizin bestehen offensichtlich keine Begrenzungen mehr. Auch die Ressource Rechenkapazität ist weder hinsichtlich ihrer Kosten noch hinsichtlich ihrer Verfügbarkeit ein begrenzender Faktor.
Tab. 2: Die Teilaspekte intelligenten menschlichen Handelns müssen bei der Entwicklung von KI-Anwendungen in abstrakte Aufgaben übersetzt werden, die anschließend mit geeigneten mathematischen Methoden umgesetzt werden können.
Die Anwendung neuer Methoden erfordert allerdings ein sehr genaues Verständnis der jeweiligen Grenzen und Fehlermöglichkeiten. In der klassischen klinischen Forschung kann dieses Problem leicht durch die Zuhilfenahme eines Statistikers, der für die valide Auswertung eines Datensatzes und damit auch eine sichere Aussage sorgt, ausgeräumt werden.
Der disruptive Charakter von KI resultiert aus der Tatsache, dass die zur Verfügung stehenden Methoden (Tabelle 2) eine Vielzahl verschiedener Datenquellen und Datentypen verarbeiten und sich auch miteinander kombinieren lassen. KI-Anwendungen sind deshalb auch nur unter bestimmten Voraussetzungen geeignet, Kausalitäten zu beweisen bzw. einem möglichen kausalen Zusammenhang möglichst nahe zu kommen. Allerdings kann KI dabei helfen, die vorhandene Evidenz für den Kliniker am Krankenbett – oder wo auch immer er auf seine Patienten trifft – zugänglich und anwendbar zu machen. KI kann das entscheidende Hemmnis bei der Anwendung von Leitlinien, klinischen Studien etc. überbrücken, indem sie die entscheidende Schwäche menschlicher Kognition – die Übertragung unterschiedlicher Wahrscheinlichkeiten (z. B. als Evidenzlevel in Leitlinien, als Ergebnisse klinischer Studien) auf eine konkrete klinische Situation – unterstützt.
Dennoch müssen sich alle KI-basierten klinischen Interventionen einer Überprüfung in klinischen Studien unterziehen. In Anlehnung an das SPIRIT 2013 Statement wurde von der SPIRIT-AI and CONSORT-AI Consensus Group eine Checkliste mit 33 Items erarbeitet, die bei klinischen Studien, die KI-basierte Interventionen testen, zu berichten sind [3]. Oliveira E Carmo et al. berichten, dass von 36 Convolutional Neural Networks, die zur Frakturerkennung trainiert wurden, nur 11 % einer externen Validierung unterzogen wurden [12]; die Empfehlungen der CONSORT-AI Consensus Group wurden hierbei nicht berücksichtigt.
Neue Methoden bieten neue Lösungsansätze für alte Probleme – und schaffen neue Herausforderungen
Viele klinische Fragestellungen in O&U erfordern die gleichzeitige Betrachtung verschiedener Zeitskalen. Der Frakturheilungsprozess dauert Monate, die Auswirkungen einer Teilbelastung einer Fraktur äußern sich in Tagen oder Wochen, und die zellulären Prozesse der Mechano-Induktion finden binnen Minuten statt. In klassischen klinischen Studien wird versucht, alle diese „Störfaktoren“ durch eine hinreichende Gruppengröße zu nivellieren. Die Methoden der KI ermöglichen es, viele dieser Faktoren zu berücksichtigen. Personalisierte Simulationen und die Echtzeiterhebung von Belastungsdaten bei der Rehabilitation scheinen hier eine vielversprechende Möglichkeit zu bieten, den Heilungsprozess einer Fraktur genauer zu verstehen und künftig besser zu steuern bzw. zu gestalten.
Generalisierbarkeits-Bias
Die Generalisierbarkeit vieler KI-Modelle ist aufgrund der begrenzten Qualität und Repräsentativität der Trainingsdaten eingeschränkt. Werden KIs mit Fragestellungen oder Aufgaben konfrontiert, die außerhalb ihres „Erfahrungsschatzes“ liegen, spricht man von einem Domain Shift.Natürlich – und das ist nur menschlich – ist der Präzisionsgrad der KI dann geringer. Je komplexer die Thematik, desto höher werden die Ansprüche an die Trainingsdaten bzw. desto schneller treten Domain-Shift-Situationen auf. Im unfallchirurgischen Kontext bedeutet dies z. B., dass Anzahl und Qualität der Trainingsdaten für eine KI, die eine schaft-mittige Femurfraktur erkennen soll, deutlich kleiner sind als für eine KI, die differenzierte Aussagen zu mehrfragmentären distalen Tibiafrakturen machen soll. Die Datenqualität und die Datenmenge sind also für KI-Anwendungen ebenso relevant wie für randomisierte klinische Studien.
Robustheit, Kalibrierung und Sicherheit
Selbst leistungsfähige Modelle können schlecht kalibriert sein und ihre eigene Sicherheit überschätzen. Ein typisches Beispiel für diesen Effekt ist die geringere Erkennungsquote kleiner Frakturen in der Fußwurzel, die Hinweise auf komplexere Verletzungsmuster geben können. Im militärischen Umfeld kollidieren zudem Rechen- und Energieanforderungen mit Low-SWaP-Vorgaben (Size, Weight, and Power) sowie Bandbreiten- und Umgebungsrestriktionen. Fail-safe-Designs mit konservativen Fallbacks, Out-of-Distribution-Detektion, regelmäßige Kalibrierungs-Checks und Edge-Inference-Fähigkeit ohne Cloud-Abhängigkeit sind wesentliche Merkmale robuster KI-Anwendungen.
Human Factors
Human Factors kommen vor allem bei KI-Anwendungen zum Tragen, die mit Menschen interagieren. Dies ist vor allem bei Decision-Support- und Awareness-Guidance-Systemen der Fall. Hier sind Phänomene wie der Automation Bias (das unreflektierte Befolgen von KI-Vorschlägen) und Complacency (zu spätes Eingreifen in einen KI-gestützten Prozess) zu berücksichtigen. Deshalb ist ein Verständnis der Kommunikationsstrukturen der User für die Entwicklung eines wirksamen KI-unterstützten Decision Support und Awareness Guidance Systems unabdingbar. Derartige KI-Systeme können dann über den inhaltlich/fachlichen Input auch auf die Kommunikationsstruktur unter den Usern, positiv oder negativ, Einfluss nehmen.
So konnte bei einer systematischen Befragung von im Schockraum tätigen Ärzten im Rahmen der Konzeption eines Awareness Guidance/Decision Support Systems für die Erstversorgung polytraumatisierter Patienten gezeigt werden, dass das Nachfrageverhalten und die Unvollständigkeit der Kommunikation zwischen den agierenden Ärzten als Ausdruck eines „cognitive overload“ zu verstehen sind [14]. Assistenzsysteme, die einen Cognitive Overload verhindern, können dementsprechend die Entscheidungs- und Kommunikationsfähigkeit erhalten.
Fairness, Bias und Drift Phänomene
Model-Drift ist ein Phänomen, bei dem die Vorhersageleistung eines Machine-Learning-Modells im Laufe der Zeit von derjenigen abweicht, die während der Trainingsphase erzielt wurde. Das Monitoring von Modell-Drift ist daher ein zentraler Bestandteil der ML-Observability, da es ermöglicht, Leistungsprobleme frühzeitig zu erkennen und Ursachen im laufenden Betrieb gezielt zu diagnostizieren. Ursächlich für Modell-Drift kann der sogenannte Daten-Drift sein, bei dem sich die statistischen Eigenschaften der Eingangsvariablen im Vergleich zur Trainingsphase ändern. Dies tritt oft auf, wenn ein großer zeitlicher Abstand zwischen der Datenerhebung und der späteren Anwendung des Modells besteht. Daneben kann ein Konzept-Drift auftreten. Hierbei verändert sich die Beziehung zwischen Eingangs- und Zielvariablen, das heißt, die zugrunde liegenden Zusammenhänge im realen System verschieben sich. Schließlich kann es auch zu Upstream-Datenänderungen kommen, wenn sich Datenquellen, Vorverarbeitungsschritte oder externe Einflussgrößen verändern und dadurch die Eingangsgrößen des Modells anders auf das Ziel wirken als ursprünglich.
Deshalb stellen die Überwachung und Analyse solcher Drift-Effekte eine wesentliche Voraussetzung für den stabilen und verlässlichen Einsatz von KI-Systemen im realen Betrieb dar.
Regulatorische und haftungsrechtliche Unsicherheiten
In Europa fallen KI-Funktionen, die Bestandteil eines Medizinprodukts sind oder dessen Zweckbestimmung beeinflussen, unter die Verordnung (EU) 2017/745 über Medizinprodukte (Medical Device Regulation, MDR) [6]. Für „lernende“ Systeme sind Änderungs- und Update-Kontrolle, Post-Market-Surveillance und klinische Leistungsbewertung zentral. Leitlinien wie SPIRIT-AI/CONSORT-AI oder Bewertungsrahmen wie DECIDE-AI unterstützen Planung und Berichterstattung, ersetzen jedoch keine regulatorischen Nachweise. Sind die Zuständigkeiten bei Mensch-Maschine-Kollaboration unscharf, bleiben Haftungsfragen unklar – im militärischen Kontext zusätzlich überlagert durch einsatzrechtliche Rahmenbedingungen.
Hinter diesen Fragestellungen verbirgt sich die insbesondere bei der Entwicklung interaktiver Awareness-Guidance/Decision-Support-Systeme wichtige Frage, ob „harte“ oder „weiche“ KI-basierte Interventionen zur Anwendung kommen. Am Beispiel der Schockraumversorgung stellt die Entscheidung zum sofortigen Abbruch der Maßnahmen, zur Verbringung des Patienten in den OP zur Laparotomie eine gerade für unerfahrene Kollegen äußerst schwere Entscheidung dar. Eine harte KI-Entscheidung lässt sich unter den gegebenen Rahmenbedingungen kaum umsetzen, und die Akzeptanz bei Teilen der potenziellen Nutzer darf sicherlich bezweifelt werden. Versteht man die KI als Hinweisgeber – Awareness Guidance –, die Informationen kontextualisiert und auf Zusammenhänge und Konstellationen hinweist, die der agierenden Person mangels Erfahrung, aufgrund von Stress o. Ä. selbstständig nicht auffallen, dann verbleibt die Entscheidungshoheit in jedem Fall beim handelnden Arzt.
Wohin geht die Reise?
Procedure-focused AI vs. Human-focused AI
KI in O&U lässt sich sinnvoll anhand zweier komplementärer Paradigmen denken: Procedure-focused AI (PFA) und Human-focused AI (HFA).
Procedure-focused AI – KI als technisches Tool
PFA konzentriert sich auf klar definierte Mikroschritte innerhalb eines Versorgungsprozesses, z. B. Frakturscreening in der Bildgebung, CT-Priorisierung, OP-Navigation oder Implantatdesign. Ziel ist es, die Performance zu verbessern, die Standardisierung zu erhöhen, den Durchsatz zu steigern und Fehler zu reduzieren. Für eine erfolgreiche Implementierung sind vor allem auf der technischen Ebene präzise formulierte Input-/Output-Spezifikationen erforderlich, die eng mit den Usability-Anforderungen der Nutzer abgestimmt sein müssen. Insbesondere unter Einsatzbedingungen sind robuste Edge-Inference-Fähigkeiten (also auch ohne Anbindung an eine Cloud (lokal) funktionsfähige KI-Applikationen) für einen sicheren Einsatz erforderlich.
Menschen verfügen über die Fähigkeit der Selbstreflexion – idealerweise. Diese Fähigkeit, sei es als bewusster (Selbst-)Reflexionsprozess oder als „Bauchgefühl“, kann dazu dienen, zu bemerken, wenn sich das Individuum in einer Situation befindet, in der es mangels Wissens oder Erfahrung nicht mehr sicher handlungsfähig ist. In KI-basierten Systemen müssen derartige Sicherheitsvorkehrungen aktiv umgesetzt werden. Diese Methoden werden als Out-of-Distribution-Erkennung zusammengefasst. Out-of-Distribution-Erkennung verhindert, dass Modelle unter unbekannten oder veränderten Bedingungen falsche Entscheidungen treffen – ein zentrales Element für vertrauenswürdige und robuste KI. Hierbei kommen sehr unterschiedliche methodische Ansätze zur Anwendung (Tabelle 3). Genauso wie bei der klassischen Statistik handelt es sich hier um rein technisch-mathematische „Zahlenmanipulationen“, die keinerlei Verbindung zur inhaltlichen Aussage herstellen.
Tab. 3: OOD-Detection dient dazu, Eingaben zu erkennen, die außerhalb des Trainingsraums eines KI-Modells liegen. Sie verhindert, dass das System in solchen Fällen falsche Entscheidungen trifft, indem es stattdessen warnt, die Eingabe ablehnt oder die Kontrolle an einen Menschen oder ein Fail-Safe-System überträgt.
Neben der Absicherung der inhaltlichen Performance von KI-basierten Systemen ist auch die technische Performance zu gewährleisten. Fail-safe-Fallbacks bezeichnen in diesem Zusammenhang vordefinierte, sichere Rückfallmechanismen (Tabelle 4), die automatisch aktiviert werden, wenn ein System einen Fehler, einen Ausfall oder einen Unsicherheitszustand erkennt. Fail-safe-Fallbacks stellen sicher, dass ein System im Fehlerfall kontrolliert, vorhersagbar und gefahrlos reagiert, statt unkontrolliert zu versagen.
Tab. 4: Mit diesen Sicherheitsmechanismen, wird dafür gesorgt, dass ein technisches System bei einem Fehler, Ausfall oder einer Unsicherheit automatisch in einen sicheren Betriebszustand übergeht. Statt unkontrolliert weiterzufunktionieren, wird das System so gestaltet, dass es keinen Schaden verursacht – etwa durch Abschalten, Umschalten auf einen reduzierten Notbetrieb oder die Übergabe an eine menschliche Kontrollinstanz.
Human-focused AI – KI als Hirn- und Kognitionsprothese
Human-focused AI (HFA) adressiert die Interaktion mit dem menschlichen Entscheider. Entscheidungen im Trauma-Setting sind selten eindimensional; sie verlangen das Abgleichen unvollständiger Evidenz, das Abwägen von Risiken, Ressourcen und Zeitfenstern (z. B. Damage-Control-Surgery, Evakuierungslogistik), sowie die Koordination multipler Berufsgruppen. Eine KI, die hier wirklich unterstützt, muss mehr können als „große Datenmengen aufarbeiten“. Sie muss Unsicherheit kalibriert kommunizieren, Alternativen mit ihren Konsequenzen transparent machen, Annahmen offenlegen und dem Team bzw. dem Entscheider erklärbare, revidierbare Vorschläge anbieten – stets mit klarer Möglichkeit zur menschlichen Übersteuerung – Awareness-Guidance anstatt Decision-Making.
Die technische Voraussetzung für die Unterstützung komplexer, zeitkritischer und interaktiver Prozesse, wie zum Beispiel die Behandlung eines polytraumatisiertenPatienten im Schockraum, ist die Möglichkeit echtzeitnaher Kommunikation der ärztlichen Protagonisten mit der KI.
Sogenannte Foundation-Modelle, zu denen auch Large Language Models (LLM) gehören, ermöglichen die Umsetzung von Anwendungsfällen, die zum Zeitpunkt der Entwicklung noch nicht absehbar waren. Dabei erreichen sie eine höhere Leistungsqualität und benötigen weniger Trainingsdaten [13]. Die Fähigkeit von LLMs aus umfangreichen Text- und Multimodaldaten komplexe Zusammenhänge zu erfassen und abzubilden, ermöglicht es, sie in komplexen Realsituationen einzusetzen. Das Adressieren humaner Performance-Faktoren eröffnet eine große Chance auch für die evidenz- und leitlinienbasierte Medizin, da nun auch die ausführende Seite, die ärztlichen Protagonisten, erreichbar und „steuerbar“ sind. Deshalb sind zusätzliche kognitive und teambezogene Endpunkte (z. B. NASA-TLX [7]), Entscheidungszeit mit/ohne KI, Leitlinienadhärenz, Team-Koordination), Fairness-Analysen (Equity-Gaps, Subgruppen-Performance, Drift-Monitoring) und vor allem patientenzentrierte Impact-Endpunkte (Komplikationen, Revisionsrate, Mortalität, funktionelle Scores) erforderlich, um komplexe HFA-Systeme erfolgreich zu entwickeln und zu steuern. Dann können HFA-Systeme ihr tatsächliches Potenzial entfalten, indem sie Urteilskraft stärken statt sie zu ersetzen, Teamkoordination unterstützen und Unsicherheit durch Awareness Guidance und die Reduktion der Mental Load reduzieren.
Fazit
KI in O&U ist mehr als Apps auf dem Handy und kann mehr als im Chatbot-Modus Patientenfragen beantworten. Um das Potenzial von KI auszuschöpfen, müssen vor allem Ärzte bereit sein, eine neue Sprache zu lernen. Zum einen, um mit den Protagonisten aus Informatik und Mathematik sinnvoll kommunizieren zu können, zum anderen, um überhaupt Fragen zu stellen, die sich mit den neuen Methoden beantworten lassen. Andernfalls werden PFA-Anwendungen als „zertifizierte Inseln“ ohne Integration in den klinischen Workflow enden und adversarial verwundbar sein (eine adversarial Attack ist ein speziell manipuliertes Eingangs-Signal in ein künstliches neuronales Netzwerk, das es absichtlich zu Fehlklassifikationen verleitet). Die Manipulation wird so vorgenommen, dass ein menschlicher Beobachter diese nicht bemerkt oder nicht als solche erkennt oder einfach nur unbemerkt fehlkalibriert agiert.
In gleicher Weise werden HFA-Anwendungen in Phänomenen wie dem „Explainability Theater“ (der nur scheinbaren oder oberflächlichen Erklärbarkeit von KI-Systemen), in dem Automation Bias und in der Alarmüdigkeit verharren, wenn Erklärungen oberflächlich bleiben, Alarme schlecht gestaltet sind oder Verantwortlichkeiten und Konsequenzen unklar bleiben.
Ein hybrides Design vermag Stärken zu bündeln: PFA standardisiert Mikroschritte, HFA orchestriert Entscheidungen. Unbestritten ist: KI skaliert mit Daten. Je größer und vielfältiger die Datengrundlage ist, desto besser lässt sich Varianz erfassen und Generalisierbarkeit erzielen. In der Medizin schafft diese Logik einen Zwang zur Interdisziplinarität: Für robuste Modelle braucht es nicht nur Radiologie-DICOMs, sondern auch OP-Protokolle, Labore, Vitaldaten, Reha-Verläufe, klinische Scores, Kontextinformationen (Ressourcen, Zeitdruck) oder sogar interprofessionelle Konversationsinhalte.
Diese Interdisziplinarität ist nicht nur methodisch geboten, sondern klinische Realität: Gerade bei komplexen Verletzungsmustern (Polytrauma, Kombinationsverletzungen, großflächige Weichteilschäden, Explosions- und Penetrationstraumata) ist die Trennung der Fachgebiete faktisch nicht möglich. Diagnostik, Priorisierung, Operieren, Intensiv- und Rehabilitationsmedizin greifen ineinander; Entscheidungen sind zeitkritisch und ressourcenabhängig. PFA kann hier Mikroschritte zuverlässig standardisieren, doch das entscheidende klinische „Warum, Wann und Womit“ entsteht im Team – das ist genau die Ebene, auf der HFA Orientierung, Validierung und Kontextualisierung leisten kann [10].
Erst im hybriden Zusammenspiel beider Paradigmen – PFA für Präzision im Detail, HFA für Urteilskraft im Ganzen – wird aus algorithmischer Leistungsfähigkeit belastbarer, patientenzentrierter Nutzen. Die tatsächliche Auswirkung von KI auf die klinische Forschung ist zum jetzigen Zeitpunkt gerade in einem Fachgebiet, in dem klassische Studienformate wie randomisierte klinische Studien nur eingeschränkt umsetzbar sind, kaum absehbar.
Kernaussagen
- KI kann die ärztliche Entscheidung nicht ersetzen, sie kann durch Awareness Guidance Entscheidungsfähigkeit und Entscheidungssicherheit herstellen bzw. sicherstellen.
- KI ist kein Prinzip an sich. KI kann als Human Centered KI, Procedure Centered KI entwickelt werden.Um das Potenzial von KI auszuschöpfen, müssen vor allem Ärzte bereit sein, eine neue Sprache zu lernen.
- Human-Focused AI-Anwendungen entfalten ihr tatsächliches Potenzial, indem sie Urteilskraft stärken anstatt sie zu ersetzen, Teamkoordination unterstützen und Unsicherheit durch Awareness Guidance und Reduktion der Mental Load reduzieren.
Literatur
- Badgeley MA, Zech JR, Oakden-Rayner L, et al. Deep learning predicts hip fracture using confounding patient and healthcare variables. NPJ Digit Med. 2019 Apr 30;2:31. mehr lesen
- Chan AW, Tetzlaff JM, Altman DG, et al. SPIRIT 2013 statement: defining standard protocol items for clinical trials. Ann Intern Med. 2013 Feb5;158(3):200-207. mehr lesen
- Cruz Rivera S, Liu X, Chan AW, Denniston AK, Calvert MJ; SPIRIT-AI and CONSORT-AI Working Group; SPIRIT-AI and CONSORT-AI Steering Group; SPIRIT-AI and CONSORT-AI Consensus Group. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. Nat Med. 2020 Sep;26(9):1351-1363. mehr lesen
- Danna G, Garg R, Buchheit J, et al. Prediction of intra-abdominal injury using natural language processing of electronic medical record data. Surgery. 2024 Sep;176(3):577-585. mehr lesen
- Dragosloveanu S, Vulpe DE, Andrei CA, et al. Predicting periprosthetic joint Infection: Evaluating supervised machine learning models for clinical application. J Orthop Translat. 2025 Jul 17;54:51-64. mehr lesen
- EU-Verordnung 2017/745 über Medizinprodukte (MDR), ABl. L 117, 5.5.2017, S. 1–175 [Internet]. [Letzter Aufruf 4.November 2025]; Verfügbar unter: https://eur-lex.europa.eu/eli/reg/2017/745/oj?locale=de mehr lesen
- Hart SG, Staveland LE. Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research. Advances in Psychology1988;52:139-183. mehr lesen
- Lindsey R, Daluiski A, Chopra S, et al. Deep neural network improves fracture detection by clinicians. Proc Natl Acad Sci U S A. 2018 Nov 6;115(45):11591-11596. mehr lesen
- Ling DI, Janosky J, Schneider B, et al. A Controlled Trial of the Effects of Neuromuscular Training on Physical Performance in Male and Female High School Athletes. Sports Health. 2023 May;15(3):386-396. mehr lesen
- Meyer M, Giesselbach S, Antweiler D, et al. Wie Agenten und Foundation-Modelle bei der Versorgung Schwerverletzter helfen - Künstliche Intelligenz im Schockraum (Whitepaper) [Intenet].[Letzter Aufruf 4. November 2025]; Verfügbar unter: http: www.iais.fraunhofer.de/traumAInterfaces mehr lesen
- Nuevo M, Rodríguez-Rodríguez D, Jauregui R, Fabrellas N, Zabalegui A, Conti M, Prat-Fabregat S. Telerehabilitation following fast-track total knee arthroplasty is effective and safe: a randomized controlled trial with the ReHub® platform. Disabil Rehabil. 2024 Jun;46(12):2629-2639. mehr lesen
- Oliveira E Carmo L, van den Merkhof A, Olczak J, Gordon M, Jutte PC, Jaarsma RL, IJpma FFA, Doornberg JN, Prijs J, Machine Learning Consortium. An increasing number of convolutional neural networks for fracture recognition and classification in orthopaedics : are these externally validated and ready for clinical application? Bone Jt Open. 2021 Oct;2(10):879-885. mehr lesen
- Paaß G, Giesselbach S. Foundation Models for Natural Language Processing: Pre-trained Language Models Integrating Media.Heidelberg Springer Nature 2023. mehr lesen
- Tjardes T, Meyer LM, Lotz A, et al. Anwendung von Systemen der künstlichen Intelligenz im Schockraum: Geben die Kommunikationsmuster Hinweise auf mögliche Ansatzpunkte? Eine Beobachtungsstudie. Unfallchirurgie (Heidelb). 2023;126(7):552-558. mehr lesen
Manuskriptdaten
Zitierweise
Tjardes T, Massih M, Geissler D, Estel K. Künstliche Intelligenz in Orthopädie und Unfallchirurgie – Gegenwart und zukünftige Herausforderungen. WMM 2025;69(12):532-538.
DOI: https://doi.org/ 10.48701/opus4–790
Für die Verfasser
Flottenarzt Priv. Doz. Dr. med. Thorsten Tjardes
Klinik für Orthopädie, Unfallchirurgie und Septisch Rekonstruktion Chirurgie
Bundeswehrkrankenhaus Berlin
Scharnhorststrasse 13, 10115 Berlin
E-Mail: Thorsten1Tjardes@bundeswehr.org
Manuscript Data
Citation
Tjardes T, Massih M, Geissler D, Estel K. [Artificial Intelligence in Orthopaedics and Trauma Surgery – Current and Future Challenges]. WMM 2025;69(12):532-538.
DOI: https://doi.org/ 10.48701/opus4–790
For the Authors
Captain (Navy, MC) Ass. Prof. Dr. med. Thorsten Tjardes
Department for Orthopedics, Trauma Surgery and Septic Rekonstructive Surgery
Bundeswehr Hospital Berlin
Scharnhorststrasse 13, D-10115 Berlin
E-Mail: Thorsten1Tjardes@bundeswehr.org