Künstliche Intelligenz in Orthopädie und Unfallchirurgie – Gegenwart und zukünftige Herausforderungen
Artificial Intelligence in Orthopaedics and Trauma Surgery – Current and Future Challenges
Thorsten Tjardesa, Manije Massiha, Daniel Geisslera, Katharina Estela
a Klinik für Orthopädie, Unfallchirurgie und Septisch-Rekonstruktive Chirurgie, Bundeswehrkrankenhaus Berlin
Zusammenfassung
Künstliche Intelligenz (KI) bedeutet einen Paradigmenwechsel in der Orthopädie und Unfallchirurgie. Etablierte Anwendungen reichen von der Frakturerkennung, der robotischen OP-Unterstützung und prädiktiven Modellen bis hin zu Wearables und Natural Language Processing. KI kann Entscheidungsprozesse von der Triage bis zur Indikationsstellung unterstützen. Methodisch ist KI keine eigenständige Methode, sondern setzt auf viele verschiedene mathematische Verfahren.
Herausforderungen betreffen die Generalisierbarkeit, die Qualität und Verfügbarkeit der Trainingsdaten, die Robustheit, die Kalibrierung, die Out-of-Domain-Detektion, die Fail-safe-Fallbacks, die Human Factors, den Drift sowie regulatorische Fragen. Zwei Paradigmen werden unterschieden: procedure-focused AI standardisiert Mikroschritte, human-focused AI stärkt Urteilskraft und Teamarbeit.
Fazit: Hybride Systeme verbinden Präzision und Kontext, erfordern Interdisziplinarität in der Entwicklung und eine evidenzbasierte Evaluation.
Schlüsselwörter: Künstliche Intelligenz, Unfallchirurgie, Human Factor, Drift, Machine Learning, Awareness Guidance, Decision Support
Summary
Artificial Intelligence marks a significant shift in orthopedics and trauma surgery. Its current applications include fracture detection, robotic surgical support, predictive models, wearables, and natural language processing. AI can assist decision-making processes from triage to treatment decisions. Methodologically, AI is not a single technique, but rather it utilizes various mathematical approaches.
Challenges include generalizability, training data quality and availability, robustness, calibration, out-of-domain detection, fail-safe mechanisms, human factors, drift, and regulatory issues such as MDR. Two main paradigms exist: procedure-focused AI standardizes micro-steps, while human-focused AI improves judgment and teamwork. Ultimately, hybrid systems blend precision with contextual understanding, requiring interdisciplinary development and evidence-based assessment.
Keywords: artificial intelligence; trauma surgery; human factors; drift; machine learning; awareness guidance; decision support
Einleitung
Die Integration technischer Mittel der künstlichen Intelligenz (KI) in die klinische Medizin erfordert einen Paradigmenwechsel. Das Fachgebiet Unfallchirurgie und Orthopädie (O&U) ist gekennzeichnet durch Situationen mit hoher Entscheidungsdichte, die Umsetzung der Informationen komplexer Bildgebungsverfahren in chirurgisches Handeln und dynamische Behandlungspfade auf unterschiedlichsten Zeitskalen. Künstliche Intelligenz (KI) bietet Möglichkeiten, diagnostische und therapeutische Prozesse zu unterstützen [1]. Von der Frakturerkennung über das Reha-Management bis zur robotergestützten Operationsassistenz eröffnen KI-Technologien eine Vielzahl von technischen und technologischen Optionen.
In der militärischen Unfallchirurgie sind polytraumatisierte Patienten mit komplexen Verletzungsmustern und die Notwendigkeit schneller, ressourcenschonender Entscheidungen eine besondere und vor allem interdisziplinäre Herausforderung. KI kann dazu beitragen, im Sinne des Decision Support und der Awareness Guidance kritische Prozesse von der Triage bis zur Indikationsstellung zu begleiten.
Ziel dieses Beitrags ist es, die aktuellen und potenziellen KI-Anwendungen in O&U darzustellen und sie kritisch zu bewerten. Darüber hinaus werden die Konzepte und Rahmenbedingungen diskutiert, die zu beachten sind, um künftig das Potenzial von KI für O&U auszuschöpfen.
KI in O&U – Was bisher geschah
Frakturerkennung
Eine bereits etablierte Anwendung ist die automatisierte Frakturerkennung. Convolutional Neural Networks (CNNs), die konventionelle Röntgenbilder mit hoher Sensitivität analysieren, zeigen, dass diese Netzwerke in der Lage sind, menschliche Experten in Bezug auf die diagnostische Präzision zu unterstützen, indem sie systematisch konzeptuelle Daten wie erweiterte Patienteninformationen in die Beurteilung einfließen lassen. Darüber hinaus sind KI-basierte Systeme nicht für „menschliche“ Phänomene wie das „Satisfaction of Search-Phänomen“ anfällig und kompensieren allein damit ein menschliches Defizit.
In Notaufnahmen erleichtern KI-Systeme wie Zebra Medical Vision die Befundung von Röntgenbildern. Durch Automatisierung lassen sich kritische Befunde rascher erkennen und in der Folge besser beurteilen. Lindsey et al. berichten von signifikant höherer Accuracy bei der Erkennung von Frakturen [8].
OP-Planung und -Unterstützung
Auch die KI-gestützte Planung von robotergestützten Operationen (z. B. MAKO®, Smith&Nephew) ist bereits klinisch etabliert. Hierbei wird auf Basis von CT- oder MRT-Daten ein patientenspezifisches Modell erstellt, das die präzise Implantation von Hüft- oder Knieprothesen ermöglicht. Ob sich die nachweislich höhere Genauigkeit auch tatsächlich auf die klinischen Ergebnisse projiziert, ist allerdings noch unklar.
Prädiktive Machine-Learning (ML)-Modelle können trainiert werden, um Risiken wie Infektionen, Rehospitalisierungen oder eine verlängerte Verweildauer nach Endoprothesenoperationen frühzeitig zu erkennen. Diese Anwendungen ermöglichen eine individuellere Patientensteuerung und unterstützen die Risikostratifizierung, wie beispielsweise in der Studie von Dragosloveanu et al. dargestellt [5].
Wearables in der Rehabilitation
Im Bereich der Rehabilitation werden KI-gestützte Wearables wie ReHub® (DyCare, Bio-sensing Solutions SL, Barcelona, Spain [11]) oder DorsaVi® (dorsaVi LTD, UK [9]) eingesetzt, um Bewegungsmuster zu analysieren und die Fortschritte der Patienten objektiv zu bewerten. Algorithmen verarbeiten Sensordaten in Echtzeit und liefern personalisierte Rückmeldungen zur Optimierung der Übungen.
Individuell hergestellte Implantate
Besonders bei komplexen knöchernen Defekten oder bei Revisionsoperationen kommen zunehmend individuell hergestellte Implantate zum Einsatz. Diese werden mittels KI-gestützter CAD/CAM-Verfahren anhand bildgebender Daten entworfen. Unternehmen wie Materialise nutzen maschinelles Lernen, um die Designs zu optimieren und eine passgenaue Fertigung zu ermöglichen.
Auswertung unstrukturierter medizinischer Texte
Nicht zuletzt wird auch Natural Language Processing (NLP) eingesetzt, um unstrukturierte medizinische Texte automatisiert auszuwerten und eine Risikoprojektion für einzelne Krankheitsentitäten zu erstellen, wie Danna et al. exemplarisch für intraabdominelle Verletzungen zeigen konnten [4]. Diese Beispiele machen deutlich, dass KI nicht mehr nur ein theoretisches Konzept, sondern vielmehr ein konkretes Werkzeug in O&U ist.
Wie funktioniert KI und was kann sie denn eigentlich?
KI ist ein populäres Schlagwort für die Fähigkeit von Computern, Dinge zu tun, die die meisten Menschen in Erstaunen versetzen. Diese mediale Deutung von KI ist für die Entwicklung von Anwendungen in einem sicherheits- und qualitätsrelevanten Feld wie der Medizin jedoch nicht hilfreich und in vielen Fällen sogar fehlleitend.
Aus methodischer Perspektive bietet sich ein sehr buntes Bild (Tabelle 1), da sich unter dem Oberbegriff KI eine große Vielfalt an Methoden aus Mathematik und Informatik verbirgt, die naturgemäß keine Verbindung zur klinischen Medizin aufweisen.
Tab. 1:Die verschiedenen Methoden der KI bedienen sich sämtlicher Teilgebiete der Mathematik, um unterschiedlichste Aspekte menschlicher Intelligenz abzubilden. KI-Entwicklung kann deshalb nur in interdisziplinären Teams erfolgen, die als gemeinsame Schnittstelle über AI Literacy bzw. Med Literacy verfügen müssen, um klinisch sinnvolle AI-Anwendungen zu entwickeln.
Gemeinsam ist allen aufgezählten Methoden, dass sie einzelne Aspekte der menschlichen Intelligenz abbilden können. Bei genauerer Betrachtung können sie allerdings nur den prozeduralen Anteil der menschlichen Intelligenzleistung nachahmen. Dies bedeutet., dass sie große Datenmengen unter bestimmten Gesichtspunkten verarbeiten können. Je nach Aufgabenstellung und gewählter Methodik lassen sich so nahezu alle Leistungen des menschlichen Gehirns abbilden (Tabelle 2).
Für O&U lässt sich eine Vielzahl von Anwendungen identifizieren (Tabelle 2). Hinsichtlich der mit KI adressierbaren Themen und Probleme aus der klinischen Medizin bestehen offensichtlich keine Begrenzungen mehr. Auch die Ressource Rechenkapazität ist weder hinsichtlich ihrer Kosten noch hinsichtlich ihrer Verfügbarkeit ein begrenzender Faktor.
Tab. 2: Die Teilaspekte intelligenten menschlichen Handelns müssen bei der Entwicklung von KI-Anwendungen in abstrakte Aufgaben übersetzt werden, die anschließend mit geeigneten mathematischen Methoden umgesetzt werden können.
Die Anwendung neuer Methoden erfordert allerdings ein sehr genaues Verständnis der jeweiligen Grenzen und Fehlermöglichkeiten. In der klassischen klinischen Forschung kann dieses Problem leicht durch die Zuhilfenahme eines Statistikers, der für die valide Auswertung eines Datensatzes und damit auch eine sichere Aussage sorgt, ausgeräumt werden.
Der disruptive Charakter von KI resultiert aus der Tatsache, dass die zur Verfügung stehenden Methoden (Tabelle 2) eine Vielzahl verschiedener Datenquellen und Datentypen verarbeiten und sich auch miteinander kombinieren lassen. KI-Anwendungen sind deshalb auch nur unter bestimmten Voraussetzungen geeignet, Kausalitäten zu beweisen bzw. einem möglichen kausalen Zusammenhang möglichst nahe zu kommen. Allerdings kann KI dabei helfen, die vorhandene Evidenz für den Kliniker am Krankenbett – oder wo auch immer er auf seine Patienten trifft – zugänglich und anwendbar zu machen. KI kann das entscheidende Hemmnis bei der Anwendung von Leitlinien, klinischen Studien etc. überbrücken, indem sie die entscheidende Schwäche menschlicher Kognition – die Übertragung unterschiedlicher Wahrscheinlichkeiten (z. B. als Evidenzlevel in Leitlinien, als Ergebnisse klinischer Studien) auf eine konkrete klinische Situation – unterstützt.
Dennoch müssen sich alle KI-basierten klinischen Interventionen einer Überprüfung in klinischen Studien unterziehen. In Anlehnung an das SPIRIT 2013 Statement wurde von der SPIRIT-AI and CONSORT-AI Consensus Group eine Checkliste mit 33 Items erarbeitet, die bei klinischen Studien, die KI-basierte Interventionen testen, zu berichten sind [3]. Oliveira E Carmo et al. berichten, dass von 36 Convolutional Neural Networks, die zur Frakturerkennung trainiert wurden, nur 11 % einer externen Validierung unterzogen wurden [12]; die Empfehlungen der CONSORT-AI Consensus Group wurden hierbei nicht berücksichtigt.
Neue Methoden bieten neue Lösungsansätze für alte Probleme – und schaffen neue Herausforderungen
Viele klinische Fragestellungen in O&U erfordern die gleichzeitige Betrachtung verschiedener Zeitskalen. Der Frakturheilungsprozess dauert Monate, die Auswirkungen einer Teilbelastung einer Fraktur äußern sich in Tagen oder Wochen, und die zellulären Prozesse der Mechano-Induktion finden binnen Minuten statt. In klassischen klinischen Studien wird versucht, alle diese „Störfaktoren“ durch eine hinreichende Gruppengröße zu nivellieren. Die Methoden der KI ermöglichen es, viele dieser Faktoren zu berücksichtigen. Personalisierte Simulationen und die Echtzeiterhebung von Belastungsdaten bei der Rehabilitation scheinen hier eine vielversprechende Möglichkeit zu bieten, den Heilungsprozess einer Fraktur genauer zu verstehen und künftig besser zu steuern bzw. zu gestalten.
Generalisierbarkeits-Bias
Die Generalisierbarkeit vieler KI-Modelle ist aufgrund der begrenzten Qualität und Repräsentativität der Trainingsdaten eingeschränkt. Werden KIs mit Fragestellungen oder Aufgaben konfrontiert, die außerhalb ihres „Erfahrungsschatzes“ liegen, spricht man von einem Domain Shift.Natürlich – und das ist nur menschlich – ist der Präzisionsgrad der KI dann geringer. Je komplexer die Thematik, desto höher werden die Ansprüche an die Trainingsdaten bzw. desto schneller treten Domain-Shift-Situationen auf. Im unfallchirurgischen Kontext bedeutet dies z. B., dass Anzahl und Qualität der Trainingsdaten für eine KI, die eine schaft-mittige Femurfraktur erkennen soll, deutlich kleiner sind als für eine KI, die differenzierte Aussagen zu mehrfragmentären distalen Tibiafrakturen machen soll. Die Datenqualität und die Datenmenge sind also für KI-Anwendungen ebenso relevant wie für randomisierte klinische Studien.
Robustheit, Kalibrierung und Sicherheit
Selbst leistungsfähige Modelle können schlecht kalibriert sein und ihre eigene Sicherheit überschätzen. Ein typisches Beispiel für diesen Effekt ist die geringere Erkennungsquote kleiner Frakturen in der Fußwurzel, die Hinweise auf komplexere Verletzungsmuster geben können. Im militärischen Umfeld kollidieren zudem Rechen- und Energieanforderungen mit Low-SWaP-Vorgaben (Size, Weight, and Power) sowie Bandbreiten- und Umgebungsrestriktionen. Fail-safe-Designs mit konservativen Fallbacks, Out-of-Distribution-Detektion, regelmäßige Kalibrierungs-Checks und Edge-Inference-Fähigkeit ohne Cloud-Abhängigkeit sind wesentliche Merkmale robuster KI-Anwendungen.
Human Factors
Human Factors kommen vor allem bei KI-Anwendungen zum Tragen, die mit Menschen interagieren. Dies ist vor allem bei Decision-Support- und Awareness-Guidance-Systemen der Fall. Hier sind Phänomene wie der Automation Bias (das unreflektierte Befolgen von KI-Vorschlägen) und Complacency (zu spätes Eingreifen in einen KI-gestützten Prozess) zu berücksichtigen. Deshalb ist ein Verständnis der Kommunikationsstrukturen der User für die Entwicklung eines wirksamen KI-unterstützten Decision Support und Awareness Guidance Systems unabdingbar. Derartige KI-Systeme können dann über den inhaltlich/fachlichen Input auch auf die Kommunikationsstruktur unter den Usern, positiv oder negativ, Einfluss nehmen.
So konnte bei einer systematischen Befragung von im Schockraum tätigen Ärzten im Rahmen der Konzeption eines Awareness Guidance/Decision Support Systems für die Erstversorgung polytraumatisierter Patienten gezeigt werden, dass das Nachfrageverhalten und die Unvollständigkeit der Kommunikation zwischen den agierenden Ärzten als Ausdruck eines „cognitive overload“ zu verstehen sind [14]. Assistenzsysteme, die einen Cognitive Overload verhindern, können dementsprechend die Entscheidungs- und Kommunikationsfähigkeit erhalten.
Fairness, Bias und Drift Phänomene
Model-Drift ist ein Phänomen, bei dem die Vorhersageleistung eines Machine-Learning-Modells im Laufe der Zeit von derjenigen abweicht, die während der Trainingsphase erzielt wurde. Das Monitoring von Modell-Drift ist daher ein zentraler Bestandteil der ML-Observability, da es ermöglicht, Leistungsprobleme frühzeitig zu erkennen und Ursachen im laufenden Betrieb gezielt zu diagnostizieren. Ursächlich für Modell-Drift kann der sogenannte Daten-Drift sein, bei dem sich die statistischen Eigenschaften der Eingangsvariablen im Vergleich zur Trainingsphase ändern. Dies tritt oft auf, wenn ein großer zeitlicher Abstand zwischen der Datenerhebung und der späteren Anwendung des Modells besteht. Daneben kann ein Konzept-Drift auftreten. Hierbei verändert sich die Beziehung zwischen Eingangs- und Zielvariablen, das heißt, die zugrunde liegenden Zusammenhänge im realen System verschieben sich. Schließlich kann es auch zu Upstream-Datenänderungen kommen, wenn sich Datenquellen, Vorverarbeitungsschritte oder externe Einflussgrößen verändern und dadurch die Eingangsgrößen des Modells anders auf das Ziel wirken als ursprünglich.
Deshalb stellen die Überwachung und Analyse solcher Drift-Effekte eine wesentliche Voraussetzung für den stabilen und verlässlichen Einsatz von KI-Systemen im realen Betrieb dar.
Regulatorische und haftungsrechtliche Unsicherheiten
In Europa fallen KI-Funktionen, die Bestandteil eines Medizinprodukts sind oder dessen Zweckbestimmung beeinflussen, unter die Verordnung (EU) 2017/745 über Medizinprodukte (Medical Device Regulation, MDR) [6]. Für „lernende“ Systeme sind Änderungs- und Update-Kontrolle, Post-Market-Surveillance und klinische Leistungsbewertung zentral. Leitlinien wie SPIRIT-AI/CONSORT-AI oder Bewertungsrahmen wie DECIDE-AI unterstützen Planung und Berichterstattung, ersetzen jedoch keine regulatorischen Nachweise. Sind die Zuständigkeiten bei Mensch-Maschine-Kollaboration unscharf, bleiben Haftungsfragen unklar – im militärischen Kontext zusätzlich überlagert durch einsatzrechtliche Rahmenbedingungen.
Hinter diesen Fragestellungen verbirgt sich die insbesondere bei der Entwicklung interaktiver Awareness-Guidance/Decision-Support-Systeme wichtige Frage, ob „harte“ oder „weiche“ KI-basierte Interventionen zur Anwendung kommen. Am Beispiel der Schockraumversorgung stellt die Entscheidung zum sofortigen Abbruch der Maßnahmen, zur Verbringung des Patienten in den OP zur Laparotomie eine gerade für unerfahrene Kollegen äußerst schwere Entscheidung dar. Eine harte KI-Entscheidung lässt sich unter den gegebenen Rahmenbedingungen kaum umsetzen, und die Akzeptanz bei Teilen der potenziellen Nutzer darf sicherlich bezweifelt werden. Versteht man die KI als Hinweisgeber – Awareness Guidance –, die Informationen kontextualisiert und auf Zusammenhänge und Konstellationen hinweist, die der agierenden Person mangels Erfahrung, aufgrund von Stress o. Ä. selbstständig nicht auffallen, dann verbleibt die Entscheidungshoheit in jedem Fall beim handelnden Arzt.
Wohin geht die Reise?
Procedure-focused AI vs. Human-focused AI
KI in O&U lässt sich sinnvoll anhand zweier komplementärer Paradigmen denken: Procedure-focused AI (PFA) und Human-focused AI (HFA).
Procedure-focused AI – KI als technisches Tool
PFA konzentriert sich auf klar definierte Mikroschritte innerhalb eines Versorgungsprozesses, z. B. Frakturscreening in der Bildgebung, CT-Priorisierung, OP-Navigation oder Implantatdesign. Ziel ist es, die Performance zu verbessern, die Standardisierung zu erhöhen, den Durchsatz zu steigern und Fehler zu reduzieren. Für eine erfolgreiche Implementierung sind vor allem auf der technischen Ebene präzise formulierte Input-/Output-Spezifikationen erforderlich, die eng mit den Usability-Anforderungen der Nutzer abgestimmt sein müssen. Insbesondere unter Einsatzbedingungen sind robuste Edge-Inference-Fähigkeiten (also auch ohne Anbindung an eine Cloud (lokal) funktionsfähige KI-Applikationen) für einen sicheren Einsatz erforderlich.
Menschen verfügen über die Fähigkeit der Selbstreflexion – idealerweise. Diese Fähigkeit, sei es als bewusster (Selbst-)Reflexionsprozess oder als „Bauchgefühl“, kann dazu dienen, zu bemerken, wenn sich das Individuum in einer Situation befindet, in der es mangels Wissens oder Erfahrung nicht mehr sicher handlungsfähig ist. In KI-basierten Systemen müssen derartige Sicherheitsvorkehrungen aktiv umgesetzt werden. Diese Methoden werden als Out-of-Distribution-Erkennung zusammengefasst. Out-of-Distribution-Erkennung verhindert, dass Modelle unter unbekannten oder veränderten Bedingungen falsche Entscheidungen treffen – ein zentrales Element für vertrauenswürdige und robuste KI. Hierbei kommen sehr unterschiedliche methodische Ansätze zur Anwendung (Tabelle 3). Genauso wie bei der klassischen Statistik handelt es sich hier um rein technisch-mathematische „Zahlenmanipulationen“, die keinerlei Verbindung zur inhaltlichen Aussage herstellen.
Tab. 3: OOD-Detection dient dazu, Eingaben zu erkennen, die außerhalb des Trainingsraums eines KI-Modells liegen. Sie verhindert, dass das System in solchen Fällen falsche Entscheidungen trifft, indem es stattdessen warnt, die Eingabe ablehnt oder die Kontrolle an einen Menschen oder ein Fail-Safe-System überträgt.
Neben der Absicherung der inhaltlichen Performance von KI-basierten Systemen ist auch die technische Performance zu gewährleisten. Fail-safe-Fallbacks bezeichnen in diesem Zusammenhang vordefinierte, sichere Rückfallmechanismen (Tabelle 4), die automatisch aktiviert werden, wenn ein System einen Fehler, einen Ausfall oder einen Unsicherheitszustand erkennt. Fail-safe-Fallbacks stellen sicher, dass ein System im Fehlerfall kontrolliert, vorhersagbar und gefahrlos reagiert, statt unkontrolliert zu versagen.
Tab. 4: Mit diesen Sicherheitsmechanismen, wird dafür gesorgt, dass ein technisches System bei einem Fehler, Ausfall oder einer Unsicherheit automatisch in einen sicheren Betriebszustand übergeht. Statt unkontrolliert weiterzufunktionieren, wird das System so gestaltet, dass es keinen Schaden verursacht – etwa durch Abschalten, Umschalten auf einen reduzierten Notbetrieb oder die Übergabe an eine menschliche Kontrollinstanz.
Human-focused AI – KI als Hirn- und Kognitionsprothese
Human-focused AI (HFA) adressiert die Interaktion mit dem menschlichen Entscheider. Entscheidungen im Trauma-Setting sind selten eindimensional; sie verlangen das Abgleichen unvollständiger Evidenz, das Abwägen von Risiken, Ressourcen und Zeitfenstern (z. B. Damage-Control-Surgery, Evakuierungslogistik), sowie die Koordination multipler Berufsgruppen. Eine KI, die hier wirklich unterstützt, muss mehr können als „große Datenmengen aufarbeiten“. Sie muss Unsicherheit kalibriert kommunizieren, Alternativen mit ihren Konsequenzen transparent machen, Annahmen offenlegen und dem Team bzw. dem Entscheider erklärbare, revidierbare Vorschläge anbieten – stets mit klarer Möglichkeit zur menschlichen Übersteuerung – Awareness-Guidance anstatt Decision-Making.
Die technische Voraussetzung für die Unterstützung komplexer, zeitkritischer und interaktiver Prozesse, wie zum Beispiel die Behandlung eines polytraumatisiertenPatienten im Schockraum, ist die Möglichkeit echtzeitnaher Kommunikation der ärztlichen Protagonisten mit der KI.
Sogenannte Foundation-Modelle, zu denen auch Large Language Models (LLM) gehören, ermöglichen die Umsetzung von Anwendungsfällen, die zum Zeitpunkt der Entwicklung noch nicht absehbar waren. Dabei erreichen sie eine höhere Leistungsqualität und benötigen weniger Trainingsdaten [13]. Die Fähigkeit von LLMs aus umfangreichen Text- und Multimodaldaten komplexe Zusammenhänge zu erfassen und abzubilden, ermöglicht es, sie in komplexen Realsituationen einzusetzen. Das Adressieren humaner Performance-Faktoren eröffnet eine große Chance auch für die evidenz- und leitlinienbasierte Medizin, da nun auch die ausführende Seite, die ärztlichen Protagonisten, erreichbar und „steuerbar“ sind. Deshalb sind zusätzliche kognitive und teambezogene Endpunkte (z. B. NASA-TLX [7]), Entscheidungszeit mit/ohne KI, Leitlinienadhärenz, Team-Koordination), Fairness-Analysen (Equity-Gaps, Subgruppen-Performance, Drift-Monitoring) und vor allem patientenzentrierte Impact-Endpunkte (Komplikationen, Revisionsrate, Mortalität, funktionelle Scores) erforderlich, um komplexe HFA-Systeme erfolgreich zu entwickeln und zu steuern. Dann können HFA-Systeme ihr tatsächliches Potenzial entfalten, indem sie Urteilskraft stärken statt sie zu ersetzen, Teamkoordination unterstützen und Unsicherheit durch Awareness Guidance und die Reduktion der Mental Load reduzieren.
Fazit
KI in O&U ist mehr als Apps auf dem Handy und kann mehr als im Chatbot-Modus Patientenfragen beantworten. Um das Potenzial von KI auszuschöpfen, müssen vor allem Ärzte bereit sein, eine neue Sprache zu lernen. Zum einen, um mit den Protagonisten aus Informatik und Mathematik sinnvoll kommunizieren zu können, zum anderen, um überhaupt Fragen zu stellen, die sich mit den neuen Methoden beantworten lassen. Andernfalls werden PFA-Anwendungen als „zertifizierte Inseln“ ohne Integration in den klinischen Workflow enden und adversarial verwundbar sein (eine adversarial Attack ist ein speziell manipuliertes Eingangs-Signal in ein künstliches neuronales Netzwerk, das es absichtlich zu Fehlklassifikationen verleitet). Die Manipulation wird so vorgenommen, dass ein menschlicher Beobachter diese nicht bemerkt oder nicht als solche erkennt oder einfach nur unbemerkt fehlkalibriert agiert.
In gleicher Weise werden HFA-Anwendungen in Phänomenen wie dem „Explainability Theater“ (der nur scheinbaren oder oberflächlichen Erklärbarkeit von KI-Systemen), in dem Automation Bias und in der Alarmüdigkeit verharren, wenn Erklärungen oberflächlich bleiben, Alarme schlecht gestaltet sind oder Verantwortlichkeiten und Konsequenzen unklar bleiben.
Ein hybrides Design vermag Stärken zu bündeln: PFA standardisiert Mikroschritte, HFA orchestriert Entscheidungen. Unbestritten ist: KI skaliert mit Daten. Je größer und vielfältiger die Datengrundlage ist, desto besser lässt sich Varianz erfassen und Generalisierbarkeit erzielen. In der Medizin schafft diese Logik einen Zwang zur Interdisziplinarität: Für robuste Modelle braucht es nicht nur Radiologie-DICOMs, sondern auch OP-Protokolle, Labore, Vitaldaten, Reha-Verläufe, klinische Scores, Kontextinformationen (Ressourcen, Zeitdruck) oder sogar interprofessionelle Konversationsinhalte.
Diese Interdisziplinarität ist nicht nur methodisch geboten, sondern klinische Realität: Gerade bei komplexen Verletzungsmustern (Polytrauma, Kombinationsverletzungen, großflächige Weichteilschäden, Explosions- und Penetrationstraumata) ist die Trennung der Fachgebiete faktisch nicht möglich. Diagnostik, Priorisierung, Operieren, Intensiv- und Rehabilitationsmedizin greifen ineinander; Entscheidungen sind zeitkritisch und ressourcenabhängig. PFA kann hier Mikroschritte zuverlässig standardisieren, doch das entscheidende klinische „Warum, Wann und Womit“ entsteht im Team – das ist genau die Ebene, auf der HFA Orientierung, Validierung und Kontextualisierung leisten kann [10].
Erst im hybriden Zusammenspiel beider Paradigmen – PFA für Präzision im Detail, HFA für Urteilskraft im Ganzen – wird aus algorithmischer Leistungsfähigkeit belastbarer, patientenzentrierter Nutzen. Die tatsächliche Auswirkung von KI auf die klinische Forschung ist zum jetzigen Zeitpunkt gerade in einem Fachgebiet, in dem klassische Studienformate wie randomisierte klinische Studien nur eingeschränkt umsetzbar sind, kaum absehbar.
Kernaussagen
- KI kann die ärztliche Entscheidung nicht ersetzen, sie kann durch Awareness Guidance Entscheidungsfähigkeit und Entscheidungssicherheit herstellen bzw. sicherstellen.
- KI ist kein Prinzip an sich. KI kann als Human Centered KI, Procedure Centered KI entwickelt werden.Um das Potenzial von KI auszuschöpfen, müssen vor allem Ärzte bereit sein, eine neue Sprache zu lernen.
- Human-Focused AI-Anwendungen entfalten ihr tatsächliches Potenzial, indem sie Urteilskraft stärken anstatt sie zu ersetzen, Teamkoordination unterstützen und Unsicherheit durch Awareness Guidance und Reduktion der Mental Load reduzieren.
Literatur
- Badgeley MA, Zech JR, Oakden-Rayner L, et al. Deep learning predicts hip fracture using confounding patient and healthcare variables. NPJ Digit Med. 2019 Apr 30;2:31. mehr lesen
- Chan AW, Tetzlaff JM, Altman DG, et al. SPIRIT 2013 statement: defining standard protocol items for clinical trials. Ann Intern Med. 2013 Feb5;158(3):200-207. mehr lesen
- Cruz Rivera S, Liu X, Chan AW, Denniston AK, Calvert MJ; SPIRIT-AI and CONSORT-AI Working Group; SPIRIT-AI and CONSORT-AI Steering Group; SPIRIT-AI and CONSORT-AI Consensus Group. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. Nat Med. 2020 Sep;26(9):1351-1363. mehr lesen
- Danna G, Garg R, Buchheit J, et al. Prediction of intra-abdominal injury using natural language processing of electronic medical record data. Surgery. 2024 Sep;176(3):577-585. mehr lesen
- Dragosloveanu S, Vulpe DE, Andrei CA, et al. Predicting periprosthetic joint Infection: Evaluating supervised machine learning models for clinical application. J Orthop Translat. 2025 Jul 17;54:51-64. mehr lesen
- EU-Verordnung 2017/745 über Medizinprodukte (MDR), ABl. L 117, 5.5.2017, S. 1–175 [Internet]. [Letzter Aufruf 4.November 2025]; Verfügbar unter: https://eur-lex.europa.eu/eli/reg/2017/745/oj?locale=de mehr lesen
- Hart SG, Staveland LE. Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research. Advances in Psychology1988;52:139-183. mehr lesen
- Lindsey R, Daluiski A, Chopra S, et al. Deep neural network improves fracture detection by clinicians. Proc Natl Acad Sci U S A. 2018 Nov 6;115(45):11591-11596. mehr lesen
- Ling DI, Janosky J, Schneider B, et al. A Controlled Trial of the Effects of Neuromuscular Training on Physical Performance in Male and Female High School Athletes. Sports Health. 2023 May;15(3):386-396. mehr lesen
- Meyer M, Giesselbach S, Antweiler D, et al. Wie Agenten und Foundation-Modelle bei der Versorgung Schwerverletzter helfen - Künstliche Intelligenz im Schockraum (Whitepaper) [Intenet].[Letzter Aufruf 4. November 2025]; Verfügbar unter: http: www.iais.fraunhofer.de/traumAInterfaces mehr lesen
- Nuevo M, Rodríguez-Rodríguez D, Jauregui R, Fabrellas N, Zabalegui A, Conti M, Prat-Fabregat S. Telerehabilitation following fast-track total knee arthroplasty is effective and safe: a randomized controlled trial with the ReHub® platform. Disabil Rehabil. 2024 Jun;46(12):2629-2639. mehr lesen
- Oliveira E Carmo L, van den Merkhof A, Olczak J, Gordon M, Jutte PC, Jaarsma RL, IJpma FFA, Doornberg JN, Prijs J, Machine Learning Consortium. An increasing number of convolutional neural networks for fracture recognition and classification in orthopaedics : are these externally validated and ready for clinical application? Bone Jt Open. 2021 Oct;2(10):879-885. mehr lesen
- Paaß G, Giesselbach S. Foundation Models for Natural Language Processing: Pre-trained Language Models Integrating Media.Heidelberg Springer Nature 2023. mehr lesen
- Tjardes T, Meyer LM, Lotz A, et al. Anwendung von Systemen der künstlichen Intelligenz im Schockraum: Geben die Kommunikationsmuster Hinweise auf mögliche Ansatzpunkte? Eine Beobachtungsstudie. Unfallchirurgie (Heidelb). 2023;126(7):552-558. mehr lesen
Manuskriptdaten
Zitierweise
Tjardes T, Massih M, Geissler D, Estel K. Künstliche Intelligenz in Orthopädie und Unfallchirurgie – Gegenwart und zukünftige Herausforderungen. WMM 2025;69(12):532-538.
DOI: https://doi.org/ 10.48701/opus4–790
Für die Verfasser
Flottenarzt Priv. Doz. Dr. med. Thorsten Tjardes
Klinik für Orthopädie, Unfallchirurgie und Septisch Rekonstruktion Chirurgie
Bundeswehrkrankenhaus Berlin
Scharnhorststrasse 13, 10115 Berlin
E-Mail: Thorsten1Tjardes@bundeswehr.org
Manuscript Data
Citation
Tjardes T, Massih M, Geissler D, Estel K. [Artificial Intelligence in Orthopaedics and Trauma Surgery – Current and Future Challenges]. WMM 2025;69(12):532-538.
DOI: https://doi.org/ 10.48701/opus4–790
For the Authors
Captain (Navy, MC) Ass. Prof. Dr. med. Thorsten Tjardes
Department for Orthopedics, Trauma Surgery and Septic Rekonstructive Surgery
Bundeswehr Hospital Berlin
Scharnhorststrasse 13, D-10115 Berlin
E-Mail: Thorsten1Tjardes@bundeswehr.org