Andree Heseler

Challenger vs. Champion: Wie KI-Modelle klassische Verfahren herausfordern

1 Einleitung

1.1 Hintergrund und Motivation

Mit der zunehmenden Digitalisierung des Bank­geschäfts wächst auch die Relevanz datengetriebener Modelle zur Beurteilung von Kreditrisiken. Kreditscoring-Modelle bilden dabei das Rückgrat zahlreicher Entscheidungs­prozesse – von der Kredit­vergabe über die Risikovorsorge bis hin zum regulatorischen Reporting. Klassische Verfahren wie die logistische Regression sind dabei weit verbreitet, stoßen jedoch angesichts wachsender Datenmengen und komplexer Kundenprofile an ihre Grenzen. 

Parallel dazu gewinnt der Einsatz künstlicher Intelligenz (KI) in der Finanzindustrie an Fahrt. Insbesondere moderne Verfahren wie XGBoost1 oder neuronale Netze versprechen eine höhere Prognosekraft durch die Abbildung nicht linearer Zusammenhänge und komplexer Inter­aktionen zwischen Risikofaktoren. Gleich­wohl werfen diese Verfahren neue Fragen auf – etwa in Bezug auf Validierbarkeit, Interpretierbarkeit und regulatorische Akzeptanz. 

Die Europäische Banken­aufsichts­behörde (EBA) hat in ihrem Diskussionspapier zum Einsatz von Machine Learning in IRB-­Modellen betont, dass KI-basierte Modelle denselben strengen Anforderungen an Governance, Transparenz und Validierung unterliegen wie traditionelle Verfahren.2 In ihrem Follow-up-Bericht vom August 2023 diskutiert die EBA zudem die Interaktion zwischen bestehenden Banken­regulierungen und dem vorgeschlagenen AI Act.3 Sie weist darauf hin, dass die aktuellen Regularien bereits viele der im AI Act vorgesehenen Anforderungen abdecken, empfiehlt jedoch Klarstellungen, um recht­liche Unsicherheiten zu reduzieren und unbeab­sichtigte Konsequenzen des AI Act zu vermeiden.4 Für Banken ergibt sich somit die Herausforderung, moderne KI-Methoden nahtlos und regelkonform in ihre bestehenden Modelllandschaften zu integrieren.

1.2 Ziel des Artikels

Ziel dieses Beitrags ist es, ein Framework für die strukturierte Validierung am Beispiel von KI‑basierten Scoring-Modellen vorzustellen. Im Mittelpunkt steht die Frage, wie sich klassische Validierungs­logiken – im Sinne etablierter „Champion-Modelle“ – auf moderne Verfahren übertragen lassen. Zugleich wird untersucht, inwiefern ein modularer, automatisierter und erklärbarer Validierungs­prozess auch unter Ein­bindung sogenannter „Challenger-Modelle“ auf Basis von XGBoost oder vergleichbaren Algorithmen tragfähig und entscheidungs­relevant bleibt. 

Dazu wird eine Fallstudie durchgeführt, welche die Güte und Stabilität eines logistischen Regressions­modells mit einem XGBoost-Modell vergleicht – unter besonderer Berück­sichtigung von Trennschärfe, Kalibrierung, SHAP-Erklärbarkeit und Verlust­verteilungen.5 Die verwendeten Methoden orientieren sich dabei eng an aktuellen wissenschaftlichen Erkenntnissen und Diskussionen.6  

Es wird explizit nicht das Ziel verfolgt, eine vollständige aufsichts­rechtliche Validierung durchzuführen. Stattdessen soll aufgezeigt werden, welche metho­dischen und technischen Bausteine erforderlich sind, um KI‑Modelle auf ein bank­aufsichtlich tragfähiges Validierungs­niveau zu heben. Der Artikel richtet sich damit an Modell­verantwort­liche, Risikomanager und Validierer, die in ihren Instituten die Integration moderner Modellansätze vorantreiben möchten. 

2 Methodik

Die vorliegende Analyse stützt sich auf eine empirisch orientierte Fallstudie zur Bewertung und Validierung von Scoring‑Modellen im Kreditrisikokontext. Ziel ist es, die Leistungsfähigkeit klassischer und moderner Modell­ansätze anhand standardisierter Validierungs­schritte transparent gegenüberzustellen. 

Im Zentrum der Betrachtung stehen zwei Modelle: 

  • Modell A:
    Eine logistische Regression (Logit‑Modell), Vertreter der klassischen, weit etablierten Scoring‑Methoden,
  • Modell B:
    Ein XGBoost‑Modell (eXtreme Gradient Boosting), Vertreter moderner KI-Algorithmen mit nicht linearer Struktur.

Die Modelle werden auf Basis desselben Datensatzes kalibriert und evaluiert. Als Datenbasis dient der öffentlich verfügbare HMEQ‑Datensatz, der typische Kunden­merkmale aus dem Retail‑Kreditgeschäft enthält und eine Ausfallrate von ca. 20 % aufweist. Dieser Datensatz ist aus der einschlägigen Literatur bekannt und wird u. a. in Baesens (2017) als Benchmark herangezogen. 

Die Evaluation erfolgt in mehreren Schritten, welche sich an etablierten Validierungs­standards im Risikomanagement orientieren: 

Trennschärfeanalyse: 
Anhand der Kennzahlen AUC (Area under Curve)7 und Gini‑Koeffizient 8  wird die Fähigkeit der Modelle untersucht, zahlungsfähige und nicht zahlungsfähige Kreditnehmer voneinander zu unterscheiden.  

Kalibrierungsanalyse: 
Der Brier‑Score9 dient zur Bewertung der Überein­stimmung zwischen vorhergesagten Ausfall­wahrscheinlich­keiten und tatsächlichen Ergebnissen. 

Kreuzvalidierung: 
Zur Vermeidung von Overfittings und zur realistischen Beurteilung der Modellgüte erfolgt eine fünffache k‑Fold Cross‑Validation. Diese erlaubt eine robuste Schätzung der Out-of-Sample-Leistungsfähigkeit beider Modelle. 

Vergleichsanalyse: 
Zur quantitativen Gegenüberstellung beider Modelle wird die Summe der Fehler­quadrate analysiert, differenziert nach Default- und Non-Default-Population. Dabei werden die Summanden des Brier‑Scores in geeignete Teilmengen unterteilt, sodass sich eine Kontributionsanalyse der Fehler ergibt. 

Verlustverteilungsanalyse: 
Durch Rückprojektion der Score‑Werte auf empirische Verluste (Loss-Funktion) wird der Einfluss der Modell­wahl auf die Profit‑and‑Loss‑Verteilung simuliert. 

Erklärbarkeitsanalyse (Explainable AI): 
Die Anwendung des SHAP‑Verfahrens erlaubt eine modellunabhängige Analyse der Merkmalseinflüsse auf individueller Ebene und erhöht die Transparenz der Modell­entscheidungen – ein Aspekt, der insbesondere mit Blick auf die regulatorischen Anforderungen an erklärbare KI von zentraler Bedeutung ist. 

Die genannten Methoden wurden in einer vollständig automatisierten Analyse­umgebung implementiert, die eine skalierbare Validierung unterschiedlicher Modelle und Modell­varianten erlaubt. Dieses Framework stellt somit prototypische Bausteine für ein zukunftsfähiges Multi‑Model‑Management im Risikobereich dar. 

3 Implementierung des Validierungs­prozesses

3.1 Erweiterter Validierungs­prozess

Die Validierung von Risikomodellen gehört zu den zentralen Aufgaben des Risiko­managements in Banken. Während klassische Validierungs­verfahren – insbesondere bei linearen Modellen wie der logistischen Regression – weitgehend standardisiert und etabliert sind, stellt die zunehmende Integration komplexerer Modelle, etwa auf Basis von KI, neue Anforderungen an Aufbau, Ablauf und Tiefe des Validierungs­prozesses

Vor diesem Hintergrund schlagen wir einen erweiterten Validierungs­prozess vor, der sich an den klassischen Prüfstrukturen orientiert, diese jedoch um wesentliche Komponenten ergänzt. Der Prozess umfasst drei zentrale Erweiterungen: 

Einbindung von Challenger-Modellen mit KI‑Methodik: 
Zur Prüfung der Leistungs­fähigkeit bestehender Produktiv­modelle werden alternative Modell­ansätze auf Basis moderner Machine-Learning-Methoden, etwa XGBoost, herangezogen. Ziel ist es, durch systema­tischen Vergleich Hinweise auf potenzielle Verbesserungen der Trennschärfe, Kalibrierung oder Robustheit zu erhalten. Darüber hinaus bietet der Einsatz nicht linearer Modelle die Möglichkeit, versteckte Interaktionen zwischen Risiko­faktoren zu identifizieren. 

Multi‑Model‑Management: 
In komplexeren Modell­landschaften ist es nicht mehr ausreichend, einzelne Modelle isoliert zu bewerten. Stattdessen bedarf es eines strukturierten Frameworks zur simultanen Bewertung mehrerer Modelle, Modell­varianten und Datenschnitte. Dieses Framework erlaubt: 

  • die Orchestrierung verschiedener Modell­läufe,
  • die Aggregation und Speicherung zentraler Kennzahlen (z. B. AUC/Gini, Brier-Score) in mehr­dimensionalen Daten­strukturen (z. B. Data Cubes)
  • und die Durchführung standardisierter Vergleichs- und Signifikanztests zur objektiven Entscheidungs­unterstützung.

Automatisierung und Modularisierung der Analyse­prozesse: 
Die zunehmende Komplexität der Modell­landschaft und die steigenden regulatorischen Anforderungen verlangen nach einem hohen Maß an Prozess­automatisierung. Ziel ist es, Validierungs­schritte nicht nur reproduzierbar, sondern auch skalierbar und transparent zu gestalten. Die modulare Architektur der Analyse­komponenten – insbesondere im Bereich der Kreuzvalidierung, Modellvergleiche und Erklär­barkeits­analysen – erlaubt die einfache Erweiterung auf zusätzliche Modelle oder Datenquellen. 

Die Kombination dieser drei Erweiterungen bildet das Fundament eines modernen, vali­dierungsfähigen Risikomodell‑Frameworks im Zeitalter der datengetriebenen Entscheidungs­findung. Durch die Anwendung dieses Frameworks im Rahmen der nachfolgenden Fallstudie wird exemplarisch gezeigt, wie sich das vorgeschlagene Validierungs­konzept in der praktischen Modellbewertung einsetzen lässt – mit Fokus auf Erklärbarkeit, Modellvergleich und quantitativer Aussagekraft. 

3.2 Aufteilung in Trainings- und Testdaten (Kreuzvalidierung)

Ein zentrales Element jeder belastbaren Modell­validierung ist die konsequente Trennung von Trainings- und Testdaten. Nur durch eine klare Abgrenzung zwischen Modell­kalibrierung und Evaluation lassen sich Aussagen zur  generalisierten Leistungs­fähigkeit eines Modells treffen. Dies gilt in besonderem Maße für moderne KI‑Modelle, deren Flexibilität gleichzeitig eine erhöhte Gefahr des Overfittings mit sich bringt. 

In der Praxis hat sich für solche Validierungs­vorhaben die  k-Fold‑Kreuzvalidierung  als Standard­verfahren etabliert. Dabei wird der vollständige Datensatz in  k  gleich große Teilmengen (sog. Folds) unterteilt. In jedem der  k‑Validierungsläufe werden k‑1‑Folds zum Modelltraining verwendet, während der verbleibende Fold für die Modellprüfung (Out-of-Sample-Evaluation) dient. Durch zyklisches Rotieren der Test-Folds wird sichergestellt, dass jede Beobachtung genau einmal im Testset enthalten ist.

Abbildung 1: k-Fold-Kreuzvalidierung (k = 5)

In der vorliegenden Studie verwenden wir eine fünffache Kreuzvalidierung 
(k = 5). Diese Konfiguration stellt einen pragmatischen Kompromiss zwischen Rechenaufwand und Varianzreduktion dar – insbesondere bei Datensätzen mittlerer Größe, wie im Fall des HMEQ‑Datensatzes gegeben.

Die Vorteile dieses Vorgehens sind Folgende: 

Unabhängige Bewertung der Modellleistung: 
Jeder Testlauf basiert auf Daten, die im Training nicht verwendet wurden – ein fundamentales Prinzip für die Schätzung der realen Vorhersagegüte. 

Reduktion stichproben­bedingter Verzerrungen: 
Durch die Rotation der Testdaten über alle Folds wird die Modell­bewertung weniger anfällig für zufällige Daten­konstellationen. 

Stabilitätsanalyse: 
Die wiederholte Kalibrierung erlaubt Rückschlüsse auf die Robustheit der Modell­parameter und -metriken, ein Aspekt von besonderer Relevanz im regulato­rischen Kontext. 

Die im Rahmen der Kreuz­validierung generierten Scoring‑Werte und Modell­metriken werden anschließend in das Multi‑Model‑Management-Framework überführt und dort zentral ausgewertet. Damit bildet die Kreuz­validierung nicht nur ein methodisches Fundament, sondern auch ein operatives Bindeglied zur nachfolgenden Vergleichs- und Erklärbarkeitsanalyse. 

3.3 Multi‑Model‑Management

In modernen Modell‑Architekturen gewinnt die gleichzeitige Bewertung mehrerer Modelle zunehmend an Bedeutung. Gründe hierfür sind unter anderem regulatorische Anforderungen an die regelmäßige Modell­überprüfung und die Einschätzung des Modellrisikos, techno­logische Fortschritte im Bereich Machine Learning, aber auch die strategische Zielsetzung, stets die leistungs­fähigsten Modelle im Einsatz zu haben. Den Ansatz, mehrere Modell­alternativen gleichzeitig zu entwickeln, zu validieren und vergleichend gegen­überzustellen, bezeichnen wir als Multi‑Model‑Management.  

Das hier vorgestellte Multi‑Model‑Framework erweitert klassische Validierungs­logiken um einen struktu­rierten, systematischen Vergleich unterschiedlicher Modell­varianten entlang definierter Bewertungs­kriterien. Es adressiert insbesondere folgende Herausforderungen: 

Orchestrierung heterogener Modelllandschaften: 
In einer produktiven Umgebung existieren typischer­weise mehrere Modell­varianten mit unterschiedlichen Methoden (z. B. Logit, XGBoost, neuronale Netze), Parametrisierungen oder Trainings­daten­schnitten. Diese Vielfalt erfordert eine koordinierte Durchführung und Zusammen­führung der Validierungs­läufe. 

Standardisierte Metrikerhebung und Persistenz: 
Für jede Modellinstanz werden zentrale Modellgüte­kennzahlen – insbesondere AUC/Gini-Koeffizient und Brier-Score – erhoben, standardisiert und in mehr­dimensionalen Analyse-Cubes gespeichert. Diese Datenstruktur erlaubt schnelle, konsistente Auswertungen und ermöglicht auch retrospektive Analysen über verschiedene Zeitpunkte oder Modell­generationen hinweg.

Vergleichbarkeit und Entscheidungsunterstützung: 
Basierend auf den validierten Metriken wird eine Modell­rangfolge ermittelt. Hierzu kommen unter anderem Rangordnungs­verfahren (Ranking der Modelle je Kreuzvalidierungslauf) sowie statistische Signifikanztests oder auch Bayes’sche Statistiktests (z. B. Friedman‑Test, Rom-Prozedur, ROPE-Ansatz) zum Einsatz.10  Diese erlauben eine fundierte, objektivierbare Entscheidung über die relative Leistungsfähigkeit der Modelle. 

Modularität und Erweiterbarkeit: 
Das objektorientierte Framework ist so konzipiert, dass neue Modelle, weitere Gütemaße oder zusätzliche Validierungstechniken (z. B. Explainable AI, Stress­szenarien) mit minimalem Integrations­aufwand eingebunden werden können. Dies gewährleistet eine nachhaltige Einsetzbarkeit auch in sich dynamisch entwickelnden Modell­umgebungen. 

In Summe bildet das Multi-Model-Management den methodischen Kern einer modernen, transparenten und zukunftsfähigen Modell-Governance. Es befähigt Institute dazu, sowohl regulatorischen Anforderungen zu genügen als auch technologische Innovationen gezielt in ihre Entscheidungs­prozesse zu integrieren. 

Im folgenden Kapitel erfolgt auf dieser Grundlage die exemplarische Anwendung auf zwei konkrete Modelle – eine logistische Regression und ein XGBoost-Modell – unter Verwendung eines realitäts­nahen Kredit­portfolios.

4 Modellergebnisse im Vergleich

Nach der methodischen Herleitung und Definition des Validierungs­rahmens folgt nun die empirische Anwendung. Ziel ist es, anhand eines realitäts­nahen Datensatzes die Leis­tungs­fähigkeit zweier Modell­ansätze – einer klassischen logistischen Regression (Modell A) und eines modernen XGBoost-Modells (Modell B) – vergleichend zu analysieren. Dabei steht nicht nur die reine Vorhersagegüte im Vordergrund, sondern auch die Frage, inwiefern komplexere Modelle zusätzliche Informationen liefern und wie diese erklärbar gemacht werden können. 

4.1. Eingangsdaten

Für die Modellierung wurde der aus der Literatur bekannte HMEQ‑Datensatz herangezogen, der insbesondere durch Baesens (2017) einer breiten wissenschaftlichen Rezeption unterliegt.11 

Insgesamt umfasst der Datensatz 5.960 Kredit­ereignisse, davon 1.189 Ausfälle (entspricht einer Ausfallrate von ca. 19,95 %). 

Die für die Modellierung verwendeten numerischen Merkmale lauten:12

Merkmal
Beschreibung
LOANBeantragte Kreditsumme
MORTDUEBestehende Hypothekenverpflichtungen 
VALUEAktueller Immobilienwert 
YOJJahre im derzeitigen Beschäftigungsverhältnis  
DEROGAnzahl gravierender negativer Zahlungsvorfälle 
DELINQAnzahl überfälliger Kreditlinien 
CLAGEAlter der ältesten Kreditlinie (in Monaten)
NINQ Anzahl aktueller Kreditanfragen 
CLNOAnzahl existierender Kreditlinien 
DEBTINCSchulden-Einkommen-Verhältnis 

Tabelle 1: Beschreibung der Eingangsmerkmale

Die Zielvariable BAD kodiert den Ausfallstatus binär (1 = ausgefallen, 0 = nicht ausgefallen) und stellt damit die abhängige Variable für die Modellschätzung dar. 

Vorverarbeitung und Merkmals­selektion:

  • Fehlende Werte wurden durch Mittelwert­imputation ersetzt.
  • Alle numerischen Merkmale wurden standard­normalisiert (Z-Transformation), um numerische Stabilität bei der Modellschätzung sicherzustellen.
  • Die stark korrelierten Merkmale MORTDUE und VALUE wurden auf eines reduziert; kategorische Merkmale wie JOB und REASON wurden zur Komplexitäts­reduktion nicht berücksichtigt.

Diese Selektion bildet die Grundlage für die nachfolgende Kalibrierung und Validierung beider Modelle. 

4.2 Ergebnisse des Logit-Modells (Modell A)

Das erste Modell basiert auf einer logistischen Regression, einem etablierten Verfahren zur Modellierung binärer Zielgrößen. Ziel ist die Schätzung der bedingten Wahrscheinlichkeit eines Kredit­ereignisses (Ausfall/Nichtausfall) in Abhängigkeit von den Eingangs­kriterien. 

Das Modell wurde zunächst mit dem vollständigen Datensatz kalibriert (In‑Sample), um eine erste Einschätzung der Modell­struktur und der Koeffizienten­stabilität zu erhalten. Die Regressions­koeffizienten bestätigen die statistische Signifikanz nahezu aller Merkmale 
(p-Wert ≈ 0,0), mit Ausnahme von YOJ (p-Wert = 0,23). 

Signifikanz und Richtung der Effekte 

Positiv wirkende Merkmale sind VALUE, DEROG, DELINQ, NINQ, DEBTINC. Negativ wirkende Merkmale sind LOAN, CLAGE, CLNO, YOJ, const. Die Konstante (const) des Modells beträgt -1,66, was einer geschätzten Basis-Ausfall­wahrscheinlichkeit von etwa 15,93 % entspricht – in realistischer Nähe zur beobachteten Ausfallrate von 19,95 %. 

Abbildung 2: Regressionskoeffizienten des trainierten Logit-Modells (p-Werte in Klammern)

Die zentralen Modellmetriken lauten: 

Kennzahl
Wert
Interpretation
AUC/Gini
0,79/0,58
Solide Trennschärfe, aber deutlich unter dem theoretischen Optimum 
Brier-Score0,12Akzeptable Kalibrierung der Wahrscheinlichkeiten 

Tabelle 2: Ergebniskennzahlen des Logit-Modells (In-Sample)

Im Anschluss wurde eine  fünffache Kreuz­validierung durchgeführt. Das Modell wurde dabei fünfmal neu trainiert und auf jeweils disjunkte Testdaten angewandt (Out-of-Sample-Prognose). Die Verteilung der Scores zeigt eine zufriedenstellende Trennung der Klassen, allerdings mit systematischen Schwächen in der Erkennung tatsächlicher Ausfälle: 

Abbildung 3: Score-Verteilung Logit-Modell (Defaults und Non-Defaults)


Nicht ausgefallene Kredite dominieren den unteren Score-Bereich (niedrige Ausfall­wahrscheinlichkeit) – erwartungskonform. Ausgefallene Kredite verteilen sich relativ gleich­mäßig über den gesamten Score‑Bereich, jedoch auch mit einem unerwünschten Häufungs­schwerpunkt im Bereich (0,1–0,3), was auf eine eingeschränkte Trennschärfe bei risiko­behafteten Fällen hindeutet. 

Fazit 

Das Logit‑Modell bildet eine robuste Basis, weist jedoch Einschränkungen in der Abbildung wahr­scheinlich nicht linearer Zusammen­hänge auf. Die Identifikation von Defaults ist insbesondere im oberen Score‑Spektrum unzureichend – ein Hinweis auf strukturelle Modell­grenzen. 

4.3 Ergebnisse des XGBoost-Modells (Modell B)

Das zweite Modell basiert auf dem XGBoost-Algorithmus, einem gradienten­basierten Ensemble‑Verfahren, das in zahlreichen Benchmark-Studien eine hohe Vorhersage­qualität zeigt. Das Modell wurde als binärer Klassifikator konfiguriert mit logistischer Verlustfunktion und logarithmischem Loss als Bewertungs­metrik. 

Im Gegensatz zur logistischen Regression basiert XGBoost nicht auf Regressions­koeffizienten, sondern auf der sequenziellen Optimierung von Entscheidungs­bäumen. Eine erste Ein­schätzung der Feature-Wichtigkeit erfolgt daher über die Häufigkeit der Merkmals­nutzung (Feature Importance). 

Abbildung 4: Importance-Liste der Merkmale im XGBoost-Modell

Beobachtungen zur Feature Importance 

Hohe relative Bedeutung: DEBTINC, CLAGE, DELINQ. Es ergibt sich eine deutlich andere Gewichtungsstruktur als im Logit‑Modell. Mit dieser Anschauung ist noch keine direkte Aussage über Vorzeichen oder Richtung der Wirkung möglich – dies erfolgt später über SHAP‑Werte. 

Modellmetriken im In‑Sample‑Vergleich:

Kennzahl
Wert
Interpretation
AUC/Gini
0,99/0,99
​Nahezu perfekte Trennschärfe 
Brier-Score0,007Extrem präzise Kalibrierung  

Tabelle 3: Ergebniskennzahlen XGBoost (In-Sample)

Die anschließende fünffache Kreuz­validierung bestätigt die außerordentliche Modellgüte auch in der Out‑of‑Sample‑Bewertung. Die Verteilung der Scores zeigt eine deutlich klarere Trennung der Ausfall­klassen: 

Abbildung 5: Scoring-Verteilung XGBoost (Default vs. Non-Default)

Da die Default-Verteilung in der Abbildung oben aus Skalierungs­gründen kaum zu erkennen ist, wird sie in der nächsten Abbildung nochmals separat dargestellt: 

Abbildung 6: Scoring-Verteilung XGBoost (nur Default)

Nicht ausgefallene Kredite weisen eine starke Konzentration im Bereich niedriger Scores (nahe null) auf. Ausgefallene Kredite häufen sich erwartungs­konform im Bereich höherer Scores (ab ca. 0,8) – mit deutlich geringerer Streuung im mittleren Segment. Nichts­desto­weniger beobachten wir auch hier ein scheinbar gleich­verteiltes Grundrauschen von Ausfällen über den gesamten Score‑Bereich, wenn auch deutlich geringer als beim Logit‑Ansatz. Wünschens­wert wäre ein monotones Ansteigen der Ausfälle. Ein möglicher Hinweis auf Modell­lücken!  

Fazit: 

Das XGBoost‑Modell zeigt sowohl hinsichtlich Trennschärfe als auch Kalibrierung eine signifikant überlegene Leistungs­fähigkeit gegenüber dem Logit‑Modell. Dennoch bleibt eine kritische Auseinandersetzung mit möglichen Overfitting-Tendenzen geboten, insbesondere vor dem Hintergrund hoher Modell­komplexität und regulatorischer Erklärbarkeits­anforderungen. 

4.4 Vergleich der Model Scores mittels Streu­diagramm

Ein zentrales Ziel der Validierung ist nicht nur die isolierte Bewertung einzelner Modelle, sondern insbesondere deren direkter Vergleich im Verhalten gegenüber identischen Kredit­ereignissen. Zur Visualisierung der Score‑Differenzen beider Modelle wird ein zwei­dimen­sionaler Scatterplot herangezogen, in dem die Score-Werte des Logit‑Modells gegen jene des XGBoost‑Modells aufgetragen werden. Jeder Punkt im Plot repräsentiert ein Kreditereignis, farblich differenziert nach Ausfallstatus.

Abbildung 7: Modellvergleich, Scatterplot

Erste Erkenntnisse 

Eine signifikante Anzahl tatsächlicher Ausfälle befindet sich im linken oberen Quadranten – diese Kredite wurden vom Logit‑Modell zu optimistisch, vom XGBoost‑Modell korrekt als kritisch eingeschätzt. 

Die Mehrzahl gesunder Kredite konzentriert sich im linken unteren Quadranten – ein Indikator für hohe Überein­stimmung in der Einschätzung geringer Risiken. 

Diese Visualisierung liefert wertvolle Hinweise auf die differenzierte Modelllogik der beiden Ansätze und legt den Grundstein für eine quantitative Bewertung der Fehler­einschätzungen, wie sie im folgenden Abschnitt erfolgt. 

4.5 Quantifizierung der Modellunterschiede über Fehlerquadrate

Zur objektiven Beurteilung, welches Modell die realisierten Ausfall­wahrscheinlich­keiten besser approximiert, greifen wir erneut auf die Ansatzlogik des Brier-Scores zurück. Für jede Beo­bachtung i  wird der quadratische Fehler zwischen der vorhergesagten Wahrscheinlichkeit  und dem tatsächlichen Ausfallstatusberechnet: 


Zur Modell­vergleichbarkeit wird die Differenz der Fehler­quadrate zwischen Modell A (Logit) und Modell B (XGBoost) für jede Beobachtung berechnet:

Ein positiver Wertbedeutet, dass Modell B (XGBoost) eine geringere Abweichung vom tatsächlichen Ausfallstatus aufweist – also die bessere Vorhersage liefert. 

Ergebnisse 

Für nicht ausgefallene Kredite liegen die mittleren Differenzen nahe null (Mittelwert ≈ 0,01), was auf vergleichbare Vorhersage­güte hindeutet. 

Für ausgefallene Kredite ergibt sich ein deutlich positiver Mittelwert der Differenzen (≈ 0,24), was die Überlegenheit von XGBoost bei der korrekten Identifikation von Defaults bestätigt. 

Eine ergänzende Darstellung in Form von Verteilungs­plots visualisiert die Differenzen der Fehler­quadrate getrennt nach Ausfallstatus und macht sichtbar, dass der größte Teil der Modell­abweichung durch falsch eingeschätzte Ausfälle im Logit-Modell verursacht wird. 

Abbildung 8: Vergleich der Modellgüte anhand der Fehlerquadrat-Abweichung

Darauf aufbauend haben wir die aggregierten Modell­fehler pro Gruppe (Modell x Ausfallstatus) analysiert und im Kontext des gesamten Brier-Scores interpretiert. Dadurch wird sichtbar, in welchem Maße Ausfälle und Nichtausfälle jeweils zum Gesamtfehler beitragen. So lassen sich Unterschiede in der Modellgüte differenzierter bewerten – insbesondere, ob ein Modell eher im Bereich der „False Negatives“ (nicht erkannte Defaults) oder der „False Positives“ (fälschlich als riskant eingestufte Non-Defaults) Schwächen zeigt.  

Die Resultate werden in der folgenden Abbildung als Wasserfalldiagramm zusammengefasst: 

Abbildung 9: Modellvergleich Brier-Score-Differenzen

4.6 Vergleich der kumulativen Verlustverteilung

Neben der Bewertung statistischer Gütekriterien ist es aus Sicht des Risikomanagements essenziell, auch die ökonomische Relevanz von Modell­unterschieden zu quantifizieren. Während Trennschärfe und Kalibrierung Hinweise auf die technische Leistungs­fähigkeit eines Modells geben, stellt sich in der Praxis stets die Frage: Welchen Einfluss hat die Wahl eines bestimmten Modells auf tatsächliche Verluste? 

Zur Beantwortung dieser Frage analysieren wir die kumulative Verlust­verteilung beider Modelle. Im Zentrum steht dabei die Fragestellung: Wie viele tatsächliche Ausfälle hätte ein Modell übersehen, wenn man die Kredit­ereignisse mit den höchsten prognostizierten Ausfall­wahrscheinlichkeiten abgelehnt hätte? 

Methodisches Vorgehen 

Die Kredit­ereignisse werden nach ihrem Score‑Wert (geschätzte Ausfall­wahrscheinlichkeit) sortiert – getrennt für jedes Modell. Für einen gegebenen Schwellenwert  𝜏 wird bestimmt, wie viele tatsächliche Ausfälle sich unterhalb dieses Schwellenwerts befinden. Die kumulierten Anteile der erfassten Defaults werden über alle Schwellenwerte hinweg aufgetragen. Das Ergebnis ist eine kumulative Verteilungs­funktion der tatsächlichen Verluste als Funktion der Score‑Schwelle.

Abbildung 10: Modellvergleich, kumulative Verlustverteilung

Ergebnisse der Analyse 

Das Logit‑Modell weist bereits bei niedrigen Score-Schwellen (z. B. 0,2) eine signifikante Anzahl von Ausfällen auf – ein Hinweis auf eingeschränkte Trennschärfe. 

Das XGBoost‑Modell hingegen verschiebt die Mehrheit der Ausfälle in höhere Score‑Bereiche – ein erwünschtes Verhalten, da es eine effektivere Selektion von Hochrisiko­fällen erlaubt. 

Der  Vorsprung von XGBoost in der Identifikation von Defaults ist bis auf einen kleinen Bereich nahe null über alle Score‑Schwellen hinweg konsistent und visuell klar erkennbar. 

Praktische Relevanz 

Diese Analyse erlaubt nicht nur eine Bewertung der Modell­qualität im Sinne klassischer Backtesting-Logiken, sondern bietet auch eine Ableitung von Score‑Schwellen, die zur Steu­erung der Kreditvergabe verwendet werden könnten. Modelle mit besserer Verlust­trennung weisen somit nicht nur eine höhere Vorhersagekraft auf, sondern auch einen höheren ökonomischen Nutzen durch gezieltere Risiko­allokation.


5 SHAP-Analysen

Mit der wachsenden Komplexität von Scoring-Modellen – insbesondere im Kontext von Machine Learning – rückt die Erklärbarkeit von Modell­entscheidungen zunehmend in den Fokus von Risiko­management und Aufsicht. Der AI Act und diverse Veröffentlichungen der EBA13, aber auch der BaFin14  betonen unmiss­verständlich: Auch leistungsfähige, nicht lineare Modelle müssen nachvollziehbar und überprüfbar bleiben. 

Ein leistungsfähiges Instrument zur Herstellung dieser Transparenz ist das SHAP‑Verfahren (SHapley Additive exPlanations), das auf spiel­theoretischen Prinzipien basiert.15 Es erlaubt, für jede einzelne Vorhersage zu bestimmen, welcher Anteil eines Merkmals zum Abweichen der Prognose vom Basiswert beigetragen hat. 

5.1 Grundlagen und Darstellung

Formal lässt sich jede Modellvorhersage f(x) durch die SHAP-Dekomposition darstellen als:

Dabei ist:

: der Basiswert (Durchschnitt der Modell­vorhersagen),

: der SHAP-Wert des Merkmals xi, d. h. dessen individueller Beitrag­ zur Abweichung vom Mittelwert.

Diese additive Zerlegung ermöglicht sowohl eine globale Analyse der Merkmals­bedeutung als auch eine lokale Erklärung einzelner Modell­entscheidungen. 

5.2 Vergleich Logit vs. XGBoost anhand individueller Vorhersagen

Die Stärke der SHAP-Analyse zeigt sich insbesondere im Vergleich zweier Modell­entschei­dungen bei einer identischen Beobachtung. Anhand ausgewählter Fälle lässt sich die Unterschiedlichkeit der internen Modell­logiken präzise aufzeigen. 

Die folgenden zwei Abbildungen zeigen beispielhaft die SHAP-Werte der beiden Modelle in Form eines Wasserfall­diagramms für einen ausgefallenen Kredit mit den Merkmalen aus dem oberen linken Quadranten im Scatterplot (Abbildung 7).16

Abbildung 11: SHAP-Wasserfalldiagramm, Logit-Modell

Abbildung 12: SHAP-Wasserfalldiagramm, XGBoost-Modell

Beobachtungen aus den SHAP-Wasserfalldiagrammen 

Logit‑Modell: Die Wirkung der Merkmale ist – wie zu erwarten war – proportional und stabil bei der Richtung der Vorzeichen der Regressions­koeffizienten. 

XGBoost-Modell: SHAP zeigt teils gegenläufige Effekte gegenüber dem Logit‑Modell (z. B. bei VALUE oder CLAGE), was auf eine unterschiedliche Modell­regularisierung hindeutet.

5.3 Nicht lineare Strukturen in SHAP-Scatterplots

Besonders deutlich wird die höhere Modell­komplexität von XGBoost in den SHAP‑Scatterplots einzelner Merkmale: 

Abbildung 13: SHAP-Werte zum Merkmal LOAN 

Beim Merkmal LOAN zeigt das Logit‑Modell eine erwartungs­gemäß lineare SHAP‑Beziehung – in diesem Fall heißt das, niedrige beantragte Kredit­summen führen zu einem höheren Risiko (bzw. negativen Beitrag zum Score). 

XGBoost hingegen zeigt eine mehrwertige Relation, bei der identische Kredit­summen zu unterschiedlichen SHAP‑Werten führen – ein möglicher Hinweis auf interaktive Effekte mit anderen Merkmalen. 

Diese Muster sind nicht über einfache Korrelationen erklärbar – die SHAP-Werte liefern somit genuine Einsichten in die Entscheidungs­logik des Modells, jenseits einfacher Regressions­beziehungen. 

5.4 Vergleich der Richtungen der Modelleffekte

In dieser Analyse visualisieren wir die SHAP‑Werte des Logit‑Modells für ausgewählte Merkmale und färben sie entsprechend der SHAP‑Werte des XGBoost-Modells. Es gilt: 

Rot: Hohe SHAP‑Werte im XGBoost‑Modell. 

Blau: Niedrige SHAP‑Werte im XGBoost‑Modell. 

Der Fokus liegt auf den Ausfall­datensätzen des ersten Folds der Kreuz­validierung aus dem oberen linken Quadranten des Streu­diagramms in Abbildung 7, wo das Logit‑Modell die Ausfälle im Gegensatz zum XGBoost‑Modell unterschätzt.  

Abbildung 14 zeigt deutlich, dass die Modelle bei den Merkmalen LOAN, YOJ, CLAGE und CLNO entgegen­gesetzte SHAP‑Werte aufweisen.  

Abbildung 14: Vergleich der gegenläufigen SHAP-Werte für ausgefallene Kredite aus Fold 1 im oberen linken Quadranten in Abbildung 7 

Während das Logit‑Modell bei steigenden Merkmals­werten einen negativen Verlauf der SHAP‑Werte zeigt, weist das XGBoost‑Modell einen positiven auf. Die Unterschiede deuten darauf hin, dass die Modelle die Bedeutung dieser Merkmale unterschiedlich interpretieren, was zu divergierenden Vorhersagen führt. Ein tieferes Verständnis dieser Abweichungen kann dazu beitragen, die jeweiligen Modell­annahmen zu hinterfragen und die Prognose­genauigkeit zu verbessern. 

Im Gegensatz dazu zeigt Abbildung 15, dass die Modelle bei den Merkmalen VALUE, DEROG, DELINQ, NINQ und DEBTINC gleichlaufende SHAP-Werteeffekte aufweisen.  

Abbildung 15: Vergleich der gleichlaufenden SHAP-Werte für ausgefallene Kredite aus Fold 1 im oberen linken Quadranten in Abbildung 7 

Dort, wo das Logit‑Modell bei steigenden Merkmals­werten einen positiven Verlauf der SHAP-Werte zeigt, weist auch das XGBoost‑Modell einen positiven auf. 

5.5 Modellvergleich über Heatmaps

Zur globalen Analyse der Modell­struktur bieten sich SHAP-Heatmaps und Rangvergleiche der Merkmals­bedeutungen an: 

Abbildung 16: SHAP-Heatmaps

Die Ereignisse wurden absteigend nach ihrem Funktionswert f(x) und damit nach ihrem Score s(x) sortiert, sodass die hohen Scores links angeordnet sind, die niedrigen rechts. 

  • Im Logit‑Modell dominiert ein kleiner Kern an Merkmalen (DELINQ, CLAGE, DEROG), deren Werteverlauf relativ konsistent mit dem Score‑Verlauf korreliert.
  • Im XGBoost‑Modell hingegen treten die Merkmale DEBTINC und VALUE deutlich stärker in den Vordergrund. In beiden Modellen spielen die Merkmale DELINQ und CLAGE eine signifikante Rolle.

Die Heatmaps zeigen zudem, dass Verteilung und Richtung der SHAP‑Werte im XGBoost‑Modell deutlich schärfer fokussiert sind – ein Hinweis auf stärkere Trennschärfe, aber auch auf poten­ziell höhere Komplexität in der Modell­logik. 

5.6 Kritische Einordnung

Trotz der enormen Stärke von SHAP bei der Modell­transparenz ist festzuhalten: 

  • Die Interpretation der SHAP‑Werte erfordert fachliche Expertise – insbesondere bei nicht linearen Modellen und korrelierten Merkmalen.
  • Bei steigender Modell­komplexität und hoher Dimensionalität kann die Interpretier­barkeit abnehmen, was die praktische regulatorische Verwert­barkeit erschwert.
  • SHAP bietet Transparenz, aber keine Kausalität – die Erklärungen sind modellimmanent, nicht empirisch‑verursachend.

Fazit 

SHAP ist ein mächtiges Werkzeug für die erklärbare KI im Risikomanagement. Es ermöglicht, korrekt eingesetzt, eine differenzierte Sicht auf Modell­verhalten und eröffnet neue Möglich­keiten der Modell­validierung, insbesondere bei der Einführung leistungsfähiger Challenger-Modelle. Zugleich muss eine institutionalisierte Kompetenz im Umgang mit erklärbaren KI-Verfahren aufgebaut werden, um regulatorische Anforderungen dauerhaft zu erfüllen. 

6 Fazit und Ausblick

6.1 Zusammenfassung der wichtigsten Erkenntnisse

Die vorliegende Studie zeigt exemplarisch, wie sich moderne KI‑Modelle wie XGBoost systematisch und nachvollziehbar in bestehende Validierungs­prozesse für Scoring‑Modelle integrieren lassen. Auf Basis eines realitätsnahen Kredit­portfolios und unter Verwendung etablierter Gütekriterien (AUC/Gini, Brier-Score) sowie erklärbarer KI-Methoden (SHAP) konnten folgende zentrale Erkenntnisse gewonnen werden: 

Leistungsfähigkeit:
Das XGBoost‑Modell übertrifft die logistische Regression in nahezu allen Bewertungs­dimensionen – insbesondere in der Trennschärfe und Kalibrierung. Die Summe der Fehler­quadrate sowie die kumulativen Verlust­verteilungen belegen die höhere prognostische Präzision bei gleichzeitig geringerer Streuung.  

Einschränkend muss erwähnt werden, dass im Rahmen dieses Beitrags das Risiko eines mög­lichen Overfittings beim Einsatz von XGBoost nicht vertiefend analysiert wurde. Der Fokus lag vielmehr auf der grundsätzlichen Anwendbarkeit und den metho­dischen Vorteilen des Modells im Kontext der Modell­validierung. Eine weiterführende Untersuchung zur Modell­komplexität, Regularisierung und zur Auswahl optimaler Hyper­parameter wäre sinnvoll, war jedoch für die Zielsetzung dieses Artikels – nämlich die konzeptionelle Einordnung und den Einsatz von Erklärbarkeits­ansätzen – nicht erforderlich. 

Modellverständnis:
Trotz der höheren Komplexität ermöglicht der Einsatz von SHAP eine differenzierte Analyse der Merkmals­beiträge und führt zu neuen Erkenntnissen. Die Beobachtung nicht linearer, inter­aktiver Effekte verdeutlicht die Grenzen linearer Modelle und unterstreicht das Potenzial moderner Verfahren zur Erfassung komplexer Kunden­strukturen. 

Validierungsarchitektur:
Durch die Verbindung klassischer Verfahren mit modernen Analyse­bausteinen – etwa im Rahmen eines Multi‑Model‑Managements – kann eine robuste, modulare und skalierbare Validierungs­umgebung geschaffen werden, die auch künftigen regulatorischen Anforderungen gerecht wird. 

Regulatorische Anschlussfähigkeit: 
Die vorgestellten Methoden sollten den Anforderungen der EBA und des AI Act genügen, sofern sie in ein klar strukturiertes Governance-Framework eingebettet und institutionell verankert werden. Die Kombination aus automatisierter Validierung, standardisierter Metrikführung und erklärbarer KI bildet hierfür einen tragfähigen Grundstein.

6.2 Ausblick und zukünftige Entwicklungen

Die Integration von KI in risiko­relevante Entschei­dungs­prozesse von Banken steht erst am Anfang. Auf Basis der gewonnenen Erkenntnisse lassen sich folgende Entwicklungs­richtungen identifizieren: 

Weiterentwicklung der Validierungs-Frameworks: 
Die vorgestellten Komponenten – von der Kreuz­validierung bis zur SHAP-Analyse – sollten in ein übergreifendes, interaktives Dashboard integriert werden, das auch für Prüfungen, Modell­risikokomitees und Fachabteilungen intuitiv nutzbar ist. 

Vertiefung der Modellvergleichsverfahren: 
Der Einsatz robuster, modell­unabhängiger Statistik­tests (z. B. Friedman-Test, ROPE-Verfahren) sollte systematisiert werden, um in Multi-Model-Umgebungen belastbare Entscheidungen treffen zu können. 

Governance und Dokumentation erklärbarer KI: 

Es bedarf standardisierter Methoden zur Dokumen­tation und Interpretation erklärbarer Modelle – insbesondere im Hinblick auf die Nachvollziehbarkeit für dritte Parteien (z. B. Aufsicht, Interne Revision). 

Aufbau institutioneller Kompetenzzentren: 
Die erfolgreiche Integration leistungsfähiger, erklär­barer KI‑Modelle setzt sowohl technische Infrastruktur als auch methodische Kompetenz voraus. Banken sind gut beraten, zentrale Ressourcen für Modellierung, Validierung und Explainable AI zu bündeln. 

Vom Einzelfall zur Portfoliosteuerung: 
Perspektivisch ist die Übertragung der Erkenntnisse auf aggregierte Entscheidungs­prozesse (z. B. Limitvergabe, Pricing, Frühwarnsysteme) denkbar. Nur so kann der Nutzen intelligenter Modelle voll ausgeschöpft werden. 

Über den Autor

Dr. Andree Heseler ist Geschäftsführer der mex consulting GmbH & Co. KG und Experte für datengetriebene Risikomodellierung. 

Er berät Banken und Asset-Manager zu mathematisch fundierten Verfahren des Risikomanagements mit besonderem Fokus auf Modellierung, Validierung und die Anwendung von künstlicher Intelligenz. Seine Erfahrung verbindet Finanzmathematik, Data Science und die Entwicklung modellgetriebener Prototypen in anspruchsvollen Kundenprojekten.