climbing wall credit default risk

Kreditausfallrisikoprognose

Die Entwicklungen im Bereich des maschinellen Lernens und des Deep Learning haben es Unternehmen und Einzelpersonen wesentlich erleichtert, ein leistungsfähiges Modell zur Vorhersage des Kreditausfallrisikos und die Erstellung einer Kreditausfallrisikoprognose für den Eigenbedarf zu entwickeln.

Das Kreditausfallrisiko ist die Gefahr, dass Unternehmen oder Einzelpersonen nicht in der Lage sind, die erforderlichen Zahlungen für ihre Schuldverpflichtungen zu leisten. Kreditgeber und Investoren sind in nahezu allen Formen der Kreditvergabe dem Ausfallrisiko ausgesetzt. Um die Auswirkungen des Ausfallrisikos zu mindern, erheben die Kreditgeber oft Gebühren, die dem Niveau des Zahlungsausfallrisikos des Schuldners entsprechen. Ein höheres Risiko führt zu einer höheren Renditeanforderung.

Traditionell wird das Kreditausfallrisiko mit Hilfe von Standardmessgeräten gemessen, darunter FICO-Scores für Verbraucherkredite und Bonitätsprüfungen für Unternehmens- und Staatsschulden. Bonitätsbeurteilungen für Kreditausgaben werden von national anerkannten statistischen Ratingagenturen (NRSROs) wie Standard & Poor’s (S&P), Moody’s und Fitch Ratings abgegeben.

Wenn Sie mit dem maschinellen Lernen und insbesondere mit Klassifizierungsproblemen vertraut sind, werden Sie feststellen, dass das Problem der Kreditausfallrisikovorhersage nichts anderes ist als ein binäres Klassifizierungsproblem. So kann jede maschinelle Lernmethode, die für binäre Klassifizierungsprobleme verwendet werden könnte, auch auf Probleme der Kreditausfallrisikovorhersage angewendet werden.

Der Erfolg eines maschinellen Lernmodells hängt jedoch nicht nur von der Wahl einer maschinellen Lernmethode ab. Zu den Schlüsselfaktoren, die zum Erfolg des Modells des maschinellen Lernens beitragen, gehören:

Daten

Daten sind die Grundvoraussetzung für jedes erfolgreiche Modell des maschinellen Lernens. Unabhängig davon, wie groß Ihre maschinellen Lernmodelle sind, können Sie aus dem Vorhersagemodell kein zuverlässiges Hochleistungsmodell ohne eine ausreichende Menge an umfangreichen Daten erhalten.

Feature Engineering

Die Verarbeitung von Rohdaten und deren Bereitstellung als geeigneter Input für die Modelle des maschinellen Lernens umfasst die Datenbereinigung, die Erstellung neuer Features und die Auswahl von Features. Feature Engineering ist in der Regel das zeitaufwändigste Problem des maschinellen Lernens, insbesondere wenn es darum geht, Vorhersagemodelle für strukturierte Daten zu erstellen.

Models

Auch wenn es für bestimmte maschinelle Lernprobleme, wie z.B. die binäre Klassifizierung, viele maschinelle Lernmethoden gibt, hat jede Methode ihre eigenen Stärken und Schwächen. Basierend auf unseren Anforderungen und Bedürfnissen müssen wir möglicherweise verschiedene Methoden wählen.

Performance Metrics

Wie bewerten wir sie angesichts von zwei maschinellen Lernmethoden, um die bessere auszuwählen? Wir brauchen gut konzipierte Leistungskennzahlen, die auf unseren Daten und Erfahrungen basieren. So werden beispielsweise AUC- und F1-Score typischerweise für unausgewogene Daten und binäre Klassifizierungsprobleme verwendet.

Welche Daten benötigen wir?

Wie bereits erwähnt, sind Daten die Voraussetzung für ein erfolgreiches maschinelles Lernmodell. Im Hinblick auf die Vorhersage des Kreditausfallrisikos benötigen wir zumindest die Transaktions-, Kreditbüro- und Kontostandsdaten, die es uns ermöglichen, die Maße des Verbraucherkreditrisikos viel häufiger zu berechnen und zu aktualisieren als die derzeit in der Branche und bei den Aufsichtsbehörden eingesetzten schleppenden Credit-Scoring-Modelle. Verwenden Sie hierfür das Hauskreditausfallrisiko als Beispiel. Die Daten enthalten:

  • application_{train|test}.csv
    • Dies ist die Haupttabelle, aufgeteilt in zwei Dateien für Train (mit TARGET) und Test (ohne TARGET).
    • Statische Daten für alle Anwendungen. Eine Zeile repräsentiert ein Darlehen in unserer Datenprobe.
  • bureau.csv
    • Alle bisherigen Kundenkredite anderer Finanzinstitute, die an das Kreditbüro gemeldet wurden (für Kunden, die ein Darlehen in unserer Stichprobe haben).
    • Für jedes Darlehen in unserer Stichprobe gibt es so viele Zeilen wie die Anzahl der Credits, die der Kunde vor dem Antragsdatum im Credit Bureau hatte.
  • bureau_balance.csv
    • Monatliche Salden früherer Guthaben in der Kreditanstalt.
    • Diese Tabelle enthält eine Zeile für jeden Monat der Geschichte jedes vorherigen Kredits im Privatkredit (Verbraucherkredit und Barkredit), der sich auf Kredite in unserer Stichprobe bezieht, d.h. die Tabelle hat (#Kredite in der Stichprobe # der relativen vorherigen Kredite # der Monate, in denen wir eine gewisse Historie für die vorherigen Kredite beobachten können) Zeilen.
  • POS_CASH_balance.csv
    • Monatliche Saldenschnappschüsse von früheren POS (Point of Sales) und Barkrediten, die der Antragsteller mit Home Credit hatte.
    • Diese Tabelle enthält eine Zeile für jeden Monat der Geschichte jedes vorherigen Kredits im Privatkredit (Verbraucherkredit und Barkredit), der sich auf Kredite in unserer Stichprobe bezieht, d.h. die Tabelle hat (#Kredite in der Stichprobe # der relativen vorherigen Kredite # der Monate, in denen wir eine gewisse Historie für die vorherigen Kredite beobachten können) Zeilen.
  • credit_card_balance.csv
    • Monatliche Saldo-Schnappschüsse von früheren Kreditkarten, die der Antragsteller mit Home Credit hat.
    • Diese Tabelle enthält eine Zeile für jeden Monat der Verlaufsgeschichte jedes vorherigen Kredits im Bereich Hauskredit (Verbraucherkredite und Barkredite) im Zusammenhang mit Krediten in unserer Stichprobe, d.h. die Tabelle hat (#Kredite in der Stichprobe # der relativen vorherigen Kreditkarten # der Monate, in denen wir eine für die vorherige Kreditkarte nachvollziehbare Geschichte haben) Zeilen.
  • previous_application.csv
    • Alle bisherigen Anwendungen für Hypothekendarlehen von Kunden, die Kredite in unserer Stichprobe haben.
    • In unserer Datenprobe gibt es für jede frühere Anwendung im Zusammenhang mit Darlehen eine Zeile.
  • installments_payments.csv
    • Rückzahlungshistorie für die zuvor ausgezahlten Kredite im Hauskredit im Zusammenhang mit den Darlehen in unserer Stichprobe.
    • Es gibt a) eine Zeile für jede geleistete Zahlung plus b) eine Zeile für jede verpasste Zahlung.
    • Eine Zeile entspricht einer Zahlung von einer Rate ODER einer Rate, die einer Zahlung von einem früheren Hauskredit entspricht, der sich auf Kredite in unserem Beispiel bezieht.

Wir sehen, dass sich die Daten in drei Kategorien einteilen lassen:

  • Daten auf Antragstellerebene, die Informationen über den Antragsteller enthalten, wie z.B. Bildung, Anzahl der Familienmitglieder, Fahrzeugbesitz usw.
  • Daten auf Büroebene, die historische Transaktions- und Guthabeninformationen liefern.
  • Sonstige Daten, einschließlich externer Daten aus anderen Datenquellen, wie z.B. Bonitätsbeurteilungen von anderen Plattformen, etc.

Grundsätzlich gilt: Je mehr und umfangreichere Daten wir haben, desto besser können wir ein Modell zur Vorhersage des Kreditausfallrisikos erstellen.

Welche Methoden können verwendet werden?

Da die Kreditausfallrisikovorhersage selbst ein binäres Klassifizierungsproblem ist, ist jede maschinelle Lernmethode, die bei binären Klassifizierungsproblemen eingesetzt werden kann, theoretisch anwendbar. Aber jeder Algorithmus hat seine eigenen Stärken und Schwächen. In diesem Teil werden wir uns auf drei Hauptalgorithmen konzentrieren: logistische Regression, Entscheidungsbaum und gradientenverstärkter Entscheidungsbaum, um die Stärken und Schwächen der einzelnen Algorithmen im Hinblick auf Probleme der Kreditausfallrisikovorhersage zu erläutern.

Logistische Regression

Logistische Regression ist ein Klassifizierungsalgorithmus des maschinellen Lernens, der verwendet wird, um die Wahrscheinlichkeit einer kategorisch abhängigen Variablen vorherzusagen. In der logistischen Regression ist die abhängige Variable eine binäre Variable, die Daten enthält, die als 1 (ja, Erfolg, etc.) oder 0 (nein, Fehler, etc.) kodiert sind. Mit anderen Worten, das logistische Regressionsmodell prognostiziert P(Y=1) als Funktion von X.

Die logistische Regression ist eine der beliebtesten Methoden, um Modelle für kategorische Daten anzupassen, insbesondere für binäre Antwortdaten in der Datenmodellierung. Es ist das wichtigste (und wahrscheinlich am häufigsten verwendete) Mitglied einer Klasse von Modellen, die als generalisierte lineare Modelle bezeichnet werden. Im Gegensatz zur linearen Regression kann die logistische Regression Wahrscheinlichkeiten direkt vorhersagen (Werte, die auf das (0,1)-Intervall beschränkt sind); außerdem sind diese Wahrscheinlichkeiten im Vergleich zu den Wahrscheinlichkeiten, die von einigen anderen Klassifikatoren, wie beispielsweise Naive Bayes, vorhergesagt werden, gut kalibriert. Die logistische Regression bewahrt die marginalen Wahrscheinlichkeiten der Trainingsdaten. Die Koeffizienten des Modells geben auch einige Hinweise auf die relative Bedeutung der einzelnen Eingangsgrößen.

Die logistische Regression wird verwendet, wenn die abhängige Variable (Ziel) kategorisch ist. Und bei der Vorhersage des Kreditausfallrisikos ist unsere Zielvariable binär: 1, wenn sie nicht zurückgibt, 0 andernfalls.

Die Stärke der logistischen Regression lässt sich wie folgt zusammenfassen:

  • Einfach, schnell und mit geringem Speicherverbrauch. Im Logistikmodell gibt es für jede Featurevariable nur eine entsprechende Gewichtsvariable. Unabhängig davon, ob Sie sie während des Trainings aktualisieren oder das Modell in der Vorhersage anwenden, wird es sehr schnell und mit geringem Speicherbedarf sein.
  • Interpretierbar. Es ist leicht zu erkennen, welche Auswirkungen die einzelnen Merkmale des Modells haben, was für die Finanzen sehr wichtig ist und auch einer der Gründe dafür ist, dass das Modell heute noch weit verbreitet ist.
  • Mit gutem Feature Engineering kann die Leistung auch wirklich gut sein.
  • Es ist einfach, das Modellergebnis in eine bestimmte Strategie zu konvertieren und einzusetzen.

Aber kein Modell ist perfekt. Was die Schwächen der logistischen Regression betrifft, so lassen sie sich wie folgt auflisten:

  • Easy to underfit. Darüber hinaus ist die Leistung im Vergleich zum Zusammenstellen von Modellen nicht so gut.
  • Hoher Datenbedarf, empfindlich gegenüber fehlenden Werten, Anomaliewerten und nicht in der Lage, nichtlineare Merkmale zu verarbeiten. Das bedeutet, dass Datenreinigung und Feature-Engineering ziemlich viel Zeit kosten werden.
  • Nicht gut im Umgang mit unausgewogenen Daten, hochdimensionalen Funktionen und kategorischen Merkmalen.

Wenn Ihre Hauptanliegen Stabilität, Einfachheit und Interpretierbarkeit sind, ist die logistische Regression, obwohl einfach, immer noch eine gute Wahl.

Entscheidungsbaum

Ein Entscheidungsbaum ist ein Baum, bei dem jeder Node ein Merkmal (Attribut) darstellt, jeder Link (Zweig) eine Entscheidung (Regel) darstellt und jedes Blatt ein Ergebnis (kategorischer oder kontinuierlicher Wert) darstellt. Es gibt eine ganze Reihe von Artikeln über Entscheidungsbäume. Dieser Artikel gibt Ihnen beispielsweise eine detaillierte Erläuterung zum Thema Entscheidungsbäume, einschließlich Informationen darüber, was ein Entscheidungsbaum ist, wie man Bäume erzeugt, wie man beschneidet und warum wir Entscheidungsbäume verwenden sollten.

Wie die logistische Regression hat auch die Entscheidungsbaum-Methode ihre Stärken und Schwächen. Und die Vorteile lassen sich wie folgt beschreiben:

  • Leicht verständlich (wenn….dann…. regelgerechte Struktur) und interpretierbar.
  • Im Vergleich zur logistischen Regression ist weniger Datenvorverarbeitung erforderlich. Sie müssen nicht mehr mit Diskretisierung und Datennormalisierung arbeiten.
  • Der beste bestehende Algorithmus zur Verarbeitung nichtlinearer Beziehungen.

Es gibt auch einige Schwächen:

  • Es ist einfach, extrem komplexe Baumstrukturen zu erzeugen, was zu einer Überdimensionierung führt.
  • Dies ist keine gute Lösung für hochdimensionale Daten.
  • Entscheidungsbäume haben eine schlechte Generalisierungsfähigkeit, können nicht mit Werten umgehen, die nicht im Trainingsdatensatz angezeigt werden.

Der Entscheidungsbaum ist ein einfaches, aber leistungsfähiges Modell des maschinellen Lernens. Im Gegensatz zur logistischen Regression kann sie mit fehlenden Werten umgehen. Eine Datennormalisierung ist nicht erforderlich. Und obwohl die Entscheidungsbaummethode selbst die oben genannten Schwächen hat, haben einige baumbasierte Methoden wie zufällige Wald- oder Gradientenmethoden die meisten der genannten Probleme gelöst und bringen sogar etwas mehr Leistungsfähigkeit in die Entscheidungsbaum-Methode.

Ensembling Learning

Im Gegensatz zu logistischen Regressions- und Entscheidungsbaummethoden ist das Zusammenführen von Lernprozessen eine Methode, die die Vorhersagen mehrerer Basiskalkulationen, die mit einem gegebenen Lernalgorithmus erstellt wurden, kombiniert, um die Verallgemeinerbarkeit / Robustheit gegenüber einem einzigen Kalkulationsprogramm zu verbessern.

Die drei beliebtesten Methoden zur Kombination der Vorhersagen aus verschiedenen Modellen sind:

  • Bagging: Aus dem Datensatz entnehmen, Basismodelle erstellen und dann alle Basismodelle kombinieren. Für die Klassifizierung, die Mehrheitsentscheidung und die Regression verwenden Sie die Mittelung, z.B. zufällige Wälder.
  • Boosting: Der Trainingsprozess ist abgestuft, das Basismodell wird in einer Reihenfolge trainiert. Das erste Basismodell wird trainiert, und die Probe wird entsprechend der Leistung des Basismodells angepasst. Das Basismodell prognostiziert die falsche Probe und schenkt ihr mehr Aufmerksamkeit. Anschließend wird mit der angepassten Basisprobe das nächste Basismodell trainiert. Der obige Prozess wird N-mal wiederholt, und die N-Basismodelle werden gewichtet und kombiniert, um das Endergebnis zu erhalten. Häufig verwendete Algorithmen sind GBDT und XGBOOOST.
  • Stacking: Ein Verfahren zum Kombinieren von Modellen. Betrachtet man zwei Schichten als Beispiel, so besteht die erste Schicht aus mehreren Basislernenden, die Eingabe ist der ursprüngliche Trainingssatz und die zweite Schicht basiert auf der Ausgabe des Basislerners der ersten Schicht. Das Trainingsset wird zu einem kompletten Stapelmodell umgeschult.

Vorteile des Ensemble-Algorithmus:

  • Ensemble ist eine bewährte Methode zur Verbesserung der Genauigkeit des Modells. So haben beispielsweise in Kaggle, die populärste Data Science-Plattform der Welt, fast alle erfolgreichen Lösungen bei Herausforderungen der strukturierten Datenmodellierung mit Ensemblierungsmethoden wie XGBoost und LightGBM gearbeitet.
  • Ensemble macht das Modell robuster und stabiler und sorgt so in den meisten Szenarien für eine gute Performance.
  • Mit Ensemble können Sie lineare und einfache sowie nichtlineare komplexe Beziehungen in den Daten erfassen. Dies kann durch die Verwendung von zwei verschiedenen Modellen und die Bildung eines Ensembles aus beiden erreicht werden.

Nachteile des Ensemble-Algorithmus:

  • Ensemble reduziert die Interpretierbarkeit des Modells und erschwert es, wichtige Geschäftseinblicke zu gewinnen. Dies ist keine gute Nachricht, wenn es um Anwendungen im Finanzbereich geht, wie z.B. die Vorhersage von Kreditausfallrisiken.
  • Das ist zeitaufwändig und daher vielleicht nicht die beste Idee für Echtzeitanwendungen. Dies sollte kein Problem im Hinblick auf die Vorhersage des Kreditausfallrisikos sein, bei der keine Echtzeit-Vorhersage erforderlich ist.
  • Die Auswahl der Modelle für die Bildung eines Ensembles wird heute jedoch durch Bibliotheken wie XGBoost und LightGBM erleichtert.

Im Hinblick auf das Hauskredit-Ausfallrisiko können wir feststellen, dass Gewinnerlösungen ein LightGBM-Modell als eines ihrer Kernmodelle verwenden. Diese Ensemblierungsmethode ist schnell und liefert im Vergleich zu anderen Nicht-Ensemblierungsmethoden fast immer eine hohe Leistung. Wenn also Leistung und Stabilität Ihre wichtigsten Kriterien sind, ist die Ensemblierungsmethode für Sie das Richtige.

Was ist die AUC – ROC Kurve?

Die AUC – ROC-Kurve ist eine Leistungsmessung für Klassifizierungsprobleme bei verschiedenen Schwellenwerten. ROC ist eine Wahrscheinlichkeitskurve und AUC stellt den Grad oder das Maß der Trennbarkeit dar. Sie zeigt Ihnen, inwieweit das Modell in der Lage ist, zwischen Klassen zu unterscheiden. Je höher die AUC, desto besser ist das Modell bei der Vorhersage von 0s als 0s und 1s als 1s. Analog dazu ist das Modell umso besser, je höher die AUC ist, umso besser kann es zwischen Patienten mit Krankheit und ohne Krankheit unterscheiden.

Die ROC-Kurve wird mit TPR (True Positive Rate, die True Positive / [True Positive + False Negative] ist) gegen den FPR (False Positive Rate, die False Positive Rate, die[False Positive / False Positive + True Negative] ist) aufgetragen, wobei sich TPR auf der y-Achse und FPR auf der x-Achse befindet. ROC, abgesehen von der Genauigkeit, wird häufig in unausgewogenen Daten verwendet. Dies ist bei der Kreditausfallrisikovorhersage der Fall, da es sich um eine Kombination aus Präzision und Rückruf handelt. Und im Vergleich zu F1 Score, das auch eine umfassende Darstellung von Präzision und Erinnerung ist, müssen Sie für ROC nicht manuell einen einzigen Schwellenwert für die Vorhersagewahrscheinlichkeit wählen, um zu entscheiden, ob die Vorhersageausgabe positiv oder negativ ist.

Leistungsvergleich verschiedener Methoden bei der Kreditausfallrisikoprognose

In diesem Artikel wird die Leistung von vier verschiedenen Algorithmen in einem Problemfall der Kreditrisikomodellierung verglichen. Diese Tabelle zeigt, dass unabhängig davon, welchen Funktionsumfang wir verwenden, Ensemble-Methoden (random forest und boosting) immer die beste Leistung erbringen, während das GAM-Modell (eine Variante des linearen Regressionsmodells) immer die schlechteste Leistung liefert. Doch eine weitere Sache, die wir feststellen können, ist, dass der Leistungsunterschied zwischen verschiedenen Algorithmen bei gleichem Funktionsumfang, der innerhalb von 4 % liegt, viel kleiner ist als die Verbesserung, wenn wir mehr Funktionen hinzufügen, in diesem Fall Verhaltensmerkmale.

Die Verwendung einer Leistungskennzahl ist nicht immer ausreichend. Eine maschinelle Lernmethode kann in Bezug auf eine Leistungskennzahl besser als eine andere sein, aber in Bezug auf andere Leistungskennzahlen schlechter. In diesem Beitrag vergleicht der Autor die Performance-Metriken (AUC und RMSE) mit vier Algorithmen: logistische Regression (M1), zufälliger Wald (M2), Gradienten-Boosting-Modell (M3) und neuronale Netzwerke mit unterschiedlichen Einstellungen (D1, D2, D3, D4).

table of comparison of models AUC RMSE

Wie wir sehen können, sind sowohl in Bezug auf AUC als auch auf RMSE die Ensemblierungsmethoden (random forest and gradient boosting model) viel besser als andere Modelle. Und die Leistung neuronaler Netze ist nicht stabil. Der Unterschied zwischen diesen verschiedenen neuronalen Netzwerken besteht in der Anzahl der Schichten und der Anzahl der Neuronen in jeder Schicht. Der Leistungsunterschied zwischen ihnen kann bis zu 0,17 in Bezug auf AUC und 0,2 in Bezug auf RMSE betragen. Eine weitere Sache, die wir finden können, ist, dass D3 das beste Modell in Bezug auf AUC unter den vier verschiedenen Arten neuronaler Netze ist, aber das schlechteste in Bezug auf RMSE. Genau deshalb ist es besser, mehr als eine Leistungskennzahl zur Bewertung der Methode zu haben. Wir können sehen, dass die Ensemblierungsmethoden in Bezug auf beide Leistungskennzahlen stabil sind.

Der Verfasser macht auch einen weiteren Vergleich, wobei in diesem Fall alle Modelle nur mit einigen der wichtigsten Features trainiert werden (ursprünglich 181 Features, jetzt 10 Features).

table of comparison of models AUC and RMSE

Aus dieser Vergleichstabelle können wir folgende Schlussfolgerungen ziehen:

  • Der Leistungsrückgang bei der Zusammenstellung von Modellen (random forest, gradient boosting) ist im Vergleich zu anderen maschinellen Lernmethoden (logistische Regression, neuronales Netzwerk) viel geringer.
  • Mit der Ensemblierungsmethode kann man mit einem kleinen Funktionsumfang relativ leistungsstarkes maschinelles Lernen erreichen, während andere maschinelle Lernmethoden mehr Feature Engineering oder mehr eingesammelte Features benötigen, um ein gut funktionierendes Modell zu erhalten.

Kreditausfallrisikoprognose mit Feature Engineering

Feature Engineering ist der Prozess der Nutzung von Domänenwissen der Daten, um Features zu erstellen, die maschinelle Lernalgorithmen funktionieren lassen. Wenn das Feature Engineering korrekt durchgeführt wird, erhöht es die Vorhersagekraft von Algorithmen des maschinellen Lernens, indem es Features aus Rohdaten erstellt, die den maschinellen Lernprozess erleichtern. Feature Engineering ist eine Kunst. Und normalerweise für ein datenwissenschaftliches Projekt, insbesondere bei einer datenwissenschaftlichen Herausforderung, wird das Feature Engineering die meiste Zeit in Anspruch nehmen.

Sie fragen sich vielleicht, warum wir Feature Engineering benötigen? Das Feature Engineering wandelt Rohdaten in Features um, die das zugrunde liegende Problem der prädiktiven Modelle besser darstellen, was zu einer verbesserten Modellgenauigkeit bei unsichtbaren Daten führt.

Hier verwenden wir noch immer das Hauskreditausfallrisiko als Beispiel. Das Hauptmerkmal Engineering kann in drei Kategorien eingeteilt werden:

  • Schnittpunkt verschiedener Merkmale: Wenn wir zum Beispiel AMT_ANNUITY (die Annuität jedes Kreditdarlehens), AMT_INCOME_TOTAL (Gesamteinkommen des Antragstellers pro Jahr), DAYS_EMPLOYED (Gesamtarbeitstage) erhalten, dann können wir einige gekreuzte Merkmale erstellen, wie AMT_INCOME_TOTAL / DAYS_EMPLOYED und AMT_CREDIT / AMT_INCOME_TOTAL, die weitere Informationen zu diesem Modell hinzufügen und einige nichtlineare Fähigkeiten hinzufügen können.
  • Aggregationen: Normalerweise erstellen wir Gruppen, die auf bestimmten Merkmalen basieren und extrahieren einige statistische Merkmale, wie maximale, minimale, mittlere und Standardabweichungswerte.
  • Feature Engineering ist eine flexible und aufgabenorientierte Tätigkeit. Man kann versuchen, was auch immer vernünftig erscheint, und herausfinden, ob es funktioniert.

Fazit

In diesem Artikel haben wir das Konzept des Kreditausfallrisikos vorgestellt, verschiedene historisch angewandte Methoden skizziert und erläutert, welche Faktoren beim Aufbau eines erfolgreichen maschinellen Lernmodells berücksichtigt werden sollten. Im Anschluss konzentrierten wir uns auf drei Hauptmethoden, die in der heutigen Industrie weit verbreitet sind. Wir verglichen ihre Stärken und Schwächen um zu besprechen, wie man die am besten geeignete Methode für die verschiedensten Anforderungen wählt.

Referenzen

  1. Credit Risk Analysis Using Machine and Deep Learning Models
  2. Default Risk
  3. 风控模型师面试准备–技术篇
  4. LightGBM 7th Place Solution
  5. Home Credit Default Risk
  6. Machine Learning: Challenges, Lessons, and Opportunities in Credit Risk Modeling
  7. Consumer Credit Risk Models via Machine-Learning Algorithms
  8. Decision Tree
  9. AREA UNDER THE RECEIVER OPERATOR CURVE (AUC)
  10. Area Under the ROC Curve — Explained
  11. An Intro to Ensemble Learning in Machine Learning
  12. Chapter 4: Decision Trees Algorithms
  13. Logistic Regression

Abonnieren Sie unser Magazin!
Bleiben Sie auf dem Laufenden mit den neuesten Tipps und Nachrichten aus Data Science und IoT.