Die Kreditzinsen und der fällige Betrag sind ein paar Vektoren im Datensatz. Eine andere drei Masken sind binäre Flags (Vektoren), die 0 und 1 verwenden, um auszudrücken, vielleicht die besonderen Bedingungen für den Datensatz erfüllt sind, die sicher ist. Die Maske (predict, settled) besteht aus dem Ergebnis der Modellprognose: der Wert ist 1, andernfalls ist er 0. Die Maske ist eine Funktion des Schwellenwerts, da die Prognoseergebnisse variieren, wenn das Modell vorhersagt, dass der Kredit abgerechnet wird. Abgesehen davon sind Maske (real, abgerechnet) und Maske (wahr, überfällig) zwei gegensätzliche Vektoren: Wenn das reale Etikett des Kredits abgerechnet wird, ist der Wert in Maske (wahr, abgerechnet) 1, und umgekehrt. Die Ausgaben könnten der Punkt von drei Vektoren sein: Darlehensmenge, Maske (vorausgesagt, abgerechnet) und Maske (wahr, überfällig). Die mathematischen Formeln können wie folgt ausgedrückt werden: Wenn man die Einnahmen als den wesentlichen Unterschied zwischen Kosten und Einnahmen betrachtet, werden sie über die meisten Klassifizierungsschwellen hinweg bestimmt. Die Ergebnisse sind unten in Abbildung 8 sowohl für das Random Forest Modell als auch für das XGBoost Modell dargestellt. Sobald der Grenzwert 0 erreicht hat, erreicht das Modell die absolut aggressivste Einstellung, bei der alle Kredite abgewickelt werden müssen. Das ist im Grunde die Art und Weise, wie das Geschäft des Kunden ohne das Modell abläuft: Der Datensatz besteht nur aus den vergebenen Krediten. Es ist klar, dass die Einnahmen unter -1.200 liegen, was bedeutet, dass das Unternehmen pro Kredit einen Verlust von über 1.200 Dollar erleidet, wenn der Grenzwert auf 0 gesetzt wird. In diesem Fall werden bald keine Kredite mehr vergeben. Es wird weder Bargeld vernichtet, noch werden Gewinne erzielt, was zu einem Ertrag von 0 führt.Um die optimale Grenze für das Modell zu erhalten, muss der höchstmögliche Ertrag gefunden werden. Die Sweet Spots können gefunden werden: Das Random Forest Modell erreicht den maximalen Gewinn von 154,86 bei einem Schwellenwert von 0,71 und das XGBoost Modell erreicht den maximalen Gewinn von 158,95 bei einem Schwellenwert von 0,95 in beiden Modellen. Beide Modelle sind in der Lage, Verluste in Einnahmen umzuwandeln, mit Steigerungen von fast 1.400 Dollar pro Person. Obwohl das XGBoost-Modell die Einnahmen um etwa 4 Dollar deutlich mehr verbessert als das Random-Forest-Modell, ist sein Modell der Gewinnkurve nach oben hin steiler. Der Schwellenwert kann zwischen 0,55 und 1 eingestellt werden, um einen Gewinn zu gewährleisten, aber das XGBoost-Modell hat nur einen Bereich zwischen 0,8 und 1 im Random Forest-Modell. Darüber hinaus bietet die abgeflachte Form des Random-Forest-Modells Robustheit gegenüber praktisch allen Informationsänderungen und kann die voraussichtliche Dauer des Modells verlängern, bevor eine Aktualisierung des Modells erforderlich ist. Folglich wird empfohlen, das Random-Forest-Modell während der Grenze von 0,71 zu implementieren, um die Einnahmen mit einer relativ stabilen Leistung zu optimieren.4. SchlussfolgerungenDiese Aufgabe ist eine durchschnittliche Klassifizierung, die binär ist, die die Hypothek und individuelle Informationen nutzt, um zu antizipieren, ob der Kunde die Hypothek ausfallen wird. Ziel ist es, das Modell als Instrument zu nutzen, um Entscheidungen über die Vergabe von Krediten zu treffen. Es werden zwei Klassifizierer nach dem Zufallsprinzip erstellt, die Forest XGBoost verwenden. Beide Modelle sind in der Lage, den Verlust in einen Gewinn von über 1.400 Dollar pro Kredit umzuwandeln. Das Random Forest-Modell wird empfohlen, weil seine Leistung, die stabil ist und zu Fehlern.Die Beziehungen zwischen den Merkmalen wurden nun für eine bessere Feature-Engineering untersucht werden. Features wie zum Beispiel Tier und Selfie ID Check beobachtet werden mögliche Prädiktoren, die den Status für das Darlehen zu bestimmen, und jeder von denen haben bereits später in der Kategorie Modelle überprüft worden, da sie beide in der Liste, die oben von Wert ist zu finden. Eine große Anzahl anderer Merkmale sind viel weniger offensichtlich von den Funktionen, die sie spielen, dass die Hypothek Status beeinflussen, daher Gerät Lernmodelle sind entworfen, um solche intrinsischen habits.You finden 6 Klassifizierung, die häufig als Antragsteller verwendet wird, einschließlich KNN, Gaussian NaГЇve Bayes, Logistische Regression, Linear SVM, Random Forest, und XGBoost zu lernen. Sie decken eine Vielzahl von Familien ab, von nichtparametrischen über probabilistische und parametrische bis hin zu baumbasierten Ensemble-Methoden. Das Random-Forest- und das XGBoost-Modell liefern dabei die beste Leistung: das erstgenannte hat eine Genauigkeit von 0,7486 im Testsatz und das letztgenannte eine Genauigkeit von 0,7313 nach der Feinabstimmung.Die wichtigste Aufgabe besteht darin, die trainierten Modelle zu optimieren, um den Ertrag zu maximieren. Die Klassifizierungsschwellen sind einstellbar, um die Strenge der Vorhersageergebnisse zu verändern: Bei niedrigeren Schwellenwerten ist das Modell aggressiver, so dass mehr Kredite vergeben werden; bei höheren Schwellenwerten wird es konservativer und vergibt die Kredite nur dann, wenn die Wahrscheinlichkeit hoch ist, dass die Kredite zurückgezahlt werden können. Die Beziehung zwischen dem Gewinn und dem Schwellenwert wurde mit Hilfe der Gewinnformel als Verlustfunktion ermittelt. Bei beiden Modellen gibt es „Sweet Spots“, die dem Unternehmen helfen, vom Verlust zum Gewinn zu kommen. Das Unternehmen ist in der Lage, mit dem Random Forest- und dem XGBoost-Modell einen Gewinn von 154,86 bzw. 158,95 pro Kunde zu erzielen. Obwohl mit dem XGBoost-Modell ein größerer Gewinn erzielt wird, wird das Random-Forest-Modell weiterhin für die Produktion empfohlen, da die Ertragskurve oben flacher verläuft, was eine größere Robustheit gegenüber Fehlern und eine größere Beständigkeit gegenüber Veränderungen mit sich bringt. Die Schritte, die der Aufgabe folgen, sind die Bereitstellung des Modells und die Überwachung seiner Leistung, wenn neuere Dokumente gefunden werden. Änderungen werden wahrscheinlich entweder saisonal oder immer dann erforderlich sein, wenn die Leistung unter die Standardkriterien fällt, um den Änderungen Rechnung zu tragen, die durch die äußeren Faktoren verursacht werden. Die Regelmäßigkeit der Modellpflege für diese Anwendung nicht hoch sein, sofern die Menge der Geschäfte Aufnahme, wenn das Modell in einem detaillierten und Art und Weise, die zeitnah ist es wirklich nicht schwer, diese Aufgabe in eine Online-Learning-Pipeline, die sicherstellen, dass das Modell immer so viel wie date.
Loan Zinsen und fälligen Betrag sind ein paar Vektoren durch den Datensatz verwendet werden. Eine andere drei Masken sind binäre Flags (Vektoren), die 0 und 1 verwenden, um vielleicht die besonderen Bedingungen für die Aufzeichnung, die sicher ist erfüllt sind auszudrücken. Die Maske (predict, settled) besteht aus dem Ergebnis der Modellprognose: Der Wert ist 1, andernfalls 0. Die Maske ist eine Funktion des Schwellenwerts, da die Prognoseergebnisse variieren, wenn das Modell vorhersagt, dass der Kredit abgerechnet wird. Abgesehen davon sind Maske (real, abgerechnet) und Maske (wahr, überfällig) zwei gegensätzliche Vektoren: Wenn das reale Etikett des Kredits abgerechnet wird, ist der Wert in Maske (wahr, abgerechnet) 1, und umgekehrt. Die Ausgaben könnten der Punkt von drei Vektoren sein: Darlehensmenge, Maske (vorausgesagt, abgerechnet) und Maske (wahr, überfällig). Die mathematischen Formeln können wie folgt ausgedrückt werden: Wenn man die Einnahmen als den wesentlichen Unterschied zwischen Kosten und Einnahmen betrachtet, werden sie über die meisten Klassifizierungsschwellen hinweg bestimmt. Die Ergebnisse sind unten in Abbildung 8 sowohl für das Random Forest Modell als auch für das XGBoost Modell dargestellt. Sobald der Grenzwert 0 erreicht hat, erreicht das Modell die absolut aggressivste Einstellung, bei der alle Kredite abgewickelt werden müssen. Das ist im Grunde die Art und Weise, wie das Geschäft des Kunden ohne das Modell abläuft: Der Datensatz besteht nur aus den vergebenen Krediten. Es ist klar, dass die Einnahmen unter -1.200 liegen, was bedeutet, dass das Unternehmen pro Kredit einen Verlust von über 1.200 Dollar erleidet, wenn der Grenzwert auf 0 gesetzt wird. In diesem Fall werden bald keine Kredite mehr vergeben. Es wird weder Bargeld vernichtet, noch werden Gewinne erzielt, was zu einem Ertrag von 0 führt.Um die optimale Grenze für das Modell zu erhalten, muss der höchste Ertrag gefunden werden. Die Sweet Spots können gefunden werden: Das Random Forest Modell erreicht den maximalen Gewinn von 154,86 bei einem Schwellenwert von 0,71 und das XGBoost Modell erreicht den maximalen Gewinn von 158,95 bei einem Schwellenwert von 0,95 in beiden Modellen. Beide Modelle sind in der Lage, Verluste in Einnahmen umzuwandeln, mit Steigerungen von fast 1.400 Dollar pro Person. Obwohl das XGBoost-Modell die Einnahmen um etwa 4 Dollar deutlich mehr verbessert als das Random-Forest-Modell, ist sein Modell der Gewinnkurve nach oben hin steiler. Der Schwellenwert kann zwischen 0,55 und 1 eingestellt werden, um einen Gewinn zu gewährleisten, aber das XGBoost-Modell hat nur einen Bereich zwischen 0,8 und 1 im Random Forest-Modell. Darüber hinaus bietet die abgeflachte Form des Random-Forest-Modells Robustheit gegenüber praktisch allen Informationsänderungen und kann die voraussichtliche Dauer des Modells verlängern, bevor eine Aktualisierung des Modells erforderlich ist. Folglich wird empfohlen, das Random-Forest-Modell während der Grenze von 0,71 zu implementieren, um die Einnahmen mit einer relativ stabilen Leistung zu optimieren.4. SchlussfolgerungenDiese Aufgabe ist eine durchschnittliche Klassifizierung, die binär ist, die die Hypothek und individuelle Informationen nutzt, um zu antizipieren, ob der Kunde die Hypothek ausfallen wird. Ziel ist es, das Modell als Instrument zu nutzen, um Entscheidungen über die Vergabe von Krediten zu treffen. Es werden zwei Klassifizierer nach dem Zufallsprinzip erstellt, die Forest XGBoost verwenden. Beide Modelle sind in der Lage, den Verlust in einen Gewinn von über 1.400 Dollar pro Kredit umzuwandeln. Das Random Forest Modell wird empfohlen, weil seine Leistung, die stabil ist und zu Fehlern.Die Beziehungen zwischen den Merkmalen wurden nun für eine bessere Funktion Engineering untersucht. Features wie zum Beispiel Tier und Selfie ID Check beobachtet werden mögliche Prädiktoren, die den Status für das Darlehen zu bestimmen, und jeder von denen haben bereits später in der Kategorie Modelle überprüft worden, da sie beide in der Liste, die oben von Wert ist zu finden. Eine große Anzahl anderer Merkmale sind viel weniger offensichtlich von den Funktionen, die sie spielen, dass die Hypothek Status beeinflussen, daher Gerät Lernmodelle sind entworfen, um solche intrinsischen habits.You finden 6 Klassifizierung, die häufig als Antragsteller verwendet wird, einschließlich KNN, Gaussian NaГЇve Bayes, Logistische Regression, Linear SVM, Random Forest, und XGBoost zu lernen. Sie decken eine breite Palette von Familien ab, von nichtparametrischen über probabilistische und parametrische bis hin zu baumbasierten Ensemble-Methoden. Das Random-Forest- und das XGBoost-Modell liefern dabei die beste Leistung: das erstgenannte hat eine Genauigkeit von 0,7486 im Testsatz und das letztgenannte eine Genauigkeit von 0,7313 nach der Feinabstimmung.Die wichtigste Aufgabe besteht darin, die trainierten Modelle zu optimieren, um den Ertrag zu maximieren. Die Klassifizierungsschwellen sind einstellbar, um die Strenge der Vorhersageergebnisse zu verändern: Bei niedrigeren Schwellenwerten ist das Modell aggressiver, so dass mehr Kredite vergeben werden; bei höheren Schwellenwerten wird es konservativer und vergibt die Kredite nur dann, wenn die Wahrscheinlichkeit hoch ist, dass die Kredite zurückgezahlt werden können. Die Beziehung zwischen dem Gewinn und dem Schwellenwert wurde mit Hilfe der Gewinnformel als Verlustfunktion bestimmt. Bei beiden Modellen gibt es „Sweet Spots“, die dem Unternehmen helfen, vom Verlust zum Gewinn zu kommen. Das Unternehmen ist in der Lage, mit dem Random Forest- und dem XGBoost-Modell einen Gewinn von 154,86 bzw. 158,95 pro Kunde zu erzielen. Obwohl mit dem XGBoost-Modell ein größerer Gewinn erzielt wird, wird das Random-Forest-Modell weiterhin für die Produktion empfohlen, da die Ertragskurve oben flacher verläuft, was eine größere Robustheit gegenüber Fehlern und eine größere Beständigkeit gegenüber Veränderungen mit sich bringt. Die Schritte, die der Aufgabe folgen, sind die Bereitstellung des Modells und die Überwachung seiner Leistung, wenn neuere Dokumente gefunden werden. Änderungen werden wahrscheinlich entweder saisonal oder immer dann erforderlich sein, wenn die Leistung unter die Standardkriterien fällt, um den Änderungen Rechnung zu tragen, die durch die äußeren Faktoren verursacht werden. Die Regelmäßigkeit der Modellpflege für diese Anwendung nicht zu hoch sein, sofern die Menge der Angebote Eingang, wenn das Modell in einem detaillierten und Art und Weise, die rechtzeitig verwendet werden muss, ist es wirklich nicht schwer, diese Aufgabe in eine Online-Learning-Pipeline, die sicherstellen, dass das Modell immer so viel wie Datum zu verwandeln wird.