Låneränta och förfallet belopp är ett par vektorer genom datasetet. En annan tre masker är binära flaggor (vektorer) som använder 0 och 1 för att uttrycka kanske de särskilda villkoren är uppfyllda för posten som är säker. Masken (predict, settled) består av modellens prognosresultat: då är värdet 1, annars är det 0. Masken är en funktion av tröskelvärdet eftersom prognosresultaten varierar om modellen förutspår att lånet kommer att regleras. Med detta sagt är Mask (real, settled) och Mask (true, past due) ett par motsatta vektorer: i händelse av att verklig etikett avseende lånet avvecklas är ditt värde i Mask (true, settled) 1, och tvärtom. då kan intäkterna vara punktmomentet av tre vektorer: ränta som ska betalas, Mask (predict, settled), och Mask (real, settled). Utgifter skulle kunna vara punktelementet av tre vektorer: lånemängd, Mask (predict, settled) och Mask (true, past due). De matematiska formlerna kan uttryckas nedan: Med hjälp av intäktstanken som den väsentliga skillnaden mellan kostnad och intäkt bestäms den verkligen över de flesta av klassificeringströsklarna. Resultaten visas nedan i figur 8 för både Random Forest-modellen och XGBoost-modellen. Intäkten råkar modifieras i linje med det verkliga breda utbudet av lån, så dess värde representerar den intäkt som ska tillverkas per kund. så snart gränsen har nått 0 når modellen den absolut högsta inställningen som är aggressiv där alla lån måste regleras. Det är verkligen i princip så som klienten’s verksamhet utförs utan modellen: datasetet består bara av de lån som gavs. Det är verkligen tydligt att intäkterna ligger under -1 200, vilket innebär att det fortsatta företaget förlorar pengar med över 1 200 dollar per lån. i händelse av att gränsen planeras till 0 blir modellen troligen den mest konservativa, där alla lån förväntas bli utelämnade. I detta fall kommer inga lån snart att utfärdas. Du kommer varken att ha förstörda kontanter eller några vinster, vilket leder till en intäkt på 0. För att få den optimerade gränsen när det gäller modellen måste den yttersta intäkten hittas. Det är möjligt att hitta de bästa områdena: Random Forest-modellen når den maximala vinsten på 154,86 vid en tröskel på 0,71 och XGBoost-modellen når den maximala vinsten på 158,95 vid en tröskel på 0,95 i båda modellerna. Båda modellerna har förmågan att omvandla förluster till intäkter med ökningar på mycket nära 1 400 dollar per individ. Även om XGBoost-modellen förbättrar intäkterna med cirka 4 dollar betydligt mer än vad Random Forest-modellen gör, är dess modell av vinstkurvan brantare över toppen. Tröskelvärdet kan justeras mellan 0,55 och 1 för att säkerställa en vinst, men XGBoost-modellen har bara ett intervall mellan 0,8 och 1 i Random Forest-modellen. Dessutom ger den platta formen inom Random Forest-modellen robusthet mot praktiskt taget alla förändringar i informationen och kan förlänga modellens förväntade varaktighet innan någon modelluppdatering är nödvändig. Följaktligen rekommenderas Random Forest-modellen att implementeras under gränsen 0,71 för att optimera intäkterna med en prestanda som är relativt stabil. 4. SlutsatserDenna uppgift är en genomsnittlig klassificering som är binär, som utnyttjar inteckningen och den individuella informationen för att förutse om kunden kanske inte kommer att betala sitt inteckningslån. Målet är att utnyttja modellen som ett instrument för att göra val vid utfärdandet av lånen. Två klassificerare görs Random som använder Forest XGBoost. Båda modellerna kan växla förlust till vinst med över 1 400 dollar per lån. Random Forest-modellen rekommenderas bli implementerad på grund av dess prestanda som är stabil och att misstag. relationerna mellan funktioner har nu undersökts för bättre funktionsteknik. Funktioner som till exempel Tier och Selfie ID Check observeras bli möjliga prediktorer som bestämmer statusen för lånet, och var och en av dessa har redan verifierats senare i kategorimodellerna eftersom de båda kan hittas i listan som är högst av värde. Ett stort antal andra funktioner är mycket mindre uppenbara från de funktioner de spelar som påverkar bolånestatusen, därför är enhetens inlärningsmodeller utformade för att lära sig sådana inneboende vanor. 6 klassificering som är vanliga används som sökande, inklusive KNN, Gaussian NaГЇve Bayes, Logistic Regression, Linear SVM, Random Forest, och XGBoost. De täcker en mängd som är bred av familjer, från icke-parametriska till probabilistiska, till parametriska, till trädbaserade ensemblemetoder. Random Forest-modellen och XGBoost-modellen ger den bästa prestandan: den förra har en precision på 0,7486 i testuppsättningen och den senare har en precision på 0,7313 efter finjustering.Den absolut viktigaste huvuduppgiften är att optimera de tränade modellerna för att maximera intäkterna. Klassificeringströsklarna är justerbara för att ändra “strictness” av detta prognosresultat: Med lägre tröskelvärden är modellen mer aggressiv, vilket gör att fler lån beviljas; med högre tröskelvärden blir den mer konservativ och kommer inte att bevilja lån om det inte finns en hög sannolikhet för att lånen kan återbetalas. Förhållandet mellan vinsten och tröskelnivån har fastställts genom att använda vinstformeln som förlustfunktion. I båda modellerna finns det ”sweet spots” som hjälper företaget att gå från förlust till vinst. Företaget kan ge en vinst på 154,86 och 158,95 per kund med Random Forest- respektive XGBoost-modellen, respektive utan modellen uppstår en förlust på mer än 1 200 dollar per lån, men efter att klassificeringsmodellerna genomförts. Även om det når en större vinst med hjälp av XGBoost-modellen, fortsätter Random Forest-modellen att föreslås bli implementerad för tillverkning eftersom intäktskurvan är plattare över toppen, vilket ger robusthet mot misstag och stadga för förändringar. Som ett resultat av denna anledning, mindre underhåll och uppdateringar kan förväntas i händelse av att Random Forest-modellen är plumped for.The steg som är nästa uppgiften är att distribuera modellen och övervaka dess prestanda när nyare dokument är lokaliserade.Changes kommer sannolikt att behövas antingen säsongsmässigt eller närhelst prestandan faller under standardkriterierna för att möjliggöra för de ändringar som förts av de yttre facetter. Regelbundenheten av modell underhåll för denna ansökan inte att vara hög förutsatt mängden erbjudanden intag, om modellen måste användas i en detaljerad och sätt som är i tid är det verkligen inte svårt att omvandla denna uppgift till en on-line lärande pipeline som kommer att se till att modellen blir alltid så mycket som datum.
Lånet ränta och belopp förfallna är ett par vektorer genom datasetet. En annan tre masker är binära flaggor (vektorer) som använder 0 och 1 för att uttrycka kanske de särskilda villkoren är uppfyllda för posten som är säker. Masken (predict, settled) består av modellens prognosresultat: då är värdet 1, annars är det 0. Masken är en funktion av tröskelvärdet eftersom prognosresultaten varierar om modellen förutspår att lånet kommer att regleras. Med detta sagt är Mask (real, settled) och Mask (true, past due) ett par motsatta vektorer: i händelse av att verklig etikett avseende lånet avvecklas är ditt värde i Mask (true, settled) 1, och tvärtom. då kan intäkterna vara punktmomentet av tre vektorer: ränta som ska betalas, Mask (predict, settled), och Mask (real, settled). Utgifter skulle kunna vara punktelementet av tre vektorer: lånemängd, Mask (predict, settled) och Mask (true, past due). De matematiska formlerna kan uttryckas nedan: Med hjälp av intäktstanken som den väsentliga skillnaden mellan kostnad och intäkt bestäms den verkligen över de flesta av klassificeringströsklarna. Resultaten visas nedan i figur 8 för både Random Forest-modellen och XGBoost-modellen. Intäkten råkar modifieras i linje med det verkliga breda utbudet av lån, så dess värde representerar den intäkt som ska tillverkas per kund. så snart gränsen har nått 0 når modellen den absolut högsta inställningen som är aggressiv där alla lån måste regleras. Det är verkligen i princip så som klienten’s verksamhet utförs utan modellen: datasetet består bara av de lån som gavs. Det är verkligen tydligt att intäkterna ligger under -1 200, vilket innebär att det fortsatta företaget förlorar pengar med över 1 200 dollar per lån. i händelse av att gränsen planeras till 0 blir modellen troligen den mest konservativa, där alla lån förväntas bli utelämnade. I detta fall kommer inga lån snart att utfärdas. Du kommer varken att ha förstörda kontanter eller några vinster, vilket leder till en intäkt på 0. För att få den optimerade gränsen när det gäller modellen måste den yttersta intäkten hittas. Det är möjligt att hitta de bästa områdena: Random Forest-modellen når den maximala vinsten på 154,86 vid en tröskel på 0,71 och XGBoost-modellen når den maximala vinsten på 158,95 vid en tröskel på 0,95 i båda modellerna. Båda modellerna har förmågan att omvandla förluster till intäkter med ökningar på mycket nära 1 400 dollar per individ. Även om XGBoost-modellen förbättrar intäkterna med cirka 4 dollar betydligt mer än vad Random Forest-modellen gör, är dess modell av vinstkurvan brantare över toppen. Tröskelvärdet kan justeras mellan 0,55 och 1 för att säkerställa en vinst, men XGBoost-modellen har bara ett intervall mellan 0,8 och 1 i Random Forest-modellen. Dessutom ger den platta formen inom Random Forest-modellen robusthet mot praktiskt taget alla förändringar i informationen och kan förlänga modellens förväntade varaktighet innan någon modelluppdatering är nödvändig. Följaktligen rekommenderas Random Forest-modellen att implementeras under gränsen 0,71 för att optimera intäkterna med en prestanda som är relativt stabil. 4. SlutsatserDenna uppgift är en genomsnittlig klassificering som är binär, som utnyttjar inteckningen och den individuella informationen för att förutse om kunden kanske inte kommer att betala sitt inteckningslån. Målet är att utnyttja modellen som ett instrument för att göra val vid utfärdandet av lånen. Två klassificerare görs Random som använder Forest XGBoost. Båda modellerna kan växla förlust till vinst med över 1 400 dollar per lån. Random Forest-modellen rekommenderas bli implementerad på grund av dess prestanda som är stabil och att misstag. relationerna mellan funktioner har nu undersökts för bättre funktionsteknik. Funktioner som till exempel Tier och Selfie ID Check observeras bli möjliga prediktorer som bestämmer statusen för lånet, och var och en av dessa har redan verifierats senare i kategorimodellerna eftersom de båda kan hittas i listan som är högst av värde. Ett stort antal andra funktioner är mycket mindre uppenbara från de funktioner de spelar som påverkar bolånestatusen, därför är enhetens inlärningsmodeller utformade för att lära sig sådana inneboende vanor. 6 klassificering som är vanliga används som sökande, inklusive KNN, Gaussian NaГЇve Bayes, Logistic Regression, Linear SVM, Random Forest, och XGBoost. De täcker en mängd som är bred av familjer, från icke-parametriska till probabilistiska, till parametriska, till trädbaserade ensemblemetoder. Random Forest-modellen och XGBoost-modellen ger den bästa prestandan: den förra har en precision på 0,7486 i testuppsättningen och den senare har en precision på 0,7313 efter finjustering.Den absolut viktigaste huvuduppgiften är att optimera de tränade modellerna för att maximera intäkterna. Klassificeringströsklarna är justerbara för att ändra “strictness” av detta prognosresultat: Med lägre tröskelvärden är modellen mer aggressiv, vilket gör att fler lån beviljas; med högre tröskelvärden blir den mer konservativ och kommer inte att bevilja lån om det inte finns en hög sannolikhet för att lånen kan återbetalas. Förhållandet mellan vinsten och tröskelnivån har fastställts genom att använda vinstformeln som förlustfunktion. I båda modellerna finns det ”sweet spots” som hjälper företaget att gå från förlust till vinst. Företaget kan ge en vinst på 154,86 och 158,95 per kund med Random Forest- respektive XGBoost-modellen, respektive utan modellen uppstår en förlust på mer än 1 200 dollar per lån, men efter att klassificeringsmodellerna genomförts. Även om det når en större vinst med hjälp av XGBoost-modellen, fortsätter Random Forest-modellen att föreslås bli implementerad för tillverkning eftersom intäktskurvan är plattare över toppen, vilket ger robusthet mot misstag och stadga för förändringar. Som ett resultat av denna anledning, mindre underhåll och uppdateringar kan förväntas i händelse av att Random Forest-modellen är plumped for.The steg som är nästa uppgiften är att distribuera modellen och övervaka dess prestanda när nyare dokument är lokaliserade.Changes kommer sannolikt att behövas antingen säsongsmässigt eller närhelst prestandan faller under standardkriterierna för att möjliggöra för de ändringar som förts av de yttre facetter. Regelbundenheten i modellunderhållet för den här applikationen behöver inte vara hög med tanke på mängden inkommande erbjudanden, om modellen måste användas på ett detaljerat sätt och i rätt tid är det verkligen inte svårt att omvandla den här uppgiften till en on-line inlärningspipeline som kommer att se till att modellen alltid blir uppdaterad.