Lånerente og skyldigt beløb er et par vektorer gennem datasættet. En anden tre masker er binære flag (vektorer), som bruger 0 og 1 til at udtrykke måske de særlige betingelser er opfyldt for den post, der er sikker. Maske (predict, settled) er lavet af modellens forudsigelsesresultat: så er værdien 1, ellers er den 0. Masken er en funktion af tærsklen, fordi forudsigelsesresultaterne varierer, hvis modellen forudsiger, at lånet vil blive afviklet. Når det er sagt, er Mask (real, settled) og Mask (true, past due) et par modsatrettede vektorer: i tilfælde af, at real label vedrørende lånet er afviklet, så er din værdi i Mask (true, settled) 1, og omvendt. så kan indkomst være prikpunktet element af tre vektorer: skyldige renter, Mask (predict, settled) og Mask (real, settled). Udgifter kunne være punktummet af tre vektorer: lånemængde, Mask (predict, settled) og Mask (true, past due). De matematiske formler kan udtrykkes nedenfor: Ved at bruge indtægtstanken som den væsentlige forskel mellem omkostninger og indtægter bestemmes den virkelig på tværs af de fleste klassifikationstærskler. Resultaterne er plottet nedenfor i figur 8 for både Random Forest-modellen og XGBoost-modellen. Indtægten sker ændres i overensstemmelse med den sande brede vifte af lån, så dens værdi repræsenterer den indtægt, der skal fremstilles pr. kunde. så snart grænsen har nået 0, når modellen den absolutte mest indstilling, der er aggressiv, hvor alle lån skal afvikles. Det er virkelig grundlæggende den måde, klienten’s forretning eksekverer uden at have modellen: datasættet består bare af de lån, der blev givet. Det er virkelig klart, at indtægterne er under -1.200, hvilket betyder, at den fortsættende virksomhed taber kontanter med over 1.200 dollars pr. lån. i tilfælde af at grænsen er planlagt til 0, bliver modellen nok den mest konservative, hvor alle lån forventes at misligholde. I dette tilfælde vil der snart ikke blive udstedt nogen lån. Du vil hverken få ødelagt kontanter eller overskud, hvilket fører til en indtægt på 0. For at opnå den optimerede grænse, når det kommer til model, skal den yderste indtægt findes. De søde områder kan findes: Random Forest-modellen når den maksimale indtjening på 154,86 ved en tærskelværdi på 0,71, og XGBoost-modellen når den maksimale indtjening på 158,95 ved en tærskelværdi på 0,95 i begge modeller. Begge modeller har evnen til at omdanne tab til indtægter med stigninger på meget tæt på 1.400 dollars pr. person. Selv om XGBoost-modellen forbedrer indtægterne med ca. 4 dollars betydeligt mere end Random Forest-modellen gør, er dens model af profitkurven stejlere over toppen. Tærsklen kan justeres mellem 0,55 og 1 for at sikre en fortjeneste, men XGBoost-modellen har kun et interval på mellem 0,8 og 1 i Random Forest-modellen. Desuden giver den fladere form inden for Random Forest-modellen robusthed over for stort set alle ændringer i informationerne og kan forlænge modellens forventede varighed, før en opdatering af modellen er nødvendig. Derfor anbefales Random Forest-modellen at blive implementeret under grænsen på 0,71 for at optimere indtægterne med en præstation, der er relativt stabil. 4. KonklusionerDenne opgave er en gennemsnitlig klassifikation, der er binær, og som udnytter pantet og de individuelle oplysninger til at forudse, om kunden måske vil misligholde sit pant. Målet er at udnytte modellen som et instrument til at træffe valg om udstedelse af lånene. To klassifikatorer er lavet Tilfældig der er ved hjælp af Forest XGBoost. Begge modeller er i stand til at skifte tabet til fordel med over 1.400 dollars pr. lån. Random Forest-modellen anbefales at blive implementeret på grund af dens ydeevne, der er stabil og til fejltagelser.Forholdet mellem funktioner er nu blevet undersøgt for bedre funktionsteknik. Funktioner som for eksempel Tier og Selfie ID Check er observeret blive mulige forudsigere, der bestemmer status for lånet, og hver af disse er allerede blevet verificeret senere i kategorimodellerne, da de begge kan findes i listen, der er øverst af værdi. En stor del andre funktioner er meget mindre tydelige fra de funktioner, de spiller, der påvirker realkreditstatus, derfor er enhedslæringsmodeller designet for at lære sådanne iboende vaner. 6 klassifikation, der er almindelig anvendt som ansøgere, herunder KNN, Gaussian NaГЇve Bayes, Logistisk Regression, Lineær SVM, Random Forest og XGBoost. De dækker en række der er brede af familier, fra ikke-parametriske til probabilistiske, til parametriske, til træbaserede ensemble metoder. Random Forest-modellen og XGBoost-modellen giver den bedste præstation: den første model har en præcision på 0,7486 i testmængden, og sidstnævnte har en præcision på 0,7313 efter finjustering. den absolut vigtigste hovedopgave er at optimere de trænede modeller for at maksimere indtægterne. Klassifikationstærskler kan justeres for at ændre “strictness” af dette prognoseresultat: Med lavere tærskler er modellen mere aggressiv, hvilket gør det muligt at yde flere lån; med større tærskler bliver den mere konservativ og vil ikke yde lån, medmindre der er en høj sandsynlighed for, at lånene kan tilbagebetales. Forholdet mellem overskuddet og tærskelværdien er blevet fastlagt ved at bruge overskudsformlen som tabsfunktion. I begge modeller forekommer der “sweet spots”, som vil hjælpe virksomheden til at gå fra tab til overskud. Virksomheden er i stand til at give et overskud på 154,86 og 158,95 pr. kunde med henholdsvis Random Forest- og XGBoost-modellen, uden modellen er der et tab på mere end 1.200 kroner pr. lån, men efter implementeringen af klassifikationsmodellerne. Selv om det når et større overskud ved at gøre brug af XGBoost-modellen, foreslås Random Forest-modellen fortsat blive implementeret til fremstilling, da indtægtskurven er fladere over toppen, hvilket bringer robusthed over for fejl og stabilitet for ændringer. Som følge af denne grund, mindre vedligeholdelse og opdateringer kunne forventes i tilfælde af at Random Forest model er plumped for.The trin, der er næste opgaven er at implementere modellen og overvåge dens ydeevne, når nyere dokumenter er placeret.Ændringer vil sandsynligvis være nødvendig enten sæsonmæssigt eller når som helst ydelsen falder under standard kriterierne for at tillade for de ændringer bragt af de ydre facetter. Regelmæssigheden af model vedligeholdelse for denne ansøgning ikke at være høj forudsat mængden af tilbud indtag, hvis modellen skal anvendes i en detaljeret og måde, der er rettidig det er virkelig ikke svært at omdanne denne opgave i en on-line læring pipeline, der vil sikre, at modellen bliver altid så meget som dato.
Lån rente og beløb skyldes er et par af vektorer gennem datasættet. En anden tre masker er binære flag (vektorer), som bruger 0 og 1 til at udtrykke måske de særlige betingelser er opfyldt for den post, der er sikker. Maske (predict, settled) er lavet af modellens forudsigelsesresultat: så er værdien 1, ellers er den 0. Masken er en funktion af tærsklen, fordi forudsigelsesresultaterne varierer, hvis modellen forudsiger, at lånet vil blive afviklet. Når det er sagt, er Mask (real, settled) og Mask (true, past due) et par modsatrettede vektorer: i tilfælde af, at real label vedrørende lånet er afviklet, så er din værdi i Mask (true, settled) 1, og omvendt. så kan indkomst være prikpunktet element af tre vektorer: skyldige renter, Mask (predict, settled) og Mask (real, settled). Udgifter kunne være punktummet af tre vektorer: lånemængde, Mask (predict, settled) og Mask (true, past due). De matematiske formler kan udtrykkes nedenfor: Ved at bruge indtægtstanken som den væsentlige forskel mellem omkostninger og indtægter bestemmes den virkelig på tværs af de fleste klassifikationstærskler. Resultaterne er plottet nedenfor i figur 8 for både Random Forest-modellen og XGBoost-modellen. Indtægten sker ændres i overensstemmelse med den sande brede vifte af lån, så dens værdi repræsenterer den indtægt, der skal fremstilles pr. kunde. så snart grænsen har nået 0, når modellen den absolutte mest indstilling, der er aggressiv, hvor alle lån skal afvikles. Det er virkelig grundlæggende den måde, klienten’s forretning eksekverer uden at have modellen: datasættet består bare af de lån, der blev givet. Det er virkelig klart, at indtægterne er under -1.200, hvilket betyder, at den fortsættende virksomhed taber kontanter med over 1.200 dollars pr. lån. i tilfælde af at grænsen er planlagt til 0, bliver modellen nok den mest konservative, hvor alle lån forventes at misligholde. I dette tilfælde vil der snart ikke blive udstedt nogen lån. Du vil hverken få ødelagt kontanter eller overskud, hvilket fører til en indtægt på 0. For at opnå den optimerede grænse, når det kommer til model, skal den yderste indtægt findes. De søde områder kan findes: Random Forest-modellen når den maksimale indtjening på 154,86 ved en tærskelværdi på 0,71, og XGBoost-modellen når den maksimale indtjening på 158,95 ved en tærskelværdi på 0,95 i begge modeller. Begge modeller har evnen til at omdanne tab til indtægter med stigninger på meget tæt på 1.400 dollars pr. person. Selv om XGBoost-modellen forbedrer indtægterne med ca. 4 dollars betydeligt mere end Random Forest-modellen gør, er dens model af profitkurven stejlere over toppen. Tærsklen kan justeres mellem 0,55 og 1 for at sikre en fortjeneste, men XGBoost-modellen har kun et interval på mellem 0,8 og 1 i Random Forest-modellen. Desuden giver den fladere form inden for Random Forest-modellen robusthed over for stort set alle ændringer i informationerne og kan forlænge modellens forventede varighed, før en opdatering af modellen er nødvendig. Derfor anbefales Random Forest-modellen at blive implementeret under grænsen på 0,71 for at optimere indtægterne med en præstation, der er relativt stabil. 4. KonklusionerDenne opgave er en gennemsnitlig klassifikation, der er binær, og som udnytter pantet og de individuelle oplysninger til at forudse, om kunden måske vil misligholde sit pant. Målet er at udnytte modellen som et instrument til at træffe valg om udstedelse af lånene. To klassifikatorer er lavet Tilfældig der er ved hjælp af Forest XGBoost. Begge modeller er i stand til at skifte tabet til fordel med over 1.400 dollars pr. lån. Random Forest-modellen anbefales at blive implementeret på grund af dens ydeevne, der er stabil og til fejltagelser.Forholdet mellem funktioner er nu blevet undersøgt for bedre funktionsteknik. Funktioner som for eksempel Tier og Selfie ID Check er observeret blive mulige forudsigere, der bestemmer status for lånet, og hver af disse er allerede blevet verificeret senere i kategorimodellerne, da de begge kan findes i listen, der er øverst af værdi. En stor del andre funktioner er meget mindre tydelige fra de funktioner, de spiller, der påvirker realkreditstatus, derfor er enhedslæringsmodeller designet for at lære sådanne iboende vaner. 6 klassifikation, der er almindelig anvendt som ansøgere, herunder KNN, Gaussian NaГЇve Bayes, Logistic Regression, Linear SVM, Random Forest og XGBoost. De dækker en række der er brede af familier, fra ikke-parametriske til probabilistiske, til parametriske, til træbaserede ensemble metoder. Random Forest-modellen og XGBoost-modellen giver den bedste præstation: den første model har en præcision på 0,7486 i testmængden, og sidstnævnte har en præcision på 0,7313 efter finjustering. den absolut vigtigste hovedopgave er at optimere de trænede modeller for at maksimere indtægterne. Klassifikationstærskler kan justeres for at ændre “strictness” af dette prognoseresultat: Med lavere tærskler er modellen mere aggressiv, hvilket gør det muligt at yde flere lån; med større tærskler bliver den mere konservativ og vil ikke yde lån, medmindre der er en høj sandsynlighed for, at lånene kan tilbagebetales. Forholdet mellem overskuddet og tærskelværdien er blevet fastlagt ved at bruge overskudsformlen som tabsfunktion. I begge modeller forekommer der “sweet spots”, som vil hjælpe virksomheden til at gå fra tab til overskud. Virksomheden er i stand til at give et overskud på 154,86 og 158,95 pr. kunde med henholdsvis Random Forest- og XGBoost-modellen, uden modellen er der et tab på mere end 1.200 kroner pr. lån, men efter implementeringen af klassifikationsmodellerne. Selv om det når et større overskud ved at gøre brug af XGBoost-modellen, foreslås Random Forest-modellen fortsat blive implementeret til fremstilling, da indtægtskurven er fladere på tværs af toppen, hvilket bringer robusthed over for fejl og stabilitet for ændringer. Som følge af denne grund, mindre vedligeholdelse og opdateringer kunne forventes i tilfælde af at Random Forest model er plumped for.The trin, der er næste opgaven er at implementere modellen og overvåge dens ydeevne, når nyere dokumenter er placeret.Ændringer vil sandsynligvis være nødvendig enten sæsonmæssigt eller når som helst ydelsen falder under standard kriterierne for at tillade for de ændringer bragt af de ydre facetter. Regelmæssigheden af model vedligeholdelse for denne ansøgning ikke at være høj forudsat mængden af tilbud indtag, hvis modellen skal anvendes i en detaljeret og måde, der er rettidig det er virkelig ikke svært at omdanne denne opgave i en on-line læring pipeline, der vil sikre, at modellen bliver altid så meget som dato.