Lainan korko ja erääntynyt summa ovat pari vektoria läpi datasetin. Yksi kolme muuta maskia ovat binäärilippuja (vektoreita), jotka käyttävät 0 ja 1 ilmaisemaan ehkä tietyt ehdot täyttyvät tietueelle, joka on tietty. Maski (predict, settled) muodostuu mallin ennustetuloksesta: silloin arvo on 1, muussa tapauksessa se on 0. Maski on kynnysarvon funktio, koska ennustetulokset vaihtelevat, jos malli ennustaa lainan olevan maksettu. Tämän sanottuaan Mask (real, settled) ja Mask (true, past due) ovat pari vastakkaista vektoria: siinä tapauksessa, että lainaa koskeva real label on maksettu, niin Maskin (true, settled) arvo on 1, ja päinvastoin.Silloin tulot voivat olla kolmen vektorin piste-erä: erääntyneet korot, Mask (predict, settled) ja Mask (real, settled). Kulut voisivat olla kolmen vektorin piste-erä: lainamäärä, Mask (predict, settled) ja Mask (true, past due). Matemaattiset kaavat voidaan ilmaista seuraavasti: Käyttämällä tuloajattelua kustannusten ja tulojen välisenä olennaisena erona, se todella määritetään useimmissa luokittelukynnyksissä. Tulokset on esitetty alla kuvassa 8 sekä Random Forest -mallin että XGBoost-mallin osalta. Tuloja muutetaan lainojen todellisen laajan vaihteluvälin mukaisesti, joten sen arvo edustaa asiakaskohtaisesti valmistettavia tuloja.Heti kun raja on saavuttanut arvon 0, malli saavuttaa absoluuttisesti suurimman mahdollisen asetuksen, joka on aggressiivinen ja jossa kaikki lainat on maksettava. Se todella on pohjimmiltaan tapa, jolla asiakas’s liiketoiminta suoritetaan ilman mallia: tietokokonaisuus koostuu vain lainoista, jotka on annettu. On todella selvää, että tulot ovat alle -1 200, mikä tarkoittaa, että jatkuva yritys menettää käteistä yli 1 200 taalaa per laina. siinä tapauksessa, että raja on ajoitettu 0, malli tulee luultavasti kaikkein konservatiivisin, jossa kaikki lainat odotetaan laiminlyödä. Tällöin lainoja ei pian myönnetä. Käteisvaroja ei tuhoutu eikä voittoja synny, jolloin tulot ovat 0. Optimaalisen rajan saamiseksi, kun kyseessä on malli, on löydettävä suurimmat mahdolliset tulot. Makeat kohdat voidaan löytää: Random Forest -mallilla saavutetaan maksimituotto 154,86 raja-arvon ollessa 0,71 ja XGBoost-mallilla saavutetaan maksimituotto 158,95 raja-arvon ollessa 0,95 molemmissa malleissa. Molemmilla malleilla on kyky kääntää häviöt tuloiksi hyvin lähes 1 400 dollarin lisäyksellä yksilöä kohti. Vaikka XGBoost-malli parantaa tuloja noin 4 dollaria huomattavasti enemmän kuin Random Forest -malli, sen mallin voittokäyrä on jyrkempi yläreunassa. Kynnysarvoa voidaan säätää 0,55:n ja 1:n välillä voiton varmistamiseksi, mutta XGBoost-mallissa vaihteluväli on vain 0,8:n ja 1:n välillä Random Forest -mallissa. Lisäksi Random Forest -mallin sisällä oleva litteä muoto tarjoaa kestävyyttä käytännössä kaikille tietomuutoksille ja voi pidentää mallin odotettavissa olevaa kestoa ennen kuin mallin päivittäminen on tarpeen. Näin ollen Random Forest -mallia suositellaan otettavaksi käyttöön 0,71:n rajan aikana tulojen optimoimiseksi suhteellisen vakaalla suorituskyvyllä.4. JohtopäätöksetTämä tehtävä on keskimääräinen luokittelu, joka on binäärinen ja jossa hyödynnetään asuntolainaa ja yksilöllistä tietoa, jotta voidaan ennakoida, että asiakas ehkä laiminlyö asuntolainan. Tavoitteena on hyödyntää mallia välineenä, jonka avulla voidaan tehdä lainojen myöntämistä koskevia valintoja. Kaksi luokittelijaa on tehty Random, joka käyttää Forest XGBoostia. Molemmat mallit pystyvät vaihtamaan tappion hyötyyn yli 1 400 dollarilla lainaa kohden. Random Forest -mallia suositellaan toteutettavaksi, koska sen suorituskyky on vakaa ja virheisiin.Ominaisuuksien välisiä suhteita on nyt tutkittu parempaa ominaisuuksien suunnittelua varten. Ominaisuudet, kuten esimerkiksi Tier ja Selfie ID Check havaitaan tullut mahdollisia ennustajia, jotka määrittävät tilan lainan, ja jokainen niistä on jo todennettu myöhemmin osaksi luokan malleja, koska ne molemmat löytyvät luettelosta, joka on alkuun arvo. Hyvin monet muut ominaisuudet ovat paljon vähemmän ilmeisiä niistä toiminnoista, joita ne pelaavat, jotka vaikuttavat asuntolainan tilaan, joten laiteoppimismallit on suunniteltu tällaisten luontaisten tapojen oppimiseksi. löydät 6 luokittelua, jota käytetään yleisesti hakijoina, mukaan lukien KNN, Gaussin NaГЇve Bayes, Logistinen regressio, Lineaarinen SVM, Satunnainen metsä ja XGBoost. Ne kattavat laajan valikoiman erilaisia perheitä, ei-parametrisistä todennäköisyyteen perustuviin, parametrisiin ja puupohjaisiin ensemble-menetelmiin. Random Forest -malli ja XGBoost -malli tarjoavat parhaan suorituskyvyn: edellisen tarkkuus testijoukossa on 0,7486 ja jälkimmäisen tarkkuus on 0,7313 hienosäädön jälkeen.Ehdottomasti tärkein päätehtävä on optimoida koulutetut mallit tulojen maksimoimiseksi. Luokittelukynnykset ovat säädettävissä, jotta voidaan muuttaa tämän ennusteen tulosten tiukkuutta: Kun kynnysarvot ovat alhaisemmat, malli on aggressiivisempi, mikä mahdollistaa useampien lainojen myöntämisen; kun kynnysarvot ovat korkeammat, malli on konservatiivisempi eikä myönnä lainoja, ellei lainojen takaisinmaksun todennäköisyys ole varmasti suuri. Voiton ja kynnystason välinen suhde on määritetty käyttämällä tappion funktiona voittokaavaa. Molemmissa malleissa esiintyy ”sweet spots”, jotka auttavat yritystä muuttumaan tappiosta voitolliseksi. Yritys pystyy tuottamaan voittoa 154,86 ja 158,95 per asiakas Random Forest- ja XGBoost-mallin avulla, vastaavasti ilman mallia tappiota syntyy yli 1 200 dollaria per laina, mutta luokittelumallien käyttöönoton jälkeen. Vaikka XGBoost-mallia käyttämällä saavutetaan suurempi voitto, Random Forest -mallia ehdotetaan edelleen käyttöönotettavaksi tuotantoa varten, koska tulokäyrä on ylhäältäpäin litteämpi, mikä tuo kestävyyttä virheille ja vakautta muutoksille. Tästä syystä voidaan odottaa vähemmän ylläpitoa ja päivityksiä, jos Random Forest -malli valitaan.Seuraavana tehtävänä on ottaa malli käyttöön ja seurata sen suorituskykyä aina, kun löydetään uudempia asiakirjoja.Muutoksia tarvitaan todennäköisesti joko kausittain tai milloin tahansa, kun suorituskyky alittaa vakiokriteerit, jotta voidaan ottaa huomioon ulkoisten tekijöiden tuomat muutokset. Säännöllisyys mallin ylläpito tämän sovelluksen ei ole olla korkea edellyttäen, että määrä kauppojen saanti, jos malli on hyödynnettävä yksityiskohtaisesti ja tavalla, joka on ajoissa se ei todellakaan ole vaikea muuttaa tätä tehtävää on-line oppimisen putki, joka varmistaa, että malli tulee aina niin paljon kuin päivämäärän.
Lainan korko ja erääntynyt määrä ovat pari vektoreita läpi dataset. Kolme muuta maskia ovat binäärilippuja (vektoreita), joissa käytetään 0 ja 1 ilmaisemaan ehkä tietyt ehdot täyttyvät tietueelle, joka on tietty. Maski (predict, settled) muodostuu mallin ennustetuloksesta: silloin arvo on 1, muussa tapauksessa se on 0. Maski on kynnysarvon funktio, koska ennustetulokset vaihtelevat, jos malli ennustaa lainan olevan maksettu. Tämän sanottuaan Mask (real, settled) ja Mask (true, past due) ovat pari vastakkaista vektoria: siinä tapauksessa, että lainaa koskeva real label on maksettu, niin Maskin (true, settled) arvo on 1, ja päinvastoin.Silloin tulot voivat olla kolmen vektorin piste-erä: erääntyneet korot, Mask (predict, settled) ja Mask (real, settled). Kulut voisivat olla kolmen vektorin piste-erä: lainamäärä, Mask (predict, settled) ja Mask (true, past due). Matemaattiset kaavat voidaan ilmaista seuraavasti: Käyttämällä tuloajattelua kustannusten ja tulojen välisenä olennaisena erona, se todella määritetään useimmissa luokittelukynnyksissä. Tulokset on esitetty alla kuvassa 8 sekä Random Forest -mallin että XGBoost-mallin osalta. Tuloja muutetaan lainojen todellisen laajan vaihteluvälin mukaisesti, joten sen arvo edustaa asiakaskohtaisesti valmistettavia tuloja.Heti kun raja on saavuttanut arvon 0, malli saavuttaa absoluuttisesti suurimman mahdollisen asetuksen, joka on aggressiivinen ja jossa kaikki lainat on maksettava. Se todella on pohjimmiltaan tapa, jolla asiakas’s liiketoiminta suoritetaan ilman mallia: tietokokonaisuus koostuu vain lainoista, jotka on annettu. On todella selvää, että tulot ovat alle -1 200, mikä tarkoittaa, että jatkuva yritys menettää käteistä yli 1 200 taalaa per laina. siinä tapauksessa, että raja on ajoitettu 0, malli tulee luultavasti kaikkein konservatiivisin, jossa kaikki lainat odotetaan laiminlyödä. Tällöin lainoja ei pian myönnetä. Käteisvaroja ei tuhoutu eikä voittoja synny, jolloin tulot ovat 0. Optimaalisen rajan saamiseksi, kun kyseessä on malli, on löydettävä suurimmat mahdolliset tulot. Makeat kohdat voidaan löytää: Random Forest -mallilla saavutetaan maksimituotto 154,86 raja-arvon ollessa 0,71 ja XGBoost-mallilla saavutetaan maksimituotto 158,95 raja-arvon ollessa 0,95 molemmissa malleissa. Molemmilla malleilla on kyky kääntää häviöt tuloiksi hyvin lähes 1 400 dollarin lisäyksellä yksilöä kohti. Vaikka XGBoost-malli parantaa tuloja noin 4 dollaria huomattavasti enemmän kuin Random Forest -malli, sen mallin voittokäyrä on jyrkempi yläreunassa. Kynnysarvoa voidaan säätää 0,55:n ja 1:n välillä voiton varmistamiseksi, mutta XGBoost-mallissa vaihteluväli on vain 0,8:n ja 1:n välillä Random Forest -mallissa. Lisäksi Random Forest -mallin sisällä oleva litteä muoto tarjoaa kestävyyttä käytännössä kaikille tietomuutoksille ja voi pidentää mallin odotettavissa olevaa kestoa ennen kuin mallin päivittäminen on tarpeen. Näin ollen Random Forest -mallia suositellaan otettavaksi käyttöön 0,71:n rajan aikana tulojen optimoimiseksi suhteellisen vakaalla suorituskyvyllä.4. JohtopäätöksetTämä tehtävä on keskimääräinen luokittelu, joka on binäärinen ja jossa hyödynnetään asuntolainaa ja yksilöllistä tietoa, jotta voidaan ennakoida, että asiakas ehkä laiminlyö asuntolainan. Tavoitteena on hyödyntää mallia välineenä, jonka avulla voidaan tehdä lainojen myöntämistä koskevia valintoja. Kaksi luokittelijaa on tehty Random, joka käyttää Forest XGBoostia. Molemmat mallit pystyvät vaihtamaan tappion hyötyyn yli 1 400 dollarilla lainaa kohden. Random Forest -mallia suositellaan toteutettavaksi, koska sen suorituskyky on vakaa ja virheisiin.Ominaisuuksien välisiä suhteita on nyt tutkittu parempaa ominaisuuksien suunnittelua varten. Ominaisuudet, kuten esimerkiksi Tier ja Selfie ID Check havaitaan tullut mahdollisia ennustajia, jotka määrittävät tilan lainan, ja jokainen niistä on jo todennettu myöhemmin osaksi luokan malleja, koska ne molemmat löytyvät luettelosta, joka on alkuun arvo. Hyvin monet muut ominaisuudet ovat paljon vähemmän ilmeisiä niistä toiminnoista, joita ne pelaavat, jotka vaikuttavat asuntolainan tilaan, joten laiteoppimismallit on suunniteltu tällaisten luontaisten tapojen oppimiseksi. löydät 6 luokittelua, jota käytetään yleisesti hakijoina, mukaan lukien KNN, Gaussin NaГЇve Bayes, Logistinen regressio, Lineaarinen SVM, Satunnainen metsä ja XGBoost. Ne kattavat laajan valikoiman erilaisia perheitä, ei-parametrisistä todennäköisyyteen perustuviin, parametrisiin ja puupohjaisiin ensemble-menetelmiin. Random Forest -malli ja XGBoost -malli tarjoavat parhaan suorituskyvyn: edellisen tarkkuus testijoukossa on 0,7486 ja jälkimmäisen tarkkuus on 0,7313 hienosäädön jälkeen.Ehdottomasti tärkein päätehtävä on optimoida koulutetut mallit tulojen maksimoimiseksi. Luokittelukynnykset ovat säädettävissä, jotta voidaan muuttaa tämän ennusteen tulosten tiukkuutta: Kun kynnysarvot ovat alhaisemmat, malli on aggressiivisempi, mikä mahdollistaa useampien lainojen myöntämisen; kun kynnysarvot ovat korkeammat, malli muuttuu konservatiivisemmaksi eikä myönnä lainoja, ellei lainojen takaisinmaksun todennäköisyys ole varmasti suuri. Voiton ja kynnystason välinen suhde on määritetty käyttämällä tappion funktiona voittokaavaa. Molemmissa malleissa esiintyy ”sweet spots”, jotka auttavat yritystä muuttumaan tappiosta voitolliseksi. Yritys pystyy tuottamaan voittoa 154,86 ja 158,95 per asiakas Random Forest- ja XGBoost-mallin avulla, vastaavasti ilman mallia tappiota syntyy yli 1 200 dollaria per laina, mutta luokittelumallien käyttöönoton jälkeen. Vaikka XGBoost-mallia käyttämällä saavutetaan suurempi voitto, Random Forest -mallia ehdotetaan edelleen käyttöönotettavaksi tuotantoa varten, koska tulokäyrä on ylhäältäpäin litteämpi, mikä tuo kestävyyttä virheille ja vakautta muutoksille. Tästä syystä voidaan odottaa vähemmän ylläpitoa ja päivityksiä, jos Random Forest -malli valitaan.Seuraavana tehtävänä on ottaa malli käyttöön ja seurata sen suorituskykyä aina, kun löydetään uudempia asiakirjoja.Muutoksia tarvitaan todennäköisesti joko kausittain tai milloin tahansa, kun suorituskyky alittaa vakiokriteerit, jotta voidaan ottaa huomioon ulkoisten tekijöiden tuomat muutokset. Säännöllisyys mallin ylläpito tämän sovelluksen ei tarvitse olla korkea edellyttäen, että määrä kauppojen saanti, jos malli on hyödynnettävä yksityiskohtaisesti ja tavalla, joka on ajoissa se ei todellakaan ole vaikea muuttaa tätä tehtävää on-line oppimisen putki, joka varmistaa, että malli tulee aina niin paljon kuin päivämäärä.