Diskontattu kumulatiivinen hyöty

Kahdella oletuksella käytetään DCG:tä ja siihen liittyviä mittareita.

  1. Hyvin relevantit dokumentit ovat hyödyllisempiä, kun ne näkyvät hakukoneen tulosluettelossa aikaisemmin (niillä on korkeampi sijoitus)
  2. Hyvin relevantit dokumentit ovat hyödyllisempiä kuin marginaalisesti relevantit dokumentit, jotka puolestaan ovat hyödyllisempiä kuin ei- relevantit dokumentit.

DCG on peräisin aikaisemmasta, primitiivisemmästä mittarista nimeltä Cumulative Gain.

Cumulative GainEdit

Cumulative Gain (CG) on hakutulosluettelon kaikkien hakutulosten luokiteltujen relevanssiarvojen summa. Tämä DCG:n edeltäjä ei ota tuloksen sijoitusta (sijaintia) tulosluettelossa huomioon tulosjoukon hyödyllisyyden tarkastelussa. CG tietyssä sijaluvussa p {\displaystyle p}

p

määritellään seuraavasti: C G p = ∑ i = 1 p r e l i {\displaystyle \mathrm {CG_{p}} =\sum _{i=1}^{p}rel_{i}}

{\mathrm {CG_{{p}}}}=\sum _{{i=1}}^{{p}}rel_{{i}}}

Missä r e l i {\displaystyle rel_{i}}}

rel_{{i}}

on tuloksen asteittainen relevanssi kohdassa i {\displaystyle i}

i

.

CG-funktiolla laskettuun arvoon eivät vaikuta muutokset hakutulosten järjestyksessä. Toisin sanoen erittäin relevantin asiakirjan d i {\displaystyle d_{i}} siirtäminen {\displaystyle d_{i}}

d_{i}

korkeammalle sijoittuneen, vähemmän relevantin asiakirjan d j {\displaystyle d_{j}} yläpuolelle.

d_{{j}}

ei muuta CG:n laskettua arvoa (olettaen, että i , j ≤ p {\displaystyle i,j\leq p}

{\displaystyle i,j\leq p}

) ). Perustuen edellä esitettyihin kahteen oletukseen hakutulosten hyödyllisyydestä, (N)DCG on yleensä CG:tä parempi.

Cumulative Gainia kutsutaan joskus nimellä Graded Precision, koska se on identtinen Precision-mittarin kanssa, jos luokitusasteikko on binäärinen.

Discounted Cumulative GainEdit

DCG:n lähtökohtana on, että hakutulosluettelossa alempana esiintyvistä erittäin relevanteista dokumenteista pitäisi rangaista, sillä graded relevance -arvoa alennetaan logaritmisesti suhteessa tuloksen sijaintiin.

Traditionaalinen DCG:n kaava kertoi tietyllä sijoituspaikalla p {\displaystyle p}

p

määritellään seuraavasti: D C G p = ∑ i = 1 p r e l i log 2 ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}}

{\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}}

Aiemmin logaritmisen reduktiokertoimen käytölle ei ollut muuta teoreettisesti järkevää perustetta kuin se, että se tuottaa tasaisen reduktion. Wang et al. (2013) antavat kuitenkin teoreettisen takuun logaritmisen reduktiokertoimen käytölle normalisoidussa DCG:ssä (NDCG). Kirjoittajat osoittavat, että jokaiselle olennaisesti toisistaan poikkeavalle ranking-funktioparille NDCG voi johdonmukaisesti päättää, kumpi on parempi.

Vaihtoehtoinen DCG:n muotoilu painottaa vahvemmin relevanttien dokumenttien hakemista:

D C G p = ∑ i = 1 p 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}})

{\mathrm {DCG_{{p}}}}=\sum _{{i=1}}^{{p}}{\frac {2^{{{rel_{{{i}}}}-1}{{\log _{{2}}(i+1)}}}

Viimeinen kaava on yleisesti käytössä teollisuudessa, mukaan lukien suurimmat verkkohakuyritykset ja datatieteen kilpailualustat, kuten Kaggle.

Nämä kaksi DCG:n kaavaa ovat samat, kun dokumenttien relevanssiarvot ovat binäärisiä;:320 r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}\in \{0,1\}}

rel_{i}}\in \{0,1\}

.

Huomaa, että Croft et al. (2010) ja Burges et al. (2005) esittävät toisen DCG:n, jonka logi on perusta e, kun taas molemmissa edellä esitetyissä DCG:n versioissa käytetään logia, joka on perusta 2. Laskettaessa NDCG:tä DCG:n ensimmäisellä muotoilulla login emäksellä ei ole merkitystä, mutta login emäksellä on vaikutusta NDCG:n arvoon toisella muotoilulla. On selvää, että login perusta vaikuttaa DCG:n arvoon molemmissa muotoiluissa.

Normalisoitu DCGEdit

Tämä jakso tarvitsee lisäviitteitä tarkistusta varten. Auta parantamaan tätä artikkelia lisäämällä viittauksia luotettaviin lähteisiin. Lähteetön materiaali voidaan kyseenalaistaa ja poistaa. (Helmikuu 2020) (Lue, miten ja milloin voit poistaa tämän malliviestin)

Haun tulosluettelot vaihtelevat pituudeltaan kyselystä riippuen. Hakukoneen suorituskyvyn vertailu kyselystä toiseen ei onnistu johdonmukaisesti pelkän DCG:n avulla, joten kumulatiivinen voitto kullakin sijalla valitulla arvolla p {\displaystyle p}

p

olisi normalisoitava kyselyjen välillä. Tämä tehdään lajittelemalla korpuksen kaikki relevantit dokumentit niiden suhteellisen relevanssin mukaan, jolloin saadaan suurin mahdollinen DCG aseman p {\displaystyle p} kautta.

p

, jota kutsutaan myös ihanteelliseksi DCG:ksi (IDCG) kyseisen aseman kautta. Kyselyn normalisoitu diskontattu kumulatiivinen hyöty eli nDCG lasketaan seuraavasti: n D C G p = D C G p I D C G p {\displaystyle \mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG_{p}}}}

{\mathrm {nDCG_{{p}}}}={\frac {DCG_{{p}}{IDCG_{{p}}}}

,

jossa IDCG on ihanteellinen diskontattu kumulatiivinen voitto,

I D C G p = ∑ i = 1 | R E L p | 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}}

{\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}}

ja R E L p {\displaystyle REL_{p}}

{\displaystyle REL_{p}}

edustaa luetteloa relevanteista asiakirjoista (järjestettynä niiden relevanssin mukaan) korpuksessa sijaintiin p asti.

Kaikkien kyselyjen nDCG-arvot voidaan keskiarvoistaa, jotta saadaan mitta hakukoneen ranking-algoritmin keskimääräisestä suorituskyvystä. Huomaa, että täydellisessä ranking-algoritmissa D C G p {\displaystyle DCG_{p}}

DCG_p

on sama kuin I D C G p {\displaystyle IDCG_{p}}

IDCG_p

, jolloin nDCG on 1,0. Kaikki nDCG-laskelmat ovat siis suhteellisia arvoja välillä 0,0-1,0, joten ne ovat vertailukelpoisia keskenään.

Huippuongelma nDCG:n käytössä on se, että tulosten ihanteellista järjestystä ei ole saatavilla, kun relevanssipalaute on saatavilla vain osittain.

Jätä kommentti