Kahdella oletuksella käytetään DCG:tä ja siihen liittyviä mittareita.
- Hyvin relevantit dokumentit ovat hyödyllisempiä, kun ne näkyvät hakukoneen tulosluettelossa aikaisemmin (niillä on korkeampi sijoitus)
- Hyvin relevantit dokumentit ovat hyödyllisempiä kuin marginaalisesti relevantit dokumentit, jotka puolestaan ovat hyödyllisempiä kuin ei- relevantit dokumentit.
DCG on peräisin aikaisemmasta, primitiivisemmästä mittarista nimeltä Cumulative Gain.
Cumulative GainEdit
Cumulative Gain (CG) on hakutulosluettelon kaikkien hakutulosten luokiteltujen relevanssiarvojen summa. Tämä DCG:n edeltäjä ei ota tuloksen sijoitusta (sijaintia) tulosluettelossa huomioon tulosjoukon hyödyllisyyden tarkastelussa. CG tietyssä sijaluvussa p {\displaystyle p}
määritellään seuraavasti: C G p = ∑ i = 1 p r e l i {\displaystyle \mathrm {CG_{p}} =\sum _{i=1}^{p}rel_{i}}
Missä r e l i {\displaystyle rel_{i}}}
on tuloksen asteittainen relevanssi kohdassa i {\displaystyle i}
.
CG-funktiolla laskettuun arvoon eivät vaikuta muutokset hakutulosten järjestyksessä. Toisin sanoen erittäin relevantin asiakirjan d i {\displaystyle d_{i}} siirtäminen {\displaystyle d_{i}}
korkeammalle sijoittuneen, vähemmän relevantin asiakirjan d j {\displaystyle d_{j}} yläpuolelle.
ei muuta CG:n laskettua arvoa (olettaen, että i , j ≤ p {\displaystyle i,j\leq p}
) ). Perustuen edellä esitettyihin kahteen oletukseen hakutulosten hyödyllisyydestä, (N)DCG on yleensä CG:tä parempi.
Cumulative Gainia kutsutaan joskus nimellä Graded Precision, koska se on identtinen Precision-mittarin kanssa, jos luokitusasteikko on binäärinen.
Discounted Cumulative GainEdit
DCG:n lähtökohtana on, että hakutulosluettelossa alempana esiintyvistä erittäin relevanteista dokumenteista pitäisi rangaista, sillä graded relevance -arvoa alennetaan logaritmisesti suhteessa tuloksen sijaintiin.
Traditionaalinen DCG:n kaava kertoi tietyllä sijoituspaikalla p {\displaystyle p}
määritellään seuraavasti: D C G p = ∑ i = 1 p r e l i log 2 ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}}
Aiemmin logaritmisen reduktiokertoimen käytölle ei ollut muuta teoreettisesti järkevää perustetta kuin se, että se tuottaa tasaisen reduktion. Wang et al. (2013) antavat kuitenkin teoreettisen takuun logaritmisen reduktiokertoimen käytölle normalisoidussa DCG:ssä (NDCG). Kirjoittajat osoittavat, että jokaiselle olennaisesti toisistaan poikkeavalle ranking-funktioparille NDCG voi johdonmukaisesti päättää, kumpi on parempi.
Vaihtoehtoinen DCG:n muotoilu painottaa vahvemmin relevanttien dokumenttien hakemista:
D C G p = ∑ i = 1 p 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}})
Viimeinen kaava on yleisesti käytössä teollisuudessa, mukaan lukien suurimmat verkkohakuyritykset ja datatieteen kilpailualustat, kuten Kaggle.
Nämä kaksi DCG:n kaavaa ovat samat, kun dokumenttien relevanssiarvot ovat binäärisiä;:320 r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}\in \{0,1\}}
.
Huomaa, että Croft et al. (2010) ja Burges et al. (2005) esittävät toisen DCG:n, jonka logi on perusta e, kun taas molemmissa edellä esitetyissä DCG:n versioissa käytetään logia, joka on perusta 2. Laskettaessa NDCG:tä DCG:n ensimmäisellä muotoilulla login emäksellä ei ole merkitystä, mutta login emäksellä on vaikutusta NDCG:n arvoon toisella muotoilulla. On selvää, että login perusta vaikuttaa DCG:n arvoon molemmissa muotoiluissa.
Normalisoitu DCGEdit
Haun tulosluettelot vaihtelevat pituudeltaan kyselystä riippuen. Hakukoneen suorituskyvyn vertailu kyselystä toiseen ei onnistu johdonmukaisesti pelkän DCG:n avulla, joten kumulatiivinen voitto kullakin sijalla valitulla arvolla p {\displaystyle p}
olisi normalisoitava kyselyjen välillä. Tämä tehdään lajittelemalla korpuksen kaikki relevantit dokumentit niiden suhteellisen relevanssin mukaan, jolloin saadaan suurin mahdollinen DCG aseman p {\displaystyle p} kautta.
, jota kutsutaan myös ihanteelliseksi DCG:ksi (IDCG) kyseisen aseman kautta. Kyselyn normalisoitu diskontattu kumulatiivinen hyöty eli nDCG lasketaan seuraavasti: n D C G p = D C G p I D C G p {\displaystyle \mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG_{p}}}}
,
jossa IDCG on ihanteellinen diskontattu kumulatiivinen voitto,
I D C G p = ∑ i = 1 | R E L p | 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}}
ja R E L p {\displaystyle REL_{p}}
edustaa luetteloa relevanteista asiakirjoista (järjestettynä niiden relevanssin mukaan) korpuksessa sijaintiin p asti.
Kaikkien kyselyjen nDCG-arvot voidaan keskiarvoistaa, jotta saadaan mitta hakukoneen ranking-algoritmin keskimääräisestä suorituskyvystä. Huomaa, että täydellisessä ranking-algoritmissa D C G p {\displaystyle DCG_{p}}
on sama kuin I D C G p {\displaystyle IDCG_{p}}
, jolloin nDCG on 1,0. Kaikki nDCG-laskelmat ovat siis suhteellisia arvoja välillä 0,0-1,0, joten ne ovat vertailukelpoisia keskenään.
Huippuongelma nDCG:n käytössä on se, että tulosten ihanteellista järjestystä ei ole saatavilla, kun relevanssipalaute on saatavilla vain osittain.