A DCG és a hozzá kapcsolódó mértékek használatakor két feltételezéssel élünk.
- A magasan releváns dokumentumok hasznosabbak, ha korábban jelennek meg a keresőmotorok találati listáján (magasabb rangsorral rendelkeznek)
- A magasan releváns dokumentumok hasznosabbak, mint a marginálisan releváns dokumentumok, amelyek viszont hasznosabbak, mint a nem releváns dokumentumok.
ADCG egy korábbi, primitívebb mértékegységből, a kumulatív nyereségből származik.
Cumulative GainSzerkesztés
A kumulatív nyereség (CG) a keresési találati listában szereplő összes találat rangsorolt relevanciaértékének összege. A DCG ezen elődje nem veszi figyelembe egy találat rangját (pozícióját) a találati listában a találati halmaz hasznosságának mérlegelésébe. A CG egy adott p ranghelyen {\displaystyle p}
a következőképpen van definiálva: C G p = ∑ i = 1 p r e l i {\displaystyle \mathrm {CG_{p}} =\sum _{i=1}^{p}rel_{i}}
Hol r e l i {\displaystyle rel_{i}}}
az i {\displaystyle i} pozícióban lévő eredmény fokozatos relevanciája.
.
A CG függvénnyel számított értéket nem befolyásolja a keresési eredmények sorrendjének változása. Vagyis egy d i {\displaystyle d_{i}} magasan releváns dokumentum áthelyezése {\displaystyle d_{i}}
egy magasabb rangú, kevésbé releváns d j {\displaystyle d_{j}} dokumentum fölé helyezi.
nem változtatja meg a CG számított értékét (feltételezve, hogy i , j ≤ p {\displaystyle i,j\leq p}
). A keresési eredmények hasznosságára vonatkozó fenti két feltételezés alapján az (N)DCG általában előnyben részesül a CG-vel szemben.
A kumulatív nyereséget néha gradált pontosságnak is nevezik, mivel megegyezik a pontosság metrikával, ha az értékelési skála bináris.
Discounted Cumulative GainEdit
A DCG előfeltevése az, hogy a keresési találati listában lejjebb megjelenő, nagy relevanciájú dokumentumokat büntetni kell, mivel a gradált relevanciaérték a találat pozíciójával logaritmikusan arányosan csökken.
A DCG hagyományos képlete egy adott p {\displaystyle p}ranghelyen felhalmozott {\displaystyle p}
a következőképpen van meghatározva: D C G p = ∑ i = 1 p r e l i log 2 ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}}{\log _{2}(i+1)}}}
Régebben nem volt elméletileg megalapozott indok a logaritmikus redukciós tényező használatára azon kívül, hogy sima redukciót eredményez. Wang és társai (2013) azonban elméleti garanciát adnak a logaritmikus redukciós tényező használatára a normalizált DCG-ben (NDCG). A szerzők megmutatják, hogy minden lényegesen eltérő rangsoroló függvénypár esetén az NDCG konzisztens módon el tudja dönteni, hogy melyik a jobb.
A DCG egy alternatív megfogalmazása nagyobb hangsúlyt fektet a releváns dokumentumok visszakeresésére:
D C G p = ∑ i = 1 p 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}})
Az utóbbi képletet gyakran használják az iparban, beleértve a nagy internetes keresőcégeket és az olyan adattudományi versenyplatformokat, mint a Kaggle.
A DCG e két formulája megegyezik, ha a dokumentumok relevanciaértékei binárisak;:320 r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}\in \{0,1\}}}
.
Megjegyezzük, hogy Croft et al. (2010) és Burges et al. (2005) a második DCG-t az e bázis logaritmusával mutatja be, míg a fenti DCG mindkét változata a 2 bázis logaritmusát használja. Az NDCG kiszámításakor a DCG első megfogalmazásával a log bázisa nem számít, de a log bázisa befolyásolja az NDCG értékét a második megfogalmazás esetében. Nyilvánvaló, hogy a log bázisa mindkét megfogalmazásnál befolyásolja a DCG értékét.
Normalizált DCGEdit
A keresési találati listák hossza a lekérdezéstől függően változik. Egy keresőmotor teljesítményének egyik lekérdezésről a másikra történő összehasonlítása nem érhető el következetesen kizárólag a DCG segítségével, ezért a p {\displaystyle p} választott értéke esetén az egyes pozíciók kumulatív nyereségét
értékét a lekérdezések között normalizálni kell. Ez úgy történik, hogy a korpusz összes releváns dokumentumát relatív relevanciájuk szerint sorba rendezzük, és a p {\displaystyle p} pozíción keresztül a lehető legnagyobb DCG-t állítjuk elő.
, amelyet ezen a pozíción keresztül ideális DCG-nek (IDCG) is neveznek. Egy lekérdezés esetében a normalizált diszkontált kumulatív nyereséget vagy nDCG-t a következőképpen számítjuk ki: n D C G p = D C G p I D C G p {\displaystyle \mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG_{p}}}}
,
ahol IDCG az ideális diszkontált kumulatív nyereség,
I D C G p = ∑ i = 1 | R E L p | 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}}
és R E L p {\displaystyle REL_{p}}
a releváns dokumentumok listáját jelenti (relevanciájuk szerint rendezve) a korpuszban a p pozícióig.
Az összes lekérdezés nDCG-értékeit átlagolva megkaphatjuk a keresőmotor rangsoroló algoritmusának átlagos teljesítményét. Megjegyezzük, hogy egy tökéletes rangsoroló algoritmusban a D C G p {\displaystyle DCG_{p}}
ugyanaz lesz, mint az I D C G p {\displaystyle IDCG_{p}}
, ami 1,0 nDCG értéket eredményez. Ezután minden nDCG-számítás relatív érték a 0,0 és 1,0 közötti intervallumon, és így keresztkérdésenként összehasonlítható.
A fő nehézség, amellyel az nDCG használata során találkozunk, az eredmények ideális sorrendjének elérhetetlensége, ha csak részleges relevancia-visszacsatolás áll rendelkezésre.