Diszkontált kumulatív nyereség

A DCG és a hozzá kapcsolódó mértékek használatakor két feltételezéssel élünk.

  1. A magasan releváns dokumentumok hasznosabbak, ha korábban jelennek meg a keresőmotorok találati listáján (magasabb rangsorral rendelkeznek)
  2. A magasan releváns dokumentumok hasznosabbak, mint a marginálisan releváns dokumentumok, amelyek viszont hasznosabbak, mint a nem releváns dokumentumok.

ADCG egy korábbi, primitívebb mértékegységből, a kumulatív nyereségből származik.

Cumulative GainSzerkesztés

A kumulatív nyereség (CG) a keresési találati listában szereplő összes találat rangsorolt relevanciaértékének összege. A DCG ezen elődje nem veszi figyelembe egy találat rangját (pozícióját) a találati listában a találati halmaz hasznosságának mérlegelésébe. A CG egy adott p ranghelyen {\displaystyle p}

p

a következőképpen van definiálva: C G p = ∑ i = 1 p r e l i {\displaystyle \mathrm {CG_{p}} =\sum _{i=1}^{p}rel_{i}}

{\mathrm {CG_{{p}}}}=\sum _{{i=1}}^{{p}}rel_{{i}}}

Hol r e l i {\displaystyle rel_{i}}}

rel_{{i}}

az i {\displaystyle i} pozícióban lévő eredmény fokozatos relevanciája.

i

.

A CG függvénnyel számított értéket nem befolyásolja a keresési eredmények sorrendjének változása. Vagyis egy d i {\displaystyle d_{i}} magasan releváns dokumentum áthelyezése {\displaystyle d_{i}}

d_{i}

egy magasabb rangú, kevésbé releváns d j {\displaystyle d_{j}} dokumentum fölé helyezi.

d_{{j}}

nem változtatja meg a CG számított értékét (feltételezve, hogy i , j ≤ p {\displaystyle i,j\leq p}

{\displaystyle i,j\leq p}

). A keresési eredmények hasznosságára vonatkozó fenti két feltételezés alapján az (N)DCG általában előnyben részesül a CG-vel szemben.

A kumulatív nyereséget néha gradált pontosságnak is nevezik, mivel megegyezik a pontosság metrikával, ha az értékelési skála bináris.

Discounted Cumulative GainEdit

A DCG előfeltevése az, hogy a keresési találati listában lejjebb megjelenő, nagy relevanciájú dokumentumokat büntetni kell, mivel a gradált relevanciaérték a találat pozíciójával logaritmikusan arányosan csökken.

A DCG hagyományos képlete egy adott p {\displaystyle p}ranghelyen felhalmozott {\displaystyle p}

p

a következőképpen van meghatározva: D C G p = ∑ i = 1 p r e l i log 2 ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}}{\log _{2}(i+1)}}}

{\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}}

Régebben nem volt elméletileg megalapozott indok a logaritmikus redukciós tényező használatára azon kívül, hogy sima redukciót eredményez. Wang és társai (2013) azonban elméleti garanciát adnak a logaritmikus redukciós tényező használatára a normalizált DCG-ben (NDCG). A szerzők megmutatják, hogy minden lényegesen eltérő rangsoroló függvénypár esetén az NDCG konzisztens módon el tudja dönteni, hogy melyik a jobb.

A DCG egy alternatív megfogalmazása nagyobb hangsúlyt fektet a releváns dokumentumok visszakeresésére:

D C G p = ∑ i = 1 p 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}})

{\mathrm {DCG_{{p}}}}=\sum _{{i=1}}^{{p}}{\frac {2^{{{rel_{{{i}}}}-1}{\log _{{2}}(i+1)}}}

Az utóbbi képletet gyakran használják az iparban, beleértve a nagy internetes keresőcégeket és az olyan adattudományi versenyplatformokat, mint a Kaggle.

A DCG e két formulája megegyezik, ha a dokumentumok relevanciaértékei binárisak;:320 r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}\in \{0,1\}}}

rel_{{i}}\in \{0,1\}}

.

Megjegyezzük, hogy Croft et al. (2010) és Burges et al. (2005) a második DCG-t az e bázis logaritmusával mutatja be, míg a fenti DCG mindkét változata a 2 bázis logaritmusát használja. Az NDCG kiszámításakor a DCG első megfogalmazásával a log bázisa nem számít, de a log bázisa befolyásolja az NDCG értékét a második megfogalmazás esetében. Nyilvánvaló, hogy a log bázisa mindkét megfogalmazásnál befolyásolja a DCG értékét.

Normalizált DCGEdit

Ez a szakasz további hivatkozásokat igényel az ellenőrzéshez. Kérjük, segítsen javítani ezt a cikket megbízható forrásokra való hivatkozások hozzáadásával. A forrás nélküli anyagokat megtámadhatjuk és eltávolíthatjuk. (2020. február) (Tudja meg, hogyan és mikor távolíthatja el ezt a sablonüzenetet)

A keresési találati listák hossza a lekérdezéstől függően változik. Egy keresőmotor teljesítményének egyik lekérdezésről a másikra történő összehasonlítása nem érhető el következetesen kizárólag a DCG segítségével, ezért a p {\displaystyle p} választott értéke esetén az egyes pozíciók kumulatív nyereségét

p

értékét a lekérdezések között normalizálni kell. Ez úgy történik, hogy a korpusz összes releváns dokumentumát relatív relevanciájuk szerint sorba rendezzük, és a p {\displaystyle p} pozíción keresztül a lehető legnagyobb DCG-t állítjuk elő.

p

, amelyet ezen a pozíción keresztül ideális DCG-nek (IDCG) is neveznek. Egy lekérdezés esetében a normalizált diszkontált kumulatív nyereséget vagy nDCG-t a következőképpen számítjuk ki: n D C G p = D C G p I D C G p {\displaystyle \mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG_{p}}}}

{\mathrm {nDCG_{{p}}}}={\frac {DCG_{{p}}}{IDCG_{{p}}}}

,

ahol IDCG az ideális diszkontált kumulatív nyereség,

I D C G p = ∑ i = 1 | R E L p | 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}}

{\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^{|REL_{p}|}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}}

és R E L p {\displaystyle REL_{p}}

{\displaystyle REL_{p}}}

a releváns dokumentumok listáját jelenti (relevanciájuk szerint rendezve) a korpuszban a p pozícióig.

Az összes lekérdezés nDCG-értékeit átlagolva megkaphatjuk a keresőmotor rangsoroló algoritmusának átlagos teljesítményét. Megjegyezzük, hogy egy tökéletes rangsoroló algoritmusban a D C G p {\displaystyle DCG_{p}}

DCG_p

ugyanaz lesz, mint az I D C G p {\displaystyle IDCG_{p}}

IDCG_p

, ami 1,0 nDCG értéket eredményez. Ezután minden nDCG-számítás relatív érték a 0,0 és 1,0 közötti intervallumon, és így keresztkérdésenként összehasonlítható.

A fő nehézség, amellyel az nDCG használata során találkozunk, az eredmények ideális sorrendjének elérhetetlensége, ha csak részleges relevancia-visszacsatolás áll rendelkezésre.

Szólj hozzá!