Discounted cumulative gain

DCG およびその関連指標を使用する際には、2 つの前提条件があります。

  1. 高い関連性を持つ文書は、検索エンジン結果リストの早い段階で表示されるとより有用です(高いランクを持ちます)
  2. 高い関連性の文書は、わずかに関連する文書よりも有用です、そしてそれは、関連しない文書よりも有用なのです。

    Cumulative GainEdit

    Cumulative Gain (CG) は、検索結果リスト内のすべての結果の関連性値を段階的に加算した値です。 DCGの前身で、結果リストのランク(位置)は結果セットの有用性の検討に含まれない。 あるランク位置のCGは、以下のようになる。

    p

    は次のように定義される。 C G p = ∑ i = 1 p r e l i {displaystyle \mathrm {CG_{p}} =sum _{i=1}^{p} rel_{i}}}

    {mathrm {CG_{p}}}=THUM _{i=1}}^{p}}rel_{i}}

    Where r e l i { {displaystyle rel_{i}}}.

    rel_{i}

    は位置iにおける結果のgraded relevance {displaystyle i} である。

    i

    .

    CG関数で計算される値は、検索結果の順序が変わっても影響を受けない。 すなわち、関連性の高い文書d i {displaystyle d_{i}}を移動させることで、検索結果の順序を変更することができる。

    d_{i}

    より上位の、関連性の低い文書d j {displaystyle d_{j}}の上にある。

    d_{j}

    は、CGの計算値を変更しない(i , j ≤ p {displaystyle i,j leq p}と仮定する)。

    {displaystyle i,j}

    ) とする。 検索結果の有用性についての上記の2つの仮定に基づき、通常、(N)DCGはCGよりも優先される。

    Cumulative Gainは、評価スケールがバイナリの場合、Precisionメトリックと同じであるため、Graded Precisionと呼ばれることもある。

    Discounted Cumulative GainEdit

    DCGの前提は、結果の位置に対数的に比例してgraded関連性値が減少するため、検索結果リストの下位に現れる関連度の高い文書がペナルティを受けるべきであることである。

    従来のDCGの式では、特定のランク位置p {displaystyle p}で累積される。

    p

    は次のように定義される。 D C G p = ∑ i = 1 p r e l i log 2 ( i + 1 ) = r e l + ∑ i = 2 p r e l i log 2 ( i + 1 ) {displaystyle \γmathrm {DCG_{p}} = sync _{i=1}^{p}{frac {rel_{i}}{log _{2}(i+1)}}=rel_{1}+ sync _{i=2}^{p}{frac {rel_{i}}{log _{2}(i+1)}}} { sync _{1}^{p}{frac {rel_{2}}}{log _{2} (i+1)}}

    {displaystyle \mathrm {DCG_{p}} =sam _{i=1}^{p}{frac {rel_{i}}{log _{2}(i+1)}}=rel_{1}+sum _{i=2}^{p}{frac {rel_{i}}{log _{2}(i+1)}}

    以前は、対数的な削減係数を使用することについて、滑らかな削減をもたらすという事実以外に、理論的に正当化できる理由はありませんでした。 しかし、Wangら(2013)は、正規化DCG(NDCG)において対数リダクションファクターを使用することの理論的な保証を与えています。 著者らは、実質的に異なるランキング関数のすべてのペアに対して、NDCGは一貫した方法でどちらが良いかを決定できることを示しています。

    DCGの別の定式化では、関連文書の検索をより強調する:

    D C G p = ∑ i = 1 p 2 r e l i – 1 log 2 ( i + 1 ) {displaystyle \mathrm {DCG_{p}} =sum _{i=1}^{p}{\frac {2^{rel_{i}}-1} {log _{2}(i+1) }}} {home

    {mathrm {DCG_{p}}}={sum _{i=1}}^{p}}{frac {2^{rel_{i}}-1}{log _{2}}(i+1)}}

    後者は、大手Web検索企業やKaggleなどのデータサイエンス競争プラットフォームなどの業界でよく使われている式だそうです。

    これら2つのDCGの定式化は、ドキュメントの関連性値がバイナリである場合、同じになる;320 r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}in \{0,1}}} 。

    rel_{i}}in \{0,1}

    .

    なお、Croftら(2010)とBurgesら(2005)は、2番目のDCGを底eの対数で表示していますが、上記のDCGの両バージョンでは、底2の対数を使用しています。 DCGの最初の定式化でNDCGを計算する場合、対数の底は重要ではありませんが、対数の底は2番目の定式化のNDCGの値に影響します。

    Normalized DCGEdit

    This section needs additional citations for verification.このセクションは、検証のために追加の引用が必要です。 信頼できるソースへの引用を追加することで、この記事の改善にご協力ください。 ソースがないものは、異議を唱えられ、削除されることがあります。 (2020年2月)(このテンプレートメッセージを削除する方法とタイミングを学ぶ)

    検索結果リストは、クエリによって長さが異なります。 あるクエリから次のクエリへの検索エンジンのパフォーマンスを比較することは、DCGだけでは一貫して達成できないため、選択したp {displaystyle p}の値に対する各位置での累積利得を使用します。

    p

    は、クエリ間で正規化する必要があります。 これはコーパスの全ての関連文書を相対的な関連性でソートし、位置p {displaystyle p}を通して最大可能DCGを生成することによって行われる。

    p

    は、その位置を通るIdeal DCG (IDCG) とも呼ばれる。 クエリでは、正規化割引累積利得(nDCG)は次のように計算されます: n D C G p = D C G p I D C G p {displaystyle \mathrm {nDCG_{p}} ={frac {DCG_{p}}{IDCG_{p}}}}} 。

    {mathrm {nDCG_{p}}}={{frac {DCG_{p}}}{IDCG_{p}}}

    ,

    ここでIDCGは理想割引累積利得です。

    I D C G p = ∑ i = 1 | R E L p | 2 r e l i – 1 log 2 ( i + 1 ) {displaystyle {IDCG_{p}} =}sum _{i=1}^{|REL_{p}|} {frac {2^{rel_{i}-1}{log _{2}(i+1)}}}

    {displaystyle \mathrm {IDCG_{p}} =sum _{i=1}^{|REL_{p}}{frac {2^{rel_{i}-1}{log _{2}(i+1)}}}

    and R E L p {displaystyle REL_{p}} {}}

    {displaystyle REL_{p}}

    は位置pまでのコーパスの関連文書リスト(関連性の高い順に並べたもの)を表す。

    全てのクエリのnDCG値を平均して検索エンジンのランキングアルゴリズムの平均性能を得ることが出来る。 完璧なランキング・アルゴリズムでは、D C G p {displaystyle DCG_{p}} は次のようになることに注意してください。

    DCG_p

    は、I D C G p {displaystyle IDCG_{p}}と同じになる。

    IDCG_p

    により、nDCGは1.0となる。 すべての nDCG 計算は、0.0 から 1.0 の区間での相対値であり、したがって、クロス クエリで比較可能です。

    nDCGを使用する際に遭遇する主な問題は、部分的な関連性フィードバックしか利用できない場合に、結果の理想的な順序を利用できないことです。

コメントする