Ganancia acumulativa descontada

Se dan dos supuestos al utilizar la DCG y sus medidas relacionadas.

  1. Los documentos altamente relevantes son más útiles cuando aparecen antes en la lista de resultados de un motor de búsqueda (tienen rangos más altos)
  2. Los documentos altamente relevantes son más útiles que los documentos marginalmente relevantes, que a su vez son más útiles que los documentos no relevantes.

La DCG tiene su origen en una medida anterior, más primitiva, llamada Ganancia Acumulativa.

Ganancia AcumulativaEditar

La Ganancia Acumulativa (CG) es la suma de los valores de relevancia clasificados de todos los resultados de una lista de resultados de búsqueda. Este predecesor de la DCG no incluye el rango (posición) de un resultado en la lista de resultados en la consideración de la utilidad de un conjunto de resultados. El CG en una posición de rango particular p {\displaystyle p}

p

se define como: C G p = ∑ i = 1 p r e l i {\displaystyle \mathrm {CG_{p}} =\sum _{i=1}^{p}rel_{i}

{{mathrm {CG_{p}}}}={suma _{i=1}^{p}rel_{i}}

Donde r e l i {\displaystyle rel_{i}}

rel_{i}

es la relevancia graduada del resultado en la posición i {\displaystyle i}

i

.

El valor calculado con la función CG no se ve afectado por los cambios en el orden de los resultados de la búsqueda. Es decir, al mover un documento altamente relevante d i {\displaystyle d_{i}}

d_{i}

por encima de un documento de mayor rango, menos relevante, d j {\displaystyle d_{j}}

d_{j}

no cambia el valor calculado para CG (suponiendo que i , j ≤ p {\displaystyle i,j\leq p}

 {\displaystyle i,j\leq p}

). Basándose en las dos suposiciones anteriores sobre la utilidad de los resultados de la búsqueda, se suele preferir la (N)DCG a la CG.

La Ganancia Acumulativa se denomina a veces Precisión Graduada ya que es idéntica a la métrica de Precisión si la escala de valoración es binaria.

Ganancia Acumulativa DescontadaEditar

La premisa de la DCG es que los documentos altamente relevantes que aparecen más abajo en una lista de resultados de búsqueda deben ser penalizados ya que el valor de relevancia graduado se reduce logarítmicamente proporcional a la posición del resultado.

La fórmula tradicional de DCG acumulada en una determinada posición de rango p {\displaystyle p}

p

se define como: D C G p = ∑ i = 1 p r e l i log 2 ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\muestra _{i=1}^{p}{frac {rel_{i}}{log _{2}(i+1)}}=rel_{1}+\muestra _{i=2}^{p}{frac {rel_{i}}(i+1)}}

{mathrm {DCG_{p}} ={suma _{i=1}^{p}{frac {rel_{i}}{log _{2}(i+1)}=rel_{1}+{suma _{i=2}^p}{frac {rel_{i}{log _{2}(i+1)}

Antes no había ninguna justificación teóricamente sólida para utilizar un factor de reducción logarítmico, aparte del hecho de que produce una reducción suave. Pero Wang et al. (2013) dan una garantía teórica para utilizar el factor de reducción logarítmico en la DCG normalizada (NDCG). Los autores muestran que para cada par de funciones de clasificación sustancialmente diferentes, el NDCG puede decidir cuál es mejor de manera consistente.

Una formulación alternativa de DCG pone mayor énfasis en la recuperación de documentos relevantes:

D C G p = ∑ i = 1 p 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{frac {2^{rel_{i}-1}{log _{2}(i+1)}}

{{mathrm {DCG_{p}}}}={suma _{i=1}}^{{p}}{{frac {2^{rel_{i}}}}-1}{log _{2}}(i+1)}}

Esta última fórmula es de uso común en la industria, incluyendo las principales empresas de búsqueda en la web y las plataformas de competencia de ciencia de datos como Kaggle.

Estas dos formulaciones de DCG son las mismas cuando los valores de relevancia de los documentos son binarios;:320 r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}\in {0,1\}}.

rel_{i} {{0,1}}

.

Nótese que Croft et al. (2010) y Burges et al. (2005) presentan la segunda DCG con un logaritmo de base e, mientras que las dos versiones de DCG anteriores utilizan un logaritmo de base 2. Al calcular la NDCG con la primera formulación de la DCG, la base del logaritmo no importa, pero la base del logaritmo sí afecta al valor de la NDCG para la segunda formulación. Claramente, la base del logaritmo afecta al valor de la DCG en ambas formulaciones.

DCGEdit normalizada

Esta sección necesita citas adicionales para su verificación. Por favor, ayude a mejorar este artículo añadiendo citas de fuentes fiables. El material sin fuente puede ser cuestionado y eliminado. (Febrero 2020) (Aprende cómo y cuándo eliminar este mensaje de la plantilla)

Las listas de resultados de las búsquedas varían en longitud dependiendo de la consulta. La comparación del rendimiento de un motor de búsqueda de una consulta a otra no puede lograrse de forma consistente utilizando únicamente la DCG, por lo que la ganancia acumulada en cada posición para un valor elegido de p

p

debe normalizarse entre las consultas. Esto se hace ordenando todos los documentos relevantes en el corpus por su relevancia relativa, produciendo la máxima DCG posible a través de la posición p {\displaystyle p}

p

, también llamado DCG ideal (IDCG) a través de esa posición. Para una consulta, la ganancia acumulada descontada normalizada, o nDCG, se calcula como: n D C G p = D C G p I D C G p {\displaystyle \mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG_{p}}}}

{mathrm {nDCG_{p}}}}={frac {DCG_{p}}{IDCG_{p}}}}

,

donde IDCG es la ganancia acumulada descontada ideal,

I D C G p = ∑ i = 1 | R E L p | 2 r e l i – 1 log 2 ( i + 1 ) {\displaystyle \mathrm {IDCG_{p}} =\sum _{i=1}^||REL_{p}} {\frac {2^{rel_{i}-1}{log _{2}(i+1)}}

{mathrm {IDCG_{p}} ={suma _{i=1}^||REL_{p}}{{frac {2^{rel_{i}-1}{log _{2}(i+1)}}

y R E L p {{displaystyle REL_{p}}

{displaystyle REL_{p}}

representa la lista de documentos relevantes (ordenados por su relevancia) en el corpus hasta la posición p.

Los valores de nDCG para todas las consultas pueden promediarse para obtener una medida del rendimiento medio del algoritmo de clasificación de un motor de búsqueda. Obsérvese que en un algoritmo de clasificación perfecto, el D C G p {{displaystyle DCG_{p}}.

DCG_p

será el mismo que el I D C G p {\displaystyle IDCG_{p}}

IDCG_p

produciendo un nDCG de 1,0. Todos los cálculos de nDCG son entonces valores relativos en el intervalo de 0,0 a 1,0 y por lo tanto son comparables entre sí.

La principal dificultad encontrada en el uso de nDCG es la falta de disponibilidad de una ordenación ideal de los resultados cuando sólo se dispone de información parcial sobre la relevancia.

Deja un comentario