Egyszerű útmutató a konfúziós mátrix terminológiájához

A konfúziós mátrix egy olyan táblázat, amelyet gyakran használnak egy osztályozási modell (vagy “osztályozó”) teljesítményének leírására egy olyan tesztadathalmazon, amelynek valódi értékei ismertek. Maga a zavarmátrix viszonylag egyszerűen érthető, de a kapcsolódó terminológia zavaró lehet.

A zavarmátrix terminológiájához szerettem volna egy “gyors útmutatót” készíteni, mert nem találtam olyan meglévő forrást, amely megfelelt volna a követelményeimnek: kompakt megjelenítés, tetszőleges változók helyett számok használata, és mind képletekben, mind mondatokban történő magyarázat.

Kezdjük egy bináris osztályozóra vonatkozó példakonfúziós mátrixszal (bár könnyen kiterjeszthető kettőnél több osztály esetére is):

Példakonfúziós mátrix bináris osztályozóra

Mit tudhatunk meg ebből a mátrixból?

  • Két lehetséges megjósolt osztály van: “igen” és “nem”. Ha például egy betegség jelenlétét jósolnánk meg, akkor az “igen” azt jelentené, hogy megvan a betegség, a “nem” pedig azt, hogy nincs meg a betegség.
  • Az osztályozó összesen 165 jóslatot tett (pl., 165 beteget vizsgáltak az adott betegség jelenlétére).
  • A 165 esetből az osztályozó 110 alkalommal “igen”-t, 55 alkalommal pedig “nem”-et jósolt.
  • A valóságban a mintában 105 betegnek van a betegség, 60 betegnek pedig nincs.

Meghatározzuk most a legalapvetőbb kifejezéseket, amelyek egész számok (nem arányok):

  • igaz pozitívak (true positive, TP):
  • igaz negatívok (TN): Nemet jósoltunk, és nincs meg a betegségük.
  • hamis pozitív esetek (FP): Igent jósoltunk, de valójában nincs meg a betegségük. (Más néven “I. típusú hiba”.)
  • hamis negatív (FN): Nemet jósoltunk, de valójában megvan a betegség. (Más néven “II. típusú hiba”.)

Ezeket a kifejezéseket hozzáadtam a zavarmátrixhoz, és hozzáadtam a sor- és oszlopösszegeket is:

Példa zavarmátrix egy bináris osztályozóhoz

Ez egy lista a bináris osztályozó zavarmátrixából gyakran kiszámított arányokról:

  • Pontosság:
    • (TP+TN)/összesen = (100+50)/165 = 0,91
  • Téves osztályozási arány: Összességében milyen gyakran hibázik?
    • (FP+FN)/összesen = (10+5)/165 = 0,09
    • egyenértékű 1 mínusz pontosság
    • más néven “hibaarány”
  • Igaz pozitív arány:
    • TP/tényleges igen = 100/105 = 0,95
    • mint “érzékenység” vagy “visszahívás”
  • Hamis pozitív arány:
    • FP/tényleges nem = 10/60 = 0,17
  • True Negative Rate:
    • TN/tényleges nem = 50/60 = 0,83
    • egyenértékű 1 mínusz hamis pozitív arány
    • más néven “specificitás”
  • precizitás:
    • TP/előrejelzett igen = 100/110 = 0,91
  • Prevalencia: Milyen gyakran fordul elő ténylegesen az igen állapot a mintánkban?
    • tényleges igen/összességében = 105/165 = 0,64

Egy pár másik kifejezést is érdemes megemlíteni:

  • Null Error Rate: Ez az, hogy milyen gyakran tévednél, ha mindig a többségi osztályt jósolnád meg. (Példánkban a null hibaarány 60/165=0,36 lenne, mert ha mindig igent jósolnál, akkor csak a 60 “nem” esetben tévednél). Ez egy hasznos alapszintű mérőszám lehet, amellyel összehasonlíthatja az osztályozóját. Azonban egy adott alkalmazáshoz a legjobb osztályozó néha magasabb hibaaránnyal fog rendelkezni, mint a nullhibaarány, amint azt a pontossági paradoxon is mutatja.
  • Cohen Kappa: Ez lényegében annak a mérőszáma, hogy az osztályozó mennyire jól teljesített ahhoz képest, hogy milyen jól teljesített volna pusztán a véletlen alapján. Más szóval, egy modellnek magas Kappa pontszáma lesz, ha nagy a különbség a pontosság és a nullhibaarány között. (További részletek a Cohen Kappáról.)
  • F-pontszám: Ez a valódi pozitív arány (recall) és a pontosság súlyozott átlaga. (További részletek az F-pontszámról.)
  • ROC-görbe: Ez egy általánosan használt grafikon, amely összefoglalja egy osztályozó teljesítményét az összes lehetséges küszöbértékre vonatkozóan. Úgy jön létre, hogy a True Positive Rate (y-tengely) és a False Positive Rate (x-tengely) arányát ábrázoljuk, ahogy a megfigyelések adott osztályba sorolásának küszöbértékét változtatjuk. (További részletek a ROC-görbékről.)

Végezetül pedig azoknak, akik a Bayes-statisztika világából érkeztek, íme egy gyors összefoglaló ezekről a kifejezésekről az Alkalmazott prediktív modellezésből:

A Bayes-statisztikával kapcsolatban az érzékenység és a specificitás a feltételes valószínűségek, a prevalencia az előzetes, a pozitív/negatív előrejelzett értékek pedig az utólagos valószínűségek.

Még többet szeretne megtudni?

Az új, 35 perces, Making sense of the confusion matrix című videómban mélyebben elmagyarázom ezeket a fogalmakat, és több haladó témával is foglalkozom:

  • Hogyan számítsuk ki a pontosságot és a visszahívást többosztályos problémák esetén
  • Hogyan elemezzünk egy 10 osztályos zavarmátrixot
  • Hogyan válasszuk ki a megfelelő értékelési metrikát a problémánkhoz
  • Miért a pontosság gyakran félrevezető metrika

Mondja el, ha bármilyen kérdése van!

Szólj hozzá!