A torzítás-variáció tradeoff megértése: áttekintés

Máté Mayo, KDnuggets.

Néhány évvel ezelőtt Scott Fortmann-Roe írt egy nagyszerű esszét “A torzítás-variáció tradeoff megértése” címmel.

Ahogy az adattudomány elfogadott szakmává válik, saját eszközkészlettel, eljárásokkal, munkafolyamatokkal stb, gyakran úgy tűnik, hogy kevésbé összpontosítanak a statisztikai folyamatokra az izgalmasabb szempontok javára (lásd itt és itt egy pár példát a vitákról).

Fogalmi definíciók

Míg ez Scott esszéjének áttekintésére szolgál, amelyet további részletekért és matematikai betekintésért elolvashat, kezdjük Fortmann-Roe szó szerinti definícióival, amelyek központi szerepet játszanak a műben:

Error due to Bias: A torzítás miatti hibát a modellünk várható (vagy átlagos) előrejelzése és a helyes érték közötti különbségnek tekintjük, amelyet megpróbálunk megjósolni. Természetesen csak egy modellel rendelkezünk, így a várható vagy átlagos előrejelzési értékekről való beszéd kissé furcsának tűnhet. Képzeljük el azonban, hogy az egész modellépítési folyamatot többször is megismételhetjük: minden alkalommal, amikor új adatokat gyűjtünk, és új elemzést futtatunk, új modellt létrehozva. Az alapul szolgáló adathalmazok véletlenszerűsége miatt az így kapott modellek előrejelzési tartományt fognak tartalmazni. A torzítás azt méri, hogy ezek a modellek előrejelzései általánosságban mennyire térnek el a helyes értéktől.

A variancia miatti hiba: A variancia miatti hiba a modell előrejelzésének egy adott adatpontra vonatkozó varianciáját jelenti. Ismét képzeljük el, hogy a teljes modellépítési folyamatot többször is megismételhetjük. A variancia az, hogy egy adott pontra vonatkozó előrejelzések mennyire változnak a modell különböző megvalósításai között.

Lényegében a torzítás az, hogy a modell előrejelzései mennyire távolodnak el a helyességtől, míg a variancia az, hogy ezek az előrejelzések milyen mértékben változnak a modell iterációi között.

1. ábra: Az előfeszítés és a variancia grafikus szemléltetése
A Scott Fortmann-Roe által írt Understanding the Bias-Variance Tradeoff című könyvből.

Diszkusszió

Egy egyszerű, hibás elnökválasztási felmérést használva példaként, a felmérés hibáit a torzítás és a variancia kettős szemszögéből magyarázzuk: a felmérésben résztvevők telefonkönyvből történő kiválasztása a torzítás forrása; a kis mintanagyság a variancia forrása; a teljes modellhiba minimalizálása a torzítás és a variancia hibáinak kiegyensúlyozásán alapul.

Fortmann-Roe ezután ezeket a kérdéseket egyetlen algoritmusra, a k-Nearest Neighborra vonatkoztatva tárgyalja. Ezután ismertet néhány kulcsfontosságú kérdést, amelyeken el kell gondolkodni a torzítás és a variancia kezelése során, beleértve az újramintázási technikákat, az algoritmusok aszimptotikus tulajdonságait és azok hatását a torzítási és varianciahibákra, valamint az adatokkal és a modellezéssel kapcsolatos feltevésekkel való küzdelmet.

A dolgozat végén azt állítja, hogy e két fogalom alapvetően szorosan kapcsolódik a túl- és alulillesztéshez. Véleményem szerint itt a legfontosabb pont:

Amint egyre több és több paramétert adunk hozzá egy modellhez, a modell bonyolultsága növekszik, és a variancia válik az elsődleges gondunkká, miközben a torzítás folyamatosan csökken. Például minél több polinomiális kifejezést adunk hozzá egy lineáris regresszióhoz, annál nagyobb lesz az eredményül kapott modell komplexitása. Más szóval, a torzításnak negatív elsőrendű deriváltja van a modell összetettségének függvényében, míg a variancia pozitív meredekségű.

2. ábra: A torzítás és a variancia hozzájárulása a teljes hibához
A Scott Fortmann-Roe által írt Understanding the Bias-Variance Tradeoff című könyvből.

Fortmann-Roe a túl- és alulillesztésről szóló részt azzal zárja, hogy rámutat egy másik nagyszerű esszéjére (Accurately Measuring Model Prediction Error), majd rátér arra a rendkívül egyetértő ajánlásra, hogy “az újramintázáson alapuló méréseket, például a kereszt-validálást előnyben kell részesíteni az olyan elméleti mérésekkel szemben, mint az Aikake’s Information Criteria”.

3. ábra: 5-szörös kereszt-validációs adatfelosztás
A Accurately Measuring Model Prediction Error című könyvből, írta Scott Fortmann-Roe.

A kereszthitelesítésnél természetesen fontos döntés, hogy hányszoros (k-szoros kereszthitelesítés, ugye?), k értékét használjuk. Minél kisebb az érték, annál nagyobb a torzítás a hiba becslésekben és annál kisebb a szórás. Ezzel szemben, ha a k értéke megegyezik az esetek számával, akkor a hiba becslése ekkor nagyon alacsony torzítású, de nagy szórás lehetősége van. A torzítás-variáció kompromisszumot nyilvánvalóan fontos megérteni még a legrutinosabb statisztikai kiértékelési módszerek, például a k-szoros kereszt-validálás esetében is.

A kereszt-validálás sajnos időnként úgy tűnik, hogy az adattudomány modern korában elvesztette vonzerejét, de ez egy másik alkalommal tárgyalandó kérdés.

Elolvasásra ajánlom Scott Fortmann-Roe teljes bias-variance tradeoff esszéjét, valamint a modell előrejelzési hibájának méréséről szóló írását.

Kapcsolódó:

Big Data, Bible Codes, and Bonferroni
Data Science of Variable Selection: A Review
Datasets Over Algorithms

KDnuggets

Vélemény, hozzászólás? Kilépés a válaszból