logo

Giniho index v strojovom učení

Úvod

Strojové učenie zreformovalo spôsob, akým spracovávame a skúmame údaje, a algoritmy rozhodovacieho stromu sú známym rozhodnutím pre klasifikačné a regresné úlohy. Giniho index, inak nazývaný Giniho nečistota alebo Giniho koeficient, je významnou mierou nečistôt využívanou v algoritmoch rozhodovacieho stromu. V tomto článku podrobne preskúmame myšlienku Gini indexu, jeho číselný vzorec a jeho aplikácie v strojovom učení. Rovnako porovnáme Gini index a iné ukazovatele nečistôt, porozprávame sa o jeho obmedzeniach a výhodách a preskúmame kontextové analýzy jeho aplikácií v reálnom svete. Nakoniec tu predstavíme budúce ložiská pre výskum.

Čo je Gini index?

Giniho index je podiel nečistoty alebo nerovnosti v štatistických a menových podmienkach. V strojovom učení sa používa ako miera nečistôt v algoritmoch rozhodovacieho stromu pre klasifikačné úlohy. Giniho index meria pravdepodobnosť, že náhodne vybraný test bude nesprávne klasifikovaný algoritmom rozhodovacieho stromu, a jeho hodnota sa pohybuje od 0 (dokonale čistý) po 1 (dokonale nečistý).

Vzorec Gini Index

Giniho index je podiel nečistoty alebo nerovnosti obehu, ktorý sa pravidelne používa ako miera nečistoty v algoritmoch rozhodovacieho stromu. Pokiaľ ide o rozhodovacie stromy, Gini Index sa používa na určenie najlepšej funkcie na rozdelenie údajov v každom uzle stromu.

Vzorec pre Gini index je nasledujúci:

Giniho index v strojovom učení

kde pi je pravdepodobnosť, že vec má miesto so špecifickou triedou.

Napríklad by sme mali zvážiť problém binárnej klasifikácie s dvoma triedami An a B. Pri náhode, že pravdepodobnosť triedy An je p a pravdepodobnosť triedy B je (1-p), potom možno Giniho index vypočítať ako :

Hodnota Gini indexu sa pohybuje od 0,0 do 0,5 pre problémy s binárnou klasifikáciou, kde 0,0 demonštruje dokonale čistý uzol (všetky príklady majú miesto s podobnou triedou) a 0,5 ukazuje dokonale nečistý uzol (testy sú rovnomerne rozdelené medzi dve triedy ).

Použitie Giniho indexu pri problémoch s klasifikáciou

Giniho index sa vo všeobecnosti používa ako miera nečistôt v algoritmoch rozhodovacieho stromu pre klasifikačné problémy. V rozhodovacích stromoch každý uzol oslovuje prvok a cieľom je rozdeliť údaje do podmnožín, ktoré sú v podstate také čisté, ako by sa dalo očakávať. Miera nečistôt (ako Gini Index) sa používa na rozhodnutie o najlepšom rozdelení v každom uzle.

Aby sme to ilustrovali, mali by sme zvážiť príklad rozhodovacieho stromu pre problém binárnej klasifikácie. Strom má dva prvky: vek a príjem a cieľom je predvídať bez ohľadu na to, či sa jednotlivec pravdepodobne chystá kúpiť položku. Strom je skonštruovaný s využitím Giniho indexu ako miery nečistôt.

V koreňovom uzle sa Gini index vypočíta s ohľadom na pravdepodobnosť, že príklady budú mať miesto s triedou 0 alebo triedou 1. Uzol je rozdelený vzhľadom na zložku, ktorá vedie k najvyššiemu poklesu Giniho indexu. Tento cyklus sa rekurzívne opakuje pre každú podmnožinu, kým sa nesplní zastavovacie opatrenie.

Rozhodovacie stromy

Rozhodovací strom je dobre známy algoritmus strojového učenia, ktorý sa používa pre klasifikačné aj regresné úlohy. Model je spracovaný rekurzívnym rozdelením súboru údajov na skromnejšie podmnožiny vo svetle hodnôt zvýraznených informácií, ktorých cieľom je obmedziť nečistoty nasledujúcich podmnožín.

V každom uzle stromu sa rozhoduje o hodnotách jedného z zvýraznených informácií, pričom konečným cieľom je, aby nasledujúce podmnožiny boli v podstate také čisté, ako by sa dalo skutočne očakávať. Čistota podmnožiny sa pravidelne odhaduje mierou nečistôt, napríklad Giniho indexom alebo entropiou.

Algoritmus rozhodovacieho stromu možno použiť pre binárne a viactriedne klasifikačné úlohy, ako aj pre regresné úlohy. V úlohách binárnej klasifikácie rozhodovací strom rozdeľuje množinu údajov na dve podmnožiny vo svetle hodnoty binárneho prvku, napríklad áno alebo nie. V úlohách klasifikácie viacerých tried rozhodovací strom rozdeľuje množinu údajov do mnohých podmnožín vo svetle hodnôt priameho prvku, ako je červená, zelená alebo modrá.

Gini index vs. iné miery nečistôt

Okrem Giniho indexu existujú aj iné miery nečistôt, ktoré sa bežne používajú v algoritmoch rozhodovacieho stromu, napríklad entropia a zisk informácií.

Entropia:

V strojovom učení je entropia podielom nepravidelnosti alebo zraniteľnosti v množstve údajov. Vo všeobecnosti sa používa ako miera nečistôt v algoritmoch rozhodovacieho stromu spolu s indexom Gini.

V algoritmoch rozhodovacieho stromu sa entropia využíva na rozhodnutie o najlepšom komponente na rozdelenie údajov v každom uzle stromu. Cieľom je nájsť prvok, ktorý má za následok najväčší pokles entropie, ktorý súvisí s komponentom, ktorý poskytuje najviac informácií o probléme klasifikácie.

Giniho index v strojovom učení

Zatiaľ čo entropia a Giniho index sa bežne používajú ako miery nečistôt v algoritmoch rozhodovacieho stromu, majú rôzne vlastnosti. Entropia je citlivejšia na obeh názvov tried a vo všeobecnosti prinesie viac upravených stromov, zatiaľ čo Giniho index je menej citlivý na privlastňovanie triednych známok a vo všeobecnosti vytvorí obmedzenejšie stromy s menším počtom delení. Rozhodnutie o miere nečistôt závisí od konkrétneho problému a atribútov údajov.

Získanie informácií:

Informačný zisk je akcia používaná na posúdenie povahy rozdelenia pri vytváraní rozhodovacieho stromu. Cieľom rozhodovacieho stromu je rozdeliť údaje do podmnožín, ktoré sú v zásade také homogénne, ako si len možno predstaviť ako cieľová premenná, takže nasledujúci strom možno použiť na presné očakávania nových údajov. Informačný zisk meria pokles entropie alebo nečistoty dosiahnutý rozdelením. Funkcia s najpozoruhodnejším ziskom informácií je vybraná ako najlepšia vlastnosť na rozdelenie v každom uzle rozhodovacieho stromu.

Informačný zisk je bežne zapojené opatrenie na hodnotenie povahy rozdelení v rozhodovacích stromoch, no nie je to ten, na ktorý sa treba zamerať. Môžu sa použiť aj rôzne merania, napríklad Giniho index alebo miera chybnej klasifikácie. Rozhodnutie o rozdelení závisí od hlavného problému a atribútov používaného súboru údajov.

Príklad Giniho indexu

Mali by sme zvážiť otázku binárnej klasifikácie, kde máme súbor údajov 10 príkladov s dvoma triedami: „pozitívny“ a „negatívny“. Z 10 príkladov má 6 miesto v triede „Pozitívna“ a 4 majú miesto v triede „Negatívne“.

Na výpočet Giniho indexu súboru údajov najprv vypočítame pravdepodobnosť každej triedy:

p_1 = 6/10 = 0,6 (kladné)

p_2 = 4/10 = 0,4 (záporné)

Potom v tomto bode použijeme vzorec Gini Index na výpočet nečistoty súboru údajov:

Gini(S) = 1 – (p_1^2 + p_2^2)

= 1 – (0,6^2 + 0,4^2)

= 0,48

Gini index súboru údajov je teda 0,48.

Predpokladajme, že v súčasnosti potrebujeme rozdeliť súbor údajov na prvok „X“, ktorý má dve potenciálne hodnoty: „A“ a „B“. S ohľadom na komponent sme súbor údajov rozdelili na dve podmnožiny:

Podskupina 1 (X = A): 4 pozitívne, 1 negatívne

Podskupina 2 (X = B): 2 pozitívne, 3 negatívne

Na výpočet poklesu Gini indexu pre toto rozdelenie najprv vypočítame Gini index každej podmnožiny:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Potom použijeme vzorec na získanie informácií na výpočet poklesu Gini indexu:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Takže informačný zisk (t. j. pokles Giniho indexu) pre rozdelenie súboru údajov na zvýraznenie „X“ je 0,08.

V tejto situácii, v prípade, že vypočítame informačný zisk pre všetky prvky a vyberieme ten s najpozoruhodnejším informačným ziskom, bude tento komponent vybraný ako najlepší komponent na rozdelenie v koreňovom uzle rozhodovacieho stromu.

Výhody:

Giniho index je široko zapojeným meradlom na hodnotenie povahy rozdelení v rozhodovacích stromoch a má niekoľko výhod v porovnaní s rôznymi mierami, napríklad entropia alebo miera nesprávnej klasifikácie. Tu je časť hlavných výhod používania Gini indexu:

premenovanie adresára linux

Výpočtovo efektívne: Giniho index je menej komplexná a výpočtovo rýchlejšia miera v porovnaní s rôznymi mierami, napríklad entropia, ktorá zahŕňa výpočet logaritmov.

Intuitívny výklad: Gini index je jednoduchý a interpretovateľný. Meria pravdepodobnosť, že náhodne vybraný príklad zo sady bude nesprávne klasifikovaný v prípade, že bol náhodne označený podľa triedy prepravy v súprave.

Dobré pre binárnu klasifikáciu: Giniho index je obzvlášť účinný pri problémoch binárnej klasifikácie, kde má cieľová premenná len dve triedy. V takýchto prípadoch je známe, že Gini index je stabilnejší ako rôzne ukazovatele.

Robustná nevyváženosť triedy: Giniho index je menej citlivý na triednu nerovnováhu v kontraste s rôznymi mierami, ako je napríklad presnosť alebo miera nesprávnej klasifikácie. Je to z toho dôvodu, že Giniho index závisí od všeobecného rozsahu príkladov v každej triede na rozdiel od úplných čísel.

Menej náchylné na preťaženie: Gini index bude vo všeobecnosti robiť skromnejšie rozhodovacie stromy v porovnaní s rôznymi mierami, vďaka čomu je menej náchylný na nadmerné vybavenie. Je to z toho dôvodu, že index Gini bude vo všeobecnosti uprednostňovať funkcie, ktoré tvoria skromnejšie časti údajov, čo obmedzuje možnosti nadmerného vybavenia.

Nevýhody:

Zatiaľ čo index Gini má niekoľko výhod ako opatrenie na rozdelenie rozhodovacích stromov, má tiež niekoľko nevýhod. Tu je časť hlavných nevýhod používania Gini indexu:

Zaujatosť voči funkciám s mnohými kategóriami: Gini index sa bude vo všeobecnosti prikláňať k vlastnostiam s mnohými kategóriami alebo hodnotami, pretože môžu vytvárať viac častí a častí údajov. To môže viesť k nadmernému vybaveniu a komplikovanejšiemu rozhodovaciemu stromu.

Nevhodné pre spojité premenné: Gini index nie je vhodný pre spojité premenné, pretože vyžaduje diskretizáciu premennej do kategórií alebo zásobníkov, čo môže viesť k strate informácií a zníženiu presnosti.

Ignoruje interakcie funkcií: Giniho index len myslí na individuálnu predvídavú silu každej funkcie a ignoruje interakcie medzi funkciami. To môže viesť k zlým rozdeleniam a menej presným predpovediam.

Nie je ideálne pre niektoré množiny údajov: Giniho index niekedy nemusí byť ideálnym meradlom na hodnotenie povahy rozdelení v rozhodovacom strome. Napríklad v prípade, že je objektívna premenná mimoriadne naklonená alebo nevyvážená, môžu byť vhodnejšie iné merania, napríklad informačný zisk alebo podiel zisku.

Sklon k zaujatosti v prítomnosti chýbajúcich hodnôt: Giniho index môže byť v prípade chýbajúcich hodnôt skreslený, pretože sa vo všeobecnosti prikloní k znakom s menším počtom chýbajúcich hodnôt, bez ohľadu na to, či nie sú najinformatívnejšie.

Reálne svetové aplikácie Gini indexu

Gini Index sa využíval v rôznych aplikáciách strojového učenia, napríklad pri lokalizácii vydierania, úverovom hodnotení a klientskej divízii. Napríklad pri zisťovaní vydierania možno Gini Index využiť na rozlíšenie vzorov pri výmene údajov a na rozpoznanie bizarného spôsobu správania. V úverovom skóringu možno Gini Index využiť na predpovedanie pravdepodobnosti zlyhania s ohľadom na premenné, ako je príjem, vzťah medzi nesplateným dlhom a výplatou a záznam o splácaní úveru. V klientskej divízii možno Gini Index využiť na zoskupenie klientov podľa ich spôsobu správania a sklonov.

Budúci výskum

Napriek jeho neobmedzenému použitiu v algoritmoch rozhodovacieho stromu stále existuje určitý stupeň výskumu Giniho indexu. Jednou z oblastí výskumu je pokrok v nových mierach nečistôt, ktoré môžu riešiť obmedzenia Giniho indexu, ako je jeho sklon k faktorom s mnohými úrovňami. Ďalšou oblasťou výskumu je zefektívnenie algoritmov rozhodovacích stromov pomocou Gini Indexu, napríklad využitie techník oblečenia na prácu s presnosťou rozhodovacích stromov.

Záver

Giniho index je významnou mierou nečistôt využívanou v algoritmoch rozhodovacieho stromu pre klasifikačné úlohy. Meria pravdepodobnosť, že náhodne vybraný test bude nesprávne klasifikovaný algoritmom rozhodovacieho stromu, a jeho hodnota sa pohybuje od 0 (dokonale čistý) po 1 (dokonale nečistý). Gini Index je priamočiary a realizovateľný, výpočtovo produktívny a až na výnimky výkonný. Používa sa v rôznych aplikáciách strojového učenia, napríklad pri zisťovaní nepravdivých informácií, úverovom hodnotení a pri delení klientov. Zatiaľ čo index Gini má niekoľko obmedzení, stále existuje určitý stupeň výskumu jeho zlepšenia a zlepšenia nových mier nečistôt.