logo

Hyperparametre v strojovom učení

Hyperparametre v strojovom učení sú parametre, ktoré sú explicitne definované používateľom na riadenie procesu učenia. Tieto hyperparametre sa používajú na zlepšenie učenia sa modelu a ich hodnoty sa nastavujú pred spustením procesu učenia sa modelu.

Hyperparametre v strojovom učení

V tejto téme budeme diskutovať o jednom z najdôležitejších konceptov strojového učenia, t. j. Hyperparametre, ich príklady, ladenie hyperparametrov, kategórie hyperparametrov, ako sa hyperparameter líši od parametra v Machine Learning? Ale skôr ako začneme, poďme najprv pochopiť Hyperparameter.

Čo sú hyperparametre?

V Machine Learning/Deep Learning je model reprezentovaný svojimi parametrami. Na rozdiel od toho tréningový proces zahŕňa výber najlepších/optimálnych hyperparametrov, ktoré používajú učiace sa algoritmy na poskytnutie najlepšieho výsledku. Takže, aké sú tieto hyperparametre? Odpoveď je, ' Hyperparametre sú definované ako parametre, ktoré sú explicitne definované používateľom na riadenie procesu učenia.'

Tu predpona „hyper“ naznačuje, že parametre sú parametre najvyššej úrovne, ktoré sa používajú pri riadení procesu učenia. Hodnotu hyperparametra vyberie a nastaví inžinier strojového učenia predtým, ako učiaci algoritmus začne trénovať model. Sú teda externé voči modelu a ich hodnoty sa počas tréningového procesu nedajú meniť .

algebra množín

Niekoľko príkladov hyperparametrov v strojovom učení

  • K v kNN alebo algoritme K-Nearest Neighbor
  • Rýchlosť učenia pre trénovanie neurónovej siete
  • Pomer delenia vlak-skúška
  • Veľkosť dávky
  • Počet epoch
  • Vetvy v rozhodovacom strome
  • Počet klastrov v klastrovom algoritme

Rozdiel medzi parametrom a hyperparametrom?

Medzi parametrami a hyperparametrami alebo modelovými hyperparametrami je vždy veľký zmätok. Aby sme tento zmätok objasnili, poďme pochopiť rozdiel medzi nimi a ako spolu súvisia.

Parametre modelu:

Parametre modelu sú konfiguračné premenné, ktoré sú interné v modeli a model sa ich učí sám. Napríklad , W Váhy alebo Koeficienty nezávislých premenných v modeli lineárnej regresie . alebo Váhy alebo koeficienty nezávislých premenných v SVM, váha a odchýlky neurónovej siete, ťažisko klastra v zhlukoch. Niektoré kľúčové body pre parametre modelu sú nasledovné:

  • Používa ich model na vytváranie predpovedí.
  • Učí sa ich model zo samotných údajov
  • Tie sa zvyčajne nenastavujú manuálne.
  • Tieto sú súčasťou modelu a kľúčom k algoritmu strojového učenia.

Hyperparametre modelu:

Hyperparametre sú tie parametre, ktoré sú explicitne definované používateľom na riadenie procesu učenia. Niektoré kľúčové body pre parametre modelu sú nasledovné:

  • Tieto sú zvyčajne definované manuálne inžinierom strojového učenia.
  • Nie je možné poznať presnú najlepšiu hodnotu hyperparametrov pre daný problém. Najlepšia hodnota môže byť určená buď pravidlom, alebo pokusom a omylom.
  • Niektoré príklady hyperparametrov sú rýchlosť učenia pre trénovanie neurónovej siete, K v algoritme KNN,

Kategórie hyperparametrov

Vo všeobecnosti možno hyperparametre rozdeliť do dvoch kategórií, ktoré sú uvedené nižšie:

    Hyperparameter pre optimalizáciu Hyperparameter pre špecifické modely

Hyperparameter pre optimalizáciu

Proces výberu najlepších hyperparametrov na použitie je známy ako ladenie hyperparametrov a proces ladenia je známy aj ako optimalizácia hyperparametrov. Na optimalizáciu modelu sa používajú optimalizačné parametre.

Hyperparametre v strojovom učení

Niektoré z populárnych parametrov optimalizácie sú uvedené nižšie:

    Miera učenia:Rýchlosť učenia je hyperparameter v optimalizačných algoritmoch, ktorý riadi, ako veľmi sa model musí zmeniť v reakcii na odhadovanú chybu pri každej aktualizácii váh modelu. Je to jeden z rozhodujúcich parametrov pri budovaní neurónovej siete a zároveň určuje frekvenciu krížovej kontroly s parametrami modelu. Výber optimalizovanej rýchlosti učenia je náročná úloha, pretože ak je rýchlosť učenia veľmi nižšia, môže to spomaliť tréningový proces. Na druhej strane, ak je rýchlosť učenia príliš veľká, nemusí sa model správne optimalizovať.

Poznámka: Rýchlosť učenia je kľúčovým hyperparametrom pre optimalizáciu modelu, takže ak existuje požiadavka vyladiť iba jeden hyperparameter, odporúča sa vyladiť rýchlosť učenia.

    Veľkosť dávky:Aby sa zvýšila rýchlosť procesu učenia, tréningová súprava je rozdelená do rôznych podmnožín, ktoré sú známe ako dávka. Počet epoch: Epochu možno definovať ako úplný cyklus trénovania modelu strojového učenia. Epocha predstavuje iteratívny proces učenia. Počet epoch sa líši od modelu k modelu a rôzne modely sa vytvárajú s viac ako jednou epochou. Na určenie správneho počtu epoch sa berie do úvahy chyba overenia. Počet epoch sa zvyšuje, kým nedôjde k zníženiu chyby overenia. Ak nedôjde k zlepšeniu chyby redukcie pre po sebe nasledujúce epochy, znamená to zastaviť zvyšovanie počtu epoch.

Hyperparameter pre špecifické modely

Hyperparametre, ktoré sa podieľajú na štruktúre modelu, sú známe ako hyperparametre pre špecifické modely. Tieto sú uvedené nižšie:

    Niekoľko skrytých jednotiek:Skryté jednotky sú súčasťou neurónových sietí, ktoré označujú komponenty obsahujúce vrstvy procesorov medzi vstupnými a výstupnými jednotkami v neurónovej sieti.

Je dôležité špecifikovať počet skrytých jednotiek hyperparametra pre neurónovú sieť. Mala by byť medzi veľkosťou vstupnej vrstvy a veľkosťou výstupnej vrstvy. Presnejšie povedané, počet skrytých jednotiek by mal byť 2/3 veľkosti vstupnej vrstvy plus veľkosť výstupnej vrstvy.

Pri komplexných funkciách je potrebné určiť počet skrytých jednotiek, ale nemal by presahovať model.

    Počet vrstiev:Neurónová sieť sa skladá z vertikálne usporiadaných komponentov, ktoré sa nazývajú vrstvy. Existujú hlavne vstupné vrstvy, skryté vrstvy a výstupné vrstvy . 3-vrstvová neurónová sieť poskytuje lepší výkon ako 2-vrstvová sieť. V prípade konvolučnej neurónovej siete väčší počet vrstiev vytvára lepší model.

Záver

Hyperparametre sú parametre, ktoré sú explicitne definované na riadenie procesu učenia pred aplikáciou algoritmu strojového učenia na množinu údajov. Tieto sa používajú na špecifikáciu kapacity učenia a zložitosti modelu. Niektoré z hyperparametrov sa používajú na optimalizáciu modelov, ako je veľkosť dávky, rýchlosť učenia atď., a niektoré sú špecifické pre modely, napríklad počet skrytých vrstiev atď.