Hyperparametre v strojovom učení sú parametre, ktoré sú explicitne definované používateľom na riadenie procesu učenia. Tieto hyperparametre sa používajú na zlepšenie učenia sa modelu a ich hodnoty sa nastavujú pred spustením procesu učenia sa modelu.
V tejto téme budeme diskutovať o jednom z najdôležitejších konceptov strojového učenia, t. j. Hyperparametre, ich príklady, ladenie hyperparametrov, kategórie hyperparametrov, ako sa hyperparameter líši od parametra v Machine Learning? Ale skôr ako začneme, poďme najprv pochopiť Hyperparameter.
Čo sú hyperparametre?
V Machine Learning/Deep Learning je model reprezentovaný svojimi parametrami. Na rozdiel od toho tréningový proces zahŕňa výber najlepších/optimálnych hyperparametrov, ktoré používajú učiace sa algoritmy na poskytnutie najlepšieho výsledku. Takže, aké sú tieto hyperparametre? Odpoveď je, ' Hyperparametre sú definované ako parametre, ktoré sú explicitne definované používateľom na riadenie procesu učenia.'
Tu predpona „hyper“ naznačuje, že parametre sú parametre najvyššej úrovne, ktoré sa používajú pri riadení procesu učenia. Hodnotu hyperparametra vyberie a nastaví inžinier strojového učenia predtým, ako učiaci algoritmus začne trénovať model. Sú teda externé voči modelu a ich hodnoty sa počas tréningového procesu nedajú meniť .
algebra množín
Niekoľko príkladov hyperparametrov v strojovom učení
- K v kNN alebo algoritme K-Nearest Neighbor
- Rýchlosť učenia pre trénovanie neurónovej siete
- Pomer delenia vlak-skúška
- Veľkosť dávky
- Počet epoch
- Vetvy v rozhodovacom strome
- Počet klastrov v klastrovom algoritme
Rozdiel medzi parametrom a hyperparametrom?
Medzi parametrami a hyperparametrami alebo modelovými hyperparametrami je vždy veľký zmätok. Aby sme tento zmätok objasnili, poďme pochopiť rozdiel medzi nimi a ako spolu súvisia.
Parametre modelu:
Parametre modelu sú konfiguračné premenné, ktoré sú interné v modeli a model sa ich učí sám. Napríklad , W Váhy alebo Koeficienty nezávislých premenných v modeli lineárnej regresie . alebo Váhy alebo koeficienty nezávislých premenných v SVM, váha a odchýlky neurónovej siete, ťažisko klastra v zhlukoch. Niektoré kľúčové body pre parametre modelu sú nasledovné:
- Používa ich model na vytváranie predpovedí.
- Učí sa ich model zo samotných údajov
- Tie sa zvyčajne nenastavujú manuálne.
- Tieto sú súčasťou modelu a kľúčom k algoritmu strojového učenia.
Hyperparametre modelu:
Hyperparametre sú tie parametre, ktoré sú explicitne definované používateľom na riadenie procesu učenia. Niektoré kľúčové body pre parametre modelu sú nasledovné:
- Tieto sú zvyčajne definované manuálne inžinierom strojového učenia.
- Nie je možné poznať presnú najlepšiu hodnotu hyperparametrov pre daný problém. Najlepšia hodnota môže byť určená buď pravidlom, alebo pokusom a omylom.
- Niektoré príklady hyperparametrov sú rýchlosť učenia pre trénovanie neurónovej siete, K v algoritme KNN,
Kategórie hyperparametrov
Vo všeobecnosti možno hyperparametre rozdeliť do dvoch kategórií, ktoré sú uvedené nižšie:
Hyperparameter pre optimalizáciu
Proces výberu najlepších hyperparametrov na použitie je známy ako ladenie hyperparametrov a proces ladenia je známy aj ako optimalizácia hyperparametrov. Na optimalizáciu modelu sa používajú optimalizačné parametre.
Niektoré z populárnych parametrov optimalizácie sú uvedené nižšie:
Poznámka: Rýchlosť učenia je kľúčovým hyperparametrom pre optimalizáciu modelu, takže ak existuje požiadavka vyladiť iba jeden hyperparameter, odporúča sa vyladiť rýchlosť učenia.
Hyperparameter pre špecifické modely
Hyperparametre, ktoré sa podieľajú na štruktúre modelu, sú známe ako hyperparametre pre špecifické modely. Tieto sú uvedené nižšie:
Je dôležité špecifikovať počet skrytých jednotiek hyperparametra pre neurónovú sieť. Mala by byť medzi veľkosťou vstupnej vrstvy a veľkosťou výstupnej vrstvy. Presnejšie povedané, počet skrytých jednotiek by mal byť 2/3 veľkosti vstupnej vrstvy plus veľkosť výstupnej vrstvy.
Pri komplexných funkciách je potrebné určiť počet skrytých jednotiek, ale nemal by presahovať model.
Záver
Hyperparametre sú parametre, ktoré sú explicitne definované na riadenie procesu učenia pred aplikáciou algoritmu strojového učenia na množinu údajov. Tieto sa používajú na špecifikáciu kapacity učenia a zložitosti modelu. Niektoré z hyperparametrov sa používajú na optimalizáciu modelov, ako je veľkosť dávky, rýchlosť učenia atď., a niektoré sú špecifické pre modely, napríklad počet skrytých vrstiev atď.