Ako vieme, algoritmus kontrolovaného strojového učenia možno vo všeobecnosti rozdeliť na regresné a klasifikačné algoritmy. V regresných algoritmoch sme predpovedali výstup pre spojité hodnoty, ale na predpovedanie kategorických hodnôt potrebujeme klasifikačné algoritmy.
Čo je klasifikačný algoritmus?
Klasifikačný algoritmus je technika supervidovaného učenia, ktorá sa používa na identifikáciu kategórie nových pozorovaní na základe trénovacích údajov. V klasifikácii sa program učí z daného súboru údajov alebo pozorovaní a potom klasifikuje nové pozorovanie do niekoľkých tried alebo skupín. Ako napr. Áno alebo Nie, 0 alebo 1, Spam alebo nie Spam, mačka alebo pes, atď. Triedy môžu byť nazývané ako ciele/návestia alebo kategórie.
vyvolať spracovanie výnimiek v jazyku Java
Na rozdiel od regresie je výstupná premenná klasifikácie kategóriou, nie hodnotou, ako napríklad „zelená alebo modrá“, „ovocie alebo zviera“ atď. Keďže algoritmus klasifikácie je technika učenia pod dohľadom, prijíma označené vstupné údaje, ktoré znamená, že obsahuje vstup s príslušným výstupom.
V klasifikačnom algoritme sa diskrétna výstupná funkcia (y) mapuje na vstupnú premennú (x).
y=f(x), where y = categorical output
Najlepším príkladom klasifikačného algoritmu ML je Email Spam Detector .
Hlavným cieľom klasifikačného algoritmu je identifikovať kategóriu daného súboru údajov a tieto algoritmy sa používajú hlavne na predikciu výstupu pre kategorické údaje.
Klasifikačné algoritmy možno lepšie pochopiť pomocou nižšie uvedeného diagramu. V nižšie uvedenom diagrame sú dve triedy, trieda A a trieda B. Tieto triedy majú vlastnosti, ktoré sú si navzájom podobné a nie sú podobné ako ostatné triedy.
Algoritmus, ktorý implementuje klasifikáciu na množine údajov, je známy ako klasifikátor. Existujú dva typy klasifikácií:
Príklady: ÁNO alebo NIE, MUŽ alebo ŽENA, SPAM alebo NIE SPAM, Mačka alebo pes atď.
Príklad: Klasifikácia druhov plodín, Klasifikácia druhov hudby.
Študenti v klasifikačných problémoch:
V klasifikačných problémoch existujú dva typy žiakov:
Príklad: Algoritmus K-NN, uvažovanie na základe prípadov
Typy klasifikačných algoritmov ML:
Klasifikačné algoritmy možno ďalej rozdeliť hlavne do dvoch kategórií:
- Logistická regresia
- Podpora vektorových strojov
- K-Najbližší susedia
- Jadro SVM
- Nam Bayes
- Klasifikácia rozhodovacieho stromu
- Náhodná klasifikácia lesa
Poznámka: Vyššie uvedené algoritmy sa naučíme v neskorších kapitolách.
Vyhodnotenie klasifikačného modelu:
Po dokončení nášho modelu je potrebné vyhodnotiť jeho výkonnosť; buď ide o klasifikačný alebo regresný model. Takže na vyhodnotenie klasifikačného modelu máme nasledujúce spôsoby:
1. Strata protokolu alebo strata krížovej entropie:
- Používa sa na vyhodnotenie výkonu klasifikátora, ktorého výstupom je hodnota pravdepodobnosti medzi 0 a 1.
- Pre dobrý model binárnej klasifikácie by sa hodnota straty logaritmu mala blížiť k 0.
- Hodnota logaritmickej straty sa zvyšuje, ak sa predpokladaná hodnota odchyľuje od skutočnej hodnoty.
- Nižšia logaritmická strata predstavuje vyššiu presnosť modelu.
- Pre binárnu klasifikáciu možno krížovú entropiu vypočítať ako:
?(ylog(p)+(1?y)log(1?p))
Kde y = skutočný výstup, p = predpokladaný výstup.
2. Matica zmätku:
- Matica zmätku nám poskytuje maticu/tabuľku ako výstup a popisuje výkonnosť modelu.
- Je tiež známa ako chybová matica.
- Matica pozostáva z výsledku predpovedí v súhrnnej forme, ktorá má celkový počet správnych a nesprávnych predpovedí. Matica vyzerá ako v tabuľke nižšie:
Skutočný pozitívny | Skutočný negatívny | |
---|---|---|
Predpovedané pozitívne | Skutočne pozitívne | Falošne pozitívne |
Predpovedané negatívne | Falošný negatív | Skutočne negatívne |
3. Krivka AUC-ROC:
java získať aktuálny čas
- ROC krivka znamená Krivka prevádzkových charakteristík prijímača a AUC znamená Oblasť pod krivkou .
- Ide o graf, ktorý zobrazuje výkonnosť klasifikačného modelu pri rôznych prahových hodnotách.
- Na vizualizáciu výkonnosti modelu klasifikácie viacerých tried používame krivku AUC-ROC.
- Krivka ROC je vynesená pomocou TPR a FPR, kde TPR (skutočná pozitívna miera) na osi Y a FPR (falošne pozitívna miera) na osi X.
Prípady použitia klasifikačných algoritmov
Klasifikačné algoritmy možno použiť na rôznych miestach. Nižšie sú uvedené niektoré populárne prípady použitia klasifikačných algoritmov:
- Detekcia emailového spamu
- Rozpoznávanie reči
- Identifikácia rakovinových nádorových buniek.
- Klasifikácia liekov
- Biometrická identifikácia atď.