logo

Klasifikačný algoritmus v strojovom učení

Ako vieme, algoritmus kontrolovaného strojového učenia možno vo všeobecnosti rozdeliť na regresné a klasifikačné algoritmy. V regresných algoritmoch sme predpovedali výstup pre spojité hodnoty, ale na predpovedanie kategorických hodnôt potrebujeme klasifikačné algoritmy.

Čo je klasifikačný algoritmus?

Klasifikačný algoritmus je technika supervidovaného učenia, ktorá sa používa na identifikáciu kategórie nových pozorovaní na základe trénovacích údajov. V klasifikácii sa program učí z daného súboru údajov alebo pozorovaní a potom klasifikuje nové pozorovanie do niekoľkých tried alebo skupín. Ako napr. Áno alebo Nie, 0 alebo 1, Spam alebo nie Spam, mačka alebo pes, atď. Triedy môžu byť nazývané ako ciele/návestia alebo kategórie.

vyvolať spracovanie výnimiek v jazyku Java

Na rozdiel od regresie je výstupná premenná klasifikácie kategóriou, nie hodnotou, ako napríklad „zelená alebo modrá“, „ovocie alebo zviera“ atď. Keďže algoritmus klasifikácie je technika učenia pod dohľadom, prijíma označené vstupné údaje, ktoré znamená, že obsahuje vstup s príslušným výstupom.

V klasifikačnom algoritme sa diskrétna výstupná funkcia (y) mapuje na vstupnú premennú (x).

 y=f(x), where y = categorical output 

Najlepším príkladom klasifikačného algoritmu ML je Email Spam Detector .

Hlavným cieľom klasifikačného algoritmu je identifikovať kategóriu daného súboru údajov a tieto algoritmy sa používajú hlavne na predikciu výstupu pre kategorické údaje.

Klasifikačné algoritmy možno lepšie pochopiť pomocou nižšie uvedeného diagramu. V nižšie uvedenom diagrame sú dve triedy, trieda A a trieda B. Tieto triedy majú vlastnosti, ktoré sú si navzájom podobné a nie sú podobné ako ostatné triedy.

Klasifikačný algoritmus v strojovom učení

Algoritmus, ktorý implementuje klasifikáciu na množine údajov, je známy ako klasifikátor. Existujú dva typy klasifikácií:

    Binárny klasifikátor:Ak má klasifikačný problém iba dva možné výsledky, potom sa nazýva binárny klasifikátor.
    Príklady: ÁNO alebo NIE, MUŽ alebo ŽENA, SPAM alebo NIE SPAM, Mačka alebo pes atď.Viactriedny klasifikátor:Ak má klasifikačný problém viac ako dva výsledky, potom sa nazýva klasifikátor viacerých tried.
    Príklad: Klasifikácia druhov plodín, Klasifikácia druhov hudby.

Študenti v klasifikačných problémoch:

V klasifikačných problémoch existujú dva typy žiakov:

    Leniví študenti:Lazy Learner najprv uloží tréningový súbor údajov a počká, kým dostane testovací súbor údajov. V prípade lenivého žiaka sa klasifikácia vykonáva na základe najviac súvisiacich údajov uložených v súbore tréningových údajov. Trvá menej času na tréning, ale viac času na predpovede.
    Príklad: Algoritmus K-NN, uvažovanie na základe prípadovDychtiví študenti:Eager Learners vyvinú klasifikačný model založený na tréningovom súbore údajov predtým, ako dostanú testovací súbor údajov. Na rozdiel od lenivých študentov, Eager Learner potrebuje viac času na učenie a menej času na predpovedanie. Príklad: Rozhodovacie stromy, Na�ve Bayes, ANN.

Typy klasifikačných algoritmov ML:

Klasifikačné algoritmy možno ďalej rozdeliť hlavne do dvoch kategórií:

    Lineárne modely
    • Logistická regresia
    • Podpora vektorových strojov
    Nelineárne modely
    • K-Najbližší susedia
    • Jadro SVM
    • Nam Bayes
    • Klasifikácia rozhodovacieho stromu
    • Náhodná klasifikácia lesa

Poznámka: Vyššie uvedené algoritmy sa naučíme v neskorších kapitolách.

Vyhodnotenie klasifikačného modelu:

Po dokončení nášho modelu je potrebné vyhodnotiť jeho výkonnosť; buď ide o klasifikačný alebo regresný model. Takže na vyhodnotenie klasifikačného modelu máme nasledujúce spôsoby:

1. Strata protokolu alebo strata krížovej entropie:

  • Používa sa na vyhodnotenie výkonu klasifikátora, ktorého výstupom je hodnota pravdepodobnosti medzi 0 a 1.
  • Pre dobrý model binárnej klasifikácie by sa hodnota straty logaritmu mala blížiť k 0.
  • Hodnota logaritmickej straty sa zvyšuje, ak sa predpokladaná hodnota odchyľuje od skutočnej hodnoty.
  • Nižšia logaritmická strata predstavuje vyššiu presnosť modelu.
  • Pre binárnu klasifikáciu možno krížovú entropiu vypočítať ako:
 ?(ylog(p)+(1?y)log(1?p)) 

Kde y = skutočný výstup, p = predpokladaný výstup.

2. Matica zmätku:

  • Matica zmätku nám poskytuje maticu/tabuľku ako výstup a popisuje výkonnosť modelu.
  • Je tiež známa ako chybová matica.
  • Matica pozostáva z výsledku predpovedí v súhrnnej forme, ktorá má celkový počet správnych a nesprávnych predpovedí. Matica vyzerá ako v tabuľke nižšie:
Skutočný pozitívny Skutočný negatívny
Predpovedané pozitívne Skutočne pozitívne Falošne pozitívne
Predpovedané negatívne Falošný negatív Skutočne negatívne
Klasifikačný algoritmus v strojovom učení

3. Krivka AUC-ROC:

java získať aktuálny čas
  • ROC krivka znamená Krivka prevádzkových charakteristík prijímača a AUC znamená Oblasť pod krivkou .
  • Ide o graf, ktorý zobrazuje výkonnosť klasifikačného modelu pri rôznych prahových hodnotách.
  • Na vizualizáciu výkonnosti modelu klasifikácie viacerých tried používame krivku AUC-ROC.
  • Krivka ROC je vynesená pomocou TPR a FPR, kde TPR (skutočná pozitívna miera) na osi Y a FPR (falošne pozitívna miera) na osi X.

Prípady použitia klasifikačných algoritmov

Klasifikačné algoritmy možno použiť na rôznych miestach. Nižšie sú uvedené niektoré populárne prípady použitia klasifikačných algoritmov:

  • Detekcia emailového spamu
  • Rozpoznávanie reči
  • Identifikácia rakovinových nádorových buniek.
  • Klasifikácia liekov
  • Biometrická identifikácia atď.