UČENIE POD DOHĽADOM A BEZ DOZORU - TECHCODEVIEW.COM

Strojové učenie je oblasť počítačovej vedy, ktorá dáva počítačom schopnosť učiť sa bez toho, aby boli výslovne naprogramované. Učenie pod dohľadom a učenie bez dozoru sú dva hlavné typy strojové učenie .

In učenie pod dohľadom , stroj je trénovaný na množine označených údajov, čo znamená, že vstupné údaje sú spárované s požadovaným výstupom. Stroj sa potom naučí predpovedať výstup pre nové vstupné dáta. Učenie pod dohľadom sa často používa pri úlohách, ako je klasifikácia, regresia a detekcia objektov.

Pri učení bez dozoru je stroj trénovaný na súbore neoznačených údajov, čo znamená, že vstupné údaje nie sú spárované s požadovaným výstupom. Stroj sa potom naučí nájsť vzory a vzťahy v údajoch. Učenie bez dozoru sa často využíva pri úlohách ako napr zhlukovanie , redukcia rozmerov a detekcia anomálií.

Čo je učenie pod dohľadom?

Učenie pod dohľadom je typ algoritmus strojového učenia ktorý sa učí z označených údajov. Označené údaje sú údaje, ktoré boli označené správnou odpoveďou alebo klasifikáciou.

Učenie pod dohľadom, ako už názov napovedá, má ako učiteľ prítomnosť supervízora. Učenie pod dohľadom je, keď učíme alebo trénujeme stroj pomocou údajov, ktoré sú dobre označené. To znamená, že niektoré údaje sú už označené správnou odpoveďou. Potom je stroj vybavený novou sadou príkladov (údajov), takže algoritmus učenia pod dohľadom analyzuje tréningové údaje (súbor tréningových príkladov) a vytvára správny výsledok z označených údajov.

Napríklad označený súbor údajov s obrázkami slona, ťavy a kravy by mal každý obrázok označený buď slonom , alebo ťavou kravou.

Učenie pod dohľadom

Kľúčové body:

Učenie pod dohľadom zahŕňa trénovanie stroja na základe označených údajov.
Označené údaje pozostávajú z príkladov so správnou odpoveďou alebo klasifikáciou.
Stroj sa učí vzťah medzi vstupmi (obrázky ovocia) a výstupmi (štítky na ovocí).
Vycvičený stroj potom môže predpovedať nové, neoznačené údaje.

Príklad:

Povedzme, že máte košík s ovocím, ktorý chcete identifikovať. Stroj by najprv analyzoval obrázok, aby extrahoval prvky, ako je jeho tvar, farba a textúra. Potom by tieto vlastnosti porovnal s vlastnosťami ovocia, o ktorých sa už dozvedel. Ak sú vlastnosti nového obrázka najviac podobné vlastnostiam jablka, stroj by predpovedal, že ovocie je jablko.

programovanie v poli c

Napríklad Predpokladajme, že dostanete košík naplnený rôznymi druhmi ovocia. Teraz je prvým krokom trénovať stroj so všetkými rôznymi druhmi ovocia, jeden po druhom, takto:

Ak je tvar objektu zaoblený a má navrchu priehlbinu, má červenú farbu, bude označený ako – Apple .
Ak je tvar objektu dlhý zakrivený valec so zeleno-žltou farbou, potom bude označený ako – Banán .

Teraz predpokladajme, že po naučení údajov ste dali nové samostatné ovocie, povedzme Banán z košíka, a požiadali ste o jeho identifikáciu.

Keďže sa stroj už naučil veci z predchádzajúcich údajov a tentoraz ich musí použiť rozumne. Najskôr zatriedi ovocie podľa tvaru a farby a potvrdí názov ovocia BANÁN a zaradí ho do kategórie Banán. Takto sa stroj naučí veci z tréningových údajov (košík obsahujúci ovocie) a potom tieto poznatky aplikuje na testovacie údaje (nové ovocie).

Typy kontrolovaného učenia

Učenie pod dohľadom je rozdelené do dvoch kategórií algoritmov:

zlúčiť triediť java

Regresia : Regresný problém nastáva, keď výstupnou premennou je skutočná hodnota, napríklad doláre alebo hmotnosť.
Klasifikácia : Problém klasifikácie nastáva, keď výstupnou premennou je kategória, ako napríklad červená alebo modrá , choroba alebo žiadna choroba.

Riadené učenie sa zaoberá alebo sa učí s označenými údajmi. To znamená, že niektoré údaje sú už označené správnou odpoveďou.

1- Regresia

Regresia je typ kontrolovaného učenia, ktorý sa používa na predpovedanie nepretržitých hodnôt, ako sú ceny nehnuteľností, ceny akcií alebo odchod zákazníkov. Regresné algoritmy sa učia funkciu, ktorá mapuje zo vstupných funkcií na výstupnú hodnotu.

Niektoré bežné regresné algoritmy zahŕňajú:

Lineárna regresia
Polynomiálna regresia
Podpora vektorovej strojovej regresie
Regresia rozhodovacieho stromu
Náhodná lesná regresia

2- Klasifikácia

Klasifikácia je typ kontrolovaného učenia, ktorý sa používa na predpovedanie kategorických hodnôt, ako je napríklad to, či zákazník bude alebo nie, či je e-mail spam alebo nie, alebo či lekárska snímka zobrazuje nádor alebo nie. Klasifikačné algoritmy sa učia funkciu, ktorá mapuje zo vstupných funkcií na rozdelenie pravdepodobnosti cez výstupné triedy.

Niektoré bežné klasifikačné algoritmy zahŕňajú:

Logistická regresia
Podpora vektorových strojov
Rozhodovacie stromy
Náhodné lesy
Naivná Baye

Hodnotenie modelov učenia pod dohľadom

Hodnotenie modelov učenia pod dohľadom je dôležitým krokom k zaisteniu toho, aby bol model presný a zovšeobecniteľný. Existuje množstvo rôznych metriky ktoré možno použiť na vyhodnotenie modelov učenia pod dohľadom, ale medzi tie najbežnejšie patria:

Pre regresiu

Stredná štvorcová chyba (MSE): MSE meria priemernú druhú mocninu rozdielu medzi predpokladanými hodnotami a skutočnými hodnotami. Nižšie hodnoty MSE naznačujú lepší výkon modelu.
Root Mean Squared Error (RMSE): RMSE je druhá odmocnina z MSE, ktorá predstavuje štandardnú odchýlku predikčných chýb. Podobne ako pri MSE, nižšie hodnoty RMSE indikujú lepší výkon modelu.
Stredná absolútna chyba (MAE): MAE meria priemerný absolútny rozdiel medzi predpokladanými hodnotami a skutočnými hodnotami. Je menej citlivý na odľahlé hodnoty v porovnaní s MSE alebo RMSE.
R-kvadratúra (koeficient determinácie): R-squared meria podiel rozptylu v cieľovej premennej, ktorý je vysvetlený modelom. Vyššie hodnoty R-square naznačujú lepšie prispôsobenie modelu.

Pre klasifikáciu

Presnosť: Presnosť je percento predpovedí, ktoré model robí správne. Vypočíta sa vydelením počtu správnych predpovedí celkovým počtom predpovedí.
presnosť: Presnosť je percento pozitívnych predpovedí, ktoré model robí a ktoré sú skutočne správne. Vypočítava sa vydelením počtu skutočne pozitívnych predpovedí celkovým počtom pozitívnych predpovedí.
Odvolanie: Recall je percento všetkých pozitívnych príkladov, ktoré model správne identifikuje. Vypočíta sa vydelením počtu skutočných pozitívnych výsledkov celkovým počtom pozitívnych príkladov.
Skóre F1: Skóre F1 je vážený priemer presnosti a zapamätateľnosti. Vypočítava sa pomocou harmonického priemeru presnosti a vybavovania.
Matrica zmätku: Matica zmätku je tabuľka, ktorá zobrazuje počet predpovedí pre každú triedu spolu so skutočnými menovkami tried. Môže sa použiť na vizualizáciu výkonu modelu a identifikáciu oblastí, v ktorých má model problémy.

Aplikácie riadeného učenia

Učenie pod dohľadom môže byť použité na riešenie širokej škály problémov, vrátane:

Filtrovanie spamu: Algoritmy učenia pod dohľadom môžu byť trénované na identifikáciu a klasifikáciu spamových e-mailov na základe ich obsahu, čo používateľom pomáha vyhnúť sa nechceným správam.
Klasifikácia obrázkov: Učenie pod dohľadom môže automaticky klasifikovať obrázky do rôznych kategórií, ako sú zvieratá, predmety alebo scény, čo uľahčuje úlohy, ako je vyhľadávanie obrázkov, moderovanie obsahu a odporúčania produktov na základe obrázkov.
Lekárska diagnóza: Učenie pod dohľadom môže pomôcť pri lekárskej diagnóze analyzovaním údajov o pacientoch, ako sú lekárske snímky, výsledky testov a história pacienta, s cieľom identifikovať vzory, ktoré naznačujú špecifické choroby alebo stavy.
Detekcia podvodu: Modely učenia pod dohľadom môžu analyzovať finančné transakcie a identifikovať vzory, ktoré naznačujú podvodnú činnosť, čím pomáhajú finančným inštitúciám predchádzať podvodom a chrániť ich zákazníkov.
Spracovanie prirodzeného jazyka (NLP): Riadené učenie hrá kľúčovú úlohu v úlohách NLP, vrátane analýzy sentimentu, strojového prekladu a sumarizácie textu, čo umožňuje strojom porozumieť a efektívne spracovať ľudský jazyk.

Výhody učenia pod dohľadom

Učenie pod dohľadom umožňuje zhromažďovanie údajov a vytvára výstup údajov z predchádzajúcich skúseností.
Pomáha optimalizovať výkonnostné kritériá pomocou skúseností.
Riadené strojové učenie pomáha riešiť rôzne typy výpočtových problémov v reálnom svete.
Vykonáva klasifikačné a regresné úlohy.
Umožňuje odhadnúť alebo namapovať výsledok na novú vzorku.
Máme úplnú kontrolu nad výberom požadovaného počtu tried v tréningových údajoch.

Nevýhody učenia pod dohľadom

Klasifikácia veľkých dát môže byť náročná.
Školenie na učenie pod dohľadom si vyžaduje veľa výpočtového času. Vyžaduje si to teda veľa času.
Riadené učenie nedokáže zvládnuť všetky zložité úlohy strojového učenia.
Výpočtový čas je pre učenie pod dohľadom obrovský.
Vyžaduje si to označený súbor údajov.
Vyžaduje si to tréningový proces.

Čo je učenie bez dozoru?

Učenie bez dozoru je typ strojového učenia, ktoré sa učí z neoznačených údajov. To znamená, že údaje nemajú žiadne už existujúce štítky alebo kategórie. Cieľom učenia bez dozoru je objaviť vzorce a vzťahy v údajoch bez akéhokoľvek explicitného vedenia.

Učenie bez dozoru je trénovanie stroja pomocou informácií, ktoré nie sú klasifikované ani označené a umožňujúce algoritmu konať na základe týchto informácií bez vedenia. Tu je úlohou stroja zoskupiť nezoradené informácie podľa podobností, vzorov a rozdielov bez akéhokoľvek predchádzajúceho trénovania údajov.

mysql zoznam všetkých používateľov

Na rozdiel od učenia pod dohľadom nie je k dispozícii žiadny učiteľ, čo znamená, že stroj nebude zaškolený. Preto je stroj obmedzený na to, aby sám našiel skrytú štruktúru v neoznačených údajoch.

Učenie bez dozoru môžete použiť na preskúmanie zhromaždených údajov o zvieratách a na rozlíšenie niekoľkých skupín podľa vlastností a činností zvierat. Tieto zoskupenia môžu zodpovedať rôznym druhom zvierat, čo vám umožňuje kategorizovať stvorenia bez toho, aby ste záviseli od štítkov, ktoré už existujú.

Učenie bez dozoru

Kľúčové body

Učenie bez dozoru umožňuje modelu objaviť vzorce a vzťahy v neoznačených údajoch.
Algoritmy klastrovania zoskupujú podobné dátové body na základe ich základných charakteristík.
Extrakcia funkcií zachytáva základné informácie z údajov, čo umožňuje modelu robiť zmysluplné rozdiely.
Asociácia štítkov priraďuje kategórie klastrom na základe extrahovaných vzorov a charakteristík.

Príklad

Predstavte si, že máte model strojového učenia trénovaný na veľkom súbore údajov neoznačených obrázkov, ktoré obsahujú psy aj mačky. Modelka ešte nikdy nevidela obrázok psa alebo mačky a pre tieto zvieratá nemá žiadne predchádzajúce označenia ani kategórie. Vašou úlohou je použiť učenie bez dozoru na identifikáciu psov a mačiek na novom, neviditeľnom obrázku.

Napríklad Predpokladajme, že je daný obraz so psami aj mačkami, ktoré nikdy nevidel.

Stroj teda nemá žiadnu predstavu o vlastnostiach psov a mačiek, takže ho nemôžeme kategorizovať ako „psy a mačky“. Môže ich však kategorizovať podľa ich podobností, vzorov a rozdielov, t. j. vyššie uvedený obrázok môžeme ľahko kategorizovať na dve časti. Prvý môže obsahovať všetky obrázky, ktoré majú psov v nich a druhá časť môže obsahovať všetky obrázky, ktoré majú mačky v nich. Tu ste sa predtým nič nenaučili, čo znamená žiadne tréningové údaje ani príklady.

Umožňuje modelu pracovať samostatne a objavovať vzorce a informácie, ktoré predtým neboli zistené. Zaoberá sa najmä neoznačenými údajmi.

Typy učenia bez dozoru

Učenie bez dozoru je rozdelené do dvoch kategórií algoritmov:

java programovacie polia

Zhlukovanie : Problém klastrovania je tam, kde chcete objaviť inherentné zoskupenia v údajoch, ako je zoskupovanie zákazníkov podľa nákupného správania.
asociácie : Problém učenia sa pravidiel asociácie je tam, kde chcete objaviť pravidlá, ktoré popisujú veľké časti vašich údajov, ako napríklad ľudia, ktorí si kúpia X, majú tendenciu kupovať aj Y.

Zhlukovanie

Klastrovanie je typ učenia bez dozoru, ktorý sa používa na zoskupovanie podobných údajových bodov. Algoritmy klastrovania iteratívnym presúvaním údajových bodov bližšie k ich centrám klastrov a ďalej od údajových bodov v iných klastroch.

Exkluzívne (rozdelenie)
Aglomeratívne
Prekrývanie
Pravdepodobný

Typy klastrov: -

Hierarchické zhlukovanie
K-znamená zhlukovanie
Analýza hlavných komponentov
Dekompozícia singulárnej hodnoty
Nezávislá analýza komponentov
Gaussovské modely zmesi (GMM)
Priestorové zhlukovanie aplikácií s hlukom na základe hustoty (DBSCAN)

Učenie sa asociačných pravidiel

Učenie asociačných pravidiel je typ učenia bez dozoru, ktoré sa používa na identifikáciu vzorcov v údajoch. Asociačné pravidlo algoritmy učenia fungujú tak, že hľadajú vzťahy medzi rôznymi položkami v súbore údajov.

Niektoré bežné algoritmy učenia sa asociačných pravidiel zahŕňajú:

Apriori algoritmus
Eclatov algoritmus
FP-rastový algoritmus

Hodnotenie modelov učenia bez dozoru

Hodnotenie modelov učenia bez dozoru je dôležitým krokom na zabezpečenie toho, aby bol model efektívny a užitočný. Môže to však byť náročnejšie ako hodnotenie modelov učenia pod dohľadom, pretože neexistujú žiadne základné pravdivé údaje, s ktorými by sa dali porovnať predpovede modelu.

Existuje množstvo rôznych metrík, ktoré možno použiť na vyhodnotenie modelov učenia bez dohľadu, ale medzi tie najbežnejšie patria:

Skóre siluety: Skóre siluety meria, ako dobre je každý údajový bod zoskupený s vlastnými členmi klastra a oddelený od ostatných zhlukov. Pohybuje sa od -1 do 1, pričom vyššie skóre naznačuje lepšie zhlukovanie.
Skóre Calinski-Harabasz: Calinski-Harabasz skóre meria pomer medzi rozptylom medzi klastrami a rozptylom v rámci klastrov. Pohybuje sa od 0 do nekonečna, pričom vyššie skóre naznačuje lepšie zhlukovanie.
Upravený Rand index: Upravený Rand index meria podobnosť medzi dvoma zoskupeniami. Pohybuje sa od -1 do 1, pričom vyššie skóre naznačuje viac podobných zoskupení.
Daviesov-Bouldinov index: Daviesov-Bouldinov index meria priemernú podobnosť medzi klastrami. Pohybuje sa od 0 do nekonečna, pričom nižšie skóre naznačuje lepšie zhlukovanie.
Skóre F1: Skóre F1 je vážený priemer presnosti a zapamätateľnosti, čo sú dve metriky, ktoré sa bežne používajú v kontrolovanom učení na hodnotenie klasifikačných modelov. Skóre F1 sa však môže použiť aj na hodnotenie modelov učenia bez dozoru, ako sú modely zhlukovania.

Aplikácia učenia bez dozoru

Učenie bez dozoru možno použiť na riešenie širokej škály problémov vrátane:

Detekcia anomálií: Učenie bez dozoru môže identifikovať nezvyčajné vzorce alebo odchýlky od normálneho správania v údajoch, čo umožňuje odhaliť podvody, prieniky alebo zlyhania systému.
Vedecký objav: Učenie bez dozoru môže odhaliť skryté vzťahy a vzorce vo vedeckých údajoch, čo vedie k novým hypotézam a poznatkom v rôznych vedeckých oblastiach.
Systémy odporúčaní: Učenie bez dozoru môže identifikovať vzory a podobnosti v správaní a preferenciách používateľov na odporúčanie produktov, filmov alebo hudby, ktoré sú v súlade s ich záujmami.
Segmentácia zákazníkov: Učenie bez dozoru môže identifikovať skupiny zákazníkov s podobnými charakteristikami, čo umožňuje podnikom zacieliť marketingové kampane a efektívnejšie zlepšiť služby zákazníkom.
Analýza obrazu: Učenie bez dozoru môže zoskupovať obrázky na základe ich obsahu, čo uľahčuje úlohy, ako je klasifikácia obrázkov, detekcia objektov a vyhľadávanie obrázkov.

Výhody učenia bez dozoru

Nevyžaduje označenie tréningových údajov.
Zníženie rozmerov sa dá ľahko dosiahnuť pomocou učenia bez dozoru.
Schopný nájsť predtým neznáme vzory v údajoch.
Učenie bez dozoru vám môže pomôcť získať poznatky z neoznačených údajov, ku ktorým by ste sa inak možno nedostali.
Učenie bez dozoru je dobré pri hľadaní vzorcov a vzťahov v údajoch bez toho, aby vám bolo povedané, čo máte hľadať. To vám môže pomôcť dozvedieť sa nové veci o vašich údajoch.

Nevýhody učenia bez dozoru

Je ťažké merať presnosť alebo efektivitu kvôli nedostatku vopred definovaných odpovedí počas tréningu.
Výsledky majú často menšiu presnosť.
Používateľ musí stráviť čas interpretáciou a označovaním tried, ktoré nasledujú za touto klasifikáciou.
Učenie bez dozoru môže byť citlivé na kvalitu údajov vrátane chýbajúcich hodnôt, odľahlých hodnôt a zašumených údajov.
Bez označených údajov môže byť ťažké hodnotiť výkonnosť modelov učenia bez dozoru, čo sťažuje hodnotenie ich účinnosti.

Strojové učenie pod dohľadom vs. bez dozoru

Parametre	Strojové učenie pod dohľadom	Strojové učenie bez dozoru
Vstupné Data	Algoritmy sú trénované pomocou označených údajov.	Algoritmy sa používajú proti údajom, ktoré nie sú označené
Výpočtová zložitosť	Jednoduchšia metóda	Výpočtovo zložité
Presnosť	Vysoko presné	Menej presné
Počet tried	Počet tried je známy	Počet tried nie je známy
Analýza dát	Používa offline analýzu	Využíva analýzu údajov v reálnom čase
Použité algoritmy	Lineárna a logistická regresia, náhodný les, klasifikácia viacerých tried, rozhodovací strom, podporný vektorový stroj, neurónová sieť atď.	Klastrovanie K-Means, Hierarchické zoskupovanie, KNN, Apriori algoritmus atď.
Výkon	Požadovaný výstup je daný.	Požadovaný výstup nie je daný.
Údaje o tréningu	Použite tréningové údaje na odvodenie modelu.	Nepoužívajú sa žiadne tréningové údaje.
Komplexný model	Nie je možné naučiť sa väčšie a zložitejšie modely ako pri učení pod dohľadom.	Je možné sa naučiť väčšie a zložitejšie modely s učením bez dozoru.
Model	Môžeme otestovať náš model.	Nemôžeme testovať náš model.
Volal sa ako	Učenie pod dohľadom sa nazýva aj klasifikácia.	Učenie bez dozoru sa tiež nazýva zhlukovanie.
Príklad	Príklad: Optické rozpoznávanie znakov.	Príklad: Nájdite na obrázku tvár.
Dohľad	učenie pod dohľadom potrebuje na trénovanie modelu dohľad.	Učenie bez dozoru nepotrebuje na trénovanie modelu žiadny dozor. matematika náhodná java

Záver

Učenie pod dohľadom a bez dozoru sú dva silné nástroje, ktoré možno použiť na riešenie širokej škály problémov. Učenie pod dohľadom je vhodné pre úlohy, pri ktorých je známy požadovaný výstup, zatiaľ čo učenie bez dozoru je vhodné pre úlohy, pri ktorých je požadovaný výstup neznámy.

Často kladené otázky (FAQ)

1. Aký je rozdiel medzi strojovým jazykom pod dohľadom a bez dozoru?

Učenie pod dohľadom a učenie bez dozoru sú dva základné prístupy k strojovému učeniu, ktoré sa líšia svojimi tréningovými údajmi a vzdelávacími cieľmi.

Učenie pod dohľadom zahŕňa trénovanie modelu strojového učenia na označenom súbore údajov, kde každý údajový bod má zodpovedajúce označenie alebo výstupnú hodnotu. Algoritmus sa učí mapovať vstupné údaje na požadovaný výstup, čo mu umožňuje predpovedať nové, neviditeľné údaje.

Učenie bez dozoru , na druhej strane sa zaoberá neoznačenými množinami údajov, kde údajové body nemajú priradené označenia alebo výstupné hodnoty.

2. Čo je učenie pod dohľadom?

Riadené učenie je typ strojového učenia, kde je algoritmus trénovaný na označenom súbore údajov, kde každý údajový bod má zodpovedajúce označenie alebo výstupnú hodnotu. Algoritmus sa učí mapovať vstupné údaje na požadovaný výstup, čo mu umožňuje predpovedať nové, neviditeľné údaje.

3. Aké sú bežné algoritmy učenia pod dohľadom?

Bežné algoritmy učenia pod dohľadom zahŕňajú:

Klasifikácia: Používa sa na priradenie kategórií k údajovým bodom. Príklady zahŕňajú podporné vektorové stroje (SVM), logistickú regresiu a rozhodovacie stromy.

Regresia: Používa sa na predpovedanie súvislých číselných hodnôt. Príklady zahŕňajú lineárnu regresiu, polynomickú regresiu a hrebeňovú regresiu.

4. Aké sú bežné algoritmy učenia bez dozoru?

Medzi bežné algoritmy učenia bez dozoru patria:

Zoskupovanie: Zoskupovanie údajových bodov do zhlukov na základe ich podobnosti. Príklady zahŕňajú zoskupovanie k-means a hierarchické zoskupovanie.

Zníženie rozmerov: Zníženie počtu funkcií v množine údajov pri zachovaní najdôležitejších informácií. Príklady zahŕňajú analýzu hlavných komponentov (PCA) a automatické kódovače.

5. Čo je učenie bez dozoru?

Učenie bez dozoru je typ strojového učenia, kde je algoritmus trénovaný na neoznačenom súbore údajov, kde údajové body nemajú zodpovedajúce označenia alebo výstupné hodnoty. Algoritmus sa učí identifikovať vzory a štruktúry v údajoch bez explicitného vedenia.

6. Kedy použiť učenie pod dohľadom vs. učenie bez dozoru?

Učenie pod dohľadom použite, keď máte označenú množinu údajov a chcete predpovedať nové údaje. Učenie bez dozoru použite, keď máte neoznačenú množinu údajov a chcete v údajoch identifikovať vzory alebo štruktúry.