ALGORITMY STROJOVÉHO UČENIA - AI-ML-DS S PYTHONOM

Algoritmy strojového učenia sú výpočtové modely, ktoré umožňujú počítačom porozumieť vzorcom a predpovedať alebo robiť úsudky na základe údajov bez potreby explicitného programovania. Tieto algoritmy tvoria základ modernej umelej inteligencie a používajú sa v širokej škále aplikácií vrátane rozpoznávania obrazu a reči, spracovania prirodzeného jazyka, systémov odporúčaní, detekcie podvodov, autonómnych áut atď.

Toto Algoritmy strojového učenia Článok sa bude zaoberať všetkými základnými algoritmami strojového učenia Podporný vektorový stroj, rozhodovanie, logistická regresia, naivný klasifikátor bayees, náhodný les, klastrovanie k-mean, učenie zosilnenia, vektor, hierarchické zhlukovanie, xgboost, adaboost, logistika atď.

Typy algoritmov strojového učenia

Existujú tri typy algoritmov strojového učenia.

Učenie pod dohľadom
- Regresia
- Klasifikácia
Učenie bez dozoru
- Zhlukovanie
- Zníženie rozmerov
Posilňovacie učenie

Typy algoritmov strojového učenia

1. Algoritmus kontrolovaného učenia

Učenie pod dohľadom je typ algoritmu strojového učenia, kde sme na trénovanie modelu alebo algoritmov použili označenú množinu údajov. Cieľom algoritmu je naučiť sa mapovanie zo vstupných údajov na výstupné štítky, čo mu umožňuje predpovedať alebo klasifikovať nové, neviditeľné údaje.

Riadené algoritmy strojového učenia
Lineárny model: Regresia Obyčajná regresia najmenších štvorcov Jednoduchá lineárna regresia Viacnásobná lineárna regresia Polynomiálna regresia Ortogonálne prenasledovanie (OMP) Bayesovská regresia Kvantilná regresia Izotonická regresia Postupná regresia Regresia najmenšieho uhla (LARS) Klasifikácia: Logistická regresia Funkcie Sigmoid & Softmax Regularizácia : Laso (regulácia L1) Ridge (regularizácia L2) Ridge regresia Ridge klasifikátor Elastická sieť LARS Lasso K-Nearest Neighbors (KNN): Algoritmy hrubej sily Algoritmy Ball Tree a KD Tree Klasifikátor K-Nearest Neighbors (KNN). K-Nearest Neighbors (KNN) Regressor Podporné vektorové stroje: Podpora regresora vektorových strojov Rôzne funkcie jadra v SVM Stochastický gradientový zostup Klasifikátor zostupu stochastického gradientu Stochastický gradientový zostupový regresor Rôzne funkcie straty v SGD Rozhodovací strom: Algoritmy rozhodovacieho stromu Algoritmy iteratívneho dichotomizéra 3 (ID3). C5. Algoritmy Algoritmy klasifikačných a regresných stromov Klasifikátor rozhodovacieho stromu Regresor rozhodovacieho stromu Učenie v súbore: Baging (Bootstrap Aggregating) Náhodný les Extra stromy Posilňovanie AdaBoost XGBoost CatBoost Gradient Boosting Machines (GBM) LightGBM Stohovanie Generatívny model Naivný Bayes Gaussovský naivný Bayes Multinomický naivný Bayes Bernoulli Naivný Bayes Gaussove procesy Gaussova regresia procesu (GPR) Gaussova klasifikácia procesov (GPC) Gaussova diskriminačná analýza Lineárna diskriminačná analýza (LDA) Kvadratická diskriminačná analýza (QDA) Bayesian Belief Networks Skryté Markovove modely (HMM) Predpoveď časových radov: Vizualizácia a analýza časových radov: Komponenty časových radov: Trend, sezónnosť a hluk Techniky rozkladu časových radov Sezónne úpravy a rozdiely Autokorelácia a čiastočné autokorelačné funkcie Rozšírený Dickey-Fullerov test Sezónny rozklad časových radov (STL rozklad) Box-Jenkinsova metodológia pre modely ARIMA Algoritmy prognózovania časových radov: kĺzavý priemer (MA) a vážený kĺzavý priemer Exponenciálne metódy vyhladzovania (jednoduché, dvojité a trojité) Autoregresívne (AR) modely Modely kĺzavého priemeru (MA). Autoregresívne modely integrovaného kĺzavého priemeru (ARIMA). Sezónny rozklad časových radov podľa Loessa (STL) Sezónne autoregresívne modely integrovaného kĺzavého priemeru (SARIMA). Modely ARIMAX a SARIMAX Technika zmenšovania rozmerov pod dohľadom: Lineárna diskriminačná analýza (LDA) Niektoré z kontrolovaných algoritmov strojového učenia možno použiť na klasifikáciu aj regresiu s malou úpravou dateformat.format Algoritmy s viacerými triedami a viacerými výstupmi: Viactriedna klasifikácia Klasifikátor OneVsRest Klasifikácia viacerých značiek Regresia s viacerými výstupmi Metriky pre klasifikačné a regresné algoritmy: Regresné metriky: Stredná štvorcová chyba (MSE) Odmocnina so štvorcovými chybami (RMSE) Stredná absolútna chyba (MAE) R-kvadratický Upravené R-štvorce Klasifikačné metriky: Matica zmätku Presnosť Odvolanie Špecifickosť Skóre F1 Oblasť pod krivkou ROC (AUC-ROC) Kalibrácia pravdepodobnosti Kalibračné krivky Kalibrácia klasifikátora Technika krížovej validácie: K-násobná krížová validácia Stratifikovaná krížová validácia k-foldov Krížová validácia bez vynechania Náhodné rozdelenie krížového overenia Krížová validácia časových radov Technika optimalizácie: Gradientný zostup Stochastický gradientový zostup Mini-dávkový gradientný zostup Gradientný zostup založený na hybnosti Techniky Newtonovej optimalizácie Newtonov algoritmus Kvázi-Newtonove metódy (BFGS, L-BFGS) Konjugovaný gradient Techniky optimalizácie miestneho vyhľadávania Horolezectvo Tabu Search

Riadené algoritmy strojového učenia

Lineárny model:
- Regresia
  - Obyčajná regresia najmenších štvorcov
  - Jednoduchá lineárna regresia
  - Viacnásobná lineárna regresia
  - Polynomiálna regresia
  - Ortogonálne prenasledovanie (OMP)
  - Bayesovská regresia
  - Kvantilná regresia
  - Izotonická regresia
  - Postupná regresia
  - Regresia najmenšieho uhla (LARS)
- Klasifikácia:
  - Logistická regresia
    - Funkcie Sigmoid & Softmax
- Regularizácia :
  - Laso (regulácia L1)
  - Ridge (regularizácia L2)
    - Ridge regresia
    - Ridge klasifikátor
  - Elastická sieť
  - LARS Lasso
K-Nearest Neighbors (KNN):
- Algoritmy hrubej sily
- Algoritmy Ball Tree a KD Tree
- Klasifikátor K-Nearest Neighbors (KNN).
- K-Nearest Neighbors (KNN) Regressor
Podporné vektorové stroje:
- Podpora regresora vektorových strojov
- Rôzne funkcie jadra v SVM
Stochastický gradientový zostup
- Klasifikátor zostupu stochastického gradientu
- Stochastický gradientový zostupový regresor
- Rôzne funkcie straty v SGD
Rozhodovací strom:
- Algoritmy rozhodovacieho stromu
  - Algoritmy iteratívneho dichotomizéra 3 (ID3).
  - C5. Algoritmy
  - Algoritmy klasifikačných a regresných stromov
- Klasifikátor rozhodovacieho stromu
- Regresor rozhodovacieho stromu
Učenie v súbore:
- Baging (Bootstrap Aggregating)
  - Náhodný les
  - Extra stromy
- Posilňovanie
  - AdaBoost
  - XGBoost
  - CatBoost
  - Gradient Boosting Machines (GBM)
  - LightGBM
- Stohovanie
Generatívny model
- Naivný Bayes
  - Gaussovský naivný Bayes
  - Multinomický naivný Bayes
  - Bernoulli Naivný Bayes
- Gaussove procesy
  - Gaussova regresia procesu (GPR)
  - Gaussova klasifikácia procesov (GPC)
- Gaussova diskriminačná analýza
  - Lineárna diskriminačná analýza (LDA)
  - Kvadratická diskriminačná analýza (QDA)
- Bayesian Belief Networks
- Skryté Markovove modely (HMM)
Predpoveď časových radov:
- Vizualizácia a analýza časových radov:
  - Komponenty časových radov: Trend, sezónnosť a hluk
  - Techniky rozkladu časových radov
  - Sezónne úpravy a rozdiely
  - Autokorelácia a čiastočné autokorelačné funkcie
  - Rozšírený Dickey-Fullerov test
  - Sezónny rozklad časových radov (STL rozklad)
  - Box-Jenkinsova metodológia pre modely ARIMA
- Algoritmy prognózovania časových radov:
  - kĺzavý priemer (MA) a vážený kĺzavý priemer
  - Exponenciálne metódy vyhladzovania (jednoduché, dvojité a trojité)
  - Autoregresívne (AR) modely
  - Modely kĺzavého priemeru (MA).
  - Autoregresívne modely integrovaného kĺzavého priemeru (ARIMA).
  - Sezónny rozklad časových radov podľa Loessa (STL)
  - Sezónne autoregresívne modely integrovaného kĺzavého priemeru (SARIMA).
  - Modely ARIMAX a SARIMAX
Technika zmenšovania rozmerov pod dohľadom:
- Lineárna diskriminačná analýza (LDA)

Niektoré z kontrolovaných algoritmov strojového učenia možno použiť na klasifikáciu aj regresiu s malou úpravou

dateformat.format

Algoritmy s viacerými triedami a viacerými výstupmi:
- Viactriedna klasifikácia
  - Klasifikátor OneVsRest
- Klasifikácia viacerých značiek
- Regresia s viacerými výstupmi

Metriky pre klasifikačné a regresné algoritmy:

Regresné metriky:
- Stredná štvorcová chyba (MSE)
- Odmocnina so štvorcovými chybami (RMSE)
- Stredná absolútna chyba (MAE)
- R-kvadratický
- Upravené R-štvorce
Klasifikačné metriky:
- Matica zmätku
- Presnosť
- Odvolanie
- Špecifickosť
- Skóre F1
- Oblasť pod krivkou ROC (AUC-ROC)
Kalibrácia pravdepodobnosti
- Kalibračné krivky
- Kalibrácia klasifikátora

Technika krížovej validácie:

K-násobná krížová validácia
Stratifikovaná krížová validácia k-foldov
Krížová validácia bez vynechania
Náhodné rozdelenie krížového overenia
Krížová validácia časových radov

Technika optimalizácie:

Gradientný zostup
- Stochastický gradientový zostup
- Mini-dávkový gradientný zostup
- Gradientný zostup založený na hybnosti
Techniky Newtonovej optimalizácie
- Newtonov algoritmus
- Kvázi-Newtonove metódy (BFGS, L-BFGS)
- Konjugovaný gradient
Techniky optimalizácie miestneho vyhľadávania
- Horolezectvo
- Tabu Search

2. Algoritmus učenia bez dozoru

Učenie bez dozoru je typ algoritmu strojového učenia, kde sa algoritmy používajú na nájdenie vzorov, štruktúry alebo vzťahu v rámci súboru údajov pomocou súboru údajov bez označenia. Skúma vlastnú štruktúru údajov bez vopred definovaných kategórií alebo štítkov.

Algoritmy strojového učenia bez dozoru
Zhlukovanie Metódy založené na centroidoch K-Means zoskupovanie Klastrovanie K-Means++ Klastrovanie v režime K Fuzzy C-Means (FCM) klastrovanie Metódy založené na distribúcii Gaussove modely zmesi (GMM) Algoritmy očakávania a maximalizácie Dirichletove modely procesných zmesí (DPMM) Metódy založené na konektivite Hierarchické zhlukovanie Aglomeratívne klastrovanie Deliace zhlukovanie Šírenie afinity Metódy založené na hustote DBSCAN (Density-Based Space Clustering of Applications with Noise) OPTIKA (poradové body na identifikáciu zhlukovacej štruktúry) Asociačné pravidlá ťažby Apriori algoritmus FP-Growth (Frequent Pattern-Growth) ECLAT (Zhlukovanie tried ekvivalencie a prechod mriežky zdola nahor) Detekcia anomálií: Z-skóre Miestny odľahlý faktor (LOF) Izolačný les Technika zmenšenia rozmerov: Analýza hlavných komponentov (PCA) t-distributed Stochastic Neighbor Embedding (t-SNE) Nezáporná maticová faktorizácia (NMF) Nezávislá analýza komponentov (ICA) Faktorová analýza Latentná dirichletová alokácia (LDA) izomapa Lokálne lineárne vkladanie (LLE) Latentná sémantická analýza (LSA)

Algoritmy strojového učenia bez dozoru

Zhlukovanie
- Metódy založené na centroidoch
  - K-Means zoskupovanie
  - Klastrovanie K-Means++
  - Klastrovanie v režime K
  - Fuzzy C-Means (FCM) klastrovanie
- Metódy založené na distribúcii
  - Gaussove modely zmesi (GMM)
  - Algoritmy očakávania a maximalizácie
  - Dirichletove modely procesných zmesí (DPMM)
- Metódy založené na konektivite
  - Hierarchické zhlukovanie
    - Aglomeratívne klastrovanie
    - Deliace zhlukovanie
  - Šírenie afinity
- Metódy založené na hustote
  - DBSCAN (Density-Based Space Clustering of Applications with Noise)
  - OPTIKA (poradové body na identifikáciu zhlukovacej štruktúry)
Asociačné pravidlá ťažby
- Apriori algoritmus
- FP-Growth (Frequent Pattern-Growth)
- ECLAT (Zhlukovanie tried ekvivalencie a prechod mriežky zdola nahor)
Detekcia anomálií:
- Z-skóre
- Miestny odľahlý faktor (LOF)
- Izolačný les
Technika zmenšenia rozmerov:
- Analýza hlavných komponentov (PCA)
- t-distributed Stochastic Neighbor Embedding (t-SNE)
- Nezáporná maticová faktorizácia (NMF)
- Nezávislá analýza komponentov (ICA)
- Faktorová analýza
- Latentná dirichletová alokácia (LDA)
- izomapa
- Lokálne lineárne vkladanie (LLE)
- Latentná sémantická analýza (LSA)

3. Posilňovacie učenie

Posilňovacie učenie je typ algoritmu strojového učenia, kde sa agent učí robiť postupné rozhodnutia interakciou s okolím. Agent dostáva spätnú väzbu vo forme stimulov alebo trestov na základe svojich činov. Účelom agenta je objaviť optimálne taktiky, ktoré maximalizujú kumulatívne odmeny v priebehu času prostredníctvom pokusov a omylov. Posilňovacie učenie sa často používa v scenároch, v ktorých sa agent musí naučiť, ako sa pohybovať v prostredí, hrať hry, riadiť roboty alebo robiť rozhodnutia v neistých situáciách.

Posilňovacie učenie
Metódy založené na modeli: Markovove rozhodovacie procesy (MDP) Bellmanova rovnica Algoritmus iterácie hodnoty Vyhľadávanie stromov Monte Carlo Metódy bez modelov: Metódy založené na hodnote: Q-Learning OMÁČKA Metódy Monte Carlo Metódy založené na zásadách: Algoritmus REINFORCE Algoritmus herec-kritický Hercko-kritické metódy Asynchrónny Advantage herec-kritik (A3C)

Posilňovacie učenie

Metódy založené na modeli:
- Markovove rozhodovacie procesy (MDP)
- Bellmanova rovnica
- Algoritmus iterácie hodnoty
- Vyhľadávanie stromov Monte Carlo
Metódy bez modelov:
- Metódy založené na hodnote:
  - Q-Learning
  - OMÁČKA
  - Metódy Monte Carlo
- Metódy založené na zásadách:
  - Algoritmus REINFORCE
  - Algoritmus herec-kritický
- Hercko-kritické metódy
  - Asynchrónny Advantage herec-kritik (A3C)

Zoznam populárnych algoritmov strojového učenia

Tu je zoznam 10 najpopulárnejších algoritmov strojového učenia.

príklad binárneho vyhľadávacieho stromu

1. Lineárna regresia

Lineárna regresia je jednoduchý algoritmus používaný na mapovanie lineárneho vzťahu medzi vstupnými znakmi a spojitou cieľovou premennou. Funguje to tak, že sa k údajom pripojí riadok a potom sa pomocou neho predpovedajú nové hodnoty.

2. Logistická regresia

Logistická regresia je rozšírením lineárnej regresie, ktorá sa používa pri klasifikačných úlohách na odhad pravdepodobnosti, že inštancia patrí do špecifickej triedy.

3. SVM (podporný vektorový stroj)

SVM sú kontrolované učebné algoritmy, ktoré môžu vykonávať klasifikačné a regresné úlohy. Nájde nadrovinu, ktorá najlepšie oddeľuje triedy v priestore funkcií.

4. KNN (K-najbližší sused)

KNN je neparametrická technika, ktorú možno použiť na klasifikáciu aj regresiu. Funguje tak, že identifikuje k najpodobnejších údajových bodov novému údajovému bodu a potom predpovedá označenie nového údajového bodu pomocou štítkov týchto údajových bodov.

5. Rozhodovací strom

Rozhodovacie stromy sú typom techniky učenia pod dohľadom, ktorú možno použiť na klasifikáciu aj regresiu. Funguje tak, že údaje rozdeľuje do menších a menších skupín, kým sa každá skupina nedá klasifikovať alebo predpovedať s vysokým stupňom presnosti.

6. Náhodný les

Náhodné lesy sú typom metódy učenia súboru, ktorá využíva súbor rozhodovacích stromov na vytváranie predpovedí agregovaním predpovedí z jednotlivých stromov. Zlepšuje presnosť a odolnosť jednotlivých rozhodovacích stromov. Môže byť použitý pre klasifikačné aj regresné úlohy.

názov mesta v usa

7. Naivný Bayes

Naive Bayes je pravdepodobnostný klasifikátor založený na Bayesovej vete, ktorý sa používa na klasifikačné úlohy. Funguje to tak, že sa predpokladá, že vlastnosti dátového bodu sú navzájom nezávislé.

8. PCA (analýza hlavných komponentov)

PCA je technika redukcie rozmerov, ktorá sa používa na transformáciu údajov do priestoru nižšej dimenzie pri zachovaní čo najväčšieho rozptylu. Funguje to tak, že v údajoch nájdete smery, ktoré obsahujú najviac variácií, a potom údaje premietnete do týchto smerov.

9. Apriori algoritmy

Apriori algoritmus je tradičná technika dolovania údajov na dolovanie asociačných pravidiel v transakčných databázach alebo množinách údajov. Je navrhnutý tak, aby odhalil prepojenia a vzory medzi vecami, ktoré sa pravidelne vyskytujú v transakciách. Apriori zisťuje časté množiny položiek, čo sú skupiny položiek, ktoré sa objavujú spolu v transakciách s danou minimálnou úrovňou podpory.

10. Klastrovanie K-Means

Klastrovanie K-Means je prístup učenia bez dozoru, ktorý možno použiť na zoskupenie údajových bodov. Funguje tak, že v údajoch nájde k klastrov, takže údajové body v každom klastri sú si navzájom čo najviac podobné, pričom zostávajú čo najviac odlišné od údajových bodov v iných klastroch.

Objavte základné koncepty strojového učenia učením sa 10 najlepších algoritmov , ako je lineárna regresia, rozhodovacie stromy a neurónové siete.

Algoritmus strojového učenia – často kladené otázky

1. Čo je to algoritmus strojového učenia?

Algoritmy strojového učenia sú techniky založené na štatistických konceptoch, ktoré umožňujú počítačom učiť sa z údajov, objavovať vzory, robiť predpovede alebo vykonávať úlohy bez potreby explicitného programovania. Tieto algoritmy sú vo všeobecnosti rozdelené do troch typov, t. j. učenie pod dohľadom, učenie bez dozoru a učenie sa posilňovaním.

2. Aké sú typy strojového učenia?

Existujú hlavne tri typy strojového učenia:

Riadený algoritmus

Algoritmus bez dozoru

Algoritmus vystuženia

3. Ktorý algoritmus ML je najlepší na predikciu?

Ideálna metóda strojového učenia na predikciu je určená a počet kritérií vrátane povahy problému, typu údajov a jedinečných požiadaviek. Prístupy Support Vector Machines, Random Forests a Gradient Boosting sú obľúbené pre predikčné pracovné zaťaženia. Na druhej strane výber algoritmu by mal byť založený na testovaní a hodnotení konkrétneho problému a súboru údajov.

4. Aké sú 10 populárnych algoritmov strojového učenia?

Nižšie je uvedený zoznam 10 najčastejšie používaných algoritmov strojového učenia (ML):

Lineárna regresia

Logistická regresia

SVM (podporný vektorový stroj)

KNN (K-najbližší sused)

Rozhodovací strom

Náhodný les

Naivný Bayes

PCA (analýza hlavných komponentov)

Apriori algoritmy

K-Means Clustering