logo

Lokálne lineárne vkladanie do strojového učenia

LLE (Lokálne lineárne vkladanie) je prístup bez dozoru navrhnutý na transformáciu údajov z ich pôvodného vysokorozmerného priestoru na reprezentáciu nižšej dimenzie, pričom sa snaží zachovať základné geometrické charakteristiky základnej štruktúry nelineárnych prvkov. LLE funguje v niekoľkých kľúčových krokoch:

  • Po prvé, zostrojí graf najbližších susedov na zachytenie týchto miestnych vzťahov. Potom optimalizuje hodnoty hmotnosti pre každý údajový bod s cieľom minimalizovať chybu rekonštrukcie pri vyjadrení bodu ako lineárnej kombinácie jeho susedov. Táto matica váh odráža silu spojení medzi bodmi.
  • Ďalej LLE vypočítava nižšiu dimenzionálnu reprezentáciu údajov nájdením vlastné vektory matice odvodenej od váhovej matice. Tieto vlastné vektory predstavujú najrelevantnejšie smery v zmenšenom priestore. Používatelia môžu špecifikovať požadovanú dimenziu pre výstupný priestor a LLE podľa toho vyberie najvyššie vlastné vektory.

Ako ilustráciu uvažujme a Dátový súbor Swiss roll , ktorý je vo svojej podstate nelineárny vo svojom vysokorozmernom priestore. LLE v tomto prípade pracuje na projektovaní tejto komplexnej štruktúry na rovinu nižšej dimenzie, pričom si zachováva svoje výrazné geometrické vlastnosti počas procesu transformácie.



Obsah

Matematická implementácia algoritmu LLE

Kľúčovou myšlienkou LLE je, že lokálne, v blízkosti každého dátového bodu, dáta ležia približne na lineárnom podpriestore. LLE sa pokúša rozvinúť alebo rozvinúť dáta pri zachovaní týchto lokálnych lineárnych vzťahov.

Tu je matematický prehľad algoritmu LLE:

Minimalizovať: suma _{i} | x{_i} - súčet _{j} w _{ij} x{_j}|^2



Predmetom : suma {_j} w _{ij} = 1

čo je rozhranie

Kde:

  • Xipredstavuje i-tý dátový bod.
  • Inijsú váhy, ktoré minimalizujú chybu rekonštrukcie pre dátový bod xipomocou svojich susedov.

Jeho cieľom je nájsť nižšie dimenzionálne znázornenie údajov pri zachovaní miestnych vzťahov. Matematický výraz pre LLE zahŕňa minimalizáciu chyby rekonštrukcie každého dátového bodu vyjadrením ako váženého súčtu jeho k najbližším susedom „príspevky. Táto optimalizácia podlieha obmedzeniam, ktoré zabezpečujú, že súčet váh je 1 pre každý údajový bod. Locally Linear Embedding (LLE) je technika znižovania rozmerov používaná pri strojovom učení a analýze údajov. Zameriava sa na zachovanie lokálnych vzťahov medzi dátovými bodmi pri mapovaní vysokorozmerných dát do menejrozmerného priestoru. Tu vysvetlíme algoritmus LLE a jeho parametre.



Algoritmus lokálneho lineárneho vkladania

Algoritmus LLE možno rozdeliť do niekoľkých krokov:

  • Výber okolia: Pre každý dátový bod vo vysokorozmernom priestore identifikuje LLE svojich k-najbližších susedov. Tento krok je kľúčový, pretože LLE predpokladá, že každý dátový bod sa dá dobre aproximovať lineárnou kombináciou jeho susedov.
  • Konštrukcia matice hmotnosti: LLE vypočítava množinu váh pre každý dátový bod, aby ho vyjadrila ako lineárnu kombináciu jeho susedov. Tieto hmotnosti sú určené tak, aby sa minimalizovala chyba rekonštrukcie. Na nájdenie týchto váh sa často používa lineárna regresia.
  • Zachovanie globálnej štruktúry: Po zostrojení matice váh sa LLE snaží nájsť nižšie dimenzionálne znázornenie údajov, ktoré najlepšie zachováva lokálne lineárne vzťahy. Robí to hľadaním množiny súradníc v priestore nižšej dimenzie pre každý údajový bod, ktorý minimalizuje nákladovú funkciu. Toto nákladová funkcia vyhodnocuje, ako dobre môžu byť jednotlivé dátové body reprezentované svojimi susedmi.
  • Výstupné vloženie: Po dokončení procesu optimalizácie poskytuje LLE konečnú reprezentáciu údajov v nižšej dimenzii. Táto reprezentácia zachytáva základnú štruktúru údajov a zároveň znižuje ich rozmernosť.

Parametre v algoritme LLE

LLE má niekoľko parametrov, ktoré ovplyvňujú jeho správanie:

  • k (Počet susedov): Tento parameter určuje, koľko najbližších susedov sa berie do úvahy pri konštrukcii matice váh. Väčšie k zachytáva viac globálnych vzťahov, ale môže spôsobiť šum. Menšie k sa zameriava na miestne vzťahy, ale môže byť citlivé na odľahlé hodnoty. Výber vhodnej hodnoty pre k je nevyhnutný pre úspech algoritmu.
  • Rozmer výstupného priestoru: Môžete určiť dimenzionalitu priestoru nižšej dimenzie, do ktorého budú údaje mapované. Toto sa často vyberá na základe požiadaviek problému a kompromisu medzi výpočtovou zložitosťou a zachovaním informácií.
  • Metrika vzdialenosti: LLE sa pri definovaní vzdialenosti medzi dátovými bodmi spolieha na metriku vzdialenosti. Bežné možnosti zahŕňajú euklidovskú vzdialenosť, vzdialenosť Manhattan alebo vlastné funkcie vzdialenosti. Výber metriky vzdialenosti môže ovplyvniť výsledky.
  • Regularizácia (voliteľné): V niektorých prípadoch sú do nákladovej funkcie pridané regulačné podmienky, aby sa zabránilo nadmernému vybaveniu. Regularizácia môže byť užitočná pri práci s hlučnými dátami alebo pri veľkom počte susedov.
  • Optimalizačný algoritmus (voliteľné): LLE často používa optimalizačné techniky ako napr Dekompozícia singulárnej hodnoty (SVD) alebo metódy vlastného vektora na nájdenie reprezentácie nižšej dimenzie. Tieto optimalizačné metódy môžu mať svoje vlastné parametre, ktoré je možné upraviť.

LLE (Locally Linear Embedding) predstavuje významný pokrok v štruktúrnej analýze, ktorý prekonáva tradičné techniky modelovania hustoty, ako je lokálne PCA alebo zmesi faktorových analyzátorov. Obmedzenie modelov hustoty spočíva v ich neschopnosti konzistentne vytvoriť súbor globálnych súradníc schopných vložiť pozorovania do celého štrukturálneho potrubia. V dôsledku toho sa ukážu ako nedostatočné pre úlohy, ako je vytváranie nízkorozmerných projekcií pôvodného súboru údajov. Tieto modely vynikajú iba pri identifikácii lineárnych prvkov, ako je znázornené na obrázku nižšie. Zaostávajú však v zachytávaní zložitých zakrivených vzorov, čo je schopnosť vlastná LLE.

Vylepšená výpočtová efektivita s LLE. LLE ponúka vynikajúcu výpočtovú efektivitu vďaka riedkemu spracovaniu matice, čím prevyšuje ostatné algoritmy.

Implementácia lokálneho lineárneho vkladania

Importovanie knižníc

Python3

#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding>
>
>

Kód začína importovaním potrebných knižníc, vrátane numpy, matplotlib.pyplot , make_swiss_roll zo sklearn.datasets a LocallyLinearEmbedding z sklearn.rozdeľovač .

prológový jazyk

Generovanie množiny syntetických údajov (Swiss Roll)

Python3

# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)>
>
>

Pomocou funkcie make_swiss_roll zo scikit-learn generuje syntetický súbor údajov pripomínajúci švajčiarsky valec.

n_samples určuje počet údajových bodov, ktoré sa majú vygenerovať.
n_neighbors definuje počet susedov použitých v algoritme LLE.

Aplikácia lokálneho lineárneho vkladania (LLE)

Python3

# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)>
>
>

Inštancia algoritmu LLE sa vytvorí pomocou LocallyLinearEmbedding. Parameter n_neighbors určuje počet susedov, ktoré je potrebné vziať do úvahy počas procesu vkladania.

Algoritmus LLE je potom prispôsobený pôvodným údajom X pomocou fit_transform metóda. Tento krok redukuje množinu údajov na dve dimenzie (n_components=2).

java ako prepísať

Vizualizácia pôvodných a redukovaných údajov

Python3

# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()>
>
>

Výkon:


Lokálne lineárne vkladanie



V druhom podgrafe sú redukované dáta získané z LLE (X_reduced) vizualizované podobným spôsobom ako pôvodné dáta. Farba údajových bodov je stále určená treťou vlastnosťou pôvodných údajov (X[:, 2]). plt.tight_layout() Funkcia sa používa na zabezpečenie správneho rozostupu medzi podzákresmi.

Výhody LLE

Metóda redukcie rozmerov známa ako lokálne lineárne vkladanie (LLE) má mnoho výhod pre spracovanie dát a vizualizáciu. Toto sú hlavné výhody LLE:

  • Zachovanie miestnych štruktúr : LLE je vynikajúci v udržiavaní lokálnych vzťahov alebo štruktúr v údajoch. Úspešne zachytáva vlastnú geometriu nelineárnych rozvodov udržiavaním párových vzdialeností medzi blízkymi dátovými bodmi.
  • Zaobchádzanie s nelinearitou : LLE má schopnosť zachytiť nelineárne vzory a štruktúry v údajoch, na rozdiel od lineárnych techník, ako je napr Analýza hlavných komponentov (PCA). Pri práci s komplikovanými, zakrivenými alebo skrútenými súbormi údajov je to obzvlášť užitočné.
  • Zníženie rozmerov : LLE znižuje rozmernosť údajov pri zachovaní ich základných vlastností. Najmä pri práci s vysokorozmernými súbormi údajov toto zníženie zjednodušuje prezentáciu údajov, ich prieskum a analýzu.

Nevýhody LLE

  • Prekliatie dimenzionality : LLE môže zažiť prekliatie dimenzionality pri použití s ​​extrémne vysokorozmernými dátami, rovnako ako mnoho iných prístupov k redukcii rozmerov. Počet susedov potrebných na zachytenie lokálnych interakcií rastie spolu s rozmernosťou, čo potenciálne zvyšuje výpočtové náklady prístupu.
  • Pamäťové a výpočtové požiadavky : Pre veľké súbory údajov môže byť vytváranie váženej matice susednosti ako súčasti LLE náročné na pamäť. Fáza rozkladu vlastnej hodnoty môže byť tiež výpočtovo náročná na veľké súbory údajov.
  • Odľahlé hodnoty a hlučné údaje : LLE je náchylný na anomálie a nervózne dátové body. Kvalita vloženia môže byť ovplyvnená a miestne lineárne vzťahy môžu byť skreslené odľahlými hodnotami.