logo

Rozdiel medzi AlexNet a GoogleNet

V posledných rokoch hlboké vzdelávanie zmenilo oblasť počítačového videnia a umožnilo počítačom vnímať a zisťovať vizuálne informácie na nezvyčajných úrovniach. Hra konvolučných neurónových sietí (CNN) mala zásadný vplyv na túto zmenu, pričom smerovalo niekoľko prelomových návrhov. Dve z najvplyvnejších štruktúr CNN sú AlexNet a GoogleNet (InceptionNet). Tieto dva modely spolu prispeli k pokroku v úlohách klasifikácie obrázkov, napriek tomu sú v kontraste vo svojich štruktúrach a princípoch dizajnu. V tomto článku sa ponoríme do kritických rozdielov medzi AlexNet a GoogleNet, preskúmame ich štruktúry, rozhodnutia o dizajne a realizáciu.

Hlavné rozdiely medzi AlexNet a GoogleNet

Funkcia AlexNet GoogleNet (InceptionV3)
Rok vydania / predstavenia 2012 2014
Počet vrstiev v modeli 8 (5 Convolution, 3 FC) 159 (vrátane pomocných)
Architektúra Sekvenčné Viacnásobné pobočky (začiatok)
Veľkosť konvolúcie Väčšie filtre (11x11, 5x5) Menšie filtre (1x1, 3x3, 5x5)
Združovacie vrstvy Max Pooling Maximálne a priemerné združovanie
Funkcia aktivácie pokračovať ReLU a ďalšie variácie
Normalizácia miestnej odozvy (LRN) Použité Nepoužité
Úvodné moduly Nepoužité Používa sa s mnohými viacerými vetvami
Výpočtová efektívnosť Mierne Vyššie
Zložitosť modelu Nízka Vysoká
Najvyššia presnosť (ImageNet) 0,571 0,739

Čo je AlexNet?

AlexNet je pozoruhodná architektúra konvolučnej neurónovej siete (CNN), ktorú vytvorili Alex Krizhevsky, Ilya Sutskever a Geoffrey Hinton. Bol predstavený v roku 2012 a dosiahol kritický pokrok vo výzve ImageNet Large Scope Visual Recognition Challenge (ILSVRC) tým, že v podstate porazil rôzne metodológie. AlexNet bola hlavnou CNN, ktorá ukázala životaschopnosť hlbokého učenia pre úlohy poradia obrázkov, čo znamená rozhodujúci moment v oblasti počítačového videnia.

1. Architektúra

AlexNet, vydaný v roku 2012, bol vedúcou CNN, ktorá vyhrala ImageNet Large Scope Visual Recognition Challenge (ILSVRC) s kritickým priestorom pre chyby. Obsahuje päť konvolučných vrstiev, za ktorými nasledujú tri úplne spojené vrstvy. K prosperite prispelo využitie ovládania ReLU (Redressed Direct Unit) a štandardizácie susedskej reakcie (LRN). AlexNet navyše predstavil myšlienku zapojenia GPU do prípravy, čo celkom urýchlilo rastúci zážitok.

2. Hĺbka siete:

S ôsmimi vrstvami (päť konvolučných a tri úplne spojené vrstvy) bol AlexNet v hodinu svojej prezentácie považovaný za tak hlboký. Napriek tomu, na rozdiel od súčasných návrhov, je vo všeobecnosti plytký, čo obmedzuje jeho schopnosť zachytiť ohromujúce prvky a príklady v extrémne zložitých súboroch údajov.

čo je predloženie adresára

3. Výpočtová produktivita:

Zatiaľ čo prezentácia prípravy GPU od AlexNet urýchlila vzdelávacie skúsenosti, bola stále výpočtovo nákladná kvôli hlbším úplne súvisiacim vrstvám a obmedzenému využitiu paralelizácie.

4. Nadmerné vybavenie:

Vďaka svojmu mierne plytkému dizajnu a veľkému počtu hraníc bol AlexNet viac naklonený nadmernému vybaveniu, najmä na skromnejších súboroch údajov. Stratégie ako vypadávanie boli následne oboznámené na moderovanie tohto problému.

Rozdiel medzi AlexNet a GoogleNet

5. Školenie:

Na trénovanie AlexNet tvorcovia použili súbor údajov ImageNet, ktorý obsahuje viac ako 1 000 000 pomenovaných obrázkov z 1 000 klasifikácií. Ako výpočet zlepšenia použili stochastický pokles uhla (SGD) s energiou. Počas školenia boli použité metódy rozširovania informácií, ako je ľubovoľná úprava a prevracanie, aby sa rozšírila veľkosť súboru údajov školenia a ďalej sa rozvíjalo zovšeobecňovanie.

Tréningový systém bol požadovaný výpočtovo a využitie GPU AlexNet na rovnaké zaobchádzanie sa nakoniec ukázalo ako nevyhnutné. Školenie AlexNet na ráme s dvojitým GPU si vyžiadalo približne sedem dní, čo bolo zásadné zlepšenie v porovnaní s bežnými tréningovými časmi založenými na počítačových procesoroch.

6. Výsledky:

V rivalite ImageNet 2012 dosiahol AlexNet pozoruhodné tempo chýb v top 5 okolo 15,3 %, čím v drvivej väčšine porazil rôzne metodológie.

Výsledok AlexNet odštartoval záplavu záujmu o hlboké učenie a CNN, čo vyvolalo zmenu koncentrácie počítačového videnia v miestnej oblasti smerom k ďalším komplikovaným a hlbším neurónovým sieťam.

7. Konvolučné nastavenie vrstvy:

Konvolučné vrstvy v AlexNet sú organizované v základnej postupnosti s pravidelnými maximálnymi združovacími vrstvami na prevzorkovanie. Toto jasné inžinierstvo bolo v tom bode dôležité, no obmedzovalo schopnosť organizácie zachytiť zložité progresívne prvky.

8. Zníženie rozmerov:

AlexNet zahŕňa maximálne združovanie vrstiev na prevzorkovanie, čím sa zmenšujú priestorové komponenty máp prvkov. To pomáha pri znižovaní výpočtovej hmotnosti a kontrole nadmerného vybavenia.

9. Veľkosť a zložitosť modelu:

Zatiaľ čo AlexNet bol v tom bode považovaný za hlboký, je o niečo skromnejší a menej komplikovaný v kontraste s neskoršími návrhmi. Táto priamosť to robila zrejmejším a vykonávateľnejším.

10. Použitie pomocných klasifikátorov:

Na vyriešenie problému odparovacích uhlov počas prípravy predstavil AlexNet myšlienku pomocných klasifikátorov. Tieto extra klasifikátory boli spojené so strednými vrstvami a počas spätného šírenia poskytovali uhlové znaky predchádzajúcim vrstvám.

11. Vplyv na smerovanie výskumu:

Výsledok AlexNet znamenal obrovskú zmenu v oblasti počítačového videnia. Podnietil vedcov, aby preskúmali schopnosť hlbokého učenia sa pre rôzne úlohy súvisiace s obrázkom, čo podnietilo rýchle zlepšenie ďalej vyvinutých návrhov CNN.

anonymná funkcia java

Čo je GoogleNet?

GoogleNet, inak nazývaný Inception v1, je architektúra CNN, ktorú vytvorila skupina Google Brain, najmä Christian Szegedy, Wei Liu a ďalší. Bol predstavený v roku 2014 a vyhral ILSVRC s ďalej vyvinutou presnosťou a výpočtovou produktivitou. Architektúru siete GoogleNet popisuje jej hlboký dizajn, ktorý pozostáva z 22 vrstiev, čo z nej robí jednu z prvých „výnimočne hlbokých“ CNN.

1. Architektúra

metódy java zoznamu

GoogleNet (Inception v1): GoogleNet, predstavený v roku 2014, je nevyhnutný pre skupinu Inception CNN. Je známy svojim hlbokým dizajnom zahŕňajúcim 22 vrstiev (počiatočné moduly). Dôležitým vývojom siete GoogleNet je počiatočný modul, ktorý zohľadňuje rovnaké konvolúcie rôznych veľkostí kanálov vo vnútri podobnej vrstvy. Tým sa znížila zložitosť výpočtov pri zachovaní presnosti, vďaka čomu je služba GoogleNet efektívnejšia ako AlexNet.

2. Hĺbka siete:

Počiatočné moduly GoogleNet sa považujú za v podstate hlbší dizajn bez zvyšovania výpočtových nákladov. S 22 vrstvami bola GoogleNet jednou z hlavných CNN, ktorá ukázala výhody rozšírenej hĺbky siete, čo viedlo k ďalšiemu rozvoju presnosti a výkonu.

3. Výpočtová produktivita:

Úvodné moduly v sieti GoogleNet sa považujú za produktívnejšie využitie výpočtových prostriedkov. Využitím rovnakých konvolúcií vo vnútri každého počiatočného bloku GoogleNet zmenšil počet hraníc a výpočtov, čím sa stal dostupnejším pre kontinuálne aplikácie a prenášanie na prístrojoch vynútených aktívami.

4. Nadmerné vybavenie:

Hlboký, ale efektívny dizajn siete GoogleNet v podstate zmenšil prepracovanie, čo mu umožnilo lepšie fungovať v skromnejších súboroch údajov a posunúť vzdelávacie situácie.

Rozdiel medzi AlexNet a GoogleNet

5. Školenie:

Školenie GoogleNet navyše rozpracúva využitie súboru údajov ImageNet a na aktualizáciu zovšeobecnenia sa použili porovnateľné postupy zvyšovania informácií. Nech je to akokoľvek, kvôli svojej hlbšej architektúre vyžadoval GoogleNet počas školenia viac výpočtových prostriedkov ako AlexNet.

Vývoj počiatočných modulov umožnil službe GoogleNet nájsť určitý druh harmónie medzi hĺbkou a výpočtovou efektívnosťou. Rovnaké zákruty vo vnútri každého počiatočného bloku celkovo znížili počet výpočtov a hraníc, vďaka čomu je tréning dosiahnuteľný a efektívnejší.

6. Výsledky:

GoogleNet dosiahol v súťaži ImageNet 2014 skvelé tempo chyby v top 5 okolo 6,67 %, čím prekonal prezentáciu AlexNet.

Hlboká, ale zdatná architektúra siete GoogleNet preukázala schopnosť hlbších neurónových sietí a zároveň držala krok s výpočtovou dosiahnuteľnosťou, vďaka čomu bola pútavejšia pre skutočné aplikácie.

7. Konvolučné nastavenie vrstvy:

GoogleNet predstavil myšlienku začiatočných modulov, ktoré obsahujú množstvo rovnakých konvolučných vrstiev rôznych veľkostí kanálov. Tento plán umožňuje sieti GoogleNet zachytiť najdôležitejšie body v rôznych mierkach a celkovo pracuje na schopnosti organizácie odstrániť významné prvky z rôznych stupňov uvažovania.

8. Zníženie rozmerov:

vôl vs býk

bez ohľadu na zvyčajné združovanie max. hodnôt, GoogleNet využíva metódy znižovania rozmerov, ako sú konvolúcie 1x1. Tieto skromnejšie konvolúcie sú výpočtovo menej eskalované a pomáhajú pri znižovaní počtu prvkov a zároveň chránia základné údaje.

9. Veľkosť a zložitosť modelu:

Pôvodné moduly GoogleNet prinášajú hlbší dizajn so zásadne viacerými vrstvami a hranicami. Táto zložitosť, zatiaľ čo ponúka ďalej rozvinutú presnosť, môže tiež organizáciu prinútiť viac testovať na prípravu a kalibráciu.

10. Použitie pomocných klasifikátorov:

GoogleNet zdokonalil myšlienku pomocných klasifikátorov ich začlenením do iniciačných modulov. Tieto pomocné klasifikátory zlepšujú prípravu hlbších vrstiev a zlepšujú uhlový prúd, čím prispievajú k stabilnejšej a efektívnejšej príprave.

11. Vplyv na smerovanie výskumu:

Začiatočné moduly GoogleNet predstavovali možnosť efektívnej extrakcie komponentov v rôznych mierkach. Táto myšlienka ovplyvnila plán výsledných návrhov a umožnila analytikom sústrediť sa na hĺbku organizácie a výpočtovú produktivitu a zároveň držať krok s presnosťou alebo ju ďalej rozvíjať.

Záver

AlexNet aj GoogleNet trvalo ovplyvňujú oblasť počítačového videnia a hlbokého učenia. AlexNet preukázal schopnosť CNN pre úlohy rozpoznávania obrazu a nastavený pre budúce pokroky. GoogleNet potom opäť predstavil myšlienku pôvodných modulov, čím ich pripravil na efektívnejšie a hlbšie štruktúry CNN.

Zatiaľ čo AlexNet a GoogleNet majú svoje špeciálne výhody, oblasť hlbokého učenia sa od ich prezentácií zásadne rozvinula. Súčasné návrhy ako ResNet, DenseNet a EfficientNet navyše posunuli hranice presnosti, produktivity a zovšeobecnenia. Ako analytici pokračujú vo vylepšovaní a rozširovaní týchto základných modelov, osud počítačového videnia prináša oveľa pozoruhodnejšie odhodlanie a ďalšie zaujímavé vyhliadky.