Výukový program Apache Spark poskytuje základné a pokročilé koncepty Spark. Náš tutoriál Spark je určený pre začiatočníkov aj profesionálov.
Spark je jednotný analytický nástroj na spracovanie údajov vo veľkom meradle vrátane vstavaných modulov pre SQL, streamovanie, strojové učenie a spracovanie grafov.
počítačové siete
Náš tutoriál Spark obsahuje všetky témy Apache Spark s úvodom Spark, inštalácia Spark, architektúra Spark, komponenty Spark, RDD, príklady Spark v reálnom čase atď.
Čo je Spark?
Apache Spark je open-source klastrový výpočtový rámec. Jeho primárnym účelom je spracovávať dáta generované v reálnom čase.
Spark bol postavený na vrchu Hadoop MapReduce. Bol optimalizovaný na spustenie v pamäti, zatiaľ čo alternatívne prístupy, ako je MapReduce od Hadoop, zapisujú údaje na pevné disky počítača a z nich. Spark teda spracováva údaje oveľa rýchlejšie ako iné alternatívy.
História Apache Spark
Spark inicioval Matei Zaharia v AMPLab UC Berkeley v roku 2009. V roku 2010 bol otvorený pod licenciou BSD.
V roku 2013 projekt získala nadácia Apache Software Foundation. V roku 2014 sa Spark objavil ako projekt Apache najvyššej úrovne.
Vlastnosti Apache Spark
| Rýchlo | - Poskytuje vysoký výkon pre dávkové aj streamované údaje pomocou najmodernejšieho plánovača DAG, optimalizátora dotazov a fyzického spúšťacieho nástroja.
| Jednoduché použitie | - Uľahčuje písanie aplikácie v jazykoch Java, Scala, Python, R a SQL. Poskytuje tiež viac ako 80 operátorov na vysokej úrovni.
| Všeobecnosť | - Poskytuje kolekciu knižníc vrátane SQL a DataFrames, MLlib pre strojové učenie, GraphX a Spark Streaming.
| Ľahká | - Je to ľahký jednotný analytický nástroj, ktorý sa používa na spracovanie údajov vo veľkom meradle.
| Beží všade | - Môže ľahko bežať na Hadoop, Apache Mesos, Kubernetes, samostatne alebo v cloude.
Použitie Sparku
| Integrácia údajov: | Údaje generované systémami nie sú dostatočne konzistentné na to, aby sa dali skombinovať na analýzu. Na získanie konzistentných údajov zo systémov môžeme použiť procesy ako extrahovať, transformovať a načítať (ETL). Spark sa používa na zníženie nákladov a času potrebného na tento proces ETL.
| Spracovanie streamu: | Vždy je ťažké spracovať údaje generované v reálnom čase, ako sú napríklad súbory denníkov. Spark je dostatočne schopný prevádzkovať toky údajov a odmieta potenciálne podvodné operácie.
| Strojové učenie: | Prístupy strojového učenia sa stávajú uskutočniteľnejšie a čoraz presnejšie vďaka rozšíreniu objemu údajov. Keďže spark je schopný ukladať dáta do pamäte a dokáže rýchlo spúšťať opakované dotazy, uľahčuje prácu na algoritmoch strojového učenia.
| Interaktívna analytika: | Spark je schopný rýchlo generovať odpoveď. Takže namiesto spúšťania preddefinovaných dotazov môžeme s údajmi pracovať interaktívne.
Predpoklad
Predtým, ako sa naučíte Spark, musíte mať základné znalosti Hadoopu.
publikum
Náš tutoriál Spark je navrhnutý tak, aby pomohol začiatočníkom aj profesionálom.
Problémy
Uisťujeme vás, že s týmto tutoriálom Spark nenájdete žiadny problém. Ak sa však vyskytne nejaká chyba, uveďte problém v kontaktnom formulári.
nfa na dfa