logo

Výukový program Apache Spark

Výukový program Apache Spark

Výukový program Apache Spark poskytuje základné a pokročilé koncepty Spark. Náš tutoriál Spark je určený pre začiatočníkov aj profesionálov.

Spark je jednotný analytický nástroj na spracovanie údajov vo veľkom meradle vrátane vstavaných modulov pre SQL, streamovanie, strojové učenie a spracovanie grafov.

počítačové siete

Náš tutoriál Spark obsahuje všetky témy Apache Spark s úvodom Spark, inštalácia Spark, architektúra Spark, komponenty Spark, RDD, príklady Spark v reálnom čase atď.

Čo je Spark?

Apache Spark je open-source klastrový výpočtový rámec. Jeho primárnym účelom je spracovávať dáta generované v reálnom čase.

Spark bol postavený na vrchu Hadoop MapReduce. Bol optimalizovaný na spustenie v pamäti, zatiaľ čo alternatívne prístupy, ako je MapReduce od Hadoop, zapisujú údaje na pevné disky počítača a z nich. Spark teda spracováva údaje oveľa rýchlejšie ako iné alternatívy.

História Apache Spark

Spark inicioval Matei Zaharia v AMPLab UC Berkeley v roku 2009. V roku 2010 bol otvorený pod licenciou BSD.

V roku 2013 projekt získala nadácia Apache Software Foundation. V roku 2014 sa Spark objavil ako projekt Apache najvyššej úrovne.

Vlastnosti Apache Spark

    Rýchlo- Poskytuje vysoký výkon pre dávkové aj streamované údaje pomocou najmodernejšieho plánovača DAG, optimalizátora dotazov a fyzického spúšťacieho nástroja.Jednoduché použitie- Uľahčuje písanie aplikácie v jazykoch Java, Scala, Python, R a SQL. Poskytuje tiež viac ako 80 operátorov na vysokej úrovni.Všeobecnosť- Poskytuje kolekciu knižníc vrátane SQL a DataFrames, MLlib pre strojové učenie, GraphX ​​a Spark Streaming.Ľahká- Je to ľahký jednotný analytický nástroj, ktorý sa používa na spracovanie údajov vo veľkom meradle.Beží všade- Môže ľahko bežať na Hadoop, Apache Mesos, Kubernetes, samostatne alebo v cloude.

Použitie Sparku

    Integrácia údajov:Údaje generované systémami nie sú dostatočne konzistentné na to, aby sa dali skombinovať na analýzu. Na získanie konzistentných údajov zo systémov môžeme použiť procesy ako extrahovať, transformovať a načítať (ETL). Spark sa používa na zníženie nákladov a času potrebného na tento proces ETL.Spracovanie streamu:Vždy je ťažké spracovať údaje generované v reálnom čase, ako sú napríklad súbory denníkov. Spark je dostatočne schopný prevádzkovať toky údajov a odmieta potenciálne podvodné operácie.Strojové učenie:Prístupy strojového učenia sa stávajú uskutočniteľnejšie a čoraz presnejšie vďaka rozšíreniu objemu údajov. Keďže spark je schopný ukladať dáta do pamäte a dokáže rýchlo spúšťať opakované dotazy, uľahčuje prácu na algoritmoch strojového učenia.Interaktívna analytika:Spark je schopný rýchlo generovať odpoveď. Takže namiesto spúšťania preddefinovaných dotazov môžeme s údajmi pracovať interaktívne.

Predpoklad

Predtým, ako sa naučíte Spark, musíte mať základné znalosti Hadoopu.

publikum

Náš tutoriál Spark je navrhnutý tak, aby pomohol začiatočníkom aj profesionálom.

Problémy

Uisťujeme vás, že s týmto tutoriálom Spark nenájdete žiadny problém. Ak sa však vyskytne nejaká chyba, uveďte problém v kontaktnom formulári.

nfa na dfa