Hive je systém dátového skladu, ktorý sa používa na analýzu štruktúrovaných údajov. Je postavený na vrchole Hadoop. Bol vyvinutý spoločnosťou Facebook.
Hive poskytuje funkcie čítania, zápisu a správy veľkých množín údajov umiestnených v distribuovanom úložisku. Spúšťa dotazy podobné SQL nazývané HQL (Hive query language), ktoré sa interne konvertujú na úlohy MapReduce.
Pomocou Hive môžeme preskočiť požiadavku tradičného prístupu písania zložitých programov MapReduce. Hive podporuje Data Definition Language (DDL), Data Manipulation Language (DML) a User Defined Functions (UDF).
Vlastnosti Hive
Toto sú nasledujúce funkcie Hive:
- Úľ je rýchly a škálovateľný.
- Poskytuje dotazy podobné SQL (t. j. HQL), ktoré sú implicitne transformované na úlohy MapReduce alebo Spark.
- Je schopný analyzovať veľké súbory údajov uložené v HDFS.
- Umožňuje rôzne typy ukladania, ako je obyčajný text, RCFile a HBase.
- Používa indexovanie na zrýchlenie dopytov.
- Môže pracovať s komprimovanými dátami uloženými v ekosystéme Hadoop.
- Podporuje užívateľom definované funkcie (UDF), kde užívateľ môže poskytnúť svoju funkčnosť.
Obmedzenia Hive
- Úľ nie je schopný spracovať údaje v reálnom čase.
- Nie je určený na spracovanie online transakcií.
- Dopyty úľa obsahujú vysokú latenciu.
Rozdiely medzi Úľom a Prasaťom
Úľ | Prasa |
---|---|
Úľ bežne používajú analytici údajov. | Pig bežne používajú programátori. |
Nasleduje dotazy podobné SQL. | Riadi sa jazykom toku údajov. |
Dokáže pracovať so štruktúrovanými dátami. | Dokáže spracovať pološtruktúrované dáta. |
Funguje na serverovej strane klastra HDFS. | Funguje na klientskej strane klastra HDFS. |
Úľ je pomalší ako prasa. | Prasa je porovnateľne rýchlejšie ako Hive. |