Hive on Tez 簡介

語言: CN / TW / HK

Cloudera 資料平臺 (CDP) 服務,提供 Apache Tez 執行的 Apache Hive SQL 資料庫。

Hive on Tez 服務提供基於 Apache Hive 3.x 的基於 SQL 的資料倉庫系統。Hive 3.x 中相對於以前版本的增強可以提高 SQL 查詢效能、安全性和審計功能。Hive Metastore (HMS) 是一個單獨的服務,不是 Hive 的一部分,甚至不一定在同一個叢集上。HMS 將元資料儲存在後端,用於 Hive、Impala、Spark 和其他元件。

Apache Tez 是 Hive on Tez 服務的 Hive 執行引擎,其中包括 Cloudera Manager 中的 HiveServer (HS2)。不支援 MapReduce。在 Cloudera 叢集中,如果遺留指令碼或應用程式指定 MapReduce 執行,則會發生異常。大多數使用者定義的函式 (UDF) 不需要更改即可在 Tez 而不是 MapReduce 上執行。

通過有向無環圖 (DAG) 和資料傳輸原語的表示式,在 Tez 上執行 Hive 查詢而不是 MapReduce 提高了查詢效能。在 Cloudera Data Platform (CDP) 中,Tez 通常僅供 Hive 使用,並在 Tez 上的 Hive 啟動時自動啟動和管理 Tez AM。您提交給 Hive 的 SQL 查詢執行如下:

  • Hive 編譯查詢。

  • Tez 執行查詢。

  • 為整個叢集的應用程式分配資源。

  • Hive 更新資料來源中的資料並返回查詢結果。

Hive on Tez 在臨時容器上執行任務並使用標準的 YARN shuffle 服務。預設情況下,Hive 資料儲存在 HDFS 上。如果您不啟用 Ranger 安全服務或其他安全性,預設情況下 Hive 使用基於使用者模擬的基於儲存的授權 (SBA)。

原文連結:http://docs.cloudera.com/cdp-private-cloud-base/latest/hive-introduction/topics/hive-on-tez.html



本文分享自微信公眾號 - 大資料雜貨鋪(bigdataGrocery)。
如有侵權,請聯絡 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。