Hadoop 彙整 - 歐立威科技

大數據分析查詢引擎大車拼！Hadoop Hive VS. Impala 是競爭還是相輔相成？

Omni — Wed, 26 Oct 2022 06:01:43 +0000

是競爭還是相輔相成？

Impala 與 Hive 都是構建在 Hadoop 之上的資料查詢工具，但許多人卻不清楚它們各自的特色與使用情境。其實，從它們的名字就可以略知一二，Hive 是大資料倉儲工具，像蜂巢一樣貯藏了很多蜂蜜，但卻無法快速拿出來；Impala 可以讀寫 Hive 資料，速度和羚羊一樣飛快 …

既然 Impala 效能更好，也可以讀寫 Hive 資料，所以可以直接取代 Hive 嗎？

事情當然沒這麼簡單，本篇文章將從 Hive 與 Impala 的基本架構開始，說明它們各自的長處與限制。

Hive VS. Impala 簡介

Hadoop 生態系立基於分散式檔案系統 HDFS，可以存放 TB 級，乃至於 PB 級的大資料。

Hive 提供類 SQL 的介面，省去開發分散式運算框架的 JAVA 程式的功夫，方便資料倉儲的施作。可以撰寫腳本配合排程進行 ETL，也能夠搭配 ETL 工具來完成資料倉儲的作業，像是 Trinity、Informatica 及 Pentaho 等。

然而，Hive 緩慢的查詢速度令許使用者苦惱，Impala 應運而生。

Impala 提供 MPP（大規模平行處理）SQL Engine，讓使用者可以快速地取用儲存於 Hive 裡的資料。Impala 即時且低延遲的回應速度，可以作為互動式查詢的介面，適合用來進行即時資料分析，或者搭配 BI 工具使用。

Hive & Impala 比較

架構

資料儲存部分，Hive 與 Impala 的資料都是落地在 HDFS 上，元資料則存放在 Hive Metastore 的外部資料庫中，因此，Hive 與 Impala 可以讀寫同一份資料。

運算部分，Hive 依賴分散式運算框架以及 YARN 的資源調度，運算過程中會啟動 Mapper 與 Reducer，複雜的運算會經過多輪的 MapReduce，每一輪的 Reducer 會將階段性的計算結果落地在 HDFS 暫存，提供下一輪的運算使用。

Impala 則是以 C++ 撰寫的 MPP SQL Engine，不依賴 MapReduce 與 YARN，以其自身的平行處理邏輯來讀寫資料，運算過程中省去啟動 Mapper 與 Reducer 的步驟，並且大量使用記憶體，減少硬碟 I/O，相對提升運算的效率。

查詢、連線與使用

Hive 與 Impala 均提供類 SQL 的語法對資料進行操作，只要熟悉 SQL 就能快速地上手。

Hive 與 Impala 除了原生的 CLI Shell 以外，也可以透過 JDBC 或 ODBC Driver 進行連線，因此可以串接 ETL 工具，如 Informatica、Pentaho 等，以及 BI 工具，如 Tableau 等。另外，兩者都有 Python 函式庫，分別是 PyHive 與 impyla，可以使用 Python 程式連線來讀寫資料，或者進一步串接到 Pandas，將取得的資料做更深入的分析。

Hive 得益於 MapReduce，運算時容錯度大，部分錯誤如 Mapper 執行失敗，並不會影響整個運算的作業，並且 Hive 可以使用 YARN 做資源調度，Scheduler 可以做到 user 級別的資源管理，一方面限制 user 資源的使用上限，一方面又確保 user 可以使用的最少資源，加上 Hive 提供資料匯出匯入 HDFS 與 Local 的語法，相較於 Impala 更適合批次處理的 ETL 作業；Impala 平行處理邏輯雖然容錯度小，單點運算失敗會導致整個運算失敗，但是查詢速度快，重新查詢成本低，更適合做互動式查詢。

Hive VS. Impala 比較表

使用注意事項

由於 Hive 與 Impala 架構上的不同，但是兩者都能操作同一份資料，因此使用時有一些細節需要注意：

- 讀取表
  Hive 內部表預設屬性 CRUD transactional，但是 Impala 無法讀取此類的表，若要確保該表兩者皆能讀取，透過 Hive 建內部表時，需要將表的改為 Insert-only transactional，或者改建外部表。

- 寫入表
  Hive 內部表預設的儲存檔案格式為 ORC，但是 Impala 無法寫入此種檔案格式，若要確保該表兩者都能寫入，透過 Hive 建內部表時，需要改以 Parquet 或 Textfile 儲存資料。

- HDFS 檔案權限
  由於實際資料落地於 HDFS，Hive 與 Impala 於 HDFS 通常是不同 user，若要確保兩者能夠讀寫同一份資料，需要注意檔案的權限設定。

- 複雜型態資料
  Impala 無法直接讀取複雜型態（如ARRAY、MAP、STRUCT）的資料，需要轉型成簡單型態（Scalar Type，即一個欄位一個值）才能讀取，並且不支援 UNION 這個複雜型態。

結語

Impala 的出現並不是要取代 Hive。Hive 負責 ETL 作業做好資料倉儲，Impala 提供即時快速的查詢，也可以將整理過的資料另做資料市集。兩者分工合作在 Hadoop 生態系中相輔相成，完成大數據平台的各種任務。

參考資料

https://stackoverflow.com/questions/38218200/hive-data-to-pandas-data-frame

https://docs.cloudera.com/runtime/7.2.10/using-hiveql/topics/hive_hive_3_tables.html

https://blog.cloudera.com/extending-hive-replication-transactional-tables-external-tables-and-statistics/

想了解更多資訊，歡迎聯絡我們，或是加入歐立威 Line 好友！

一個便當吃不飽，可以吃兩個啊！淺談巨量資料庫 Hadoop

Omni — Thu, 31 Mar 2022 10:02:37 +0000

Hadoop – 這隻黃色小象究竟是什麼？

「一個便當吃不飽，可以吃兩個啊！還不夠的話，可以再吃好幾個！」

當企業儲存的資料越來越多，若只是要增加幾 TB 可以加裝硬碟進行擴容就好，但若要增加幾百 TB 的資料，顯然不是一台電腦主機就可以搞定的。

那麼要怎樣把資料放到多台主機，又能同時使用與管理裡的資料呢？

Hadoop 就此應運而生！既然一台電腦裝不下，那麼可以放到兩台，甚至更多台主機裡面！

Hadoop 目前是 Apache 的開源專案，能夠儲存並管理巨量資料，更可以儲存容量超大的檔案，並同時儲存、處理、分析這些檔案，因此許多組織採用它作為儲存巨量資料的雲端平台。

除此之外，Hadoop 完全免費、有活躍的社群，還有各式各樣的開源應用程式，儼然是個豐富的生態系。

Hadoop 可以做什麼？

Hadoop File System，簡稱 HDFS，是一種分散式檔案系統，可以整合多台主機的儲存空間來存放資料。

HDFS 在存放檔案有自己獨特的邏輯，它會將一整個的檔案切成小塊（block）做上記號，然後製作副本（Data replication），散佈到不同的主機上。這麼做有幾個好處：

- 當要讀取或寫入時，因為檔案被切分成小塊，壓力分散到多台主機，妥善運用資源，避免一台主機存放一個超大檔案，造成 I/O 擠在一台電腦上陷入瓶頸，其他主機卻閒得發慌。

- 每個小塊都有自己的副本，雖然會花費更多儲存空間，但是當中一個主機意外故障時，存在其他地方的副本，馬上可以提供資料，HDFS 也會自動把缺少的副本補齊。

Hadoop 藉由 YARN 監控與分配資源，YARN （Yet Another Resource Negotiator）是一種分散式運算系統，用於資源管理。它可以統籌多台主機的運算資源來進行計算，傳統上使用 MapReduce 運算框架，可以處理存放在 HDFS 中的大量資料。

有了基礎的檔案與運算系統，開始有許多的應用依附著 Hadoop，常見的有：

- Apache Hive 主要用於資料倉儲，適合巨量資料的批量處理

- Apache HBase 作為 No-SQL 的資料庫，提供更即時的搜尋

- Apache Kafka 流式資料訊息傳遞中介，為資料流解耦

- Apache Spark 資料分析工具，提供資料探勘與機器學習的 API

還有更多應用，族繁不及備載。

Hadoop 與資料庫有什麼不同？爲何 Hive 查資料那麼慢？

Hadoop 是將資料存放在分散式檔案系統，所以可以存放各種檔案。

Apache Hive 則是提供類似傳統關連式資料庫的介面，讓使用者可以使用近似 SQL 的指令 HiveQL，將大量的結構化資料存入 HDFS 中進行「資料倉儲」。

由於使用 Hive 的主要目的是存放大量資料，必要時才使用 YARN 進行存取與運算，傳統上Hive 使用 MapReduce 運算框架，運算過程中大量使用硬碟 I/O，避開因為昂貴的記憶體而導致的 OOM 問題，因此更多時候是用於巨量資料的批次處理。因此，相較用在 OLTP 追求速度而大量使用記憶體的資料庫，速度會慢上許多！

若是要更即時的互動式查詢，可以使用 Apache Impala 來訪問 Hive 中的資料，Impala 繞過 YARN 與 MapReduce，有著更快的反應速度。

什麼是 CDP Private Cloud Base？

Apache Hadoop 生態豐富，要合宜地將各個服務部署到叢集中，程序就變得相當複雜。不同的應用彼此相互依賴，其中各個參數互相影響，也需要第三方軟體來監視每個服務的狀態。

Cloudera 的 CDP Private Cloud Base 正是為解決上述挑戰而生，整合 Hadoop 生態系中常用的應用服務。

透過 Cloudera Manager 提供的 Web UI，管理者可輕鬆完成部署與集中管理，包括服務啟停、設定參數調校及安全策略套用。此一設計大幅降低手動操作與撰寫腳本的負擔，讓企業能更快速地展開資料分析，真正發揮大數據的商業價值！

想了解更多資訊，歡迎聯絡我們，或是加入歐立威 Line 好友！

Hadoop-手動建立單節點的Hadoop叢集

Omni — Thu, 28 Dec 2017 16:45:07 +0000

引言

在學習Hadoop時，建議使用Hortonworks打包好的Sandbox，或Cloudera的QuickStart VM。內心深處，肯定有肢解它們的衝動。本專欄的目的，就是以描述如何手動架設Hadoop「偽分佈模式」（pseudo-distributed mode），來適度反向滿足心中的野獸。

準備安裝環境

以下Hadoop的安裝環境，是在VMware Worstation 11上運作的CentOS 7 Linux作業系統。倘若您偏好使用甲骨文的VirtualBox虛擬平台，也無不可。若您有使用純文字介面的癖好，在安裝CentOS時建議選擇Infrastructure Server以上（含）的級別，且務必勾選加裝Java Platform。若您無自虐傾向，則建議安裝至Gnome Desktop級別。
在開工前，不妨將作業系統整體更新一次；以root身份，執行 # yum –y update

下載及安裝Hadoop 程式包

以root身份，執行
# wget http://apache.stu.edu.tw/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
Hadoop-2.7.1是本專欄下筆時的最新版本。您可至http://hadoop.apache.org/releases.html檢視當下的最新版。記得點選binary而非source。
下載完成後，解壓，再將資料夾移至 /usr/local 目錄底下：
# tar xvf hadoop-2.7.1.tar.gz
# mv hadoop-2.7.1 /usr/local
Hadoop就此「安裝」完成！但談上陣還早，請往下看。

設定環境變數

首先，要編輯在 /usr/local/hadoop-2.7.1/etc/hadoop目錄下一個叫hadoop-env.sh的檔案，以設定重要環境變數。這些變數的意義，檔案裡有官方注釋，在此也就不贅述。

把#export JAVA_HOME=${JAVA_HOME}改成（務必删去井字符號）
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64/jre
把 #export HADOOP_LOG_DIR=${HADOOP_LOG_DIR}/$USER改成
export HADOOP_LOG_DIR=/var/log/hadoop/$USER
緊接著這行，加入
export HADOOP_MAPRED_LOG_DIR=/var/log/hadoop-mapreduce/$USER
再來，編輯同目錄下的yarn-env.sh，在IFS=那行下面，加入
export YARN_LOG_DIR=/var/log/hadoop-yarn/$USER
最後，為往後操作上的便利，新增檔案/etc/profile.d/hadoop.sh，並編輯以下內容：
export HADOOP_PREFIX=/usr/local/hadoop-2.7.1
export PATH=$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin:$PATH
export MR_EXAMPLES=$HADOOP_PREFIX/share/hadoop/mapreduce
階段性確認Hadoop生命跡象：
# source /etc/profile.d/hadoop.sh
# hadoop version
Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657a
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /usr/local/hadoop-2.7.1/share/hadoop/common/hadoop-common-2.7.1.jar

建立標準帳戶

建立方便Hadoop權限管理的群組和帳戶：
# groupadd hadoop
# groupadd hdfs
# useradd -g hadoop yarn
# useradd -g hadoop hdfs
# useradd -g hadoop mapred

建立存放日誌的目錄

接著，建立之前我們在hadoop-env.sh和yarn-env.sh裡指定存放日誌的目錄：
# mkdir /var/log/hadoop
# chgrp hadoop /var/log/hadoop
# chmod 775 /var/log/hadoop
# mkdir /var/log/hadoop-mapreduce
# chown yarn:hadoop /var/log/hadoop-mapreduce
# mkdir /var/log/hadoop-yarn
# chown yarn:hadoop /var/log/hadoop-yarn

建立構成HDFS的目錄

接下來要建的，是HDFS常駐程式（Namendoe、Secondary Namenode、Datanode）的專屬目錄。稍後，我們會把一些配置檔裡的設定指向它們。Hadoop就是靠這些設定得知HDFS的內容要在何處讀寫。由於本「叢集」僅有單一節點，我們只能委屈這些常駐程式，把它們的專屬「硬碟」全塞在一個子目錄底下：
# mkdir –p /hadoop/hdfs
# cd /hadoop/hdfs
# mkdir nn snn dn
# chown –R hdfs:hdfs .
如果這是個企業級別的Hadoop叢集，這些常駐程式會在各自的伺服器上跑，並各自擁有一至多個專屬硬碟。

配置HDFS和YARN

接下來我們著手一連串的配置。這些配置的意義，可在Apache官網上查到。
回到 $HADOOP_PREFIX/etc/hadoop目錄，先編輯檔案core-site.xml如下：

fs.defaultFS
hdfs://localhost

hadoop.http.staticuser.user
hdfs

這裡的重點是第一個設定，宣告本機就是Namenode，而且要Hadoop用HDFS檔案系統。
編輯hdfs-site.xml如下：

dfs.replication
1

dfs.namenode.name.dir
file:/hadoop/hdfs/nn

dfs.checkpoint.dir
file:/hadoop/hdfs/snn

dfs.checkpoint.edits.dir
file:/hadoop/hdfs/snn

dfs.datanode.data.dir
file:/hadoop/hdfs/dn

設定dfs.replication指定HDFS檔案複製數為1（預設值為3）。接下來的幾個設定指向上個章節建的資料夾。
編輯mapred-site.xml如下：

mapreduce.framework.name
yarn

yarn.app.mapreduce.am.staging-dir
/user

mapreduce.jobhistory.done-dir
/mr-history/done

mapreduce.jobhistory.intermediate-done-dir
/mr-history/tmp

設定mapreduce.framework.name指明執行MapReduce時要透過YARN。後續設定宣告MapReduce的中繼和結果日誌要放的位置。稍後我們還要建相關的資料夾。
最後，編輯yarn-site.xml，宣告YARN的ResourceManager在本機上跑:

yarn.resourcemanager.hostname
localhost

yarn.nodemanager.aux-services
mapreduce_shuffle

若這是企業級的Hadoop叢集，ResourceManager會有專屬的伺服器，而不是跟Namenode擠同一個機台。

修改Java的預設記憶堆大小

正常情況下，架偽分佈模式是為了學習而非處理大量資料，因此我們會對Hadoop使用的電腦資源加碼限制，其中最重要的一環是記憶堆大小的控制。
進$HADOOP_PREFIX/etc/hadoop目錄，對hadoop-env.sh做下列修改：

將#export HADOOP_HEAPSIZE=改成export HADOOP_HEAPSIZE=”100″
將#export HADOOP_NAMENODE_INIT_HEAPSIZE=”1000″改成export HADOOP_NAMENODE_INIT_HEAPSIZE=”100″
進mapred-env.sh，把export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000改成export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=50。
進yarn-env.sh，把JAVA_HEAP_MAX=-Xmx1000m改為JAVA_HEAP_MAX=-Xmx100m，接著再加YARN_HEAPSIZE=100。

「格式化」Namenode

在HDFS第一次使用前，需要先「格式化」Namenode，目的是把HDFS的初始狀態寫進Namenode的紀錄。為此，執行下列指令：
# su – hdfs
$ hdfs namenode –format
若無差錯，在一長串訊息的尾端會看到類似下列的「成功」回報：
15/08/23 22:17:46 INFO common.Storage: Storage directory /var/data/hadoop/hdfs/nn has been successfully formatted.
15/08/23 22:17:47 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
15/08/23 22:17:47 INFO util.ExitUtil: Exiting with status 0
15/08/23 22:17:47 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop2.localdomain/192.168.204.142
************************************************************/
如果現在回頭去看/hadoop/hdfs/nn目錄，會看到一個叫current的子目錄，底下有幾個暗藏HDFS玄機的檔案:
[hdfs@localhost ~]$ ls -l /hadoop/hdfs/nn/current
total 16
-rw-r–r–. 1 hdfs hadoop 351 Sep 19 14:54 fsimage_0000000000000000000
-rw-r–r–. 1 hdfs hadoop 62 Sep 19 14:54 fsimage_0000000000000000000.md5
-rw-r–r–. 1 hdfs hadoop 2 Sep 19 14:54 seen_txid
-rw-r–r–. 1 hdfs hadoop 201 Sep 19 14:54 VERSION
至於/hadoop/hdfs/snn和/hadoop/hdfs/dn，則依然是空無一物。
一路走到這裡，差不多是收割勞動果實的時候了。HDFS已經就緒，就等著我們點火啟動。

啟動HDFS

欲啟動HDFS，須個別發動HDFS三大組件：
# su – hdfs
$ hadoop-daemon.sh start namenode
starting namenode, logging to /var/log/hadoop/hadoop-hdfs-namenode-hadoop2.kosmos.out
$ hadoop-daemon.sh start secondarynamenode
starting secondarynamenode, logging to /var/log/hadoop/hadoop-hdfs-secondarynamenode-hadoop2.kosmos.out
$ hadoop-daemon.sh start datanode
starting datanode, logging to /var/log/hadoop/hadoop-hdfs-datanode-hadoop2.kosmos.out
看起來是成功了，但可能還是要有其它方式確認會比較心安，畢竟常駐程式在啟動後不久默默掛點的事在報紙上常看到。為此，可使用指令hdfs dfsadmin -report：
$ hdfs dfsadmin -report
Configured Capacity: 18746441728 (17.46 GB)
Present Capacity: 14292144128 (13.31 GB)
DFS Remaining: 14292131840 (13.31 GB)
DFS Used: 12288 (12 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0
————————————————-
Live datanodes (1):
Name: 127.0.0.1:50010 (localhost)
Hostname: hadoop2.localdomain
Decommission Status : Normal
Configured Capacity: 18746441728 (17.46 GB)
DFS Used: 12288 (12 KB)
Non DFS Used: 4454297600 (4.15 GB)
DFS Remaining: 14292131840 (13.31 GB)
DFS Used%: 0.00%
DFS Remaining%: 76.24%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Aug 24 14:06:55 CST 2015
另一個監控HDFS狀況的方式是透過Namenode的Web UI。網址是http://localhost:50070。

建立基本HDFS目錄

接下來，我們要在HDFS上建立一些Hadoop應用程式會使用的暫存目錄，和讓HDFS用戶存放個人資料用的目錄：
# su – hdfs
$ hdfs dfs –mkdir /tmp
$ hdfs dfs –chown hdfs:hdfs /tmp
$ hdfs dfs –chmod 777 /tmp
$ hdfs dfs –mkdir /mr-history
$ hdfs dfs –chown mapred:hadoop /mr-history
$ hdfs dfs –chmod 777 /mr-history
$ hdfs dfs –mkdir /user
$ hdfs dfs –chown hdfs:hdfs /user
我們假設有個叫noob的HDFS用戶，並為他在/user底下建一個個人目錄：
$ hdfs dfs –mkdir /user/noob
$ hdfs dfs –chown noob:hdfs /user/noob

啟動YARN

YARN可透過yarn-daemon.sh腳本啟動。先啟動ResourceManager：
# su – yarn
$ yarn-daemon.sh start resourcemanager
starting resourcemanager, logging to /var/log/hadoop-yarn/yarn/yarn-yarn-resourcemanager-hadoop2.kosmos.out
接著啟動NodeManager：
$ yarn-daemon.sh start nodemanager
starting nodemanager, logging to /var/log/hadoop-yarn/yarn/yarn-yarn-nodemanager-hadoop2.kosmos.out
也順手啟動MapReduce的HistoryServer，因為馬上會用到：
$ mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /var/log/hadoop-mapreduce/yarn/mapred-yarn-historyserver-hadoop2.kosmos.out
ResourceManager本身也經營一個Web UI，網址是http://localhost:8088，我們可透過它監控YARN的狀態：

試跑MapReduce

以一般用戶noob的身份，試跑一個官方標配MapReduce「任務」– 以蒙地卡羅手法估算圓週率：
# su – noob
$ hadoop jar $MR_EXAMPLES/hadoop-mapreduce-examples-2.7.1.jar pi 1 10000
如果沒什麼差錯，應該會看到類似下列，一貫落落長的訊息：
Number of Maps = 1
Samples per Map = 10000
Wrote input for Map #0
Starting Job
15/09/15 11:16:00 INFO client.RMProxy: Connecting to ResourceManager at localhost/127.0.0.1:8032
15/09/15 11:16:00 INFO input.FileInputFormat: Total input paths to process : 1
15/09/15 11:16:01 INFO mapreduce.JobSubmitter: number of splits:1
15/09/15 11:16:01 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1442285540714_0002
15/09/15 11:16:02 INFO impl.YarnClientImpl: Submitted application application_1442285540714_0002
15/09/15 11:16:02 INFO mapreduce.Job: The url to track the job: http://hadoop2.kosmos:8088/proxy/application_1442285540714_0002/
15/09/15 11:16:02 INFO mapreduce.Job: Running job: job_1442285540714_0002
15/09/15 11:16:13 INFO mapreduce.Job: Job job_1442285540714_0002 running in uber mode : false
15/09/15 11:16:13 INFO mapreduce.Job: map 0% reduce 0%
15/09/15 11:16:24 INFO mapreduce.Job: map 100% reduce 0%
15/09/15 11:16:34 INFO mapreduce.Job: map 100% reduce 100%
…..
Job Finished in 34.31 seconds
Estimated value of Pi is 3.14080000000000000000
如果看到最後一行圓週率的回報，就代表任務圓滿結束，單節點叢集狀況OK，更代表您已成功躋身人生勝利組之列！

結語

偽分佈模式雖然成不了什麼大事，但親手架設一次，對了解Hadoop v2的基本架構，還是有極大助益的。希望您一起動手做後，認同這個說法。