spark會代替impala嗎，impala 的sql 與hive完全相同嗎

1樓：匿名使用者

應該不會，impala是相當專注於傳統企業客戶和olap和資料倉儲工作負載。shark支援傳統olap。

比較：一、總體上

shark擴充套件了apache hive，大大加快在記憶體和磁碟上的查詢。而impala是企業級資料倉儲系統, 可以很好地使用hive/ hdfs，從架構層來說，類似於傳統的並行資料庫。這兩個系統有著很多共同的目標，但也有很大差異。

二、與現有系統的相容性

shark直接建立在apache/hive**庫上，所以它自然支援幾乎所有hive特點。它支援現有的hive sql語言，hive資料格式（serdes），使用者自定義函式（udf），呼叫外部指令碼查詢。因為impala使用自定義的c++執行，它不支援hive udf。

這兩個系統將會與許多bi工具整合，這一直是impala的主要目標。shark正在被用於一些bi工具，如tableau，不過這並沒有被探索更多。

三、記憶體中的資料處理

shark允許使用者顯式地載入在記憶體中的資料，以加快查詢處理，其記憶體使用有效率的，壓縮的面向列的格式。impala還沒有提供在記憶體中的儲存。

四、容錯

shark被設計為支援短期和長時間執行的查詢。它可以從查詢故障恢復(感謝底層spark引擎)。impala目前是更側重於短查詢，不容錯（如果節點發生故障，查詢必須重新啟動，對短查詢來說這無疑是可以接受的）。

五、效能

做全面的比較太早了點。shark和impala都報告比hive快10-100倍，但這都依賴具體情況和系統負載。兩個專案也都在未來6個月內會做重要優化。

以我們的經驗來看，sharkr當前版本，如果是記憶體的資料一般比hive快100倍，如果是磁碟上的資料一般快5-10倍，這取決於查詢（帶關聯連線的查詢，能比hive快很多）。

impala 的sql 與hive完全相同嗎

2樓：易寶支付餘晨

以此語句生成的計劃為：

plan fragment 0

partition: unpartitioned4:exchange

tuple ids: 1

plan fragment 1

partition: hash_partitioned:

stream data sink

exchange id: 4

unpartitioned

3:aggregate

| output: sum(), sum()| group by:

| tuple ids: 1|

phoenix，impala，spark sql訪問hbase資料庫哪種工具效能最優

3樓：匿名使用者

phoenix、impala、hive、shark、spark sql等，本人目前在專案中使用的是phoenix工具，是一個訪問hbase的jdbc驅動jar包，基本像訪問jdbc一樣，可以進行各種crud操作，還帶有事務功能，效能據官網介紹還是非常快的

測試比較 hive, impala 和 shark/spark 的效能,可以從哪些具體方面入手？

4樓：灰

這種測試最好是針對應用進行，即到底是批處理、adhoc查詢、olap分析等等