1樓:愛可生雲資料庫
spark已經取代hadoop成為最活躍的開源大資料專案,但是,在選擇大資料框架時,企業不能因此就厚此薄彼
近日,著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同
hadoop和spark均是大資料框架,都提供了一些執行常見大資料任務的工具,但確切地說,它們所執行的任務並不相同,彼此也並不排斥
雖然在特定的情況下,spark據稱要比hadoop快100倍,但它本身沒有一個分散式儲存系統
而分散式儲存是如今許多大資料專案的基礎,它可以將 pb 級的資料集儲存在幾乎無限數量的普通計算機的硬碟上,並提供了良好的可擴充套件性,只需要隨著資料集的增大增加硬碟
因此,spark需要一個第三方的分散式儲存,也正是因為這個原因,許多大資料專案都將spark安裝在hadoop之上,這樣,spark的高階分析應用程式就可以使用儲存在hdfs中的資料了
與hadoop相比,spark真正的優勢在於速度,spark的大部分操作都是在記憶體中,而hadoop的mapreduce系統會在每次操作之後將所有資料寫回到物理儲存介質上,這是為了確保在出現問題時能夠完全恢復,但spark的彈性分散式資料儲存也能實現這一點
另外,在高階資料處理(如實時流處理、機器學習)方面,spark的功能要勝過hadoop
在bernard看來,這一點連同其速度優勢是spark越來越受歡迎的真正原因
實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式,並立即獲得反饋
在各種各樣的大資料應用程式中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、製造業中的工業機械效能監控
spark平臺的速度和流資料處理能力也非常適合機器學習演算法,這類演算法可以自我學習和改進,直到找到問題的理想解決方案
這種技術是最先進製造系統(如**零件何時損壞)和無人駕駛汽車的核心
spark有自己的機器學習庫mlib,而hadoop系統則需要藉助第三方機器學習庫,如apache mahout
實際上,雖然spark和hadoop存在一些功能上的重疊,但它們都不是商業產品,並不存在真正的競爭關係,而通過為這類免費系統提供技術支援贏利的公司往往同時提供兩種服務
例如,cloudera 就既提供 spark 服務也提供 hadoop服務,並會根據客戶的需要提供最合適的建議
bernard認為,雖然spark發展迅速,但它尚處於起步階段,安全和技術支援基礎設施方還不發達,在他看來,spark在開源社群活躍度的上升,表明企業使用者正在尋找已儲存資料的創新用法
美國各州之間是什麼樣的關係,美國州之間的關係
ak47愛國 美國的州擁有更多自由 為什麼美國很多州與州之間的分界線都是直線? 阿斯匹斯 分界copy線的劃分是有很多因素的 就好比中國的省與省之間的分界線 有山地,經緯度等 而美國州與州之間的分界線正是以經緯度劃分的 所以會那麼直中國大多數是以山地,河流,高原 劃分的 外加古代都劃分好的 也有經緯...
A股與物價的關係是什麼,A股與經濟之間的關係
國家 5月31日宣佈下調汽油柴油 同時上調天然氣出廠基準 24.9 並表示居民用氣是否隨之上調由各地 聽證會自行解決。國家 相關人士在接受中國 報記者採訪時表示,成品油 破解油價困境 下調的幅度符合業界預期 天然氣 上調對上半年的物價影響不大,調整對近期 總水平和各方面的影響能夠控制在可以承受的範圍...
女生之間的感情有多微妙,為什麼女生之間的關係特別微妙
超越友誼,棉花糖式。在女孩子的心裡閨蜜之間的感情很重要,如果心態失衡,你的所有對她的好都是自動遮蔽。你過的越好,她越是不爽,就會埋怨自己的男朋友沒出息,責怪自己的父母沒有盡力幫忙,再各種對你看不順眼,也許朋友也就做到頭了。也罷,女人之間就是喜歡相互比來比去,但是心態平和才是友誼維繫的基礎,何況還是認...