spark與hadoop相比，存在哪些缺陷

1樓：愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案，但是，在選擇大資料框架時，企業不能因此就厚此薄彼

近日，著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架，都提供了一些執行常見大資料任務的工具，但確切地說，它們所執行的任務並不相同，彼此也並不排斥

雖然在特定的情況下，spark據稱要比hadoop快100倍，但它本身沒有一個分散式儲存系統

而分散式儲存是如今許多大資料專案的基礎，它可以將 pb 級的資料集儲存在幾乎無限數量的普通計算機的硬碟上，並提供了良好的可擴充套件性，只需要隨著資料集的增大增加硬碟

因此，spark需要一個第三方的分散式儲存，也正是因為這個原因，許多大資料專案都將spark安裝在hadoop之上，這樣，spark的高階分析應用程式就可以使用儲存在hdfs中的資料了

與hadoop相比，spark真正的優勢在於速度，spark的大部分操作都是在記憶體中，而hadoop的mapreduce系統會在每次操作之後將所有資料寫回到物理儲存介質上，這是為了確保在出現問題時能夠完全恢復，但spark的彈性分散式資料儲存也能實現這一點

另外，在高階資料處理（如實時流處理、機器學習）方面，spark的功能要勝過hadoop

在bernard看來，這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式，並立即獲得反饋

在各種各樣的大資料應用程式中，這種處理的用途越來越多，比如，零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法，這類演算法可以自我學習和改進，直到找到問題的理想解決方案

這種技術是最先進製造系統（如**零件何時損壞）和無人駕駛汽車的核心

spark有自己的機器學習庫mlib，而hadoop系統則需要藉助第三方機器學習庫，如apache mahout

實際上，雖然spark和hadoop存在一些功能上的重疊，但它們都不是商業產品，並不存在真正的競爭關係，而通過為這類免費系統提供技術支援贏利的公司往往同時提供兩種服務

例如，cloudera 就既提供 spark服務也提供 hadoop服務，並會根據客戶的需要提供最合適的建議

bernard認為，雖然spark發展迅速，但它尚處於起步階段，安全和技術支援基礎設施方還不發達，在他看來，spark在開源社群活躍度的上升，表明企業使用者正在尋找已儲存資料的創新用法

spark可以完全替代hadoop嗎

2樓：匿名使用者

不可以哦，spark單個jvm記憶體有限，如果資料傾斜嚴重的話，一些任務在spark上是無法跑的（或者極其麻煩），而這些基於mapreduce的比如hive等就可以輕鬆跑。

3樓：

在hadoop最擅長的離線資料統計分析領域，spark比hadoop也至少快了一個幾何級數；spark採用一個統一的技術堆疊解決了雲端計算大資料的如流處理、圖技術、機器學習、nosql查詢等方面的所有核心問題，具有完善的生態系統；spark具有hadoop無法企及的速度，而誰又能拒絕速度呢？

4樓：愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案，但是，在選擇大資料框架時，企業不能因此就厚此薄彼

近日，著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架，都提供了一些執行常見大資料任務的工具，但確切地說，它們所執行的任務並不相同，彼此也並不排斥

雖然在特定的情況下，spark據稱要比hadoop快100倍，但它本身沒有一個分散式儲存系統

另外，在高階資料處理（如實時流處理、機器學習）方面，spark的功能要勝過hadoop

在bernard看來，這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式，並立即獲得反饋

在各種各樣的大資料應用程式中，這種處理的用途越來越多，比如，零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法，這類演算法可以自我學習和改進，直到找到問題的理想解決方案

這種技術是最先進製造系統（如**零件何時損壞）和無人駕駛汽車的核心

spark有自己的機器學習庫mlib，而hadoop系統則需要藉助第三方機器學習庫，如apache mahout

例如，cloudera 就既提供 spark服務也提供 hadoop服務，並會根據客戶的需要提供最合適的建議

spark和hadoop的區別

5樓：匿名使用者

hadoop和spark的聯絡和區別

計算資料儲存位置

hadoop：硬碟

spark：記憶體

計算模型

hadoop：單一

spark：豐富

處理方式

hadoop：非迭代

spark：迭代

場景要求

hadoop：離線批處理。（面對sql互動式查詢、實時處理及機器學習等需要和第三方框架結合。多種資料格式轉換，導致消耗大量資源）

spark：批處理、實時處理

6樓：愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案，但是，在選擇大資料框架時，企業不能因此就厚此薄彼

近日，著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架，都提供了一些執行常見大資料任務的工具，但確切地說，它們所執行的任務並不相同，彼此也並不排斥

雖然在特定的情況下，spark據稱要比hadoop快100倍，但它本身沒有一個分散式儲存系統

另外，在高階資料處理（如實時流處理、機器學習）方面，spark的功能要勝過hadoop

在bernard看來，這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式，並立即獲得反饋

在各種各樣的大資料應用程式中，這種處理的用途越來越多，比如，零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法，這類演算法可以自我學習和改進，直到找到問題的理想解決方案

這種技術是最先進製造系統（如**零件何時損壞）和無人駕駛汽車的核心

spark有自己的機器學習庫mlib，而hadoop系統則需要藉助第三方機器學習庫，如apache mahout

例如，cloudera 就既提供 spark 服務也提供 hadoop服務，並會根據客戶的需要提供最合適的建議

spark與hadoop相比，存在哪些缺陷

7樓：匿名使用者

最主要的問題是記憶體，記憶體不穩定

特別是shuffle階段記憶體分配不足容易失敗，

對資料不均勻比較敏感

8樓：愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案，但是，在選擇大資料框架時，企業不能因此就厚此薄彼

近日，著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架，都提供了一些執行常見大資料任務的工具，但確切地說，它們所執行的任務並不相同，彼此也並不排斥

雖然在特定的情況下，spark據稱要比hadoop快100倍，但它本身沒有一個分散式儲存系統

另外，在高階資料處理（如實時流處理、機器學習）方面，spark的功能要勝過hadoop

在bernard看來，這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式，並立即獲得反饋

在各種各樣的大資料應用程式中，這種處理的用途越來越多，比如，零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法，這類演算法可以自我學習和改進，直到找到問題的理想解決方案

這種技術是最先進製造系統（如**零件何時損壞）和無人駕駛汽車的核心

spark有自己的機器學習庫mlib，而hadoop系統則需要藉助第三方機器學習庫，如apache mahout

例如，cloudera 就既提供 spark 服務也提供 hadoop服務，並會根據客戶的需要提供最合適的建議

spark與hadoop相比，存在哪些缺陷

作為與相比,我怎麼怎麼樣,造句,作為一名與相比造句

筒車與翻車相比有什麼優越性，筒車與翻車相比有何優越性

intel與AMD的CPU相比

spark與hadoop相比，存在哪些缺陷

作為與相比,我怎麼怎麼樣,造句,作為一名與相比造句

筒車與翻車相比有什麼優越性，筒車與翻車相比有何優越性

intel與AMD的CPU相比

相關推薦