正準備學大資料但spark和hadoop現在學哪個較好

時間 2021-09-01 20:57:09

1樓:

在企業中,hadoop和spark都會用的,spark出來時間較短,以前在hadoop平臺上的應用還沒有完全遷移過來。它們能夠整合在yarn之上,在同一個叢集上執行這兩個框架。spark只是個計算框架,儲存還是要依靠hadoop中的hdfs或hbase或其它檔案系統。

可以主攻spark,學的時候肯定還是要接觸hadoop方面的知識,用的時候再補。

2樓:愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案,但是,在選擇大資料框架時,企業不能因此就厚此薄彼

近日,著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架,都提供了一些執行常見大資料任務的工具,但確切地說,它們所執行的任務並不相同,彼此也並不排斥

雖然在特定的情況下,spark據稱要比hadoop快100倍,但它本身沒有一個分散式儲存系統

而分散式儲存是如今許多大資料專案的基礎,它可以將 pb 級的資料集儲存在幾乎無限數量的普通計算機的硬碟上,並提供了良好的可擴充套件性,只需要隨著資料集的增大增加硬碟

因此,spark需要一個第三方的分散式儲存,也正是因為這個原因,許多大資料專案都將spark安裝在hadoop之上,這樣,spark的高階分析應用程式就可以使用儲存在hdfs中的資料了

與hadoop相比,spark真正的優勢在於速度,spark的大部分操作都是在記憶體中,而hadoop的mapreduce系統會在每次操作之後將所有資料寫回到物理儲存介質上,這是為了確保在出現問題時能夠完全恢復,但spark的彈性分散式資料儲存也能實現這一點

另外,在高階資料處理(如實時流處理、機器學習)方面,spark的功能要勝過hadoop

在bernard看來,這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式,並立即獲得反饋

在各種各樣的大資料應用程式中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法,這類演算法可以自我學習和改進,直到找到問題的理想解決方案

這種技術是最先進製造系統(如**零件何時損壞)和無人駕駛汽車的核心

spark有自己的機器學習庫mlib,而hadoop系統則需要藉助第三方機器學習庫,如apache mahout

實際上,雖然spark和hadoop存在一些功能上的重疊,但它們都不是商業產品,並不存在真正的競爭關係,而通過為這類免費系統提供技術支援贏利的公司往往同時提供兩種服務

例如,cloudera 就既提供 spark服務也提供 hadoop服務,並會根據客戶的需要提供最合適的建議

bernard認為,雖然spark發展迅速,但它尚處於起步階段,安全和技術支援基礎設施方還不發達,在他看來,spark在開源社群活躍度的上升,表明企業使用者正在尋找已儲存資料的創新用法

最近對大資料感興趣,hadoop是不是過時了,應該深入學習spark

3樓:匿名使用者

第一、資料量巨大bai。從tb級別du,躍升到pb級別;

第二**、地理位置信答

大資料具體學什么,大資料具體學什麼

1 資料收集2 大資料智慧化分析 3 大資料資訊挖掘 大資料技術就業方向?1.網際網路電商方向 作為當前最熱門的風口,網際網路電商是網際網路領域應用於實踐最多的地方,也是人才需求量最大的部分。大資料技術與應用專業畢業生可以從事網際網路電商運營維護 日常管理 消費大資料分析 金融資料風控管理等相關技術...

學完大資料之後能找到工作嗎,大資料培訓學完之後包就業嗎

尚矽谷 大資料前景是很不錯的,像大資料這樣的專業還是一線城市比較好,師資力量跟得上 就業的薪資也是可觀的,學習大資料可以按照路線圖的順序,學大資料關鍵是找到靠譜的大資料培訓機構,你可以深度瞭解機構的口碑情況,問問周圍知道這家機構的人,除了口碑再瞭解機構的以下幾方面 1.師資力量雄厚 要想有1 1 2...

大資料課程怎麼樣,學大資料,需要學什麼課程嗎 兄弟請具體點。

尚學堂科技 大資料課程很不好學,但是這是現在網路資訊時代的一個大方向,不論是做什麼生意,都需要大資料來巨集觀調控,所以說大資料在生活各個角落都會出現,很高階的一門課程,學習上肯定會對發展有所幫助。所以建議去學習 西瓜燉人蔘 最主要的還是實踐吧,還可以的 學大資料,需要學什麼課程嗎?兄弟請具體點。 大...