旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析Apache Spark的功能有哪些

大數(shù)據(jù)分析Apache Spark的功能有哪些

時間:2019-11-14來源:m.mwtacok.cn點擊量:作者:Sissi
時間:2019-11-14點擊量:作者:Sissi





  Apache Spark在頭條新聞和實際應用中迅速獲得發(fā)展。加州大學伯克利分校的AMPLab于2009年開發(fā)了Spark,并于2010年將其開源。從那時起,它已發(fā)展成為大數(shù)據(jù)分析領域最大的開源社區(qū)之一,擁有來自50多個組織的200多位貢獻者。這個開放源代碼分析引擎以比MapReduce更快的速度處理大量數(shù)據(jù)而出類拔萃,因為數(shù)據(jù)被持久存儲在Spark自己的處理框架中。
 

  在考慮Hadoop生態(tài)系統(tǒng)中的各種引擎時,重要的是要了解每個引擎在某些用例下效果最佳,并且企業(yè)可能需要使用多種工具組合才能滿足每個所需的用例。話雖如此,這里是對Apache Spark的一些頂級功能分析。
 

一、流數(shù)據(jù)


  Apache Spark的關鍵用例是其處理流數(shù)據(jù)的能力。由于每天要處理大量數(shù)據(jù),因此對于公司而言,實時流傳輸和分析數(shù)據(jù)變得至關重要。Spark Streaming具有處理這種額外工作負載的能力。一些專家甚至認為,無論哪種類型,Spark都可以成為流計算應用程序的首選平臺。提出此要求的原因是,Spark Streaming統(tǒng)一了不同的數(shù)據(jù)處理功能,從而使開發(fā)人員可以使用單個框架來滿足其所有處理需求。
 

  當今企業(yè)使用Spark Streaming的一般方式包括:
 

  流式ETL –在數(shù)據(jù)倉庫環(huán)境中用于批處理的傳統(tǒng)ETL(提取,轉換,加載)工具必須讀取數(shù)據(jù),將其轉換為數(shù)據(jù)庫兼容格式,然后再將其寫入目標數(shù)據(jù)庫。使用Streaming ETL,在將數(shù)據(jù)推送到數(shù)據(jù)存儲之前,將對其進行連續(xù)的清理和聚合。
 

  數(shù)據(jù)充實 –這種Spark Streaming功能通過將實時數(shù)據(jù)與靜態(tài)數(shù)據(jù)相結合來充實實時數(shù)據(jù),從而使組織能夠進行更完整的實時數(shù)據(jù)分析。在線廣告商使用數(shù)據(jù)充實功能將歷史客戶數(shù)據(jù)與實時客戶行為數(shù)據(jù)結合起來,并根據(jù)客戶的行為實時提供更多個性化和針對性的廣告。
 

  觸發(fā)事件檢測 – Spark Streaming使組織可以檢測到可能對系統(tǒng)內(nèi)部潛在嚴重問題的罕見或異常行為(“觸發(fā)事件”)并做出快速響應。金融機構使用觸發(fā)器來檢測欺詐性交易并阻止其欺詐行為。醫(yī)院還使用觸發(fā)器來檢測潛在的危險健康變化,同時監(jiān)視患者的生命體征-向正確的護理人員發(fā)送自動警報,然后他們可以立即采取適當?shù)拇胧?br />  

  復雜的會話分析 –使用Spark Streaming,與實時會話有關的事件(例如登錄網(wǎng)站或應用程序后的用戶活動)可以組合在一起并進行快速分析。會話信息還可以用于不斷更新機器學習模型。諸如Netflix之類的公司使用此功能可立即了解用戶在其網(wǎng)站上的參與方式,并提供更多實時電影推薦。

大數(shù)據(jù)分析

二、機器學習
 

  許多Apache Spark用例中的另一個是它的機器學習功能。
 

  Spark帶有用于執(zhí)行高級分析的集成框架,該框架可幫助用戶對數(shù)據(jù)集進行重復查詢,這從本質上講就是處理機器學習算法。在此框架中找到的組件包括Spark的可擴展機器學習庫(MLlib)。MLlib可以在諸如聚類,分類和降維等領域中工作。所有這些使Spark可以用于一些非常常見的大數(shù)據(jù)功能,例如預測智能,用于營銷目的的客戶細分以及情感分析。使用推薦引擎的公司將發(fā)現(xiàn)Spark可以快速完成工作。
 

  網(wǎng)絡安全是Spark 機器學習功能的一個很好的商業(yè)案例。通過使用Spark堆棧的各種組件,安全提供程序可以對數(shù)據(jù)包進行實時檢查,以發(fā)現(xiàn)惡意活動的痕跡。在前端,Spark Streaming允許安全分析人員在將數(shù)據(jù)包傳遞到存儲平臺之前檢查已知威脅。到達存儲區(qū)后,數(shù)據(jù)包將通過其他堆棧組件(例如MLlib)進行進一步分析。因此,安全提供商可以在不斷發(fā)展的過程中了解新的威脅-始終領先于黑客,同時實時保護其客戶。
 

三、互動分析
 

  Spark最顯著的功能之一就是其交互式分析功能。MapReduce是為處理批處理而構建的,而Hive或Pig等SQL-on-Hadoop引擎通常太慢,無法進行交互式分析。但是,Apache Spark足夠快,可以執(zhí)行探索性查詢而無需采樣。Spark還與包括SQL,R和Python在內(nèi)的多種開發(fā)語言接口。通過將Spark與可視化工具結合使用,可以交互地處理和可視化復雜的數(shù)據(jù)集。
 

  下一版本的Apache Spark(Spark 2.0)將于今年的4月或5月首次亮相,它將具有一項新功能- 結構化流 -使用戶能夠對實時數(shù)據(jù)執(zhí)行交互式查詢。通過將實時流與其他類型的數(shù)據(jù)分析相結合,預計結構化流將通過允許用戶針對Web訪問者當前會話運行交互式查詢來促進Web分析。它也可以用于將機器學習算法應用于實時數(shù)據(jù)。在這種情況下,將對舊數(shù)據(jù)進行算法訓練,然后將其重定向以合并新的數(shù)據(jù),并在其進入??內(nèi)存時從中學習。
 

四、霧計算
 

  盡管大數(shù)據(jù)分析可能會引起廣泛關注,但真正激發(fā)技術界想象力的概念是物聯(lián)網(wǎng)(IoT)。物聯(lián)網(wǎng)通過微型傳感器將對象和設備嵌入在一起,這些微型傳感器彼此之間以及與用戶進行通信,從而創(chuàng)建了一個完全互連的世界。這個世界收集了大量數(shù)據(jù),對其進行處理,并提供革命性的新功能和應用程序供人們在日常生活中使用。但是,隨著物聯(lián)網(wǎng)的擴展,對大量,種類繁多的機器和傳感器數(shù)據(jù)進行大規(guī)模并行處理的需求也隨之增加。但是,利用云中的當前分析功能很難管理所有這些處理。
 

五、那就是霧計算和Apache Spark出現(xiàn)的地方
 

  霧計算將數(shù)據(jù)處理和存儲分散化,而不是在網(wǎng)絡邊緣執(zhí)行這些功能。但是,霧計算為處理分散數(shù)據(jù)帶來了新的復雜性,因為它越來越需要低延遲,機器學習的大規(guī)模并行處理以及極其復雜的圖形分析算法。幸運的是,有了Spark Streaming等關鍵堆棧組件,交互式實時查詢工具(Shark),機器學習庫(MLib)和圖形分析引擎(GraphX),Spark不僅具有霧計算解決方案的資格。實際上,隨著物聯(lián)網(wǎng)行業(yè)逐漸不可避免地融合,許多行業(yè)專家預測,與其他開源平臺相比,Spark有可能成為事實上的霧基礎設施。
 

六、現(xiàn)實世界中的火花
 

  如前所述,在線廣告商和諸如Netflix之類的公司正在利用Spark獲得見識和競爭優(yōu)勢。其他也從Spark受益的著名企業(yè)是:
 

  Uber –這家跨國在線出租車調度公司每天都從其移動用戶那里收集TB級的事件數(shù)據(jù)。通過使用Kafka,Spark Streaming和HDFS構建連續(xù)的ETL管道,Uber可以在收集原始非結構化事件數(shù)據(jù)時將其轉換為結構化數(shù)據(jù),然后將其用于進一步和更復雜的分析。
 

  Pinterest –通過類似的ETL管道,Pinterest可以利用Spark Streaming即時了解世界各地的用戶如何與Pins互動。因此,當人們?yōu)g覽站點并查看相關的圖釘時,Pinterest可以提出更相關的建議,以幫助他們選擇食譜,確定要購買的產(chǎn)品或計劃前往各個目的地的行程。
 

  Conviva –這家流媒體視頻公司每月平均約有400萬個視頻供稿,僅次于YouTube。Conviva使用Spark通過優(yōu)化視頻流和管理實時視頻流量來減少客戶流失,從而保持一致的流暢,高質量的觀看體驗。
 

七、何時不使用Spark
 

  盡管它具有通用性,但這并不一定意味著Apache Spark的內(nèi)存中功能最適合所有用例。更具體地說,Spark并非設計為多用戶環(huán)境。Spark用戶需要知道他們有權訪問的內(nèi)存對于數(shù)據(jù)集是否足夠。添加更多的用戶使此操作變得更加復雜,因為用戶必須協(xié)調內(nèi)存使用量才能同時運行項目。由于無法處理這種類型的并發(fā),用戶將需要為大型批處理項目考慮使用備用引擎,例如Apache Hive。
 

  隨著時間的流逝,Apache Spark將繼續(xù)發(fā)展自己的生態(tài)系統(tǒng),變得比以前更加通用。在大數(shù)據(jù)已成為規(guī)范的世界中,組織將需要找到最佳方式來利用它。從這些Apache Spark用例可以看出,未來幾年將有很多機會來了解Spark的真正功能。
 

  隨著越來越多的組織認識到從批處理過渡到實時數(shù)據(jù)分析的好處,Apache Spark的定位是可以在眾多行業(yè)中獲得廣泛而快速的采用



 

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2022/ m.mwtacok.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖