每當(dāng)您去進(jìn)行大數(shù)據(jù)分析面試時(shí),面試官都會(huì)問一些基本的問題。無論您是大數(shù)據(jù)分析領(lǐng)域的新手還是經(jīng)驗(yàn)豐富的人,都需要具備基本知識(shí)。因此,AAA教育整理了一些常見的基本大數(shù)據(jù)分析面試問題,和大家分享一下:
一、您對(duì)“大數(shù)據(jù)分析”一詞有什么了解?
答: 大數(shù)據(jù)分析是與復(fù)雜和大型數(shù)據(jù)集相關(guān)的術(shù)語。關(guān)系數(shù)據(jù)庫無法處理大數(shù)據(jù)分析,這就是為什么使用特殊的工具和方法對(duì)大量數(shù)據(jù)執(zhí)行操作的原因。大數(shù)據(jù)分析使公司能夠更好地了解其業(yè)務(wù),并幫助他們從定期收集的非結(jié)構(gòu)化和原始數(shù)據(jù)中獲取有意義的信息。大數(shù)據(jù)分析還使公司能夠在數(shù)據(jù)的支持下做出更好的業(yè)務(wù)決策。
二、大數(shù)據(jù)分析的五個(gè)V是什么?
答:大數(shù)據(jù)分析的五個(gè)V如下:
卷–卷表示卷的數(shù)量,即以高速率增長(zhǎng)的數(shù)據(jù)量,即以PB為單位的數(shù)據(jù)量
速度–速度是數(shù)據(jù)增長(zhǎng)的速度。社交媒體在增長(zhǎng)數(shù)據(jù)的速度中起著重要作用。
多樣性–多樣性是指不同的數(shù)據(jù)類型,即各種數(shù)據(jù)格式,例如文本,音頻,視頻等。
準(zhǔn)確性–準(zhǔn)確性是指可用數(shù)據(jù)的不確定性。由于大量數(shù)據(jù)帶來不完整和不一致,因此會(huì)出現(xiàn)準(zhǔn)確性。
價(jià)值–價(jià)值是指將數(shù)據(jù)轉(zhuǎn)化為價(jià)值。通過將訪問的大數(shù)據(jù)分析轉(zhuǎn)化為價(jià)值,企業(yè)可以創(chuàng)造收入。
5 V的大數(shù)據(jù)分析
注意: 這是大數(shù)據(jù)分析采訪中提出的基本且重要的問題之一。如果您看到面試官有興趣了解更多信息,則可以選擇詳細(xì)解釋五個(gè)V。但是,如果詢問“大數(shù)據(jù)分析”一詞,甚至可以提及這些名稱。
三、告訴我們大數(shù)據(jù)分析和Hadoop之間的關(guān)系。
答: 大數(shù)據(jù)分析和Hadoop幾乎是同義詞。隨著大數(shù)據(jù)分析的興起,專門用于大數(shù)據(jù)分析操作的Hadoop框架也開始流行。專業(yè)人士可以使用該框架來分析大數(shù)據(jù)分析并幫助企業(yè)做出決策。
注意: 在大數(shù)據(jù)分析采訪中通常會(huì)問這個(gè)問題。 Ÿ歐可以進(jìn)一步去回答這個(gè)問題,并試圖解釋的Hadoop的主要組成部分。
四、大數(shù)據(jù)分析分析如何有助于增加業(yè)務(wù)收入?
答:大數(shù)據(jù)分析對(duì)于企業(yè)來說已經(jīng)變得非常重要。它可以幫助企業(yè)與眾不同,并增加收入。通過預(yù)測(cè)分析,大數(shù)據(jù)分析為企業(yè)提供了定制的建議。此外,大數(shù)據(jù)分析使企業(yè)能夠根據(jù)客戶的需求和偏好推出新產(chǎn)品。這些因素使企業(yè)獲得了更多收入,因此公司正在使用大數(shù)據(jù)分析。通過實(shí)施大數(shù)據(jù)分析,公司的收入可能會(huì)大幅增長(zhǎng)5-20%。一些使用大數(shù)據(jù)分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,F(xiàn)acebook,Twitter,美國(guó)銀行等。
五、解釋部署大數(shù)據(jù)分析解決方案應(yīng)遵循的步驟。
答:以下是部署大數(shù)據(jù)分析解決方案的三個(gè)步驟:
1、資料提取
部署大數(shù)據(jù)分析解決方案的第一步是數(shù)據(jù)攝取,即從各種來源提取數(shù)據(jù)。數(shù)據(jù)源可以是Salesforce之類的CRM,SAP之類的企業(yè)資源計(jì)劃系統(tǒng),MySQL之類的RDBMS或任何其他日志文件,文檔,社交媒體源等。可以通過批處理作業(yè)或?qū)崟r(shí)流來提取數(shù)據(jù)。然后將提取的數(shù)據(jù)存儲(chǔ)在HDFS中。
部署大數(shù)據(jù)分析解決方案的步驟
2、數(shù)據(jù)存儲(chǔ)
提取數(shù)據(jù)后,下一步是存儲(chǔ)提取的數(shù)據(jù)。數(shù)據(jù)可以存儲(chǔ)在HDFS或NoSQL數(shù)據(jù)庫(即HBase)中。HDFS存儲(chǔ)適用于順序訪問,而HBase適用于隨機(jī)讀取/寫入訪問。
3、數(shù)據(jù)處理
部署大數(shù)據(jù)分析解決方案的最后一步是數(shù)據(jù)處理。數(shù)據(jù)通過Spark,MapReduce,Pig等處理框架之一進(jìn)行處理。
六、定義HDFS和YARN的各個(gè)組件
答: HDFS的兩個(gè)主要組成部分是-
NameNode –這是主節(jié)點(diǎn),用于處理HDFS中數(shù)據(jù)塊的元數(shù)據(jù)信息
DataNode / Slave節(jié)點(diǎn)–這是一個(gè)充當(dāng)從節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)以供NameNode處理和使用的節(jié)點(diǎn)
除了滿足客戶端請(qǐng)求之外,NameNode還執(zhí)行以下兩個(gè)角色之一:
CheckpointNode –它運(yùn)行在與NameNode不同的主機(jī)上
BackupNode-這是一個(gè)只讀的NameNode,其中包含文件系統(tǒng)元數(shù)據(jù)信息(不包括塊位置)
YARN的兩個(gè)主要組成部分是:
ResourceManager –此組件接收處理請(qǐng)求,并根據(jù)處理需要相應(yīng)地分配給相應(yīng)的NodeManager。
NodeManager –在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上執(zhí)行任務(wù)
答: 由于數(shù)據(jù)分析已成為業(yè)務(wù)的關(guān)鍵參數(shù)之一,因此,企業(yè)正在處理大量的結(jié)構(gòu)化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。在Hadoop以其以下功能為主要角色的情況下,分析非結(jié)構(gòu)化數(shù)據(jù)非常困難
存儲(chǔ)
處理中
數(shù)據(jù)采集
此外,Hadoop是開源的,并且在商品硬件上運(yùn)行。因此,它是企業(yè)的成本效益解決方案。
八、什么是fsck?
答: fsck代表文件系統(tǒng)檢查。這是HDFS使用的命令。此命令用于檢查不一致以及文件中是否存在任何問題。例如,如果文件缺少任何塊,則HDFS將通過此命令得到通知。
九、NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別是什么?
答: NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別–
HDFS在計(jì)算機(jī)集群上運(yùn)行,而NAS在單臺(tái)計(jì)算機(jī)上運(yùn)行。因此,數(shù)據(jù)冗余是HDFS中的常見問題。相反,對(duì)于NAS,復(fù)制協(xié)議是不同的。因此,數(shù)據(jù)冗余的機(jī)會(huì)要少得多。
對(duì)于HDFS,數(shù)據(jù)將作為數(shù)據(jù)塊存儲(chǔ)在本地驅(qū)動(dòng)器中。對(duì)于NAS,它存儲(chǔ)在專用硬件中。
十、格式化NameNode的命令是什么?
答案: $ hdfs namenode -format
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc