人妻丝袜美腿中文字幕乱一区三区-天天爽夜夜爽夜夜爽-摸 透 干 奶 流 操 逼-中文字幕一区二区色婷婷-免费特黄一级欧美大片在线看-91久久福利国产成人精品-久久精品人人爽人人做97-亚洲深喉一区二区在线看片-久久中文字幕无码不卡

簡述什么是hadoop hadoop是什么

大數(shù)據(jù)導(dǎo)論:
大數(shù)據(jù)是指通過全球各種平臺生成的所有數(shù)據(jù) 。
大數(shù)據(jù)類別:

  • 結(jié)構(gòu)化的
  • 非結(jié)構(gòu)化
  • 半結(jié)構(gòu)化

大數(shù)據(jù)示例:
1)紐約交易所每天產(chǎn)生約1TB的新貿(mào)易數(shù)據(jù) 。
2)社交媒體:統(tǒng)計數(shù)據(jù)顯示 , 每天有500 TB以上的數(shù)據(jù)被攝入社交媒體網(wǎng)站Facebook的數(shù)據(jù)庫中 。
數(shù)據(jù)主要根據(jù)以下方面生成:
  • 照片和視頻上傳
  • 信息交流
  • 注釋

3)噴氣發(fā)動機/旅行門戶:
甲英格爾噴氣發(fā)動機產(chǎn)生10 兆兆字節(jié)(TB以每天飛行30分鐘的數(shù)據(jù)) 。數(shù)據(jù)的生成高達數(shù)PB(PB) 。
什么是Hadoop?
Hadoop是一個由Apache Software Foundation管理的開源框架 。開源意味著它是免費提供的 , 其源代碼可以根據(jù)用戶要求進行更改 。Apache Hadoop旨在有效地存儲和處理大數(shù)據(jù) 。Hadoop用于數(shù)據(jù)存儲 , 處理 , 分析 , 訪問 , 治理 , 操作和安全性 。
擁有大量數(shù)據(jù)的大型組織使用Hadoop , 并在大型商用硬件集群的幫助下進行處理 。集群是指通過LAN連接的一組系統(tǒng) , 該集群上的多個節(jié)點有助于執(zhí)行Hadoop作業(yè) 。Hadoop在管理大數(shù)據(jù)方面已在全球范圍內(nèi)廣受歡迎 , 目前 , 它擁有近90%的市場份額 。

Hadoop的功能
  • 經(jīng)濟高效:Hadoop系統(tǒng)非常經(jīng)濟高效 , 因為它百思特網(wǎng)不需要任何專用硬件 , 因此投資少 。對于系統(tǒng)而言 , 使用稱為商品硬件的簡單硬件就足夠了 。
  • 支持大型節(jié)點集群:Hadoop結(jié)構(gòu)可以由構(gòu)成大型集群的數(shù)千個節(jié)點組成 。大型集群有助于擴展存儲系統(tǒng)并提供更多的計算能力 。
  • 數(shù)據(jù)的并行處理:Hadoop系統(tǒng)支持跨集群中所有節(jié)點的數(shù)據(jù)并行處理 , 因此減少了存儲和處理時間 。
  • 數(shù)據(jù)分配(分布式處理):Hadoop可以在集群中的所有節(jié)點之間高效地分配數(shù)據(jù) 。此外 , 如果特定節(jié)點正忙或無法運行 , 它會在整個群集上復(fù)制數(shù)據(jù)以便檢索其他節(jié)點的數(shù)據(jù) 。
  • 自動故障轉(zhuǎn)移管理(容錯):Hadoop的一個重要功能是 , 如果群集中的節(jié)點發(fā)生故障 , 它可以自動解決問題 ??蚣鼙旧韺⒐收舷到y(tǒng)替換為另一個系統(tǒng) , 并在新計算機上配置復(fù)制的設(shè)置和數(shù)據(jù) 。
  • 支持異構(gòu)群集:異構(gòu)群集是一種用于說明來自不同供應(yīng)商 , 不同操作系統(tǒng) , 并在不同版本上運行的節(jié)點或計算機的群集 。例如 , 如果Hadoop集群具有三個系統(tǒng) , 一個在RHEL Linux上運行的Lenovo計算機 , 第二個是在Ubuntu Linux上運行的Intel計算機 , 第三個是在Fedora Linux上運行的AMD計算機 , 則所有這些不同的系統(tǒng)都能夠同時運行在單個群集上運行 。
  • 可伸縮性:Hadoop系統(tǒng)具有從群集中添加或刪除節(jié)點/節(jié)點和硬件組件的能力 , 而不會影響群集的操作 。這是指可擴展性 , 這是Hadoop系統(tǒng)的重要功能之一 。

Hadoop生態(tài)系統(tǒng)概述
其中包括:
  • HDFS(Hadoop分布式文件系統(tǒng))
  • Apache MapReduce
  • Apache Pig
  • Apache HBase
  • Apache Hive
  • Apache Sqoop
  • Apache Flume
  • Apache Zookeeper
  • Apache kafka
  • Apache Oozie

HDFS(Hadoop分布式文件系統(tǒng)):HDFS在Hadoop框架中執(zhí)行最重要的工百思特網(wǎng)作 。它同時分發(fā)數(shù)據(jù)并將其存儲在群集中存在的每個節(jié)點上 。此過程減少了將數(shù)據(jù)存儲到磁盤上的總時間 。
MapReduce(使用MR將大數(shù)據(jù)集讀入Hadoop /從Hadoop中寫入大數(shù)據(jù)集):Hadoop MapReduce是系統(tǒng)的另一個重要部分 , 該系統(tǒng)處理集群中存儲的大量數(shù)據(jù) 。它允許并行處理HDFS存儲的所有數(shù)據(jù) 。而且 , 它通過集群中的大規(guī)模可伸縮性解決了處理成本高的問題 。
Apache Pi百思特網(wǎng)g (Pig是Hadoop生態(tài)系統(tǒng)的一種ETL):它是一種高級腳本語言 , 用于為Hadoop集群中的大型數(shù)據(jù)集編寫數(shù)據(jù)分析程序 。Pig使開發(fā)人員能夠生成查詢執(zhí)行例程 , 以分析大型數(shù)據(jù)集 。腳本語言稱為Pig Latin , Pig的一個關(guān)鍵部分 , 第二個關(guān)鍵部分是編譯器 。
Apache HBase(OLTP / NoSQL)源:它是一個面向列的數(shù)據(jù)庫 , 支持實時運行HDFS 。它可以處理大型數(shù)據(jù)庫表 , 即包含數(shù)百萬行和列的文件 。HBase的一個重要用途是有效使用主節(jié)點來管理區(qū)域服務(wù)器 。
Apache Hive(Hive是Hadoop上的SQL引擎):通過類似SQL的界面 , Hive允許對HDFS中的數(shù)據(jù)進行平方處理 。SQL語言的Hive版本稱為HiveQL 。
Apache Sqoop(從RDBMS [SQL源]到Hadoop的數(shù)據(jù)導(dǎo)入/導(dǎo)出):它是一個應(yīng)用程序 , 可幫助將數(shù)據(jù)從Hadoop導(dǎo)入和導(dǎo)出到其他關(guān)系數(shù)據(jù)庫管理系統(tǒng) 。它可以傳輸大量數(shù)據(jù) 。Sqoop基于連接器體系結(jié)構(gòu) , 該體系結(jié)構(gòu)支持插件以建立與新外部系統(tǒng)的連接 。
Apache Flume(從未構(gòu)造的數(shù)據(jù)(社交媒體網(wǎng)站)/構(gòu)建到Hadoop的數(shù)據(jù)導(dǎo)入) :這是一個應(yīng)用程序 , 它允許將流數(shù)據(jù)存儲到Hadoop群集中 , 例如將數(shù)據(jù)寫入日志文件就是流數(shù)據(jù)的一個很好的例子 。

Apache Zookeeper(在集群環(huán)境中使用的協(xié)調(diào)工具):其作用是管理上述應(yīng)用程序之間的協(xié)調(diào) , 以使其在Hadoop生態(tài)系統(tǒng)中高效運行 。
Hadoop的功能– HDFS守護程序
Hadoop系統(tǒng)基于主從架構(gòu)的原理工作 。
名稱節(jié)點:它是主節(jié)點 , 在實體中為單個 。它負責(zé)存儲HDFS元數(shù)據(jù) , 該元數(shù)據(jù)跟蹤HDFS中存儲的所有文件 。元數(shù)據(jù)上存儲的信息類似于文件名 , 文件具有的權(quán)限 , 文件的授權(quán)用戶以及文件的存儲位置 。此信息存儲在RAM中 , 通常稱為文件系統(tǒng)元數(shù)據(jù) 。

數(shù)據(jù)節(jié)點:它是從節(jié)點 , 并且存在多個數(shù)字 。數(shù)據(jù)節(jié)點負責(zé)按照名稱節(jié)點的指示存儲和檢索數(shù)據(jù) 。數(shù)據(jù)節(jié)點會間歇性地向名稱節(jié)點報告其當(dāng)前狀態(tài)以及與其一起存儲的所有文件 。數(shù)據(jù)節(jié)點在其中存儲每個文件的多個副本 。
次要名稱節(jié)點:存在次要名稱節(jié)點以支持主要名稱節(jié)點存儲元數(shù)據(jù) 。在名稱節(jié)點由于元數(shù)據(jù)損壞或任何其他原因而發(fā)生故障時 , 輔助名稱節(jié)點可防止整個群集發(fā)生故障 。

【簡述什么是hadoop hadoop是什么】輔助名稱節(jié)點指示名稱節(jié)點創(chuàng)建并發(fā)送fsimage和editlog文件 , 然后由輔助名稱節(jié)點創(chuàng)建壓縮的fsimage文件 。然后 , 將壓縮后的文件傳輸回tge名稱節(jié)點 , 并將其重命名 。該過程或者每小時重復(fù)一次 , 或者當(dāng)editlog文件的大小超過64MB時重復(fù)一次 。

    推薦閱讀