學習資源

思科

網絡工程

華為

網絡工程

紅帽

系統運維

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

數據庫

OCA

OCP

OCM

MySQL

微軟

系統運維

MTA

MCSA

MCSE

軟件開發

編程設計

Java

Android

HTML5

其他

Python

學習文章

當前位置：首頁 > >學習文章 > >

你應該知道的大數據術語

發布時間： 2017-07-20 09:41:24

?如果你初來乍到，大數據看起來很嚇人!根據你掌握的基本理論，讓我們專注于一些關鍵術語以此給你的約會對象、老板、家人或者任何一個人帶來深刻的印象。

1.算法。“算法”如何與大數據相關?即使算法是一個通用術語，但大數據分析使其在當代更受青睞和流行。

2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始數據中來吸取經驗，以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實質是利用大量數據來進行推斷和講故事。大數據分析有3種不同到的類型，接下來便繼續本話題進行依次討論。

3.描述性分析。剛剛如果你告訴我，去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項，這種便是描述性分析。當然你還可以參考更多的細節。

4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析，并且劃分具有一定的連續性，則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節是，這并不是“預測未來”，而是未來可能會發生的“概率”。在大數據預測分析中，數據科學家可能會使用類似機器學習、高級的統計過程(后文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

5.規范分析。沿用信用卡交易的案例，你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規范分析建立在預測分析的基礎之上，包含了“行動”記錄(例如減少食品、服裝、娛樂支出)，并分析所得結果來“規定”最佳類別以減少總體支出。你可以嘗試將其發散到大數據，并設想高管們如何通過查看各種行動的影響來做出數據驅動的決策。

6.批處理。雖然批量數據處理在大型機時代就早已出現，但大數據交給它更多大數據集處理，因此賦予了批處理更多的意義。對于一段時間內收集到的一組事務，批量數據處理為處理大量數據提供了一種有效的方法。后文將介紹的Hadoop便是專注于批量數據處理。

7. 云計算。顯而易見云計算已經變得無所不在，所以本文可能無須贅述，但為了文章的完整性還是佐以介紹。云計算的本質是在遠程服務器上運行的軟件和(/或)數據托管，并允許從互聯網上的任何地方進行訪問。

8. 集群計算。它是一種利用多臺服務器的匯集資源的“集群”來進行計算的奇特方式。在了解了更多技術之后，我們可能還會討論節點、集群管理層、負載平衡和并行處理等。

9. 黑暗數據。依我看來，這個詞適用于那些嚇得六神無主的高級管理層們。從根本上來說，黑暗數據是指那些被企業收集和處理但又不用于任何有意義用途的數據，因此描述它是“黑暗的”，它們可能永遠被埋沒。它們可能是社交網絡信息流、呼叫中心日志、會議筆記，諸如此類。人們做出了諸多估計，在60-90%的所有企業數據都可能是“黑暗數據”，但無人真正知曉。

10. 數據湖。當我第一次聽到這個詞的時候，我真的以為有人在開愚人節的玩笑。但它真的是個術語!數據湖是一個原始格式的企業級數據的大型存儲庫。雖然此處討論的是數據湖，但有必要再一起討論下數據倉庫，因為數據湖和數據倉庫在概念上是極其相似的，都是企業級數據的存儲庫，但在清理和與其他數據源集成之后的結構化格式上有所區別。數據倉庫常用于常規數據(但不完全)。據說數據湖能夠讓用戶輕松訪問企業級數據，用戶真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。

11. 數據挖掘。數據挖掘是指利用復雜的模式識別技術從大量數據中找到有意義的模式、提取見解。這與我們前文討論的使用個人數據做分析的術語“分析”密切相關。為了提取出有意義的模式，數據挖掘者使用統計學(是呀，好老的數學)、機器學習算法和人工智能。

12.分布式文件系統。由于大數據太大而無法在單個系統上進行存儲，分布式文件系統提供一種數據存儲系統，方便跨多個存儲設備進行大量數據的存放，并有助于降低大量數據存儲的成本和復雜度。

13. ETL。ETL分別是extract，transform，load的首字母縮寫，代表提取、轉化和加載的過程。它具體是指“提取”原始數據，通過數據清洗/修飾的方式進行“轉化”以獲得 “適合使用”的數據，進而“加載”到合適的存儲庫中供系統使用的整個過程。盡管ETL這一概念源于數據倉庫，但現在也適用于其它情景下的過程，例如在大數據系統中從外部數據源獲取/吸收數據。

14. Hadoop。人們一想起大數據就能立即想到Hadoop。 Hadoop(擁有可愛的大象LOGO)是一個開源軟件框架，主要組成部分是Hadoop分布式文件系統(HDFS)，Hadoop部署了分布式硬件以支持大型數據集的存儲、檢索和分析。如果你真的想給別人留下深刻的印象，還可以談談YARN(Yet Another Resource Schedule，另一個資源調度器)，正如其名，它也是一個資源調度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會還想出了Pig，Hive和Spark(沒錯，它們都是各種軟件的名稱)。這些名字難道不讓你感到印象深刻嗎?

15. 內存計算。一般來說，任何可以在不訪問I / O的情況下進行的計算預計會比需要訪問I/O的速度更快。內存內計算是一種能夠將工作數據集完全轉移到集群的集體內存中、并避免了將中間計算寫入磁盤的技術。Apache Spark便是一種內存內計算系統，它與I / O相比，在像Hadoop MapReduce這樣的系統上綁定具有巨大的優勢。

16. IOT。最新的流行語是物聯網(Internet of things，簡稱IOT)。IOT是通過互聯網將嵌入式對象(傳感器、可穿戴設備、汽車、冰箱等)中的計算設備互連在一起，并且能夠發送/接收數據。IOT產生了大量的數據，這為呈現大數據分析提供了更多的機會。

17.機器學習。機器學習是為了設計一種基于提供的數據能夠進行不斷學習、調整、改進的系統的設計方法。機器使用預測和統計的算法進行學習并專注于實現“正確的”行為模式和簡見解，隨著越來越多的數據注入系統它還在不斷進行優化改進。典型的應用有欺詐檢測、在線個性化推薦等。

18.MapReduce。MapReduce的概念可能會有點混亂，但讓我試一試。MapReduce是一個編程模型，最好的理解方法是將Map和Reduce是看作兩個獨立的單元。在這種情況下，編程模型首先將大數據的數據集分成幾個部分(技術術語上是稱作“元組”，但本文并不想太過技術性)，因此可以部署到不同位置的不同計算機上(即前文所述的集群計算)，這些本質上是Map的組成部分。接下來該模型收集到所有結果并將“減少”到同一份報告中。 MapReduce的數據處理模型與hadoop的分布式文件系統相輔相成。

19.NoSQL。乍一聽這像是針對傳統關系型數據庫管理系統(RDBMS)的面向對象的SQL(Structured Query Language，結構化查詢語言)的抗議，其實NoSQL代表的是NOT ONLY SQL，意即“不僅僅是SQL”。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作“圖表”(例如關系型數據庫的表)等數據的數據庫管理系統。NoSQL數據庫一般非常適用于大型數據系統，這得益于它們的靈活性以及大型非結構化數據庫所必備的分布式結構。

20.R語言。有人能想到比這個編程語言更糟糕的名字嗎?是的，’R’是一門在統計計算中表現非常優異的編程語言。如果你連’R’都不知道，那你就不是數據科學家。(如果你不知道’R’，就請不要把那些糟糕的代碼發給我了)。這就是在數據科學中最受歡迎的語言之一的R語言。

21. Spark(Apache Spark)。Apache Spark是一種快速的內存內數據處理引擎，它可以高效執行需要快速迭代訪問數據集的流、機器學習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

22.流處理。流處理旨在通過“連續”查詢對實時和流數據進行操作。結合流分析(即在流內同時進行連續計算數學或統計分析的能力)，流處理解決方案可以被用來實時處理非常大的數據。

23. 結構化和非結構化數據。這是大數據5V中的“Variety”多樣性。結構化數據是能夠放入關系型數據庫的最基本的數據類型，通過表的組織方式可以聯系到任何其他數據。非結構化數據則是所有不能直接存入關系數據庫中的數據，例如電子郵件、社交媒體上的帖子、人類錄音等。

QQ空間新浪微博騰訊微博人人網微信更多

上一篇： {大數據}你應該知道的大數據專業術語

下一篇： Linux的date命令用法

国产91精品在线播放,欧美精品在线免费,日韩中文字幕在线有码视频网

首頁

關于騰科

騰科師資

學員天地

技術家園

企培定制

新聞中心

聯系我們

學習文章

你應該知道的大數據術語

友情鏈接