麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 開發 > 綜合 > 正文

中科院計算所培訓中心|大數據專業術語匯總!

2024-07-21 02:52:59
字體:
來源:轉載
供稿:網友
隨著互聯網、移動互聯網以及物聯網的發展,我們已經切實地迎來了一個大數據的時代。網絡購物、物流、送餐、共享單車等事物越來越多的發生在我們身邊,給人們的生活帶來便利。由于信息傳播速度激增、數據量爆炸式增長,相對于企業如何對海量數據進行挖掘和分析,已經成為一個非常重要且緊迫的需求。互聯網點擊數據、傳感數據、日志文件、具有豐富地理空間信息的移動數據和涉及網絡的各類評論,成為了海量信息的多種形式。當數據以成百上千TB不斷增長的時候,我們在內部交易系統的歷史信息之外,需要一種基于大數據分析的決策模型和技術支持。對數據處理提出了新的要求,傳統關系數據庫遇到了數據分析瓶頸。大數據處理技術涉及各行各業,最常用的技術有:離線批處理技術Hadoop/Yarn、實時大數據處理技術Spark、流式大數據處理技術Storm、大數據挖掘技術MLlib/Mahout/SaPRkR、統計分析技術R和Python挖掘、數據采集技術Flume 和 Python爬蟲、NoSQL技術MongoDB和HBase等等。這些大數據處理和分析工具,對系統的可伸縮性、健壯性、計算性能和成本上有不同的要求,這導致了大數據技術必須涵蓋網絡數據爬取、日志采集、分布式消息訂閱、大數據分析挖掘諸多等方面。下面我們對大數據技術平臺及工具做一個簡要介紹:1、批處理大數據平臺Hadoop

Hadoop是最流行的開源批處理大數據平臺。它的核心技術有分布式的文件管理系統HDFS、基于鍵值對Key/Value Pair分布式并行計算模型MapReduce、數據結構化管理組件HBase、分布式的應用程序協調服務Zookeeper。

2、實時大數據平臺SparkSpark源于UC Berkeley AMP Lab的大數據分析平臺。它立足于內存計算,從多迭代批量處理出發,兼顧數據倉庫、流處理和圖計算等多種計算范式,是大數據系統領域的全棧計算平臺。3、流式大數據平臺Storm流數據處理思路是將連續的數據持久化,離散化,然后進行批量處理。Storm是隨著實時大數據處理的需求而生的,就處理實時大數據的最實用工具之一。能輕松可靠地處理無界的數據流,像Hadoop批處理一樣對數據進行實時處理。4、Python網絡爬蟲Python爬蟲可以方便的安裝NLTK工具包,方便對自然語言的處理;Python爬蟲提供了Pillow、Tesseract等多種OCR庫,用于圖像識別和文字處理;Python爬蟲提供了很多的方法,可以將數據存儲在MySQL、MongoDB等多種數據存儲中。5、大數據日志采集工具Flume及ScribeScribe是Facebook開源的日志收集系統,它為日志的分布式收集,統一處理提供一個可擴展的,高容錯的簡單方案。scribe的架構主要包括三部分,分別為scribe agent, scribe和存儲系統。Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,目前已經是Apache的一個子項目。6、分布式消息訂閱工具KafkaKafka是一個消息發布訂閱系統,采用scala語言編寫。Kafka通過Zookeeper管理集群配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Producer使用push模式將消息發布到broker,Consumer使用pull模式從broker訂閱并消費消息。7、NoSQL技術及云數據庫NoSQL,全稱是"Not Only Sql",指的是非關系型的數據庫。這類數據庫主要有這些特點:非關系型的、分布式的、開源的、水平可擴展的。原始的目的是為了大規模web應用。NoSQL 的擁護者們提倡運用非關系型的數據存儲,通常的應用如:模式自由、支持簡易復制、簡單的API、最終的一致性(非ACID)、大容量數據等。最典型的七個NoSQL工具有PostgreSQL、Riak、Apache HBase、MongoDB、Apache CouchDB、Redis和Neo4J 。8、大數據中的類SQL工具Hive是一個構建在Hadoop上的數據倉庫框架,可以將結構化的數據文件,映射為一張數據庫表,并提供完整的sql查詢功能,并轉換為MapReduce任務進行運行。Spark SQL與傳統DBMS的查詢優化器+執行器的架構較為類似。9、大數據挖掘工具Mahout和MLlibMLlib是Spark對常用的數據挖掘算法的實現庫,同時包括相關測試和數據生成器。Mahout 包含許多實現,包括集群、分類、CF 和進化程序。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。10、資源虛擬化工具DockerDocker是實現輕量級的操作系統虛擬化解決方案。Docker 的基礎是 linux 容器(LXC)等技術。在 LXC 的基礎上 Docker 進行了進一步的封裝,讓用戶不需要去關心容器的管理,使得操作更為簡便。作為一種新興的虛擬化方式,Docker 跟傳統的虛擬化方式相比具有眾多的優勢。首先,Docker 容器的啟動可以在秒級實現,這相比傳統的虛擬機方式要快得多。 其次,Docker 對系統資源的利用率很高,一臺主機上可以同時運行數千個 Docker 容器。版權聲明:每一篇文章都是作者的勞動所得,轉載請注明出處!中科院計算所培訓中心專注公開課和企業內訓,設有大數據,軍方軟件,系統架構,軟件需求分析,項目管理等高端課程。更多課程介紹可以加入我們的高端公開課交流群209943365,期待我們共同進步!
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 成人视屏在线观看 | 模特三级在线观看 | 高清一区二区在线观看 | 依人在线视频 | 国产高潮失禁喷水爽到抽搐视频 | 一级尻逼视频 | 国产欧美亚洲精品 | 精品999久久久 | a黄色网| 中文欧美日韩 | 人人做人人看 | 亚洲看片网 | 超碰97国产在线 | 一区二区三区欧美在线 | 欧美黄色大片免费观看 | 青青草免费观看完整版高清 | 成人免费福利网站 | 国产中文99视频在线观看 | 亚洲欧美aⅴ | 免费视频一区 | 欧美特一级 | 黄色av电影在线播放 | 羞羞视频免费网站日本动漫 | 欧美成人精品h版在线观看 久久久久久三区 | 久草在线播放视频 | 在线看免费观看av | 午夜色片 | 成人啪啪18免费网站 | 欧美成人一级 | 法国极品成人h版 | 久久欧美亚洲另类专区91大神 | 斗破苍穹在线免费 | 成人免费乱码大片a毛片视频网站 | 精品国产视频一区二区三区 | 国产一区二区三区高清 | 极品大长腿啪啪高潮露脸 | 国产激情视频在线 | 久久国产一二区 | 美女羞羞视频网站 | 久久精品视频在线免费观看 | 精品国产观看 |