編輯導語:相信大家平時用大數(shù)據(jù)處理產品時,會被各種的專業(yè)技術名詞繞暈,然后傻傻分不清。本篇文章中,作者將大數(shù)據(jù)中常用的一些技術名詞作了匯總和分類。感興趣的小伙伴不妨來看看,說不定會用到哦。
在大數(shù)據(jù)處理產品中經(jīng)常會碰到一些技術名詞,在這里匯總整理。
一、數(shù)據(jù)源類型1. 寬表 VS 窄表寬表:指字段比較多的數(shù)據(jù)庫表。通常是指業(yè)務主體相關的指標、緯度、屬性關聯(lián)在一起的一張數(shù)據(jù)庫表。
廣泛應用于數(shù)據(jù)挖掘模型訓練前的數(shù)據(jù)準備,通過把相關字段放在同一張表中,可以大大提供數(shù)據(jù)挖掘模型訓練過程中迭代計算的消息問題。
雖然提高了數(shù)據(jù)查詢效率,但存在大量冗余。
窄表:嚴格按照數(shù)據(jù)庫設計三范式。減少了數(shù)據(jù)冗余,但修改一個數(shù)據(jù)可能需要修改多張表。
數(shù)據(jù)庫設計三范式:
確保每列保持原子性;確保表中的每列都和主鍵相關;確保每列都和主鍵列直接相關,而不是間接相關。2. MySQLMySQL是一種關系型數(shù)據(jù)庫管理系統(tǒng),關系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個大倉庫內,這樣就增加了速度并提高了靈活性。是目前最流行的關系型數(shù)據(jù)庫管理系統(tǒng)之一。
3. OracleOracle是一款關系數(shù)據(jù)庫管理系統(tǒng)。它是在數(shù)據(jù)庫領域一直處于領先地位的產品,系統(tǒng)可移植性好、使用方便、功能強,適用于各類大、中、小微機環(huán)境。
它是一種高效率的、可靠性好的、適應高吞吐量的數(shù)據(jù)庫方案。
4. GBaGBa 是南大通用數(shù)據(jù)技術有限公司推出的自主品牌的數(shù)據(jù)庫產品,在國內數(shù)據(jù)庫市場具有較高的品牌知名度。
5. HBaHBa是一個分布式的、面向列的開源數(shù)據(jù)庫。
不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBa基于列的而不是基于行的模式。
6. FTPFTP(File Transfer Protocol)是一套網(wǎng)絡文件傳輸標準協(xié)議,訪問遠程資源, 實現(xiàn)用戶往返傳輸文件、目錄管理以及訪問電子郵件等等, 即使雙方計算機可能配有不同的操作系統(tǒng)和文件存儲方式。
7. HDFSHDFS是一個Hadoop分布式文件系統(tǒng),HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。
而且它提供高吞吐量來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。
二、數(shù)據(jù)計算1. MaxComputeMaxCompute是一項大數(shù)據(jù)計算服務,它能提供快速、完全托管的PB級數(shù)據(jù)倉庫解決方案,可以經(jīng)濟并高效的分析處理海量數(shù)據(jù)。
2. FlinkFlink是一個框架和分布式處理引擎,用于對無界和有界數(shù)據(jù)流進行有狀態(tài)計算。
Flink設計為在所有常見的集群環(huán)境中運行,以內存速度和任何規(guī)模執(zhí)行計算。
3. KafkaKafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費者在網(wǎng)站中的所有動作流數(shù)據(jù)。
4. 離線計算 VS 實時計算離線計算:通常也稱為“批處理”,表示那些離線批量、延時較高的靜態(tài)數(shù)據(jù)處理過程。
離線計算適用于實時性要求不高的場景,比如離線報表、數(shù)據(jù)分析等。常見計算框架:MapReduce,Spark SQL
實時計算:通常也稱為“實時流計算”、“流式計算”,表示那些實時或者低延時的流數(shù)據(jù)處理過程。
實時計算通常應用在實時性要求高的場景,比如實時ETL、實時監(jiān)控等。常見計算框架:Spark Streaming,F(xiàn)link
5. OLTP VS OLAPOLTP(On-Line Transaction Processing):可稱為在線事務處理,一般應用于在線業(yè)務交易系統(tǒng),比如銀行交易、訂單交易等。
OLTP的主要特點是能夠支持頻繁的在線操作(增刪改),以及快速的訪問查詢。
OLAP(On-Line Analytical Processing):可稱為在線分析處理,較多的應用在數(shù)據(jù)倉庫領域,支持復雜查詢的數(shù)據(jù)分析,側重于為業(yè)務提供決策支持。
目前常見是的實時OLAP場景,比如Druid(Apache Druid,不同于阿里Druid)、ClickHou等存儲組件能夠較好的滿足需求。
三、分布式相關1. HadoopHadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
2. HDFSHDFS是一個Hadoop分布式文件系統(tǒng)。詳情在上一小節(jié)中已介紹。
3. HiveHive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉化、加載。
這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。
hive數(shù)據(jù)倉庫工具能將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執(zhí)行。
4. MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。
概念”Map(映射)”和”Reduce(歸約)”,是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。
它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。
5. SparkSpark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,類似于Hadoop MapReduce的通用并行框架,擁有Hadoop MapReduce所具有的優(yōu)點;
但不同于MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。
四、數(shù)據(jù)倉庫1. 簡介數(shù)據(jù)倉庫(全稱:Data Warehou;簡稱:DW/DWH),是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產生的。
它是一整套包括了ETL(extract-transform-load)、調度、建模在內的完整的理論體系。
2. 與數(shù)據(jù)庫的差異數(shù)據(jù)倉庫是專門為數(shù)據(jù)分析設計的,涉及讀取大量數(shù)據(jù)以了解數(shù)據(jù)之間的關系和趨勢。而數(shù)據(jù)庫是用于捕獲和存儲數(shù)據(jù)。
3. 分層ODS(Operation Data Store): 數(shù)據(jù)源頭層,數(shù)據(jù)倉庫源頭系統(tǒng)的數(shù)據(jù)表通常會原封不動的存儲一份,這稱為ODS層(可理解為原始庫),是后續(xù)數(shù)據(jù)倉庫加工數(shù)據(jù)的來源。數(shù)據(jù)來源:業(yè)務庫、埋點日志、消息隊列。DWD(Data Warehou Details ):數(shù)據(jù)細節(jié)層,是業(yè)務層與數(shù)據(jù)倉庫的隔離層。主要對ODS數(shù)據(jù)層做一些數(shù)據(jù)清洗和規(guī)范化的操作。數(shù)據(jù)清洗:去除空值、臟數(shù)據(jù)、超過極限范圍的。DWB(Data Warehou Ba):數(shù)據(jù)基礎層,存儲的是客觀數(shù)據(jù),一般用作中間層,可以認為是大量指標的數(shù)據(jù)層,可理解為知識庫字典、常用標準庫。DWS(Data Warehou Service): 數(shù)據(jù)服務層,基于DWB上的基礎數(shù)據(jù),整合匯總成分析某一個主題域的服務數(shù)據(jù)層,一般是寬表。用于提供后續(xù)的業(yè)務查詢,OLAP分析,數(shù)據(jù)分發(fā)等。ADS(ApplicationData Service):應用數(shù)據(jù)服務,該層主要是提供數(shù)據(jù)產品和數(shù)據(jù)分析使用的數(shù)據(jù),一般會存儲在ES、mysql等系統(tǒng)中供線上系統(tǒng)使用。4. 數(shù)據(jù)地圖以數(shù)據(jù)搜索為基礎,提供表使用說明、數(shù)據(jù)類目、數(shù)據(jù)血緣、字段血緣等工具,幫助數(shù)據(jù)表的使用者和擁有者更好地管理數(shù)據(jù)、協(xié)作開發(fā)。
5. 數(shù)據(jù)血緣即數(shù)據(jù)的來龍去脈,主要包含數(shù)據(jù)的來源、數(shù)據(jù)的加工方式、映射關系以及數(shù)據(jù)出口。
數(shù)據(jù)血緣屬于元數(shù)據(jù)的一部分,清晰的數(shù)據(jù)血緣是數(shù)據(jù)平臺維持穩(wěn)定的基礎,更有利于數(shù)據(jù)變更影響分析以及數(shù)據(jù)問題排查。
本文由@丸子不愛吃丸子 原創(chuàng)發(fā)布于人人都是產品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
本文發(fā)布于:2023-02-28 21:07:00,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1677727164103855.html
版權聲明:本站內容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權益請與我們聯(lián)系,我們將在24小時內刪除。
本文word下載地址:application data(application data拒絕訪問).doc
本文 PDF 下載地址:application data(application data拒絕訪問).pdf
| 留言與評論(共有 0 條評論) |