首頁 > 知識文檔

application data(application data拒絕訪問)

更新時間:2023-03-02 11:19:24 閱讀：評論：0

編輯導語：相信大家平時用大數(shù)據(jù)處理產品時，會被各種的專業(yè)技術名詞繞暈，然后傻傻分不清。本篇文章中，作者將大數(shù)據(jù)中常用的一些技術名詞作了匯總和分類。感興趣的小伙伴不妨來看看，說不定會用到哦。

在大數(shù)據(jù)處理產品中經(jīng)常會碰到一些技術名詞，在這里匯總整理。

一、數(shù)據(jù)源類型1. 寬表 VS 窄表

寬表：指字段比較多的數(shù)據(jù)庫表。通常是指業(yè)務主體相關的指標、緯度、屬性關聯(lián)在一起的一張數(shù)據(jù)庫表。

廣泛應用于數(shù)據(jù)挖掘模型訓練前的數(shù)據(jù)準備，通過把相關字段放在同一張表中，可以大大提供數(shù)據(jù)挖掘模型訓練過程中迭代計算的消息問題。

雖然提高了數(shù)據(jù)查詢效率，但存在大量冗余。

窄表：嚴格按照數(shù)據(jù)庫設計三范式。減少了數(shù)據(jù)冗余，但修改一個數(shù)據(jù)可能需要修改多張表。

數(shù)據(jù)庫設計三范式：

確保每列保持原子性；確保表中的每列都和主鍵相關；確保每列都和主鍵列直接相關，而不是間接相關。2. MySQL

MySQL是一種關系型數(shù)據(jù)庫管理系統(tǒng)，關系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中，而不是將所有數(shù)據(jù)放在一個大倉庫內，這樣就增加了速度并提高了靈活性。是目前最流行的關系型數(shù)據(jù)庫管理系統(tǒng)之一。

3. Oracle

Oracle是一款關系數(shù)據(jù)庫管理系統(tǒng)。它是在數(shù)據(jù)庫領域一直處于領先地位的產品，系統(tǒng)可移植性好、使用方便、功能強，適用于各類大、中、小微機環(huán)境。

它是一種高效率的、可靠性好的、適應高吞吐量的數(shù)據(jù)庫方案。

4. GBa

GBa 是南大通用數(shù)據(jù)技術有限公司推出的自主品牌的數(shù)據(jù)庫產品，在國內數(shù)據(jù)庫市場具有較高的品牌知名度。

5. HBa

HBa是一個分布式的、面向列的開源數(shù)據(jù)庫。

不同于一般的關系數(shù)據(jù)庫，它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBa基于列的而不是基于行的模式。

6. FTP

FTP（File Transfer Protocol）是一套網(wǎng)絡文件傳輸標準協(xié)議，訪問遠程資源，實現(xiàn)用戶往返傳輸文件、目錄管理以及訪問電子郵件等等，即使雙方計算機可能配有不同的操作系統(tǒng)和文件存儲方式。

7. HDFS

HDFS是一個Hadoop分布式文件系統(tǒng)，HDFS有著高容錯性的特點，并且設計用來部署在低廉的硬件上。

而且它提供高吞吐量來訪問應用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集的應用程序。

二、數(shù)據(jù)計算1. MaxCompute

MaxCompute是一項大數(shù)據(jù)計算服務，它能提供快速、完全托管的PB級數(shù)據(jù)倉庫解決方案，可以經(jīng)濟并高效的分析處理海量數(shù)據(jù)。

2. Flink

Flink是一個框架和分布式處理引擎，用于對無界和有界數(shù)據(jù)流進行有狀態(tài)計算。

Flink設計為在所有常見的集群環(huán)境中運行，以內存速度和任何規(guī)模執(zhí)行計算。

3. Kafka

Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費者在網(wǎng)站中的所有動作流數(shù)據(jù)。

4. 離線計算 VS 實時計算

離線計算：通常也稱為“批處理”，表示那些離線批量、延時較高的靜態(tài)數(shù)據(jù)處理過程。

離線計算適用于實時性要求不高的場景，比如離線報表、數(shù)據(jù)分析等。常見計算框架：MapReduce，Spark SQL

實時計算：通常也稱為“實時流計算”、“流式計算”，表示那些實時或者低延時的流數(shù)據(jù)處理過程。

實時計算通常應用在實時性要求高的場景，比如實時ETL、實時監(jiān)控等。常見計算框架：Spark Streaming，F(xiàn)link

5. OLTP VS OLAP

OLTP（On-Line Transaction Processing）：可稱為在線事務處理，一般應用于在線業(yè)務交易系統(tǒng)，比如銀行交易、訂單交易等。

OLTP的主要特點是能夠支持頻繁的在線操作（增刪改），以及快速的訪問查詢。

OLAP（On-Line Analytical Processing）：可稱為在線分析處理，較多的應用在數(shù)據(jù)倉庫領域，支持復雜查詢的數(shù)據(jù)分析，側重于為業(yè)務提供決策支持。

目前常見是的實時OLAP場景，比如Druid（Apache Druid，不同于阿里Druid）、ClickHou等存儲組件能夠較好的滿足需求。

三、分布式相關1. Hadoop

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

2. HDFS

HDFS是一個Hadoop分布式文件系統(tǒng)。詳情在上一小節(jié)中已介紹。

3. Hive

Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，用來進行數(shù)據(jù)提取、轉化、加載。

這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。

hive數(shù)據(jù)倉庫工具能將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供SQL查詢功能，能將SQL語句轉變成MapReduce任務來執(zhí)行。

4. MapReduce

MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算。

概念”Map（映射）”和”Reduce（歸約）”，是它們的主要思想，都是從函數(shù)式編程語言里借來的，還有從矢量編程語言里借來的特性。

它極大地方便了編程人員在不會分布式并行編程的情況下，將自己的程序運行在分布式系統(tǒng)上。

5. Spark

Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎，類似于Hadoop MapReduce的通用并行框架，擁有Hadoop MapReduce所具有的優(yōu)點；

但不同于MapReduce的是——Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

四、數(shù)據(jù)倉庫1. 簡介

數(shù)據(jù)倉庫（全稱：Data Warehou；簡稱：DW/DWH），是在數(shù)據(jù)庫已經(jīng)大量存在的情況下，為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產生的。

它是一整套包括了ETL（extract-transform-load）、調度、建模在內的完整的理論體系。

2. 與數(shù)據(jù)庫的差異

數(shù)據(jù)倉庫是專門為數(shù)據(jù)分析設計的，涉及讀取大量數(shù)據(jù)以了解數(shù)據(jù)之間的關系和趨勢。而數(shù)據(jù)庫是用于捕獲和存儲數(shù)據(jù)。

3. 分層ODS（Operation Data Store）：數(shù)據(jù)源頭層，數(shù)據(jù)倉庫源頭系統(tǒng)的數(shù)據(jù)表通常會原封不動的存儲一份，這稱為ODS層（可理解為原始庫），是后續(xù)數(shù)據(jù)倉庫加工數(shù)據(jù)的來源。數(shù)據(jù)來源：業(yè)務庫、埋點日志、消息隊列。DWD（Data Warehou Details ）：數(shù)據(jù)細節(jié)層，是業(yè)務層與數(shù)據(jù)倉庫的隔離層。主要對ODS數(shù)據(jù)層做一些數(shù)據(jù)清洗和規(guī)范化的操作。數(shù)據(jù)清洗：去除空值、臟數(shù)據(jù)、超過極限范圍的。DWB（Data Warehou Ba）：數(shù)據(jù)基礎層，存儲的是客觀數(shù)據(jù)，一般用作中間層，可以認為是大量指標的數(shù)據(jù)層，可理解為知識庫字典、常用標準庫。DWS（Data Warehou Service）：數(shù)據(jù)服務層，基于DWB上的基礎數(shù)據(jù)，整合匯總成分析某一個主題域的服務數(shù)據(jù)層，一般是寬表。用于提供后續(xù)的業(yè)務查詢，OLAP分析，數(shù)據(jù)分發(fā)等。ADS（ApplicationData Service）：應用數(shù)據(jù)服務，該層主要是提供數(shù)據(jù)產品和數(shù)據(jù)分析使用的數(shù)據(jù)，一般會存儲在ES、mysql等系統(tǒng)中供線上系統(tǒng)使用。4. 數(shù)據(jù)地圖

以數(shù)據(jù)搜索為基礎，提供表使用說明、數(shù)據(jù)類目、數(shù)據(jù)血緣、字段血緣等工具，幫助數(shù)據(jù)表的使用者和擁有者更好地管理數(shù)據(jù)、協(xié)作開發(fā)。

5. 數(shù)據(jù)血緣

即數(shù)據(jù)的來龍去脈，主要包含數(shù)據(jù)的來源、數(shù)據(jù)的加工方式、映射關系以及數(shù)據(jù)出口。

數(shù)據(jù)血緣屬于元數(shù)據(jù)的一部分，清晰的數(shù)據(jù)血緣是數(shù)據(jù)平臺維持穩(wěn)定的基礎，更有利于數(shù)據(jù)變更影響分析以及數(shù)據(jù)問題排查。

本文由@丸子不愛吃丸子原創(chuàng)發(fā)布于人人都是產品經(jīng)理，未經(jīng)許可，禁止轉載。

題圖來自Unsplash，基于CC0協(xié)議

本文發(fā)布于:2023-02-28 21:07:00，感謝您對本站的認可！

本文鏈接：http://www.newhan.cn/zhishi/a/1677727164103855.html

本文word下載地址：application data(application data拒絕訪問).doc

本文 PDF 下載地址：application data(application data拒絕訪問).pdf

上一篇：肌酸激酶偏高(肌酸激酶偏高怎么降下來)

下一篇：返回列表