
(19)中華人民共和國國家知識產權局
(12)發明專利申請
(10)申請公布號 (43)申請公布日 (21)申請號 202010451284.1
(22)申請日 2020.05.25
(71)申請人 貴州華泰智遠大數據服務有限公司
地址 550001 貴州省貴陽市貴陽國家高新
技術產業開發區六盤水路41號、中國
西部創業園.啟林創客小鎮B棟204室
(72)發明人 劉南余 陳寅 胡凱 梁禮華
張順源
(74)專利代理機構 貴陽易博皓專利代理事務所
(普通合伙) 52116
代理人 張浩宇
(51)Int.Cl.
G06F 16/9032(2019.01)
G06F 16/901(2019.01)
G06F 16/903(2019.01)
(54)發明名稱
一種基于圖數據庫的數據血緣查詢方法及
查詢系統
(57)摘要
本發明公開了一種基于圖數據庫的數據血
緣查詢方法及查詢系統,它采用圖形數據庫來進
行血緣結構數據的存儲,通過基于圖數據庫的查
詢引擎來查找查詢數據血緣結構并定位數據血
緣,通過基于B/S的大數據視圖展現數據血緣結
構。本發明可以靈活、高效、精確的解決數據治理
過程中數據血緣分析的問題,實現對數據血緣這
一理論研究結果的系統信息化,將模糊的數據血
緣管理和分析具象化、結構化、標準化、可操作
話,為數據治理和分析提供新的技術手段,為數
據治理工作提供豐富的創新應用,具有廣闊的市
場應用前景。權利要求書1頁 說明書4頁 附圖1頁CN 111723253 A 2020.09.29
C N 111723253
A
1.一種基于圖數據庫的數據血緣查詢方法,其特征在于:采用圖形數據庫來進行血緣結構數據的存儲,通過基于圖數據庫的查詢引擎來查找查詢數據血緣結構并定位數據血緣,通過基于B/S的大數據視圖展現數據血緣結構。
2.一種基于圖數據庫的數據血緣查詢系統,其特征在于,包括以下五層結構:
基礎數據層,包含基礎云平臺以及各種結構的數據源數據庫,數據源內容可以是業務數據、流程數據或元數據;
數據加工層,用于將業務數據轉化成圖數據;
圖數據層,主要負責數據血緣結構數據的存儲、查詢,并提供數據對上層組件的驅動,服務層,基于角色權限認證,提供各種格式對外的數據服務接口,以供上層應用調用;應用層,基于提供的接口,結合圖數據組件,構建面向數據治理與業務應用的數據血緣應用。
3.根據權利要求2所述的基于圖數據庫的數據血緣查詢系統,其特征在于:所述的基礎數據層,包含NOSQL和RDBMS。
4.根據權利要求2所述的基于圖數據庫的數據血緣查詢系統,其特征在于:所述的數據加工層,包含ODS、kettle、MQ組件。
5.根據權利要求2所述的基于圖數據庫的數據血緣查詢系統,其特征在于:所述的圖數據層,包含NEO4J,Cypher,D3JS,echarts。
6.根據權利要求2所述的基于圖數據庫的數據血緣查詢系統,其特征在于:所述的服務層,包含RBAC,webApi,XML,JSON。
7.根據權利要求2所述的基于圖數據庫的數據血緣查詢系統,其特征在于:所述的應用,包括一數一源比對分析,數據血緣結構查詢,冗余數據清洗整合,數據血緣報告生成與數據質量分析。
權 利 要 求 書1/1頁CN 111723253 A
一種基于圖數據庫的數據血緣查詢方法及查詢系統
[0001]
技術領域
[0002]本發明涉及一種數據血緣查詢方法及數據血緣查詢系統,尤其涉及一種基于圖數據庫的數據血緣查詢方法及數據血緣查詢系統,屬于計算機大數據技術領域。
背景技術
[0003]在數據信息時代,每時每刻都會產生龐大的數據,即通常說的大數據,對這些數據進行各種加工組合、轉換,又會產生新的數據,這些數據之間就存在著天然的聯系,把這些聯系稱為數據血緣關系。
[0004]在進行數據治理、數據中臺建設過程中,針對數據的來源、數據的評估、數據的定位缺乏有效手段。數據治理強調數據的準確性,對數據一數一源提出要求和標準,但是在實際生產過程中,一數多頭的情況經常發生,例如人員組織機構信息,經常出現多系統、多渠道的情況。因此,急需一種清晰、快速的手段,對數據血緣進行查找和展示,從而快速定位數據源,分析數據問題,優化系統結構,清理數據冗余,幫助數據治理工作開展。
發明內容
[0005]本發明所要解決的技術問題在于提供一種基于圖數據庫的數據血緣查詢方法,實現數據血緣關系的快速查詢、血緣層級查詢、血緣可視化,解決上述現有技術存在的問題。[0006]為解決上述技術問題,本發明采用的技術方案如下:
一種基于圖數據庫的數據血緣查詢方法,該方法采用圖形數據庫來進行血緣結構數據的存儲,通過基于圖數據庫的查詢引擎來查找查詢數據血緣結構并定位數據血緣,通過基于B/S的大數據視圖展現數據血緣結構。
[0007]一種基于圖數據庫的數據血緣查詢系統,系統構成包括以下五層結構:基礎數據層,包含基礎云平臺以及各種結構的數據源數據庫,數據源內容可以是業務數據、流程數據或元數據;
數據加工層,用于將業務數據轉化成圖數據;
圖數據層,主要負責數據血緣結構數據的存儲、查詢,并提供數據對上層組件的驅動,服務層,基于角色權限認證,提供各種格式對外的數據服務接口,以供上層應用調用;
應用層,基于提供的接口,結合圖數據組件,構建面向數據治理與業務應用的數據血緣應用。
[0008]上述的基于圖數據庫的數據血緣查詢系統,具體來說,所述的基礎數據層,包含NOSQL(非關系型數據庫)和RDBMS(關系型數據庫)。
[0009]上述的基于圖數據庫的數據血緣查詢系統,具體來說,所述的數據加工層,包含ODS(操作數據存儲系統)、kettle、MQ(消息隊列)組件。
[0010]上述的基于圖數據庫的數據血緣查詢系統,具體來說,所述的圖數據層,包含
NEO4J,Cypher,D3JS,echarts。
[0011]上述的基于圖數據庫的數據血緣查詢系統,具體來說,所述的服務層,包含RBAC,webApi,XML,JSON。
[0012]上述的基于圖數據庫的數據血緣查詢系統,具體來說,所述的應用,包括一數一源比對分析,數據血緣結構查詢,冗余數據清洗整合,數據血緣報告生成與數據質量分析。[0013]本發明的有益效果:與現有技術相比,本發明的優勢在于可以靈活、高效、精確的解決數據治理過程中數據血緣分析的問題,實現對數據血緣這一理論研究結果的系統信息化,在實現過程中結合了成熟的圖形數據庫、大數據視圖展示技術,降低了功能實現成本。本發明的實用性非常突出,將數據治理過程中抽象模糊的數據血緣管理和分析體系化、應用化,采用圖數據庫的算法和結構優勢提供可視化的數據血緣展示工具,依托cypher圖數據查詢語言開發上層驅動,解決了數據血緣分析查詢效率問題,通過五層結構的數據血緣分析解決方案,完成數據血緣分析需求,將模糊的數據血緣管理和分析具象化、結構化、標準化、可操作話,為數據治理和分析提供了新的技術手段,能為數據治理工作提供豐富的創新應用,例如政企數據質量審查、數據中臺一數一源建設、數據比對、數據資產優化等具體應用,具有廣闊的市場應用前景。
附圖說明
[0014]圖1是本發明的系統構成原理圖。
[0015]下面結合附圖和具體實施方式對本發明作進一步的說明。
具體實施方式
[0016]實施例1:本發明基于圖數據庫的數據血緣查詢方法,主要解決三個方面的技術難題:(1)數據血緣結構如何存儲,使用什么載體存儲。(2)數據血緣結構如何快速查找查詢,快速定位數據源。(3)如果清晰有效的展示數據血緣結構。下面具體描述通過哪些技術手段解決上述難題。
[0017]一、通過圖形數據庫解決數據血緣結構存儲問題。
[0018]數據血緣一般指的數據產生的鏈路,研究數據血緣、追蹤數據血緣,可以在數據治理工作中解決數據的可信度、質量、版本信息等問題,通過數據血緣結構的建立,可以通過數據血緣探索原始數據庫的數據變化、維護數據一致性,通過數據血統追蹤,可以獲得數據在數據流中的演化過程。顯而易見,數據血緣是數據治理工作中不可缺少的一個部分,而且數據血緣結構是對數據血緣的建模,數據血緣建模要包含以下要素:
1.信息節點:信息節點用來表現數據的所有者和數據層次信息或終端信息。根據血緣關系層次的不同數據信息有所區別。所有者層次只有所有者的信息,其他的層次則包括所有者信息和數據層次信息或
者終端信息,例如關系數據庫的字段間的血緣關系,該節點的描述信息就是:所有者.數據庫.數據表.數據字段。
[0019] 2.數據流轉線路:數據流轉線路表現的是數據的流轉路徑,從左到右流轉。數據流轉線路從數據流入節點出來往主節點匯聚,又從主節點流出往數據流出節點擴散。[0020] 3.數據處理節點:數據處理節點在用來表現數據流轉過程可能出現的清洗轉換過程,其位于數據流轉線路上,用來表現數據流轉過程中發生的清洗、轉換。
[0021] 4.數據出口節點:數據出口節點用來展現數據面向應用的展示結果,其一般位于數據血緣的靠后位置,是數據流轉的近尾端。
[0022] 5.數據封存節點:數據是有生命周期的,當數據不再具備使用價值,他的生命就結束了,或者歸檔或者直接銷毀。當一個數據失去了所有數據關聯與出口,那么此數據生命結束,可進行封存。
[0023]針對以上的數據血緣模型要素特點,本發明采用圖形數據庫來進行血緣結構數據的存儲,圖形數據庫是NoSQL數據庫的一種,它采用圖形理論結構來存儲實體單元之間的關聯關系信息。圖形數據庫中的數據,基于圖(Graph)由頂點(Vertex)和邊(Edge)組成,并且對于圖、頂點和邊都具有對應的描述屬性。通過圖形數據庫的這些特性,對應至數據血緣結構中的節點、流轉線路與各種節點類型,可以較為契合的在數據結構上復制數據血緣模型、存儲具體血緣數據結構、承擔數據血緣結構
數據庫的這樣一個數據載體的職責。
[0024]二、通過基于圖數據庫的查詢語言解決數據血緣定位、結構查詢的問題。[0025]對于數據血緣的定位、搜索與查詢,需要達到特定的要求:要能查找血緣結構上的某個特定數據位置、獲取數據的去向和來源、支持多級查找、支持鏈路查詢、能獲取關系、計算數據權重?;谝陨蠈τ跀祿壧幚硭阉魃系男枨?,本發明采用基于圖數據庫的查詢引擎,例如基于Neo4j的Cypher等方式對數據操作層進行處理,完成數據血緣的搜索定位需求?;趫D數據庫的查詢引擎具有不遍歷圖形結構,就能完成圖形存儲搜索和表現的能力,同時查詢語言與常規關系型數據庫查詢語言類似,適合于開發者和在數據庫上做點對點模式(ad-hoc)的查詢,通過對操作層的封裝,節點,關系,權重,層級,父子的搜索。本發明針對具體數據血緣搜索需求,在Cypher上進行二次封裝和開發,可以實現針對數據血緣搜索場景的針對性功能,完成數據血緣搜索核心業務,解決數據血緣定位、查詢和結構檢索需求。[0026]三、通過基于B/S的大數據視圖展現數據血緣結構。
[0027]本發明通過基于B/S的視圖展現,支持在不同平臺和系統上的數據血緣結構渲染。通過解析圖數據庫結構,動態生成數據血緣關系圖,支持動態拖拽、樹形結構查找展示,支持預先構建或自動生成圖,在可見區域上通過平移和縮放、以動畫的形式展示圖數據,并且根據分析需求,可以選擇一個數據節點查看其屬性、關系和相鄰節點,并且在可視化界面上支持自然語言的搜索短語輸入,展現的視圖在前端可以進行緩存級的保存,下次調用數據血緣圖形,可不經過圖數據庫,純前端的搜索和展示,
方便應用人員在多個數據血緣組之間快速切換,動態比對。
[0028]本發明的基于圖數據庫的數據血緣查詢系統,如圖1所示,其技術架構由底而上,分為基礎數據層、數據加工層、圖數據層、服務層、應用層五個層次,這五個層次的功能主要為:
基礎數據層?;A數據層包含基礎云平臺,以及各種結構的數據源數據庫,數據庫包含NOSQL(非關系型數據庫)和RDBMS(關系型數據庫),數據源內容可以是業務數據,流程數據或元數據等。
[0029]數據加工層。數據加工層包含ODS、kettle、MQ等組件,用于將業務數據轉化成圖數據。
[0030]圖數據層。圖數據層主要負責數據血緣結構數據的存儲,查詢,并提供數據對上層組件的驅動,包含NEO4J,Cypher,D3JS,echarts等組件。