
CHINA
TECHNOLOGY
PORT
SCIENCE
AND
海關大數據知識圖譜構建技術及應用
趙碧君
:
信鴿
I
摘本文結合信息爆炸時代海關管理而臨的挑戰及業界知
要
海關業務改革的不斷深化對海關管理提岀了新的要求
識圖譜的應用情況
,
全面分析
r
在海關管理中引人知識圖譜的必要性
,
提出了海關大數據知識圖譜的構建技術流程及應用
場景旨在為智慧海關建設提供參考
,
關鍵詞
大數據
;
知識圖譜
;
構建技術流程
Construction
of
Technology
and
Application
Customs
Big
Data
Knowledge
Graph
ZHAO
Bi-Jun
*
1
XIN
Ge
1
Abstract
Thereformhas
management.
deepeningnewCustomsCombining
of Customsrequiremenls
business
put
forward
for
the
challengesCustomsthethegraph
facedbyindustry,
rrmnthe
agementininapplicatio
era
of
formation
explosi
on
andkno
n
of
wledge
in
paper
comprehensivelymanagement,
analyzesknowledge
theCustomsthe
necessity
of
introducingpropos
graph
into
and
construction
processknowledgefor
andenariosCustomsdatathe
application
ofaimingsmart
big
graph,
to
provide
reference
constructionof
Customs.
Keywords
big
dataconstruction
;;
graph
knowledge
process
2017
年新一代人工智能發
7
月
,《
國務院發布
所集聚的海量數據也為海關傳統數據管理及應用模式
展規劃
》
,
明確
“
建立新一代人工智能關鍵共性技術
體系
”
,
首先提出建立
“
知識計算引擎與知識服務技
帶來新的挑戰,如何有效打破各類結構復雜的業務數
據間的信息壁壘
,快速從海量數據中獲取關鍵信息.
最大程度挖掘數據的隱藏價值
,、
打造
“
管得住
放得
術重點突破知識加工
”
.
強調要
“
、
深度搜索和可視
化交互核心技術
”
.、
“形成涵蓋數十億實體規模的多元
開
、
效率高
”
的智能化海關監管服務體系成為海關
,
業務管理中亟須解決的問題
。
海關
””
十三五
規劃明
多學科和多數據類型的跨媒體知識圖譜
”
當前我國
外貿迅猛發展所帶來的進出口業務量驟增對海關監管
服務提岀更高要求
,
同時
,
海關信息化建設不斷加快
確指出,
要運用大數據技術提升海關管理智能化水平
;
《》
海關全面深化業務改革
2020
框架方案
明確指出.
第一作者:高級數據分析師.主要從勺進出口數據分析
趙碧君,
(1988-
)女
,、
漢族.山西人.碩士
,
理模相關工作.
:
****************
1
.全國海關信息中心
(
全國海關電子通關中心
)
北京
100005
1.)
National
,
InformationE-ClearanceGACC
100005
Center Beijing
National
of
G/CC
(
Center
of
92
要
“
依托大數據
、
情報信息
、
人工智能和專家研判等.
強化人工風險分析.突出布控精準性
”
:
通過建立海
關各業務領域知識圖譜
,
梳理海關通關業務各主體間
的關系,
將碎片化的業務知識進行有效整合形成統一
的知識體系
,對
將為海關業務分析提供一種新思路
,
實現海關管理由人工轉向智能具有重要意義
1
構建海關大數據知識圖譜的必要性
知識圖譜
(
Knowledge
Graph
)
作為人工智能從感
知智能向認知智能進階的關鍵技術組成部分.最早由
出于優化搜索結果的目的于
2012,
年提出
,
隨
后便在工業界與學術界受到廣泛關注
。
知識圖譜是一
個將現實世界映射到數字世界
、
由節點和邊組成的語
義網絡
,
其中
,
節點代表現實世界中的實體或概念
,
邊代表實體的屬性或實體間的關系與傳統的數據管
。
理及應用模式相比
,
知識圖譜具有以下優勢叫
1.1
重構數據價值
,
實現對多源異構數據的統一
、
規
范管理
海關信息化建設的快速發展為海關各業務系統集
聚了海量數據
,、視頻等,
其中包括文本、目前
圖片
。
海關雖已初步建成大數據資源平臺
,
但平臺內的數據
仍以結構化數據為主
,
海關監管過程中產生的大量音
視頻
、文本等非結構化數據仍分散在不同業務系統中
無法得到有效利用,知識圖譜作為一種新型的知識表
示與數據管理模式
,
其本質是結構化的語義知識庫
,
邏輯上由模式層與數據層構成,
、其中.模式層類似于
關系型數據庫中的表結構 一種是自
,
通過模式層統一確定和規知識圖譜的構建目前主要有兩種模式
范知識圖譜中的本體
、,
本體屬性及本體之間的關聯關
系;
然后針對模式層.采用知識抽取技術對分散在各
系統中的結構化數據、
、半結構化數據,
非結構化數據有完整知識體系的數據通用知識圖譜的構建多采用
進行高度提煉融合
,
形成包含大量先驗知識的結構化
、
高度關聯的高質量知識體系.可以有效解決多源異構
數據源數據不一致
、
不完整等問題
1.2
創新數據應用模式”
,
提供從
“
關系
角度分析解
決問題的能力
目前海關業務人員對數據的應用模式仍主要基于
傳統的關系型數據庫
,
通過關聯多張結構化的數據表
及知識應用等
中國口岸科學技術
開展分析工作該模式不僅對海關業務人員的技術水
平有一定要求
,
同時也不利于快速直觀地從海量數據
中定位有用信息而海關知識圖譜通過將碎片化的信
息進行充分融合.建立起數據之間的關聯關系.形成
海關通關業務各主體間的巨大關系網絡
,
并以圖形化
的方式進行展示
,
可以很好地幫助業務人員準確
、
快
速
、直觀地從海量數據中發現內在規律
、
找出關鍵信
息
。
同時以利用知識圖譜相關技術形成的結構化網
,
絡為基礎圖計算等
,、,業務人員可以
借助知識推理
從
“
關系
”
出發,
,
挖掘復雜關系中隱藏的潛在關系
從而發現新線索
1.3
賦予機器認知智能提高人機協同解決問題的精
準性
機器學習模型雖已被廣泛應用于海關各業務領域
的風險監測與防控
,
但其預測結果的準確性嚴重依賴
大規模的標注數據
,
且預測結果缺乏可解釋性"因此
,
要實現更高級別的人工智能.提高機器預測的可解釋
性
,,
必須讓機器具備理解和解釋能力
而這種能力的
獲得與知識庫密不可分通過知識圖譜形成的包含實
體
、
CHINA
TECHNOLOGY
PORT
SCIENCE
AND
知識建模
大數據資源平臺
PIM
模型
數據
ETL
知識圖譜應用
服務器
(ODPS)
數據讀取
流入
Nifi
數據抽取服
務器
流入
流入
hba
流入
流入
TRSGraph
kafka
圖
1
海關大數據知識圖譜構建技術流程
Fig.1CustomsDataKno
Con
struct! Big
onProcess
of
wledge
Graph
2.1
知識建模
形成全局統一的知識標識和關聯通過知識融合可以
有效解決不同數據源知識重復
、
知識間關聯不夠明確
知識建模是建立知識圖譜模式層的過程該過程
需要工程師與業務專家不斷交互
,
根據業務特點.抽
象出本體
、、
屬性
關系等信息.涉及節點及節點屬性的重要步驟
標簽確定
、
關聯關系設計等步驟
2.2
知識抽取
等問題
,
提高知識質量及應用價值
,
是確保知識質量
。
2.4
知識存儲
知識存儲是對構建完成的知識圖譜設計底層存
儲方式
,
完成知識存儲
。
知識存儲方式的選擇直接
知識抽取是指從不同來源
、
不同結構的數據中提
取知識
,,
并存入知識圖譜的過程
包括實體抽取
、
關
系抽取與屬性抽取
,
是構建知識圖譜的重要環節知
關系到知識圖譜的應用效率
。
目前知識存儲主要有
三種模式第一種是基于
:,
RDF
的存儲
該模式以
三元組方式存儲數據
,
常用數據庫包括
RDF4J
、
gStore
、
GraphDB
等
;
第二種是基于原生圖數據的
識圖譜的數據源主要包括三類
:
一是結構化數據
,
包括關系型數據以及開放鏈接數據
;
二是半結構化
數據.包括各類百科數據等
;
三是以文本為代表的非
結構化數據.目前結構化數據和文本數據是知識圖譜
最主要的知識來源
存儲
,
該模式以屬性圖方式存儲數據
,
常用數據庫
包括
Neo4j
、
JanusGraph
OrientDB
s
等;第三種是
基于關系數據庫的存儲
,
該模式以表格的形式存
知識抽取一般通過圖譜構建工具實現,
涉及自然
語言處理
、深度學習等技術
。
2.3
知識融合
儲數據
「
譜的應用依賴于圖的挖掘計算與知識推理等技術"
3
行業典型應用范例
知識圖譜為多源
、融合海關內外部包括外匯
異構
、
動態海量數據的表達
,
管理及應用提供了一種更為有效的方式
。
國內關于知
識圖譜的研究雖仍處于起步階段
,
但已在金融,
、
醫療
、
司法
、
電商
、
政府管理等領域得到了廣泛應用并取得
成效
。
3.44.1
服務政府管理助力疫情防控與復工復產
,
面對嚴峻復雜的新冠肺炎疫情形勢
,
為滿足國
家在疫情防控與復工復產方面的迫切需求
,
以國家
衛生健康委員會
、鐵路總公司等單位
交通運輸部
、
提供的權威數據作為數據源
,
利用知識圖譜技術.、
形成包括進口冷鏈商品檢驗
圍繞病例假
、
疫區
、
交通工具和活動地點等本體建立
知識產權侵權
疫情知識圖譜
,
通過個人密接情況查詢
、
基層住戶
健康情況精準管控譜
、交通站點流動人員健康情況自
動識別
、
企業員工健康狀態掌握等服務
,
及時發現球疫情疫區變動情況
知識
感染病例
,
為政府
、
企業及個人的疫情防控與復工
復產提供參考依據
。,
3.2
服務公共安全
,筑牢平安中國的社會治理防線同
近年來
,
在公共安全領域的很多案件中不難發
現
,。
犯罪分子作案手法愈發隱秘
,
案件破獲的難度
也越來越大、
。
圍繞公共安全領域重點關注的人
、
事
地
、、、、
物
組織
、提前在準入階段對風險較高的商品進行布控
虛擬身份等本體
,、
以案件
軌跡
通訊
社交
、
個人背景
、
工商稅務
、
、
銀行交易等信息為
數據源構建公共安全知識圖譜
,
借助知識推理幫助
警務人員快速掌握涉案人員關系
,
推理預測涉案人
員家庭
、運單
社交
、、
隱藏關系人等情況
,
快速
、
精準鎖
定目標
。
3.3
服務公眾健康
,
實現尋醫問診足不出戶⑴
醫學知識博大精深
,。
醫療領域專家在實踐過程中
積累了豐富的臨床經驗
,可以從特定風險點出發
并針對各類疾病形成了完整
的知識體系、、
。
圍繞疾病
、、醫
癥狀
藥品
臨床路徑
生等本體構建醫學領域知識圖譜
,
可以幫助患者快速
查詢到與所關注疾病相關的臨床表現
、
治療方法等
;
通過挖掘癥狀與藥品
、
癥狀與體征
、
癥狀組合與藥品
之間的關系等.幫助臨床醫生進行決策
。
中國口岸科學技術
4
海關應用場景舉例
圍繞海關業務中涉及的企業
、
人
、
運輸工具
、
口
岸
、
國家地區
、
商品
/
物品
、
執法信息等對象充分
,
、
報關單
、、
提運單
工商總
局企業注冊登記
、
互聯網文本等各類信息
,構建海關
大數據知識圖譜
可以有效協助海關業務人員快速準
確地發現關鍵信息.實現海關監管服務中效率與安全
兼顧的目標
。
進口商品風險甄別與防控
通過梳理整合境外疫情疫區信息
、
進境食品和化
妝品風險信息
、
進出口商品假冒偽劣及知識產權侵權
風險信息
、、
海關內部企業注冊信息
海關檢驗檢疫要
求
貨物通關等數據
,
、
危化品檢驗
、
食品和化妝品檢驗
、、
冒偽劣商品檢驗等在內的進口商品檢驗檢疫知識圖
,
海關業務人員可以通過知識圖譜檢索及時了解全
、
不同商品檢驗檢疫要求
、
產權侵權
、
假冒偽劣商品種類及產銷地等
;通過圖譜
拓展
從特定商品出發
,
準確直觀地獲取相關商品的
軌跡及企業信息
,
并利用圖計算等技術,迅速掌握商
品攜帶疫情的幾率,
有效阻止傳染病和檢疫性有害生
物的傳播
此外
,
海關業務人員可以通過圖譜的關聯
CHINASCIENCE
PORT
AND
TECHNOLOGY
內外部的企業注冊
、
吊銷等信息,
建立企業與企業
、
企
合海關各業務領域的各類數據資源
,
沉淀專家經驗.
業與人人與人之間的關系圖譜以此為基礎,
、
從特定
直觀展示海關通關業務中各個主體之間的關系.為海
關管理提供新模式
、
新思路
,
同時基于知識圖譜開展
機器學習
,
可以進一步提高模型預測結果準確性與可
的商品
、
運輸工具等線索出發
,
借助知識挖掘知識推
、
理
、
社群檢測等技術海關業務人員可以快速發現相關
,
線索所涉及主體間的潛在關系及關系的親密程度
,
找到
解釋性腦力支持
,
為實現
“”“
智慧海關
提供
”
未
來知識圖譜必將在推進海關治理能力和治理體系現代
具有異常通關行為的團體
,
進而鎖定作案對象
化建設進程中發揮重要作用
5
結語
[
該文經
CNKI
學術不端文獻檢測系統檢測
,
總
通過建設海關大數據知識圖譜.不僅可以有效整
文字復制比為
6.2%o
】
參考文獻
[
1
]
王昊奮
,
漆桂林陳華鈞
,
.
知識圖譜'方法
、
實踐與應用
[
M
]
,
電子工業出版社.
2019:
1-270,
420-461.
[
242(10)
]
馬忠貴、
,.工程科學學報,
倪潤寧余開航
,
知識圖譜的最新進展
關鍵技術和挑戰
[
J
]
,
2020,
:
1254-1266.
[]
3C
] ffiltt:
周鵬,
,
胡運濤
茂
.
知識圖詵作公安領域的構建與應用研究,
[
.
第八屆中國指揮控制大會論文集
2020
378-384.
⑷雷瑛.李軍訃.曾熠.
,
等
多源數據融合的軍事伽識圖譜構建
[,
C:
]
,
第八屆中國指揮控制大會論文集
2020
220-225.
(文章類別
:
CPST-A)
96

本文發布于:2023-11-08 22:44:17,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1699454658210037.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:海關大數據知識圖譜構建技術及應用.doc
本文 PDF 下載地址:海關大數據知識圖譜構建技術及應用.pdf
| 留言與評論(共有 0 條評論) |