[發明專利]一種多源異構政策知識圖譜構建和存儲方法及系統在審
| 申請號: | 202310418582.4 | 申請日: | 2023-04-19 |
| 公開(公告)號: | CN116361487A | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 羅輯;周松;周旺;雷雪峰 | 申請(專利權)人: | 中電云數智科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/31;G06N5/02;G06N5/01;G06F18/25 |
| 代理公司: | 北京尚鉞知識產權代理事務所(普通合伙) 11723 | 代理人: | 嚴田青 |
| 地址: | 430058 湖北省武漢市蔡甸區經濟*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多源異構 政策 知識 圖譜 構建 存儲 方法 系統 | ||
1.一種多源異構政策知識圖譜構建和存儲方法,其特征在于,所述方法包括:
S1.進行多源異構政策數據管理,利用數據源數據集管理系統、NLP模型、OCR模型對多源異構政策數據實施分類管理;
S2.基于先驗規則引導融合模型進行知識融合;
S3.構建政策知識圖譜基礎模型;
S4.利用任務調度引擎進行知識抽取和導入,并將結果存入圖數據存儲系統中。
2.根據權利要求1所述的多源異構政策知識圖譜構建和存儲方法,其特征在于,步驟S1中所述進行多源異構政策數據管理,利用數據源數據集管理系統、NLP模型、OCR模型對多源異構政策數據實施分類管理,包括:
S11.對于結構化數據,通過數據源數據集管理系統實現對接,系統只進行數據源連接信息和元數據管理,原始數據存儲在用戶端數據庫;
S12.對于半結構化數據,首先將其存入系統內置的文件存儲系統;然后,針對常規結構的半結構化數據,利用系統內置的解析引擎進行知識抽取和轉換,針對特殊結構的半結構化數據,通過新增自定義解析規則進行數據解析,利用解析后的數據生成結構化知識數據以及對應的元數據信息,并將所得結構化知識數據導入系統內置庫進行數據存儲;
S13.對于非結構化數據,首先將其存入系統內置的文件存儲系統,并根據增量規則和文件類型對數據進行分類;然后,針對文本數據,系統根據政策類型匹配相應的NLP模型進行數據解析,針對圖片數據,系統根據政策類型選擇對應的OCR模型進行文本提取,在此基礎上匹配相應的NLP模型進行數據解析,利用解析后的數據生成結構化知識數據以及對應的元數據信息,在系統內置數倉中創建對應的數據集并將所得結構化知識數據導入其中。
3.根據權利要求2所述的多源異構政策知識圖譜構建和存儲方法,其特征在于,
S11中所述結構化數據包括關系型數據庫存儲的表、視圖;
S12中所述半結構化數據包括json、xml、日志;
S13中所述非結構化數據包括word文本、pdf和jpg圖片。
4.根據權利要求1所述的多源異構政策知識圖譜構建和存儲方法,其特征在于,步驟S2中所述基于先驗規則引導融合模型進行知識融合,包括:
S21.根據政策領域的先驗知識,構建一套先驗性融合規則;
S22.將所述先驗性融合規則應用于政策知識抽取后得到的實體和關系數據;
S23.采用基于融合模型的知識融合方案對政策知識數據進行二次融合,輸出最終的融合結果。
5.根據權利要求4所述的多源異構政策知識圖譜構建和存儲方法,其特征在于,步驟S21中所述先驗性融合規則包括基于同義詞的融合方案、基于相似算法的融合方案、基于關聯關系的融合方案。
6.根據權利要求1所述的多源異構政策知識圖譜構建和存儲方法,其特征在于,步驟S3中所述構建政策知識圖譜基礎模型,所述政策知識圖譜基礎模型中包括:
四類實體:組織機構、政策文件、政策類型、關鍵詞;
四類關系:組織機構與政策文件之間的發布關系、政策文件與政策文件之間的相似關系、政策文件與政策類型之間的歸類關系、政策文件與關鍵詞之間的關聯關系。
7.根據權利要求6所述的多源異構政策知識圖譜構建和存儲方法,其特征在于,所述政策類型包括請示、報告、意見、函、通知、紀要、議案、命令、決定、公告、通告、通報、批復、決議、公報;
所述關鍵詞包括基于NLP的關鍵詞抽取方法生成的關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電云數智科技有限公司,未經中電云數智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310418582.4/1.html,轉載請聲明來源鉆瓜專利網。





