[發明專利]一種軍事裝備的知識圖譜構建方法有效
| 申請號: | 202010084156.8 | 申請日: | 2020-02-10 |
| 公開(公告)號: | CN111309925B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 梅楚璇;段飛虎;鄧鳳;劉紅陽;郎志國;馮自強;張宏偉 | 申請(專利權)人: | 同方知網數字出版技術股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 王澤云 |
| 地址: | 100084 北京市海淀區西小口路66號中關村東升科技園B-2號樓二層B201、*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 軍事裝備 知識 圖譜 構建 方法 | ||
1.一種軍事裝備的知識圖譜構建方法,其特征在于,所述方法包括:
A構建軍事裝備知識圖譜;
B根據已有的圖譜數據,自動構建軍事裝備規則知識庫,包括實體規則和數值性規則;
C抽取軍事裝備實體,并根據已有的軍事裝備實體的特征,在非結構化的軍事語料中提取新的軍事裝備實體;
D基于提取的軍事裝備實體,將語料劃分為多個文本片段;
E抽取文本片段數值屬性,并分析已有的武器裝備的屬性;
F基于HowNet概念關系詞典,對知識圖譜中的實體詞進行上位詞、下位詞、同義詞、反義詞關系擴充;
G融合知識圖譜數據和基于知識規則庫得到的知識圖譜數據,并將融合后的知識圖譜數據進行加工;
所述步驟C中在非結構化的軍事語料中提取新的軍事裝備實體包括:
在待處理文本中提取出含有軍事裝備類別名的句子,替換掉字母、數字和特殊字符之后,作分句、分詞處理,查找類別名所在句子前后8個詞的范圍內的詞和類別名,查詢實體規則數據庫,按以下公式,確定該詞是否屬于軍事裝備實體,從而獲取實體的開始、結束位置;
其中,n(a)表示詞a在已有裝備中出現的概率,n(ab)表示詞a和詞b已有的裝備中共同出現的概率;若r值大于所設的閾值,則實體包含該詞語,直至r值小于閾值或超過劃定范圍停止;
根據獲取到的軍事裝備實體,根據類別名,得到類別名,SUB_ENTITY,軍事裝備實體,構建三元組;
所述步驟E中數值屬性抽取包括:
(1)數據準備,統計所有已知屬性值的單位、對應的屬性名稱,并將數據存入數據庫;
(2)文本預處理,將收集的所有的單位、屬性名稱構成詞典,加載后對文本片段分句、分詞;
(3)對其中的一個文本片段,若在文本中出現在同一個句子里或者相鄰出現的屬性名和單位,也在數據庫中出現過記錄,則該屬性值為該屬性名對應的值;
(4)將文本片段用BiLSTM+CRF模型進行命名實體識別,通過詞性標注獲取詞性標簽、根據依存句法分析得到依存標簽和句法依存樹,根據核心謂語和依存句法分析結果抽取其他屬性;
(5)將軍事裝備的屬性也構建成軍事裝備名,屬性名,屬性值關系三元組。
2.如權利要求1所述的軍事裝備的知識圖譜構建方法,其特征在于,所述步驟G中知識圖譜數據的融合具體包括:
(1)融合基于爬蟲得到的知識圖譜數據和基于知識規則庫得到的知識圖譜數據,并在融合的過程中構建簡稱和全稱的對應詞典,融合同義但不同表達的節點名與關系名;
(2)審核基于規則庫提取出的關系三元組;
(3)圖譜數據用數據庫Neo4j存儲,其中Neo4j支持節點、關系、路徑的搜索,滿足基于軍事裝備知識圖譜的搜索需求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網數字出版技術股份有限公司,未經同方知網數字出版技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010084156.8/1.html,轉載請聲明來源鉆瓜專利網。





