[發明專利]一種循環更新迭代的期刊文獻知識圖譜構建方法有效
| 申請號: | 202010084144.5 | 申請日: | 2020-02-10 |
| 公開(公告)號: | CN111209412B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 呂強;段飛虎;蔡隕;謝一鳴;胡磊;馮自強;張宏偉 | 申請(專利權)人: | 同方知網數字出版技術股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/242 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 王澤云 |
| 地址: | 100192 北京市海淀區西小口路66號中關村東升科技*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 循環 更新 期刊 文獻 知識 圖譜 構建 方法 | ||
1.一種循環更新迭代的期刊文獻知識圖譜構建方法,其特征在于,所述方法包括:
A概念模型設計,定義期刊文獻知識圖譜的本體結構,包括定義本體、本體的關系屬性和本體內部的數據屬性;
B管理詞表和語料,詞表分為主題詞表和關系詞表,語料庫分為文本庫和語句庫并涉及多個來源的語料;
C基于深度學習的標注、訓練、識別、校準實體關系抽取模型,采用深度學習實體關系抽取技術結合詞表和語料,進行實體抽取和關系抽取,并更新迭代;
D通過概念設計定義的本體結構并引入模板進行語料屬性抽取;
E對實體識別和關系抽取的結果進行審核和消歧,對于屬性抽取的結果進行實體消歧;
F識別結果存入知識圖譜,并不定時更新主題詞表、關系詞表和訓練模型,以新的詞表和模型再對語料進行識別達到循環迭代更新構建知識圖譜。
2.如權利要求1所述的循環更新迭代的期刊文獻知識圖譜構建方法,其特征在于,所述步驟A中:
本體為對象或對象的集合;
本體的關系屬性用于定義本體之間的關聯關系;
本體內部的數據屬性是本體自身的特征不存在關聯關系。
3.如權利要求1所述的循環更新迭代的期刊文獻知識圖譜構建方法,其特征在于,所述步驟B中:
主題詞表定義了實體詞的來源、領域與子領域屬性;
關系詞表定義了主題詞表實體詞之間的關系,并在文獻期刊中對詞關系定義了上下位、相似、反義與相關關系;
文本庫是網絡期刊文獻和本地資源的集合庫,主要存儲文獻數據;對文本庫的期刊文獻進行了預處理,形成了語句庫;所述語句庫中包含來自期刊文獻的語句以及主題詞表中實體詞所在語句的位置。
4.如權利要求1所述的循環更新迭代的期刊文獻知識圖譜構建方法,其特征在于,所述步驟C中實體抽取的更新迭代包括:
使用詞表對語料集進行標注,對在語料中出現的實體詞標注標簽;
選取實體識別算法對標注集進行訓練;
使用訓練好的標注模型繼續對語料進行識別,并將識別結果進行校準將主題詞表中未出現的新詞保存到主題詞表中;
再次用更新后的詞表進行標注,并再次訓練更新模型和詞表。
5.如權利要求1所述的循環更新迭代的期刊文獻知識圖譜構建方法,其特征在于,所述步驟C中關系抽取的更新迭代包括:
使用關系詞表和已有的關系抽取模板對語句集進行標注,并形成訓練模型;
選取關系抽取算法對標注集進行訓練,關系抽取模型選取PCNN+Attention算法;
使用訓練模型對新的語料進行關系識別,并將識別結果保存到數據庫中通過人工審核進行糾正并保存到關系詞表和語句集中,為新的訓練樣本進行語料儲備;
使用新的訓練樣本再次識別語料并做循環迭代。
6.如權利要求1所述的循環更新迭代的期刊文獻知識圖譜構建方法,其特征在于,所述步驟D中屬性抽取采用了依存句法分析模型,屬性抽取過程如下:
結合概念設計中定義的本體結構和數據屬性,形成實體屬性模板并在語句集中遍歷實體與存在相關屬性的語句;
采用CRF算法對語句進行詞性標注;
將標注結果代入句法分析器進行句法分析;
通過匹配語法模板來分析句法結果并抽取屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網數字出版技術股份有限公司,未經同方知網數字出版技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010084144.5/1.html,轉載請聲明來源鉆瓜專利網。





