[發明專利]一種基于富文本特征的新聞實體鏈接方法和系統在審
| 申請號: | 202210055153.0 | 申請日: | 2022-01-18 |
| 公開(公告)號: | CN114416923A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 辛宇 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 楊琪宇 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 特征 新聞 實體 鏈接 方法 系統 | ||
1.一種基于富文本特征的新聞實體鏈接方法,其特征在于,所述方法包括如下步驟:
構建候選實體的知識圖譜,其中所述知識圖譜包括指稱實體和候選實體;
獲取新聞數據,從所述新聞數據中識別指稱實體,根據所述指稱實體從所述知識圖譜中查找候選實體;
將所述新聞數據進行分句獲取上下文短句列表,篩選包含所述指稱實體的所有上下文短句,生成上下文特征列表;
獲取候選實體的描述文本特征和附加屬性特征,構建富文本特征;
將所述富文本特征輸入到二分類模型中訓練,訓練完畢后用于預測指稱實體和候選實體的匹配的分類概率。
2.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,獲取新聞數據后,根據新聞數據中文本的標點符號進行分句,遍歷所有分句后篩選出包括所述指稱實體的上下問短句作為所述上下文特征列表。
3.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,所述實體的抽取方法包括:調用分詞算法或實體識別算法抽取新聞數據文本中的包括人物、機構和地理信息,生成指稱實體列表。
4.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,在所述知識圖譜中通過調用搜索獲取指稱實體對應的候選實體列表。
5.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,通過對所述知識圖譜的搜索獲取所述指稱實體對應的描述文本特征和對應候選實體的附屬屬性特征,將所述上下文特征列表、描述文本特征和附屬屬性特征組裝成富文本特征,輸入到二分類模型中訓練。
6.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,所述富文本特征的組裝方法包括:遍歷上下文特征列表,將所述上下文特征列表的每個上下文特征輸入到BERT模型中,輸出上下文特征向量,所有的上下文特征向量進行累加得到上下文輸入值V1。
7.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,獲取候選實體對應的知識圖譜描文本,并將所述描述文本輸入到BERT模型中輸出描述文本輸入值,將所述描述文本輸入值結合所述上下文輸入值進行自注意力attention計算得到第一結合輸入值V2,將候選實體的附加屬性進行編碼得到屬性輸入值V3,將所述屬性輸入值V3和第一結合輸入值V2累加得到最終的模型輸入值V作為富文本特征。
8.根據權利要求1所述的一種基于富文本特征的新聞實體鏈接方法,其特征在于,設置所述二分類模型的分數閾值,當輸出的候選實體和指稱實體的二分類分數大于所述分類閾值,則判定候選實體和指稱實體匹配成功。
9.一種基于富文本特征的新聞實體鏈接系統,其特征在于,所述系統執行權利要求1-8中任意一項所述的一種基于富文本特征的新聞實體鏈接方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序可被處理器執行權利要求1-8中任意一項所述的一種基于富文本特征的新聞實體鏈接方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210055153.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能防火門閉門器試驗裝置
- 下一篇:支重輪應力測試方法





