[發明專利]實體關系的抽取方法及裝置、存儲介質、電子設備在審
| 申請號: | 202011457766.4 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112579752A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 王博;張文劍;薛小娜 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/295 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 蔡良偉 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 關系 抽取 方法 裝置 存儲 介質 電子設備 | ||
1.一種實體關系的抽取方法,其特征在于,包括:
獲取待識別的原始自然語句;
基于預設通用規則識別所述原始自然語句中的問題實體;
采用預設神經網絡模型抽取所述問題實體的實體關系,其中,所述預設神經網絡模型基于通用語料訓練得到,所述實體關系用于在基于知識庫的問答系統KBQA中查詢與所述問題實體相關的答案實體。
2.根據權利要求1所述的方法,其特征在于,基于預設通用規則識別所述原始自然語句中的問題實體包括:
對所述原始自然語句進行清洗,刪除無關詞和無關符號,得到去停之后的中間語句;
基于所述中間語句從預設實體詞典中召回M個候選知識庫實體;
分別計算所述M個候選知識庫實體的目標特征,其中,所述目標特征包括字符級特征以及知識庫特征;
基于所述目標特征對所述M個候選知識庫實體進行特征度排序,在序列中選擇特征度最大的N個候選知識庫實體作為問題實體,其中,N≤M,M,N均為正整數。
3.根據權利要求2所述的方法,其特征在于,基于所述中間語句從預設實體詞典中召回M個候選知識庫實體包括以下至少之一:
將所述中間語句切片為多個子語句,在所述多個子語句中選擇命中所述預設實體詞典的子語句作為候選知識庫實體;
將所述中間語句切片為多個子語句,計算每個子語句與所述預設實體詞典的匹配度,選擇匹配度大于預設值的子語句作為候選知識庫實體。
4.根據權利要求2所述的方法,其特征在于,基于所述目標特征對所述M個候選知識庫實體進行特征度排序包括:
獲取所述目標特征的預設權重組合,其中,所述預設權重組合中的每個權值對應所述目標特征的一個特征維度,所述預設權重組合基于樣本數據采用先驗和后驗的方式調節得到;
采用所述權重組合加權求和所述目標特征的特征度;
基于所述目標特征對所述M個候選知識庫實體進行特征度排序。
5.根據權利要求1所述的方法,其特征在于,采用預設神經網絡模型抽取所述問題實體的實體關系包括:
針對每個問題實體,采用查詢語句在預設知識庫中對所述問題實體進行關系搜索,召回所述問題實體的實體關系集合;
分別計算所述實體關系集合的特征度,并基于所述特征度在所述實體關系集合中選擇多個候選實體關系;
分別計算所述多個候選實體關系與中間語句的文本相似度,并在所述多個候選實體關系中選擇文本相似度最高的實體關系作為所述問題實體的實體關系,其中,所述中間語句是所述原始自然語句在去停之后得到的語句。
6.根據權利要求5所述的方法,其特征在于,分別計算所述實體關系集合的特征度包括:
針對所述實體關系集合中的每個實體關系,提取所述實體關系與所述問題實體組成的路徑文本,以及提取所述原始自然語句在去停處理之后的中間語句文本;
計算所述路徑文本與所述中間語句文本之間的字符特征。
7.根據權利要求5所述的方法,其特征在于,分別計算所述多個候選實體關系與所述中間語句的文本相似度包括:
使用Word2vec模型獲取多個候選實體關系和所述中間語句的特征向量,其中,所述Word2vec模型基于通用語料訓練得到;
基于所述特征向量分別計算所述多個候選實體關系與所述中間語句之間的余弦相似度。
8.一種實體關系的抽取裝置,其特征在于,包括:
獲取模塊,用于獲取待識別的原始自然語句;
識別模塊,用于基于預設通用規則識別所述原始自然語句中的問題實體;
抽取模塊,用于采用預設神經網絡模型抽取所述問題實體的實體關系,其中,所述預設神經網絡模型基于通用語料訓練得到,所述實體關系用于在基于知識庫的問答系統KBQA中查詢與所述問題實體相關的答案實體。
9.一種存儲介質,其特征在于,所述存儲介質包括存儲的程序,其中,所述程序運行時執行上述權利要求1至7中任一項所述的方法步驟。
10.一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;其中:
存儲器,用于存放計算機程序;
處理器,用于通過運行存儲器上所存放的程序來執行權利要求1至7中任一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011457766.4/1.html,轉載請聲明來源鉆瓜專利網。





