[發明專利]一種實體識別與鏈接方法及裝置有效
| 申請號: | 202010177043.2 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111460821B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 曾祥榮 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N7/01 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張楠楠 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 鏈接 方法 裝置 | ||
本發明公開了一種實體識別與鏈接方法及裝置,包括:獲取當前輸入文本的第一字序列;將第一字序列和預設實體的第二字序列相結合輸入到BERT模型中得到輸出序列向量;根據輸出向量序列判斷當前輸入文本屬于預設實體的概率;將概率最大的預設實體確定為目標實體;將當前輸入文本和目標實體進行鏈接。通過識別當前輸入文本所述預設實體的概率來確定目標實體進而和目標實體實現鏈接,使得在識別了目標實體的同時又鏈接了目標實體,避免了誤鏈接情況的發生,解決了現有技術中如果實體識別部分識別出錯,必然導致實體鏈接失敗,進而導致出現嚴重的后果,提高了準確性和安全性。
技術領域
本發明涉及實體鏈接技術領域,尤其涉及一種實體識別與鏈接方法及裝置。
背景技術
大數據時代的到來,為人工智能的飛速發展帶來前所未有的數據紅利。在大數據的“喂養”下,人工智能技術獲得了前所未有的長足進步。其進展突出體現在以知識圖譜為代表的知識工程以及深度學習為代表的機器學習等相關領域。隨著深度學習對于大數據的紅利消耗殆盡,深度學習模型效果的天花板日益迫近。另一方面大量知識圖譜不斷涌現,這些蘊含人類大量先驗知識的寶庫卻尚未被深度學習有效利用。融合知識圖譜與深度學習,已然成為進一步提升深度學習模型效果的重要思路之一。而在知識圖譜技術中,最為基礎且重要的是實體的識別與實體鏈接技術。
現有技術的實體識別和鏈接的方法通常分成實體識別與實體鏈接兩個獨立的步驟。即先使用實體識別模塊識別出文本中的潛在實體,再通過實體鏈接模塊將潛在的實體鏈接到目標實體上。這種方法存在以下缺點:已有的實體識別與鏈接系統以流水線的方式前進行實體識別,再進行實體鏈接,因此會受到誤差傳遞的影響。即如果實體識別部分識別出錯,必然導致實體鏈接失敗,進而導致出現嚴重的后果。
發明內容
針對上述所顯示出來的問題,本方法基于識別當前輸入文本為預設實體的概率,將概率最大得預設實體確定是否為目標實體,然后將當前輸入文本和目標實體實現鏈接。
一種實體識別與鏈接方法,包括以下步驟:
獲取當前輸入文本的第一字序列;
將所述第一字序列和預設實體的第二字序列相結合輸入到BERT模型中得到輸出序列向量;
根據所述輸出向量序列判斷所述當前輸入文本屬于所述預設實體的概率;
將所述概率最大的預設實體確定為目標實體;
將所述當前輸入文本和所述目標實體進行鏈接。
優選的,所述獲取當前輸入文本的第一字序列,包括:
將所述當前輸入文本以漢字和標點符號為單位,拆分為第三字序列w=[w1,w2,…,wn],其中,n為所述當前輸入文本中字符的個數;
在所述第三字序列前增加第一特殊字符“[CLS]”,在所述第三字序列后增加第二特殊字符“[SEP]”;
將增加了特殊字符的所述第三字序列確定為所述第一字序列;
在將所述第一字序列和預設實體的第二字序列相結合輸入到BERT模型中得到輸出序列向量之前,所述方法還包括:
預先建立一個實體表E=[e1,e2,…,em],其中,所述m為所述實體表中的實體個數。
優選的,所述將所述第一字序列和預設實體的第二字序列相結合輸入到BERT模型中得到輸出序列向量,包括:
在實體表中抽取實體ej作為所述預設實體;其中,j∈[1,m]
將所述實體ej拆分為第二字序列其中k表示所述實體ej包含的字符的個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010177043.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種地鐵乘車指引系統
- 下一篇:一種自糾偏沉井及其糾偏方法





