[發(fā)明專利]實體識別方法、裝置、設備及存儲介質在審
| 申請?zhí)枺?/td> | 202010161830.8 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111401065A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設計)人: | 戚思驊;鄒輝 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/30 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 識別 方法 裝置 設備 存儲 介質 | ||
本發(fā)明涉及人工智能技術領域,公開了一種實體識別方法、裝置、設備及存儲介質,用于提高實體識別的精確度和識別效率。所述方法包括:接收用戶輸入目標領域的待識別語句;將待識別語句進行切詞處理得到對應詞塊并向量化處理得到文本詞向量;將文本詞向量分別輸入預置深度學習模型、預置統(tǒng)計模型、預置詞典模型或通過使用預置正則表達式進行實體預測,分別得到對應實體識別結果集合;并將得到對應實體識別結果集合進行合并;判斷合并得到實體識別結果集合中是否存在一個實體對應多個識別結果,并根據判定結果進行相應處理,得到待識別語句中各個字段對應的目標實體識別結果集合。
技術領域
本發(fā)明涉及人工智能的語義解析技術領域,尤其涉及一種實體識別方法、裝置、設備及存儲介質。
背景技術
目前在自然語言處理領域命名實體識別主要采用單一實體識別模型逐一對各實體進行實體識別,單一實體識別模型識別準確度低且識別效率低,并且無法識別不同類型的實體;此外,針對目標領域,譬如保險領域,尚不存在特定的實體識別算法。
發(fā)明內容
本發(fā)明的主要目的在于解決由于單一實體識別模型識別準確度低且效率低的技術問題。
為實現上述目的,本發(fā)明第一方面提供了一種實體識別方法,包括:
接收用戶輸入目標領域的待識別語句;
將所述待識別語句進行切詞處理得到對應詞塊,并將所述詞塊進行向量化處理得到所述待識別語句的文本詞向量;
將所述文本詞向量輸入預置深度學習模型進行實體預測,得到對應的第一實體識別結果集合;
將所述文本詞向量輸入預置統(tǒng)計模型對進行實體預測,得到對應的第二實體識別結果集合;
使用預置正則表達式對所述待識別語句進行實體預測,得到對應的第三實體識別結果集合;
將所述文本詞向量輸入預置詞典模型進行實體預測,得到對應的第四實體識別結果集合;
將所述第一實體識別結果集合、第二實體識別結果集合、第三實體識別結果集合、第四實體識別結果集合進行合并,得到第五實體識別結果集合;
判斷所述第五實體識別結果集合中是否存在一個實體對應多個識別結果,并根據判定結果進行相應處理,得到所述待識別語句中各個字段對應的目標實體識別結果集合。
可選的,在本發(fā)明第一方面的另一種實現方式中,所述根據判定結果進行相應處理、得到所述待識別語句中各個字段對應的目標實體識別結果集合包括:
若判定出不存在一個實體對應多個識別結果,則將第五實體識別結果集合作為所述待識別語句中各個字段對應的目標實體識別結果集合;
若判定出存在一個實體對應多個識別結果,則通過預置條件隨機場模型對所述對應多個實體識別結果進行校驗處理,所述預置條件隨機場模型中預先設置所述實體識別結果應符合的約束性規(guī)則;
對校驗處理后得到的第六實體識別結果集合采用預設融合規(guī)則進行融合處理,得到所述待識別語句中各個字段對應的目標實體識別結果集合。
可選的,在本發(fā)明第一方面的另一種實現方式中,所述預設融合規(guī)則具體為對所述第六實體識別結果集合中的實體識別結果進行具有相交關系的集合取并集處理、具有包含與被包含關系的集合進行元素去重處理、以及將不具有任何包含關系或不具有任何相交關系的集合進行保留處理。
可選的,在本發(fā)明第一方面的另一種實現方式中,在所述接收用戶輸入目標領域的待識別語句之前,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010161830.8/2.html,轉載請聲明來源鉆瓜專利網。





