[發明專利]一種實體識別及屬性判斷方法、系統、設備及介質有效
| 申請號: | 201811616647.1 | 申請日: | 2018-12-27 |
| 公開(公告)號: | CN109726398B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 陳筱牧;華迪 | 申請(專利權)人: | 奇安信科技集團股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 周天宇 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 屬性 判斷 方法 系統 設備 介質 | ||
1.一種實體識別及屬性判斷方法,用于確定測試文本中的實體及其屬性,其特征在于,包括:
S1,根據應用場景,獲取應用場景中涉及的多種實體,建立實體庫,其中,所述實體為具有不同屬性的字段;
S2,根據應用場景獲取訓練文本;
S3,根據正則規則和所述實體庫識別出所述訓練文本中涉及的第一實體;其中,所述第一實體包括:根據所述正則規則識別出所述訓練文本中具有特定標識的第三實體以及根據所述實體庫中的實體識別出所述訓練文本中涉及的第四實體;
S4,將所述第一實體以向量形式表示,并標注所述第一實體的屬性,得出不同屬性的第一實體的錨點向量庫;包括:將所述第一實體輸入詞向量模型中,以使所述第一實體以向量形式表示;標注所述第一實體中所有實體的屬性;將所述第一實體中的至少一個關鍵字段對應的向量信息設置為錨點向量;并設置關鍵實體的中心向量值;
S5,提取所述測試文本中的第二實體,并將所述第二實體以向量形式表示;包括:根據所述正則規則識別出所述測試文本中具有特定標識的第五實體;根據所述實體庫中的實體識別出所述測試文本中涉及的第六實體,其中,第二實體包括第五實體以及第六實體;將所述第二實體輸入至詞向量模型,以使所述第二實體以向量形式表示;
S6,根據所述第二實體的向量值和所述第一實體的錨點向量庫確定所述第二實體的屬性。
2.根據權利要求1所述的實體識別及屬性判斷方法,其特征在于,所述根據所述實體庫中的實體識別出所述訓練文本中涉及的第四實體具體包括:根據所述實體庫中的實體檢索所述訓練文本中的字段,若所述字段包含在所述實體庫中,則確定所述字段為第四實體。
3.根據權利要求1所述的實體識別及屬性判斷方法,其特征在于,根據所述第二實體的向量值和所述第一實體的錨點向量庫確定所述第二實體的屬性具體包括:
計算所述第二實體向量值與所述錨點向量之間的距離,根據所述距離判斷所述第二實體的屬性。
4.根據權利要求1所述的實體識別及屬性判斷方法,其特征在于,還包括:判斷所述第二實體及其屬性的正確性,若錯誤,則更正所述第二實體及其屬性,并計算出所述第二實體的錨點向量,并將所述錨點向量存入所述錨點向量庫。
5.一種電子設備,其特征在于,所述設備包括:
處理器;
存儲器,其存儲有計算機可執行程序,該程序在被所述處理器執行時,使得所述處理器執行如權利要求1-4中任意一項所述的實體識別及屬性判斷方法。
6.一種實體識別及屬性判斷系統,其特征在于,包括:
實體庫建立模塊,用于根據應用場景,獲取應用場景中涉及的多種實體,建立實體庫,其中,所述實體為具有不同屬性的字段;
訓練文本設計模塊,用于根據應用場景獲取訓練文本;
訓練文本中實體識別模塊,用于根據正則規則和所述實體庫識別出所述訓練文本中涉及的第一實體;其中,所述第一實體包括:根據所述正則規則識別出所述訓練文本中具有特定標識的第三實體以及根據所述實體庫中的實體識別出所述訓練文本中涉及的第四實體;
錨點向量庫建立模塊,用于將所述第一實體以向量形式表示,并標注所述第一實體的屬性,得出不同屬性的第一實體的錨點向量庫;包括:將所述第一實體輸入詞向量模型中,以使所述第一實體以向量形式表示;標注所述第一實體中所有實體的屬性;將所述第一實體中的至少一個關鍵字段對應的向量信息設置為錨點向量;并設置關鍵實體的中心向量值;
測試文本中實體識別模塊,用于提取所述測試文本中的第二實體,并將所述第二實體以向量形式表示;包括:根據所述正則規則識別出所述測試文本中具有特定標識的第五實體;根據所述實體庫中的實體識別出所述測試文本中涉及的第六實體,其中,第二實體包括第五實體以及第六實體;將所述第二實體輸入至詞向量模型,以使所述第二實體以向量形式表示;
測試文本中實體屬性確認模塊,用于根據所述第二實體的向量值和所述第一實體的錨點向量庫確定所述第二實體的屬性。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-4中任意一項所述實體識別及屬性判斷方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇安信科技集團股份有限公司,未經奇安信科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811616647.1/1.html,轉載請聲明來源鉆瓜專利網。





