[發明專利]實體識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202210148608.3 | 申請日: | 2022-02-17 |
| 公開(公告)號: | CN114528841A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 劉歡 | 申請(專利權)人: | 平安普惠企業管理有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種實體識別方法,其特征在于,所述方法包括:
接收待識別文本,確定所述待識別文本對應的目標領域;
當所述目標領域對應的攜帶標簽信息的樣本的數量小于數量閾值時,從預設數據庫獲取多個領域中每個領域對應的攜帶標簽信息的樣本,得到樣本集;
基于所述樣本集的標簽信息確定所述樣本集對應的標簽類別集,并計算所述標簽類別集中標簽類別之間的轉移概率,基于所述轉移概率確定所述標簽類別集對應的標簽轉移矩陣;
對所述待識別文本及所述樣本集執行編碼處理,得到所述待識別文本中每個字符對應的第一特征向量,及所述樣本集對應的字符集中每個字符對應的第二特征向量;
基于所述第一特征向量、所述第二特征向量及所述樣本集的標簽信息確定所述待識別文本中每個字符對應的標簽分布數組,基于所述標簽分布數組確定所述待識別文本對應的標簽分布矩陣;
將所述標簽分布矩陣及所述標簽轉移矩陣輸入第一實體識別模型,得到實體識別結果。
2.如權利要求1所述的實體識別方法,其特征在于,所述確定所述待識別文本對應的目標領域,包括:
對所述待識別文本執行分詞處理,得到詞語集合;
將所述詞語集合中的每個詞語分別與每個領域對應的詞語庫進行匹配,得到每個領域對應的匹配詞集合;
將匹配詞數量最多的匹配詞集合對應的領域作為所述待識別文本對應的目標領域。
3.如權利要求1所述的實體識別方法,其特征在于,所述對所述待識別文本及所述樣本集執行編碼處理,得到所述待識別文本中每個字符對應的第一特征向量,及所述樣本集對應的字符集中每個字符對應的第二特征向量,包括:
將所述待識別文本分別與所述樣本集中每個樣本組合,得到多個樣本對;
將每個樣本對分別輸入編碼模型執行編碼處理,得到每個樣本對中每個字符的編碼向量;
計算每個字符的編碼向量的平均值,得到所述待識別文本中每個字符的第一特征向量,及所述樣本集對應的字符集中每個字符的第二特征向量。
4.如權利要求1所述的實體識別方法,其特征在于,所述基于所述第一特征向量、所述第二特征向量及所述樣本集的標簽信息確定所述待識別文本中每個字符對應的標簽分布數組,包括:
基于所述第一特征向量、所述第二特征向量及所述樣本集的標簽信息依次計算所述待識別文本中每個字符在所述標簽類別集中每個標簽類別的概率值;
匯總所述概率值,得到所述待識別文本中每個字符對應的標簽分布數組。
5.如權利要求4所述的實體識別方法,其特征在于,所述概率值的計算公式為:
其中,fij為待識別文本中第i個字符在標簽類別集中第j個標簽類別的概率值,Ck為樣本集對應的字符集中第k個字符的標簽類別,Yj為標簽類別集中第j個標簽類別,N為樣本集對應的字符集中字符的總數量,ei為待識別文本中第i個字符的第一特征向量,ek為樣本集對應的字符集中第k個字符的第二特征向量,Sim(ei,ek)為待識別文本中第i個字符與樣本集對應的字符集中第k個字符的相似度值,I(CK=Yj)為指示函數,若樣本集對應的字符集中第k個字符的標簽類別與標簽類別集中第j個標簽類別相同,則I為1,若樣本集對應的字符集中第k個字符的標簽類別與標簽類別集中第j個標簽類別不同,則I為0。
6.如權利要求1所述的實體識別方法,其特征在于,若所述目標領域對應的攜帶標簽信息的樣本的數量大于或等于數量閾值,所述方法包括:
采用所述目標領域對應的攜帶標簽信息的樣本訓練第二實體識別模型,得到訓練好的第二實體識別模型;
基于所述訓練好的第二實體識別模型對所述待識別文本執行實體識別處理,得到實體識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安普惠企業管理有限公司,未經平安普惠企業管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210148608.3/1.html,轉載請聲明來源鉆瓜專利網。





