[發明專利]實體識別方法、裝置、計算機可讀存儲介質和計算機設備在審
| 申請號: | 202010031702.1 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN113111656A | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 謝潤泉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 董慧 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 識別 方法 裝置 計算機 可讀 存儲 介質 設備 | ||
本申請涉及一種實體識別方法、裝置、計算機可讀存儲介質和計算機設備,所述方法包括:獲取待識別文本的分詞;確定相鄰所述分詞之間的緊密概率;將所述分詞進行組合得到緊鄰詞組;根據所述緊鄰詞組對應分詞的緊密概率,從所述緊鄰詞組中確定候選實體;確定所述候選實體的實體類型;當所述候選實體的實體類型為目標實體類型時,將所述候選實體作為目標實體。本實施例是通過緊密概率來預測緊鄰詞組是否可以作為候選實體,因此不需要為待識別文本的分詞設置位置標簽即可識別出候選實體,也不需要通過復雜的訓練過程來訓練模型以實現實體識別,包括嵌套實體的識別,簡化了實體識別過程,提高了實體識別效率。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種實體識別方法、裝置、計算機可讀存儲介質和計算機設備。
背景技術
隨著人工智能和大數據技術的發展,對于自然語言處理的技術需求不斷提高,其中,實體識別作為語義理解、語音合成等任務的必要前操作,在自然語言理解中具有重要的作用。實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名和專有名詞等。
目前實體識別任務中,主要關注人名、地名、機構名三個類別的實體識別,其類別相對固定,并且實體中的結構相對扁平化,較少嵌套結構。其中,嵌套結構的實體被稱為嵌套實體,存在包含結構的實體,比如,菜品實體“毛氏紅燒肉”中,“紅燒肉”也是菜品實體,再比如,“狗不理包子”中,“包子”也是菜品實體。
隨著自然語言處理深入到不同的垂類領域,比如餐飲、醫療、金融等,實體識別更加關注垂類實體的識別,比如餐飲中的菜品名識別、金融中的行業名識別。區別于傳統命名實體,垂類實體中存在很多嵌套實體,嵌套實體中的名詞可以作為一個實體,名詞詞組也可以作為一個實體,其特點是其類型范圍比較開放,同時實體間存在較多的嵌套結構。然而,目前能夠識別出嵌套實體的實體識別方法較少,且這些方法需要復雜的過程實現且識別效率低下,并不能滿足實際的識別需求。
發明內容
基于此,有必要針對目前實體識別方法比較復雜且效率低的技術問題,提供一種實體識別方法、裝置、計算機可讀存儲介質和計算機設備。
一種實體識別方法,包括:
獲取待識別文本的分詞;
確定相鄰所述分詞之間的緊密概率;
將所述分詞進行組合得到緊鄰詞組;
根據所述緊鄰詞組對應分詞的緊密概率,從所述緊鄰詞組中確定候選實體;
確定所述候選實體的實體類型;
當所述候選實體的實體類型為目標實體類型時,將所述候選實體作為目標實體。
在一個實施例中,所述根據所述緊鄰詞組對應分詞的緊密概率,從所述緊鄰詞組中確定候選實體包括:
獲取所述緊鄰詞組的外部特征資源;所述外部特征資源為采用所述緊鄰詞組從互聯網中獲取、用于反映所述緊鄰詞組的信息量的特征資源;
根據所述緊鄰詞組對應分詞的緊密概率和外部特征資源,從所述緊鄰詞組中確定候選實體。
在一個實施例中,所述確定相鄰所述分詞之間的緊密概率包括:
通過預測模型對所述相鄰所述分詞進行處理,得到緊密概率;
其中,所述預測模型為根據采集的關系訓練樣本,基于預設的網絡模型訓練獲取的,用于對輸入的各相鄰所述分詞進行處理,得到緊密概率;所述關系訓練樣本包括所述輸入的各相鄰所述分詞以及對應的緊密概率。
在一個實施例中,所述根據所述緊鄰詞組對應分詞的緊密概率,從所述緊鄰詞組中確定候選實體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010031702.1/2.html,轉載請聲明來源鉆瓜專利網。





