[發明專利]命名實體識別方法和命名實體識別裝置在審
| 申請號: | 202011074537.4 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN114330341A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 揭展明;邴立東 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/205;G06F16/31 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 冀曉愷 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 裝置 | ||
本申請公開了一種命名實體識別方法和命名實體識別裝置。所述命名實體識別方法,包括:解析所述輸入文本,獲得所述輸入文本對應的多個候選依存樹結構;從所獲得的多個候選依存樹結構中利用推斷的方式獲得所述輸入文本對應的目標依存樹結構;將所述輸入文本和所述輸入文本對應的目標依存樹結構輸入命名實體識別模型,獲得所述輸入文本對應的命名實體序列。
技術領域
本申請涉及機器學習領域,特別是涉及一種命名實體識別方法和命名實體識別裝置。
背景技術
命名實體識別(Named Entity Recognition,簡稱NER),是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。命名實體識別是信息提取、問答系統、句法分析、機器翻譯、面向Semantic Web的元數據標注等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位。
命名實體識別(named entity recognition)在實際場景中運用廣泛,但是目前大部分的標注數據存在于英文中文以及其他常見的語言中,部分語言本發明實施例只有少量的命名實體標注,導致訓練出來的模型效果不盡人意。
此外,命名實體識別(NER)需要大量的注釋數據才能實現最先進的性能。實際上,對于電子商務域等新域中的低資源語言或數據集來說,為命名實體識別(NER)數據集提供如此大量的注釋是具有挑戰性的。在沒有某些域知識的情況下注釋這些數據并非易事。
前人的研究工作中展示了語言學上的依存樹結構(dependency tree structure)對提高命名實體識別效果有著顯著的作用,尤其是在一些訓練數據相對比較少的數據上。但是在這一方式存在以下問題:
1,依存樹結構依賴于大量的依存項標注,實際使用中針對新的語言、領域,通常沒有可用于命名實體識別數據集的依存項標注。
2,依存樹結構對提高命名實體識別的效果,僅僅是針對特定依存樹的特定語言或者域,如果遷移到其語言或域中,則識別性能下降很多。
3,針對目標語言,如果從外部解析器中獲取目標語言的依存樹,再進行命名實體識別,則這樣的分步模型很容易遭受級聯錯誤,導致命名實體識別性能低于最佳甚至有害。
發明內容
鑒于上述問題,本發明一實施例提出一種命名實體識別方法和命名實體識別裝置,以解決現有技術存在的問題。
為了解決上述問題,本申請一實施例公開一種命名實體識別方法,用于對包含至少兩個詞的輸入文本進行命名實體識別,所述方法包括如下步驟:
解析所述輸入文本,獲得所述輸入文本對應的多個候選依存樹結構;
從所獲得的多個候選依存樹結構中利用推斷的方式獲得所述輸入文本對應的目標依存樹結構;
將所述輸入文本和所述輸入文本對應的目標依存樹結構輸入命名實體識別模型組件,獲得所述輸入文本對應的命名實體序列。
為了解決上述問題,本申請一實施例公開一種命名實體識別裝置,包括:
解析模塊,用于解析所述輸入文本,獲得所述輸入文本對應的多個候選依存樹結構;
目標依存樹獲取模塊,用于從所獲得的多個候選依存樹結構中利用推斷的方式獲得所述輸入文本對應的目標依存樹結構;
命名實體序列獲取模塊,用于將所述輸入文本和所述輸入文本對應的目標依存樹結構輸入命名實體識別模型組件,獲得所述輸入文本對應的命名實體序列。
為了解決上述問題,本申請一實施例還公開一種電子裝置,該電子裝置包括:
存儲器,用于存儲計算機可讀程序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011074537.4/2.html,轉載請聲明來源鉆瓜專利網。





