[發明專利]命名體識別方法、裝置、電子設備和存儲介質在審
| 申請號: | 201911078307.2 | 申請日: | 2019-11-06 |
| 公開(公告)號: | CN111079418A | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 尹坤;劉權;陳志剛;王智國;胡國平 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 識別 方法 裝置 電子設備 存儲 介質 | ||
本發明實施例提供一種命名體識別方法、裝置、電子設備和存儲介質,其中方法包括:確定待識別文本;基于待識別文本對應領域的領域詞典,確定待識別文本中每個字的詞典特征向量;將待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到命名體識別模型輸出的命名體識別結果;其中,命名體識別模型是基于樣本文本中每個樣本字的字向量和詞典特征向量,以及每個樣本字的命名體標記訓練得到的。本發明實施例提供的方法、裝置、電子設備和存儲介質,克服了由于詞條沖突導致的識別準確性低的問題,提高了命名體識別的準確性。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種命名體識別方法、裝置、電子設備和存儲介質。
背景技術
命名體識別(Named Entity Recognition,NER)是自然語言處理過程中的重要步驟,被廣泛應用到信息抽取、信息檢索、信息推薦以及機器翻譯等任務中。所謂命名體,是指自然語言中例如人名、地名、機構名稱以及歌曲名稱等具有特定意義的專有名詞。
現有技術中對于命名體的識別方法通常是基于領域詞典的匹配方法,將待識別文本與對應領域的領域詞典進行匹配,以確定待識別文本中的命名體。然而,領域詞典中的詞條可能存在沖突,導致命名體識別的準確性較低。
發明內容
本發明實施例提供一種命名體識別方法、裝置、電子設備和存儲介質,用以解決領域詞典中的詞條沖突導致命名體識別準確性低的問題。
第一方面,本發明實施例提供一種命名體識別方法,包括:
確定待識別文本;
基于所述待識別文本對應領域的領域詞典,確定所述待識別文本中每個字的詞典特征向量;
將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結果;
其中,所述命名體識別模型是基于樣本文本中每個樣本字的字向量和詞典特征向量,以及每個樣本字的命名體標記訓練得到的。
優選地,所述命名體識別模型包括輸入編碼層、詞典特征選擇層和標簽預測層;
對應地,所述將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結果,具體包括:
將所述待識別文本中每個字的字向量和詞典特征向量輸入至所述輸入編碼層,得到所述輸入編碼層輸出的每個字的隱層向量;
將每個字的隱層向量和詞典特征向量輸入至所述詞典特征選擇層,得到所述詞典特征選擇層輸出的每個字的注意力特征向量;
將每個字的注意力特征向量輸入至所述標簽預測層,得到所述標簽預測層輸出的所述命名體識別結果。
優選地,所述將每個字的隱層向量和詞典特征向量輸入至所述詞典特征選擇層,得到所述詞典特征選擇層輸出的每個字的注意力特征向量,具體包括:
基于任一字的隱層向量和詞典特征向量,確定所述任一字相對于每一詞典特征的權重;
基于所述任一字相對于每一詞典特征的權重,對所述任一字的詞典特征向量進行加權,得到所述任一字的注意力特征向量。
優選地,所述將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結果,之前還包括:
基于損失函數對初始模型進行訓練,得到所述命名體識別模型;
其中,所述損失函數包括識別結果損失函數和權重損失函數,其中所述識別結果損失函數對應于所述命名體識別結果,所述權重損失函數對應于字相對于每一詞典特征的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911078307.2/2.html,轉載請聲明來源鉆瓜專利網。





