[發(fā)明專利]命名體識別方法、裝置、電子設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201911078307.2 | 申請日: | 2019-11-06 |
| 公開(公告)號: | CN111079418A | 公開(公告)日: | 2020-04-28 |
| 發(fā)明(設(shè)計)人: | 尹坤;劉權(quán);陳志剛;王智國;胡國平 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 命名 識別 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種命名體識別方法,其特征在于,包括:
確定待識別文本;
基于所述待識別文本對應(yīng)領(lǐng)域的領(lǐng)域詞典,確定所述待識別文本中每個字的詞典特征向量;
將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結(jié)果;
其中,所述命名體識別模型是基于樣本文本中每個樣本字的字向量和詞典特征向量,以及每個樣本字的命名體標(biāo)記訓(xùn)練得到的。
2.根據(jù)權(quán)利要求1所述的命名體識別方法,其特征在于,所述命名體識別模型包括輸入編碼層、詞典特征選擇層和標(biāo)簽預(yù)測層;
對應(yīng)地,所述將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結(jié)果,具體包括:
將所述待識別文本中每個字的字向量和詞典特征向量輸入至所述輸入編碼層,得到所述輸入編碼層輸出的每個字的隱層向量;
將每個字的隱層向量和詞典特征向量輸入至所述詞典特征選擇層,得到所述詞典特征選擇層輸出的每個字的注意力特征向量;
將每個字的注意力特征向量輸入至所述標(biāo)簽預(yù)測層,得到所述標(biāo)簽預(yù)測層輸出的所述命名體識別結(jié)果。
3.根據(jù)權(quán)利要求2所述的命名體識別方法,其特征在于,所述將每個字的隱層向量和詞典特征向量輸入至所述詞典特征選擇層,得到所述詞典特征選擇層輸出的每個字的注意力特征向量,具體包括:
基于任一字的隱層向量和詞典特征向量,確定所述任一字相對于每一詞典特征的權(quán)重;
基于所述任一字相對于每一詞典特征的權(quán)重,對所述任一字的詞典特征向量進(jìn)行加權(quán),得到所述任一字的注意力特征向量。
4.根據(jù)權(quán)利要求3所述的命名體識別方法,其特征在于,所述將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結(jié)果,之前還包括:
基于損失函數(shù)對初始模型進(jìn)行訓(xùn)練,得到所述命名體識別模型;
其中,所述損失函數(shù)包括識別結(jié)果損失函數(shù)和權(quán)重?fù)p失函數(shù),其中所述識別結(jié)果損失函數(shù)對應(yīng)于所述命名體識別結(jié)果,所述權(quán)重?fù)p失函數(shù)對應(yīng)于字相對于每一詞典特征的權(quán)重。
5.根據(jù)權(quán)利要求1所述的命名體識別方法,其特征在于,所述領(lǐng)域詞典包括對應(yīng)于不同命名體類型的詞典;
對應(yīng)地,所述基于所述待識別文本對應(yīng)領(lǐng)域的領(lǐng)域詞典,確定所述待識別文本中每個字的詞典特征向量,具體包括:
基于對應(yīng)于任一命名體類型的詞典,確定所述待識別文本中每一字對應(yīng)于所述任一命名體類型的詞典特征;
基于任一字對應(yīng)于每一命名體類型的詞典特征,確定所述任一字的詞典特征向量。
6.根據(jù)權(quán)利要求5所述的命名體識別方法,其特征在于,所述基于任一字對應(yīng)于每一命名體類型的詞典特征,確定所述任一字的詞典特征向量,具體包括:
向量化任一字對應(yīng)于每一命名體類型的詞典特征,得到所述任一字的特征向量;
稀疏化處理所述任一字的特征向量,得到所述任一字的詞典特征向量。
7.一種命名體識別裝置,其特征在于,包括:
文本確定單元,用于確定待識別文本;
詞典匹配單元,用于基于所述待識別文本對應(yīng)領(lǐng)域的領(lǐng)域詞典,確定所述待識別文本中每個字的詞典特征向量;
命名體識別單元,用于將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中,得到所述命名體識別模型輸出的命名體識別結(jié)果;
其中,所述命名體識別模型是基于樣本文本中每個樣本字的字向量和詞典特征向量,以及每個樣本字的命名體標(biāo)記訓(xùn)練得到的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911078307.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:密鑰同步方法及系統(tǒng)
- 下一篇:一種同心工裝模具





