[發(fā)明專利]命名體識別方法、裝置、電子設(shè)備和存儲介質(zhì)在審

申請?zhí)枺?/td>	201911078307.2	申請日：	2019-11-06
公開（公告）號：	CN111079418A	公開（公告）日：	2020-04-28
發(fā)明（設(shè)計）人：	尹坤;劉權(quán);陳志剛;王智國;胡國平	申請（專利權(quán)）人：	科大訊飛股份有限公司
主分類號：	G06F40/242	分類號：	G06F40/242;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京路浩知識產(chǎn)權(quán)代理有限公司 11002	代理人：	程琛
地址：	230088 安徽省***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	命名識別方法裝置電子設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種命名體識別方法，其特征在于，包括：

確定待識別文本；

基于所述待識別文本對應(yīng)領(lǐng)域的領(lǐng)域詞典，確定所述待識別文本中每個字的詞典特征向量；

將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中，得到所述命名體識別模型輸出的命名體識別結(jié)果；

其中，所述命名體識別模型是基于樣本文本中每個樣本字的字向量和詞典特征向量，以及每個樣本字的命名體標(biāo)記訓(xùn)練得到的。

2.根據(jù)權(quán)利要求1所述的命名體識別方法，其特征在于，所述命名體識別模型包括輸入編碼層、詞典特征選擇層和標(biāo)簽預(yù)測層；

對應(yīng)地，所述將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中，得到所述命名體識別模型輸出的命名體識別結(jié)果，具體包括：

將所述待識別文本中每個字的字向量和詞典特征向量輸入至所述輸入編碼層，得到所述輸入編碼層輸出的每個字的隱層向量；

將每個字的隱層向量和詞典特征向量輸入至所述詞典特征選擇層，得到所述詞典特征選擇層輸出的每個字的注意力特征向量；

將每個字的注意力特征向量輸入至所述標(biāo)簽預(yù)測層，得到所述標(biāo)簽預(yù)測層輸出的所述命名體識別結(jié)果。

3.根據(jù)權(quán)利要求2所述的命名體識別方法，其特征在于，所述將每個字的隱層向量和詞典特征向量輸入至所述詞典特征選擇層，得到所述詞典特征選擇層輸出的每個字的注意力特征向量，具體包括：

基于任一字的隱層向量和詞典特征向量，確定所述任一字相對于每一詞典特征的權(quán)重；

基于所述任一字相對于每一詞典特征的權(quán)重，對所述任一字的詞典特征向量進(jìn)行加權(quán)，得到所述任一字的注意力特征向量。

4.根據(jù)權(quán)利要求3所述的命名體識別方法，其特征在于，所述將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中，得到所述命名體識別模型輸出的命名體識別結(jié)果，之前還包括：

基于損失函數(shù)對初始模型進(jìn)行訓(xùn)練，得到所述命名體識別模型；

其中，所述損失函數(shù)包括識別結(jié)果損失函數(shù)和權(quán)重?fù)p失函數(shù)，其中所述識別結(jié)果損失函數(shù)對應(yīng)于所述命名體識別結(jié)果，所述權(quán)重?fù)p失函數(shù)對應(yīng)于字相對于每一詞典特征的權(quán)重。

5.根據(jù)權(quán)利要求1所述的命名體識別方法，其特征在于，所述領(lǐng)域詞典包括對應(yīng)于不同命名體類型的詞典；

對應(yīng)地，所述基于所述待識別文本對應(yīng)領(lǐng)域的領(lǐng)域詞典，確定所述待識別文本中每個字的詞典特征向量，具體包括：

基于對應(yīng)于任一命名體類型的詞典，確定所述待識別文本中每一字對應(yīng)于所述任一命名體類型的詞典特征；

基于任一字對應(yīng)于每一命名體類型的詞典特征，確定所述任一字的詞典特征向量。

6.根據(jù)權(quán)利要求5所述的命名體識別方法，其特征在于，所述基于任一字對應(yīng)于每一命名體類型的詞典特征，確定所述任一字的詞典特征向量，具體包括：

向量化任一字對應(yīng)于每一命名體類型的詞典特征，得到所述任一字的特征向量；

稀疏化處理所述任一字的特征向量，得到所述任一字的詞典特征向量。

7.一種命名體識別裝置，其特征在于，包括：

文本確定單元，用于確定待識別文本；

詞典匹配單元，用于基于所述待識別文本對應(yīng)領(lǐng)域的領(lǐng)域詞典，確定所述待識別文本中每個字的詞典特征向量；

命名體識別單元，用于將所述待識別文本中每個字的字向量和詞典特征向量輸入至命名體識別模型中，得到所述命名體識別模型輸出的命名體識別結(jié)果；

其中，所述命名體識別模型是基于樣本文本中每個樣本字的字向量和詞典特征向量，以及每個樣本字的命名體標(biāo)記訓(xùn)練得到的。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司，未經(jīng)科大訊飛股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911078307.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】