[發明專利]基于偏旁特征嵌入的中文命名實體識別網絡模型在審
| 申請號: | 202210157121.1 | 申請日: | 2022-02-21 |
| 公開(公告)號: | CN114510945A | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 何鳴;張英琪;秦帥;王勇;孫彧;王念濱;周連科;王紅濱 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 董玉嬌 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 偏旁 特征 嵌入 中文 命名 實體 識別 網絡 模型 | ||
基于偏旁特征嵌入的中文命名實體識別網絡模型,涉及自然語言處理與中文命名實體識別領域。解決了現有中文命名實體識別算法的語義識別的準確率和F值低的問題。將字符拆分成其偏旁構成的形式,將其映射為偏旁特征向量、并與單詞特征向量和字符特征向量,組合后輸入到Bi?LSTM編碼層中進行編碼中,編碼后的特征經CRF解碼層解碼后得到輸入文本的命名實體標簽,從而實現對中文命名實體的識別。本發明主要用于對中文命名實體進行識別。
技術領域
本發明涉及自然語言處理與中文命名實體識別領域。
背景技術
中文命名實體識別算法中以中文單詞特征嵌入(Word Embedding)和中文字符特征嵌入(Char Embedding)作為模型編碼器的輸入特征是近幾年的主流方法,盡管這些僅僅應用中文單詞和中文字符特征作為編碼器輸入特征的方法在中文命名實體識別領域有較好的效果,但是中文偏旁特征在命名實體識別領域卻被忽視。中文作為象形文字,其文字通常是由對應物件抽象而來,可以通過文字本身獲取到文字所表述的含義,而中文字符常常由一個或多個部分所組成,部分組成成分表述了字符或單詞的語義信息。
現有技術中的中文命名實體識別算法往往只考慮了用以中文單詞特征嵌入(WordEmbedding)和中文字符特征嵌入(Char Embedding)作為模型編碼器的輸入特征,導致該中文命名實體識別算法的語義識別的準確率和F值低,其F值表示精確度和召回率之間的平衡關系值,因此,以上問題亟需解決。
發明內容
本發明的目的是為了解決現有中文命名實體識別算法的語義識別的準確率和F值低的問題,本發明提供了一種基于偏旁特征嵌入的中文命名實體識別網絡模型。
基于偏旁特征嵌入的中文命名實體識別網絡模型,該網絡模型包括輸入層、單詞特征嵌入向量層、字符特征嵌入向量層、偏旁特征嵌入向量層、下連接層、Bi-LSTM編碼層、上連接層、CRF解碼層和輸出層;
輸入層,用于接收輸入的文本語句S={x1,x2,...,xn},并將文本語句S中的各字符,同時送入單詞特征嵌入向量層、字符特征嵌入向量層、偏旁特征嵌入向量層;其中,xi為語句中第i個字符,i=1,2,3……n,i為整數;
單詞特征嵌入向量層,用于根據分詞技術獲得文本語句S中字符xi的匹配詞序列wi1,wi2,…,wiP,根據字符xi的匹配詞序列中的各匹配詞,獲得各匹配詞的特征向量再根據各匹配詞的特征向量以及該匹配詞的權重值獲得字符xi的匹配詞特征向量
其中,wij為字符xi的匹配詞序列中的第j個匹配詞;j=1,2,……P,j和P均為整數;
為字符xi的第j個匹配詞的特征向量;
為字符xi的第j個匹配詞的權重值;
字符特征嵌入向量層,用于根據接收的字符xi與字符嵌入特征向量矩陣Wc間的關系,獲得字符xi的字符嵌入特征向量且其中,
C為字符嵌入特征向量矩陣中的中文字符的個數;
dc為字符嵌入特征向量的維度;
R表示實數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210157121.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:產科助產士專用智能助產架
- 下一篇:基于虛擬圖像建模的拆遷可視化系統





