[發明專利]一種結合軟詞典和漢字字形特征的中文命名實體識別方法在審
| 申請號: | 202211245600.5 | 申請日: | 2022-10-12 |
| 公開(公告)號: | CN115759090A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 于舒娟;趙陽;毛新濤;吳夢潔;高貴;張昀 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/237;G06F40/268;G06F16/35;G06N3/0464;G06N3/0442;G06N3/048;G06N3/08 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 劉艷艷 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 詞典 漢字 字形 特征 中文 命名 實體 識別 方法 | ||
1.一種結合軟詞典和漢字字形特征的中文命名實體識別方法,其特征在于,包括:
步驟1:對輸入的漢字序列分別進行軟詞典嵌入SoftLexicon embedding和部首級嵌入radical-level embedding得到軟詞典嵌入表示、部首級嵌入表示,將軟詞典嵌入表示和部首級嵌入表示進行拼接得到字符表示;
步驟2:在所得的字符表示上加入門卷積單元以實現文本特征信息的進一步提取,采用兩種不同窗口大小的CNN網絡提取文本上下文特征;
步驟3:將門卷積單元輸出結果放入序列建模層,對字符之間的依賴關系進行建模,得到序列建模后的結果;
步驟4:將序列建模后的結果經過全連接層后,被送入到一個標準條件隨機場中執行字符序列的標簽預測,得到中文命名實體識別結果。
2.根據權利要求1所述的結合軟詞典和漢字字形特征的中文命名實體識別方法,其特征在于,對輸入的漢字序列進行軟詞典嵌入SoftLexicon embedding,包括:將輸入的漢字序列中的每個字符ci的所有匹配詞分類為四個詞集“B、M、E、S”,并用四個切分標簽進行標記以保留分割信息;
對于輸入的漢字序列={c1,c2,…,cn}中的每個字符,四個集合由以下公式構成:
其中,L表示工作中所用到的詞匯;wi,k、wj,k、wj,i分別表示ci處在開頭位置、中間位置、末尾位置匹配到的詞匯;表示任意,表示存在,這兩個為數學符號;i、j、k為字符的下標,表示字符在一個漢字序列中的位置;n表示輸入的漢字序列中字符的個數;
如果詞集為空,則將特殊單詞“None”添加到空詞集中;
使用每個單詞w出現的頻率作為權重,利用加權算法獲得詞集T的加權vs(T)表示:
其中,Z=∑W∈B∪M∪E∪Sz(w),ew表示單詞嵌入查找表;w表示單詞;z(w)表示單詞w在統計數據中出現的頻率;
將四個詞集的表示拼接起來組合成一個固定維度特征,得到軟詞典嵌入表示es(B,M,E,S),表示為:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]。
3.根據權利要求1所述的結合軟詞典和漢字字形特征的中文命名實體識別方法,其特征在于,對輸入的漢字序列進行部首級嵌入radical-level embedding,包括:
使用字形結構部件Structural Components成份作為漢字部首特征輸入,將其映射為d維特征向量,然后由改進的TCN網絡提取部首特征信息以實現部首級嵌入;所述改進的TCN網絡在原TCN網絡中引入squeeze-and-inspire壓縮和激勵注意機制,改進的TCN網絡的輸出O由下式給出:
其中,x表示部首級特征向量輸入,是TCN網絡的一系列變換,Activation表示激活函數。
4.根據權利要求1所述的結合軟詞典和漢字字形特征的中文命名實體識別方法,其特征在于,將軟詞典嵌入表示和部首級嵌入表示進行拼接得到字符表示,包括:使用二元圖嵌入來擴充字符,拼接得到字符表示為:
xc←[bc;es(B,M,E,S);rc]
X={x1,x2,…,xn}
其中bc表示二元嵌入查找表,es(B,M,E,S)是軟詞典嵌入表示,rc是部首級嵌入表示,xc表示代表拼接得到的每個字符的嵌入表示,X表示整個漢字序列的嵌入表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211245600.5/1.html,轉載請聲明來源鉆瓜專利網。





