[發明專利]一種結合軟詞典和漢字字形特征的中文命名實體識別方法在審
| 申請號: | 202211245600.5 | 申請日: | 2022-10-12 |
| 公開(公告)號: | CN115759090A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 于舒娟;趙陽;毛新濤;吳夢潔;高貴;張昀 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/237;G06F40/268;G06F16/35;G06N3/0464;G06N3/0442;G06N3/048;G06N3/08 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 劉艷艷 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 詞典 漢字 字形 特征 中文 命名 實體 識別 方法 | ||
本發明公開了一種結合軟詞典和漢字字形特征的中文命名實體識別方法,包括:對輸入的漢字序列分別進行軟詞典嵌入SoftLexicon embedding和部首級嵌入radical?level embedding得到軟詞典嵌入表示、部首級嵌入表示,將軟詞典嵌入表示和部首級嵌入表示進行拼接得到字符表示;在所得的字符表示上加入門卷積單元以實現文本特征信息的進一步提取,采用兩種不同窗口大小的CNN網絡提取文本上下文特征;將門卷積單元輸出結果放入序列建模層,對字符之間的依賴關系進行建模,得到序列建模后的結果;將序列建模后的結果經過全連接層后,被送入到一個標準條件隨機場中執行字符序列的標簽預測,得到中文命名實體識別結果。
技術領域
本發明屬于自然語言處理技術領域,涉及一種結合軟詞典和漢字字形特征 的中文命名實體識別方法。
背景技術
命名實體識別(NER)是一項序列標記任務,涉及非結構文本中命名實體 的識別,包括人名、地點和組織等。命名實體識別是自然語言處理(NLP)的組 成部分,同時對其他下游任務有著至關重要的作用,例如關系提取、知識庫構 建、信息檢索和問答等。
區別于英語,漢語中句子不是自然分割,每個漢字之間沒有明顯的分割邊 界。中文分詞需要依靠語義信息來區分,這對中文命名實體識別任務造成巨大 困難。因此,歷年來,為了增強語義信息而誕生了許多研究。傳統的基于詞級 別的模型大多都存在分詞錯誤傳播的問題。字級別的命名實體識別模型中會因 缺少詞級別信息以及分詞邊界未知而表現不佳。為了解決以上問題, Lattice-LSTM[Zhang Y,Yang J.Chinese NER usinglattice LSTM[J].arXiv preprint arXiv:1805.02023,2018.]首次將詞典和詞向量信息引入字級別表示中,通 過編碼和匹配詞典中的單詞來提高命名實體識別性能。由于LSTM在數據并行 處理上存在劣勢,許多研究人員嘗試將詞典匹配到其他網絡中進行建模,例如LR-CNN[Gui T,Ma R,Zhang Q,et al.CNN-Based Chinese NER with Lexicon Rethinking[C]//ijcai.2019:4982-4988.]、CAN-NER[Zhu Y,Wang G,Karlsson B F. CAN-NER:Convolutional attention network for Chinese named entity recognition[J].arXiv preprint arXiv:1904.02141,2019.]等基于卷積神經網絡(CNN)提出的新型 架構獲得了更高的模型效率。此外,SoftLexicon[Ma R,Peng M,Zhang Q,et al. Simplify theusage of lexicon in Chinese NER[J].arXiv preprint arXiv:1908.05969, 2019.]在整合更完整、更獨特的詞匯信息等方面具有優勢,還具有模型效率高 遷移性強的特點。
然而以上方法旨在整合中文詞匯信息,而忽略了漢字的結構特征。
發明內容
類比英文中的詞根和詞綴能反映事物的屬性信息,漢字的部首也有著同樣 的功能。漢字中有200多個部首,不同的部首代表不同的信息。比如“氵”部 首代表水,對識別與水有關的地點實體有所幫助,像湖(lake),海(sea),江(river), 澗(gully)等。再比如,鐵(iron),銅(copper),銀(silver),鏈(chain)等漢字中包含的 “钅”部首有助于識別金屬實體。由此可見,漢字的部首特征能夠提高對相應 屬性實體的認識。部首特征對中文命名識別的有效性。
目的:為了克服現有技術中存在的不足,本發明提供一種結合軟詞典和漢 字字形特征的中文命名實體識別方法,利用SoftLexicon方法,并結合漢字結構 信息以及門卷積網絡,以此提出一種新的方法。
技術方案:為解決上述技術問題,本發明采用的技術方案為:
第一方面,提供一種結合軟詞典和漢字字形特征的中文命名實體識別方法, 包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211245600.5/2.html,轉載請聲明來源鉆瓜專利網。





