[發明專利]基于漢字字形結構性信息的詞向量優化方法有效
申請號: | 201810368909.0 | 申請日: | 2018-04-23 |
公開(公告)號: | CN108595426B | 公開(公告)日: | 2021-07-20 |
發明(設計)人: | 郭宇春;潘常瑋;陳一帥 | 申請(專利權)人: | 北京交通大學 |
主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06F16/35 |
代理公司: | 北京睿智保誠專利代理事務所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 100044 北*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 基于 漢字 字形 結構性 信息 向量 優化 方法 | ||
本發明提供了一種基于漢字字形結構性信息的詞向量優化方法。該方法包括:獲取待處理詞語的分布式詞向量;根據所述待處理詞語所包含的漢字進行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量;將所述待處理詞語的詞形特征向量和分布式詞向量進行結合表示,得到待處理詞語的優化特征向量。本發明設計了一種利用漢語字形結構信息進行詞向量表達優化的方案,利用原有的神經網絡詞分布式表達技術,結合漢語的字形結構特征,基于實際的自然語言處理任務進行了詞向量的特性優化,使得詞向量的表達能力和泛化遷移能力得到加強,有助于改善詞向量在低頻詞和未知詞上的詞特征表示。
技術領域
本發明涉及詞語向量表示技術領域,尤其涉及一種基于漢字字形結構性信息的詞向量優化方法。
背景技術
在傳統的方法中,文本中的詞是通過獨熱表示(one-hot representation)的方式對詞進行數值化表達,但是這種表達方法僅僅將詞符號化,不包含任何語義信息,得到的是高維稀疏的表示。對于如何將語義融入到詞表示中,分布假說的出現使得詞向量的表示得到進一步的優化:詞的語義由其上下文決定。基于神經網絡的分布表示一般稱為詞嵌入(word embedding)或分布式表示(distributed representation),將原來稀疏的巨大維度壓縮嵌入到一個更小維度的空間中,而這種詞向量形式的語義表示就是神經翻譯模型的基礎,也已經成為各類自然語言處理任務的基礎。因此,設計更好詞向量模型同時也是文本分類、機器翻譯和語言建模等各類自然語言處理任務的共性挑戰。
對于低頻詞和未知詞,在現有技術的神經網絡分布式表達方法中,是通過設定一個特殊的詞向量(如“UNK”)進行替代使用的,因為分布式語義表示本身是一種統計學習的方法,其語義表示的準確性是基于充足的樣本數據,從中學習出統計共性并編碼成分布式的低維數值表達,所以當詞的出現頻率很低,甚至之前從未見過時,其詞向量表示的置信度就會很低,會由于個別樣本的特性產生語義上的偏移。
發明內容
本發明的實施例提供了一種基于漢字字形結構性信息的詞向量優化方法,以克服現有技術的問題。
為了實現上述目的,本發明采取了如下技術方案。
一種基于漢字字形結構性信息的詞向量優化方法,包括:
獲取待處理詞語的分布式詞向量;
根據所述待處理詞語所包含的漢字進行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量;
將所述待處理詞語的詞形特征向量和分布式詞向量進行結合表示,得到待處理詞語的優化特征向量。
進一步地,所述的獲取待處理詞語的分布式詞向量,包括:
先對待處理詞語的原始文本進行分詞預處理,對預處理后的原始文本中詞語進行分布式詞向量表達,獲取待處理詞語的分布式詞向量。
設置詞頻閾值,利用預先設置的詞庫統計出所述對待處理詞語的詞頻,判斷所述對待處理詞語的詞頻是否低于設定的詞頻閾值。
進一步地,所述的根據所述待處理詞語所包含的漢字進行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量,包括:
通過深度學習技術進行漢字結構化信息的自主提取學習,將所有的漢字的結構信息存儲在漢字結構數據庫中;
將所述待處理詞語的原始文本中的所有字進行分解和統計,根據每個字分別查詢所述漢字結構數據庫,獲取每個字的結構信息,再使用無監督的特征提取方法,將每個字的結構信息表示為低維的特征向量;
將所有字對應的低維的特征向量進行求均值的操作,將得到的均值作為待處理詞語的詞形特征向量。
進一步地,所述的將所述待處理詞語的詞形特征向量和分布式詞向量進行結合表示,得到待處理詞語的優化特征向量,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810368909.0/2.html,轉載請聲明來源鉆瓜專利網。