日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于漢字字形結構性信息的詞向量優化方法有效

專利信息
申請號: 201810368909.0 申請日: 2018-04-23
公開(公告)號: CN108595426B 公開(公告)日: 2021-07-20
發明(設計)人: 郭宇春;潘常瑋;陳一帥 申請(專利權)人: 北京交通大學
主分類號: G06F40/289 分類號: G06F40/289;G06F40/216;G06F40/30;G06F16/35
代理公司: 北京睿智保誠專利代理事務所(普通合伙) 11732 代理人: 周新楣
地址: 100044 北*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 漢字 字形 結構性 信息 向量 優化 方法
【說明書】:

發明提供了一種基于漢字字形結構性信息的詞向量優化方法。該方法包括:獲取待處理詞語的分布式詞向量;根據所述待處理詞語所包含的漢字進行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量;將所述待處理詞語的詞形特征向量和分布式詞向量進行結合表示,得到待處理詞語的優化特征向量。本發明設計了一種利用漢語字形結構信息進行詞向量表達優化的方案,利用原有的神經網絡詞分布式表達技術,結合漢語的字形結構特征,基于實際的自然語言處理任務進行了詞向量的特性優化,使得詞向量的表達能力和泛化遷移能力得到加強,有助于改善詞向量在低頻詞和未知詞上的詞特征表示。

技術領域

本發明涉及詞語向量表示技術領域,尤其涉及一種基于漢字字形結構性信息的詞向量優化方法。

背景技術

在傳統的方法中,文本中的詞是通過獨熱表示(one-hot representation)的方式對詞進行數值化表達,但是這種表達方法僅僅將詞符號化,不包含任何語義信息,得到的是高維稀疏的表示。對于如何將語義融入到詞表示中,分布假說的出現使得詞向量的表示得到進一步的優化:詞的語義由其上下文決定。基于神經網絡的分布表示一般稱為詞嵌入(word embedding)或分布式表示(distributed representation),將原來稀疏的巨大維度壓縮嵌入到一個更小維度的空間中,而這種詞向量形式的語義表示就是神經翻譯模型的基礎,也已經成為各類自然語言處理任務的基礎。因此,設計更好詞向量模型同時也是文本分類、機器翻譯和語言建模等各類自然語言處理任務的共性挑戰。

對于低頻詞和未知詞,在現有技術的神經網絡分布式表達方法中,是通過設定一個特殊的詞向量(如“UNK”)進行替代使用的,因為分布式語義表示本身是一種統計學習的方法,其語義表示的準確性是基于充足的樣本數據,從中學習出統計共性并編碼成分布式的低維數值表達,所以當詞的出現頻率很低,甚至之前從未見過時,其詞向量表示的置信度就會很低,會由于個別樣本的特性產生語義上的偏移。

發明內容

本發明的實施例提供了一種基于漢字字形結構性信息的詞向量優化方法,以克服現有技術的問題。

為了實現上述目的,本發明采取了如下技術方案。

一種基于漢字字形結構性信息的詞向量優化方法,包括:

獲取待處理詞語的分布式詞向量;

根據所述待處理詞語所包含的漢字進行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量;

將所述待處理詞語的詞形特征向量和分布式詞向量進行結合表示,得到待處理詞語的優化特征向量。

進一步地,所述的獲取待處理詞語的分布式詞向量,包括:

先對待處理詞語的原始文本進行分詞預處理,對預處理后的原始文本中詞語進行分布式詞向量表達,獲取待處理詞語的分布式詞向量。

設置詞頻閾值,利用預先設置的詞庫統計出所述對待處理詞語的詞頻,判斷所述對待處理詞語的詞頻是否低于設定的詞頻閾值。

進一步地,所述的根據所述待處理詞語所包含的漢字進行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量,包括:

通過深度學習技術進行漢字結構化信息的自主提取學習,將所有的漢字的結構信息存儲在漢字結構數據庫中;

將所述待處理詞語的原始文本中的所有字進行分解和統計,根據每個字分別查詢所述漢字結構數據庫,獲取每個字的結構信息,再使用無監督的特征提取方法,將每個字的結構信息表示為低維的特征向量;

將所有字對應的低維的特征向量進行求均值的操作,將得到的均值作為待處理詞語的詞形特征向量。

進一步地,所述的將所述待處理詞語的詞形特征向量和分布式詞向量進行結合表示,得到待處理詞語的優化特征向量,包括:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201810368909.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美系列一区二区| 久久91精品国产91久久久 | 免费a级毛片18以上观看精品| 国产精品视频一区二区在线观看| 农村妇女精品一区二区| 日本高清不卡二区| 亚洲精品国产一区二区三区| 国产二区不卡| 欧美一区二区三区黄| 国产高清在线观看一区| 国产日韩欧美中文字幕| 久久精品色欧美aⅴ一区二区| 久久久久久久国产精品视频| 欧美老肥婆性猛交视频| 热re99久久精品国99热蜜月| 91精品国产高清一区二区三区| 狠狠色狠狠色很很综合很久久| 国产第一区二区三区| 欧美日韩中文字幕一区| 国产精品久久久久久av免费看| 久久一二区| 九一国产精品| 99久久婷婷国产综合精品草原| 日本一区二区三区免费在线| 国产剧情在线观看一区二区| 欧美日韩国产在线一区二区三区| 国产一a在一片一级在一片| 在线国产精品一区| 日本高清二区| 少妇又紧又色又爽又刺激视频网站| 精品国产乱码久久久久久图片| 国产伦精品一区二区三区免费迷| 香港三日三级少妇三级99| 国产69精品久久777的优势| 欧美高清性xxxxhdvideos| 色偷偷一区二区三区| 欧美一区二三区| 精品国产一二区| 夜夜嗨av禁果av粉嫩av懂色av| 国产aⅴ精品久久久久久| 少妇av一区二区三区| 97午夜视频| 国产欧美一区二区三区免费视频| 午夜码电影| 久久精品99国产国产| 国产伦精品一区二区三| 强制中出し~大桥未久4| 日本高清h色视频在线观看| 99久久婷婷国产综合精品电影 | 午夜激情在线| 欧美精品一区二区久久久| 97香蕉久久国产超碰青草软件| 国产一区二区中文字幕| 自偷自拍亚洲| 欧美一级久久久| 午夜毛片在线| 亚洲国产精品一区二区久久,亚洲午夜| 亚洲精品91久久久久久| 国产人伦精品一区二区三区| 亚洲精品乱码久久久久久蜜糖图片| 国产丝袜在线精品丝袜91| 亚洲一卡二卡在线| 亚洲伊人久久影院| 色乱码一区二区三区网站| 亚洲高清国产精品| 玖玖精品国产| 国产精品麻豆一区二区| 日本精品99| 国产精一区二区三区| 午夜剧场伦理| 国产精品1区二区| 午夜av影视| 欧美二区精品| 久草精品一区| 亚洲久色影视| 色噜噜狠狠色综合中文字幕| 性色av色香蕉一区二区| 午夜影院一级片| 国产精品国产三级国产专区53| 国产精品一级片在线观看| 中文无码热在线视频| 日韩一区免费在线观看|