[發(fā)明專利]基于漢字字形結(jié)構(gòu)性信息的詞向量優(yōu)化方法有效
申請?zhí)枺?/td> | 201810368909.0 | 申請日: | 2018-04-23 |
公開(公告)號: | CN108595426B | 公開(公告)日: | 2021-07-20 |
發(fā)明(設(shè)計)人: | 郭宇春;潘?,|;陳一帥 | 申請(專利權(quán))人: | 北京交通大學(xué) |
主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06F16/35 |
代理公司: | 北京睿智保誠專利代理事務(wù)所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 100044 北*** | 國省代碼: | 北京;11 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 基于 漢字 字形 結(jié)構(gòu)性 信息 向量 優(yōu)化 方法 | ||
1.一種基于漢字字形結(jié)構(gòu)性信息的詞向量優(yōu)化方法,其特征在于,包括:
獲取待處理詞語的分布式詞向量;
根據(jù)所述待處理詞語所包含的漢字進(jìn)行詞語的詞形特征表示,獲取待處理詞語的詞形特征向量,具體包括:
通過深度學(xué)習(xí)技術(shù)進(jìn)行漢字結(jié)構(gòu)化信息的自主提取學(xué)習(xí),將所有的漢字的結(jié)構(gòu)信息存儲在漢字結(jié)構(gòu)數(shù)據(jù)庫中;
將所述待處理詞語的原始文本中的所有字進(jìn)行分解和統(tǒng)計,根據(jù)每個字分別查詢所述漢字結(jié)構(gòu)數(shù)據(jù)庫,獲取每個字的結(jié)構(gòu)信息,再使用無監(jiān)督的特征提取方法,將每個字的結(jié)構(gòu)信息表示為低維的特征向量;
將所有字對應(yīng)的低維的特征向量進(jìn)行求均值的操作,將得到的均值作為待處理詞語的詞形特征向量;
將所述待處理詞語的詞形特征向量和分布式詞向量進(jìn)行結(jié)合表示,得到待處理詞語的優(yōu)化特征向量,具體包括:
將詞形特征向量和分布式詞向量進(jìn)行維度連接,生成融合詞向量,將該融合詞向量作為待處理詞語的優(yōu)化特征向量,或利用詞形特征向量通過設(shè)定的相似度計算指標(biāo)在詞庫中找到所述待處理詞語的一個或者多個近鄰詞,再將所述一個或者多個近鄰詞的分布式詞向量與待處理詞語的分布式詞向量進(jìn)行求均值的操作,將得到的均值作為待處理詞語的優(yōu)化特征向量,將該優(yōu)化特征向量作為所述一個或者多個近鄰詞和所述待處理詞語共同的語義表達(dá)詞向量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的獲取待處理詞語的分布式詞向量,包括:
先對待處理詞語的原始文本進(jìn)行分詞預(yù)處理,對預(yù)處理后的原始文本中詞語進(jìn)行分布式詞向量表達(dá),獲取待處理詞語的分布式詞向量;
設(shè)置詞頻閾值,利用預(yù)先設(shè)置的詞庫統(tǒng)計出所述對待處理詞語的詞頻,判斷所述對待處理詞語的詞頻是否低于設(shè)定的詞頻閾值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學(xué),未經(jīng)北京交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810368909.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。