[發(fā)明專利]融合隱式語義特征的短文本哈希學(xué)習(xí)方法有效
| 申請?zhí)枺?/td> | 201510096518.4 | 申請日: | 2015-03-04 |
| 公開(公告)號: | CN104657350B | 公開(公告)日: | 2017-06-09 |
| 發(fā)明(設(shè)計)人: | 徐博;許家銘;郝紅衛(wèi);田冠華;王方圓 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11482 | 代理人: | 宋寶庫 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 語義 特征 文本 學(xué)習(xí)方法 | ||
1.一種融合隱式語義特征的短文本哈希學(xué)習(xí)方法,其特征在于,所述方法包括:
將訓(xùn)練文本通過哈希損失函數(shù)進(jìn)行降維二值化生成低維二值碼;
從所述訓(xùn)練文本中獲取詞特征和位置特征,根據(jù)所述詞特征和位置特征通過查表分別獲取所述詞特征和位置特征對應(yīng)的詞向量和位置向量;
將所述詞向量和位置向量通過卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行耦合,得到訓(xùn)練文本的隱式語義特征;
將所述低維二值碼進(jìn)行訓(xùn)練得到更新的卷積神經(jīng)網(wǎng)絡(luò)模型;
利用所述更新的卷積神經(jīng)網(wǎng)絡(luò)模型對所述訓(xùn)練文本進(jìn)行編碼生成語義哈希碼,并將查詢文本通過所述卷積神經(jīng)網(wǎng)絡(luò)模型對所述語義哈希碼進(jìn)行映射生成所述查詢文本的哈希碼;
所述查詢文本的哈希碼在二值漢明空間中對所述語義哈希碼進(jìn)行匹配,得到所述查詢文本的語義相似文本;
所述將訓(xùn)練文本通過哈希損失函數(shù)進(jìn)行降維二值化生成低維二值碼包括:
根據(jù)所述訓(xùn)練文本構(gòu)造相似度矩陣;
通過所述相似度矩陣獲取拉普拉斯特征向量;
通過所述拉普拉斯特征向量獲取中值向量;
通過所述中值向量對所述拉普拉斯特征向量進(jìn)行二值化,從而生成所述低維二值碼;
所述將所述詞向量和位置向量通過卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行耦合,獲取所述訓(xùn)練文本的隱式語義特征包括:
將所述詞向量和位置向量分別進(jìn)行一維卷積,獲取特征矩陣;
所述特征矩陣通過塌陷操作獲取一維特征向量;
從所述一維特征向量中選取最大神經(jīng)單元;
所述最大神經(jīng)單元根據(jù)正切激活函數(shù)得到所述訓(xùn)練文本的隱式語義特征。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述訓(xùn)練文本構(gòu)造相似度矩陣包括:
根據(jù)下式計算所述相似度矩陣:
其中,Sij為所述相似度矩陣,NNk(x)為所述訓(xùn)練文本x的k近鄰集合,cij為置信系數(shù);所述σ表示調(diào)優(yōu)參數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述特征矩陣通過塌陷操作獲取一維特征向量包括:
根據(jù)下式計算所述一維特征向量:
其中,(dw+dp)為維數(shù);表示一維特征向量;表示中的第p個值;dw表示詞向量維度;dp表示位置向量維度;(0)表示特征經(jīng)過塌陷操作后的標(biāo)識符號;Cj表示塌陷操作前特征矩陣;p表示一維特征向量的特征值的項數(shù);Cj,p表示Cj第p行特征向量;q表示塌陷操作前特征矩陣第p行特征向量的特征元素腳標(biāo)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510096518.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





