[發明專利]融合隱式語義特征的短文本哈希學習方法有效
| 申請號: | 201510096518.4 | 申請日: | 2015-03-04 |
| 公開(公告)號: | CN104657350B | 公開(公告)日: | 2017-06-09 |
| 發明(設計)人: | 徐博;許家銘;郝紅衛;田冠華;王方圓 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙)11482 | 代理人: | 宋寶庫 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 語義 特征 文本 學習方法 | ||
技術領域
本發明涉及信息檢索領域,特別是涉及一種融合隱式語義特征的短文本哈希學習方法。
背景技術
哈希學習方法廣泛的應用于近似搜索技術,該技術應用于信息檢索、內容重復檢測、標簽預測以及推薦系統中。目前,哈希學習方法是將基于文本的顯式語義特征映射到低維二值空間中,該方法不能很好的保存語義之間的相似信息。例如,有兩個文本“President write his first computer program”和“Obama kick off hour of code”,通過采用上述的哈希學習方法,不能使文本中的顯式特征“President”和“Obama”以及“program”和“code”進行語義關聯。為了解決文本中的顯式特征之間的語義關聯,采用潛層語義模型方法來構建文本的相似性,然而,這些方法仍然是基于詞袋模型進行訓練,沒有考慮文本中的上下位關系和詞序關系,也不能很好的保存語義之間的相似信息。
發明內容
本發明提供的融合隱式語義特征的短文本哈希學習方法,從而獲得查詢文本的語義相似文本。
根據本發明的一方面,提供一種融合隱式語義特征的短文本哈希學習方法,所述方法包括:將訓練文本通過哈希損失函數進行降維二值化生成低維二值碼;從所述訓練文本中獲取詞特征和位置特征,根據所述詞特征和位置特征通過查表分別獲取所述詞特征和位置特征對應的詞向量和位置向量;將所述詞向量和位置向量通過卷積神經網絡模型進行耦合,得到訓練文本的隱式語義特征;將所述低維二值碼進行訓練得到更新的卷積神經網絡模型;利用所述更新的卷積神經網絡模型對所述訓練文本進行編碼生成語義哈希碼,并將查詢文本通過所述卷積神經網絡模型對所述語義哈希碼進行映射生成所述查詢文本的哈希碼;所述查詢文本的哈希碼在二值漢明空間中對所述語義哈希碼進行匹配,得到所述查詢文本的語義相似文本。
本發明提供的融合隱式語義特征的短文本哈希學習方法,通過將訓練文本通過哈希損失函數進行降維二值化生成低維二值碼,利用更新的卷積神經網絡模型對訓練文本進行編碼生成語義哈希碼,并將查詢文本通過卷積神經網絡模型對語義哈希碼進行映射生成查詢文本的哈希碼;查詢文本的哈希碼在二值漢明空間中對語義哈希碼進行匹配,從而獲得查詢文本的語義相似文本。
附圖說明
圖1為本發明實施例提供的融合隱式語義特征的短文本哈希學習方法的流程圖;
圖2為本發明實施例提供的融合隱式語義特征的短文本哈希學習方法的框架示意圖;
圖3為本發明實施例提供的檢索性能示意圖;
圖4為本發明另一實施例提供的檢索性能示意圖。
具體實施方式
本發明的總體構思是,通過將訓練文本通過哈希損失函數進行降維二值化生成低維二值碼,利用更新的卷積神經網絡模型對訓練文本進行編碼生成語義哈希碼,并將查詢文本通過卷積神經網絡模型對語義哈希碼進行映射生成查詢文本的哈希碼;查詢文本的哈希碼在二值漢明空間中對語義哈希碼進行匹配,從而獲得查詢文本的語義相似文本。
下面結合附圖對本發明實施例提供的融合隱式語義特征的短文本哈希學習方法進行詳細描述。
圖1為本發明實施例提供的融合隱式語義特征的短文本哈希學習方法的流程圖。
參照圖1,在步驟S101,將訓練文本通過哈希損失函數進行降維二值化生成低維二值碼。
根據本發明的示例性實施例,所述將訓練文本通過哈希損失函數進行降維二值化生成低維二值碼包括:
在步驟S1011,根據所述訓練文本構造相似度矩陣。
在步驟S1012,通過所述相似度矩陣獲取拉普拉斯特征向量。
在步驟S1013,通過所述拉普拉斯特征向量獲取中值向量。
在步驟S1014,通過所述中值向量對所述拉普拉斯特征向量進行二值化,從而生成所述低維二值碼。
根據本發明的示例性實施例,所述根據所述訓練文本構造相似度矩陣包括:
根據公式(1)計算相似度矩陣:
其中,Sij為所述相似度矩陣,NNk(x)為所述訓練文本x的k近鄰集合,cij為置信系數。
這里,訓練文本用x表示,相似度矩陣用Sij表示,相似度度量方法包括夾角余弦、歐式距離、高斯核和線性核。可以是例如,但不限于以高斯核構建局部相似度矩陣為例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510096518.4/2.html,轉載請聲明來源鉆瓜專利網。





