[發(fā)明專利]多特征融合的文本相似性度量系統(tǒng)在審
| 申請?zhí)枺?/td> | 201510072955.2 | 申請日: | 2015-02-11 |
| 公開(公告)號: | CN104699763A | 公開(公告)日: | 2015-06-10 |
| 發(fā)明(設(shè)計)人: | 馬博;李曉;蔣同海;周喜;王磊;楊雅婷;趙凡 | 申請(專利權(quán))人: | 中國科學(xué)院新疆理化技術(shù)研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 烏魯木齊中科新興專利事務(wù)所 65106 | 代理人: | 張莉 |
| 地址: | 830011 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征 融合 文本 相似性 度量 系統(tǒng) | ||
1.一種基于多特征融合的文本相似性度量系統(tǒng),其特征在于該系統(tǒng)融合了基于詞頻、詞向量和維基百科標簽多種特征對文本相似性進行度量,具體操作按下列步驟進行:
a.訓(xùn)練文本預(yù)處理模塊:對訓(xùn)練文本進行預(yù)處理,分詞,去停用詞,去標點符號;
b.詞向量模型訓(xùn)練模塊:獲取文本內(nèi)詞間語義特征,使用深度學(xué)習(xí)方法進行多次迭代,通過邏輯回歸的方法對文本進行訓(xùn)練,采用二次抽樣的方法來平衡訓(xùn)練語料中的頻繁詞匯和非頻繁詞匯的不對稱,將訓(xùn)練文本集合內(nèi)的每個詞匯表示成為200維的特征向量,通過度量向量之間的余弦相似度,獲取詞匯間的語義關(guān)聯(lián);
c.基于詞頻的相似性度量模塊:使用基于詞頻的方法,計算兩個文本間的相似程度;首先獲取兩個輸入文本的詞匯并計算詞頻,存儲到向量中,然后度量兩個向量的余弦相似度,兩個向量之間的余弦相似度越高,則表示兩個詞匯的上下文越近似,也就表示兩個詞匯在語義上的相似程度越高;
d.基于詞向量的語義相似性度量模塊:使用步驟b模塊訓(xùn)練好的詞向量模型,度量兩個文本間的相似性;其中包括首先對兩個文本中的詞匯進行基于對齊的消歧操作,具體是根據(jù)詞向量計算得到的相似性,將兩個文本間相似性最高的詞作為詞對保存,然后計算兩個文本間所有詞對間的語義相似性,并進行匯總;
e.基于維基百科標簽的相似性度量模塊:使用維基百科標簽作為中間媒介,計算兩個文本所對應(yīng)的詞向量的相似性;首先計算所有維基百科標簽與輸入文本的相似性,并從結(jié)果中選取相似性最高的一個子集,然后直接計算兩個輸入文件所對應(yīng)的維基百科標簽集之間的相似性,從而獲取相似性結(jié)果;
f.融合詞頻特征、詞向量特征和維基百科標簽特征的相似性度量模塊:為三種融合詞頻特征、詞向量特征和維基百科標簽特征分配權(quán)重,并將三種相似性度量結(jié)果匯總,得到兩個輸入文本的最終相似性結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多特征融合的文本相似性度量系統(tǒng),其特征在于步驟b中通過采用層次邏輯回歸方法,將計算量從輸入節(jié)點的線性計算開銷降低到對數(shù)計算開銷,并獲得近似的概率分布,從而提高計算效率。
3.根據(jù)權(quán)利要求1所述的基于多特征融合的文本相似性度量系統(tǒng),其特征在于步驟d中所述的基于對齊的消歧方法:對于給定的兩個詞匯序列1和2,對于詞匯序列1中的任一詞匯,依次計算該詞匯與詞匯序列2中詞匯的相似性,并選擇相似性最高的詞匯形成詞對,以此類推,遍歷詞匯序列1中的所有詞匯,找到所有的詞對,進而完成兩個輸入詞匯序列的對齊和消歧過程。
4.根據(jù)權(quán)利要求1所述的基于多特征融合的文本相似性度量系統(tǒng),其特征在于步驟e中所述的文本所對應(yīng)的詞向量采用該文本所包含詞匯的詞向量的平均值進行表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院新疆理化技術(shù)研究所;,未經(jīng)中國科學(xué)院新疆理化技術(shù)研究所;許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510072955.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于異類關(guān)系確定目標相似性的方法和系統(tǒng)
- 相似性匹配系統(tǒng)和方法
- 相似性匹配系統(tǒng)和方法
- 興趣點預(yù)測和推薦中的用戶時空相似性度量方法
- 一種基于相似性和邏輯矩陣分解的miRNA?疾病關(guān)聯(lián)關(guān)系預(yù)測方法
- 一種結(jié)合二分網(wǎng)絡(luò)和文本的醫(yī)院科室相似性分析方法
- 一種基于相似性學(xué)習(xí)及其增強的細胞類型鑒定方法
- 確定企業(yè)屬性相似性、重名對象判定
- 獲取機構(gòu)技術(shù)相似性的方法及裝置
- 一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的lncRNA-蛋白質(zhì)相互作用預(yù)測方法





