[發明專利]一種基于潛在語義分析的遷移學習方法有效
| 申請號: | 201310069560.8 | 申請日: | 2013-03-05 |
| 公開(公告)號: | CN103176961B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 初妍;陳曼;夏琳琳;沈潔;張健沛;楊靜;王勇;高迪;王興梅;李麗潔 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 潛在 語義 分析 遷移 學習方法 | ||
1.一種基于潛在語義分析的遷移學習方法,其特征是:
(1)對訓練數據做去停用詞、詞干化處理,分別計算源領域與目標領域詞匯權重,得到詞匯-文本矩陣M;
(2)對矩陣M進行奇異值分解,將M中詞匯與文本映射到低維潛在語義空間:
矩陣M可表示為:
M=UΣVT
U、V是正交陣(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是對角陣,(a1,a2,...,av為M的奇異值),潛在語義分析只取前k個最大的奇異值,而將剩余的值設為零,
(3)去除源領域中同義詞噪音影響,調整矩陣M結構:
計算詞匯與詞匯之間的相似度,即對矩陣做正向乘法:
所求得的結果中,第i行第j列表明了詞匯i與詞匯j之間的相似程度,設定閾值θ1,從源領域中找出與目標領域詞匯相似度大于θ1的詞匯,記為目標領域詞匯的同義詞匯,將源領域該詞匯用目標領域詞匯替換,調整矩陣M結構;
從源領域中找出與目標領域文本關聯度較大的詞匯作為遷移詞,再對矩陣M結構進行調整:
在M矩陣中,第i行第j列上的權重即代表該行詞匯與該列文本的關聯度,設置閾值θ2,從在源領域詞匯中,篩選出與目標領域文本相關度大于θ2的詞匯作為目標領域的遷移詞,將該詞匯放到描述目標領域數據的詞匯行中,調整矩陣結構;
(4)分析調整后的矩陣M中目標領域詞匯,得到目標領域數據新的特征表示,在訓數據集中得到最終分類器,對測試數據集S進行分類。
2.根據權利要求1所述的一種基于潛在語義分析的遷移學習方法,其特征是:所述的詞匯-文本矩陣M的獲得方法為:
詞匯權重W(i,j)的計算方法包括文本貢獻權重LW(i,j)和類標簽貢獻權重GET(i)兩部分,將兩個權重相乘,得到最終詞匯權重:
取詞匯頻率的對數定義文本貢獻權重:
LW(i,j)=log(Tf(i,j)+1)
其中Tf(i,j)代表詞匯i在文本j中出現的頻率;
借助熵的概念來表示詞匯的類標簽貢獻權重,熵(H(X))是對信源X不確定的度量,條件熵H(X|Y)表示在Y發生的情況下X的熵,即當Y確定時,對X的不確定程度,H(X)-H(X|Y)即為當Y發生時,對X的確程度,由此定義類標簽貢獻權重可表示為:
其中K代表類標簽k={1,2,...,m}集合,i代表第i個詞匯,Cf(k,i)代表在類別k中,i詞匯出現的次數,Gf(k)所有詞匯出現次數的總和;
分別計算源領域與目標領域詞匯的類標簽貢獻權重:
其中n為訓練數據中源領域數據數量是目標領域數據數目的倍數值;
由此得到訓練數據的詞匯—文本矩陣M,其中M的值m(i,j)即為W(i,j):
W(i,j)=LW(i,j)×GET(i)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310069560.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中快走絲線切割可調節機頭噴嘴
- 下一篇:一種燃油箱組合法蘭攻絲裝置





