[發(fā)明專利]一種基于潛在語(yǔ)義分析的遷移學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310069560.8 | 申請(qǐng)日: | 2013-03-05 |
| 公開(公告)號(hào): | CN103176961B | 公開(公告)日: | 2017-02-08 |
| 發(fā)明(設(shè)計(jì))人: | 初妍;陳曼;夏琳琳;沈潔;張健沛;楊靜;王勇;高迪;王興梅;李麗潔 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 潛在 語(yǔ)義 分析 遷移 學(xué)習(xí)方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種機(jī)器學(xué)習(xí)方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,有越來(lái)越多的信息以文本的方式存儲(chǔ)在網(wǎng)絡(luò)上,成為人們獲取信息的來(lái)源。面對(duì)巨大的文本庫(kù),人們急需一種高效的技術(shù)手段來(lái)對(duì)文本庫(kù)中的數(shù)據(jù)進(jìn)行整理分類。機(jī)器學(xué)習(xí)通過研究計(jì)算機(jī)如何模擬人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)達(dá)到不斷改善自身的性能的目的。但是機(jī)器學(xué)習(xí)有一個(gè)很重要的假設(shè)前提,就是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)必須服從相同的分布。這給實(shí)際應(yīng)用帶來(lái)了很大的麻煩。當(dāng)出現(xiàn)一個(gè)新的領(lǐng)域時(shí),樣本空間的數(shù)據(jù)往往較少、特征稀疏,此時(shí)再利用傳統(tǒng)的機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)分類就會(huì)產(chǎn)生較大泛化誤差。而遷移學(xué)習(xí)放松了對(duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)同分布假設(shè)的要求,是一種跨領(lǐng)域、跨任務(wù)的學(xué)習(xí)方法。遷移學(xué)習(xí)具有識(shí)別和應(yīng)用先前領(lǐng)域、任務(wù)中學(xué)習(xí)到的知識(shí)和技巧到新的領(lǐng)域、任務(wù)中的能力。如先學(xué)會(huì)騎自行車,再學(xué)騎摩托車就比較容易;學(xué)會(huì)C語(yǔ)言,再學(xué)習(xí)Java語(yǔ)言也變得相對(duì)容易。
目前有一些對(duì)遷移學(xué)習(xí)方法的研究,大多只是從詞匯表層對(duì)數(shù)據(jù)進(jìn)行分析并沒有考慮到源領(lǐng)域與目標(biāo)領(lǐng)域之間的語(yǔ)義相關(guān)性問題,一些“噪音”因素很可能會(huì)影響遷移學(xué)習(xí)的效果。此外一些遷移學(xué)習(xí)方法或者對(duì)訓(xùn)練數(shù)據(jù)要求獨(dú)立性假設(shè),或者預(yù)先知道數(shù)據(jù)先驗(yàn)概率,這都不符合實(shí)際。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供無(wú)需對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行獨(dú)立性假設(shè)、無(wú)需預(yù)先知道數(shù)據(jù)先驗(yàn)概率分布,自動(dòng)地捕捉文本中深層的語(yǔ)義關(guān)系的一種基于潛在語(yǔ)義分析的遷移學(xué)習(xí)方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
本發(fā)明一種基于潛在語(yǔ)義分析的遷移學(xué)習(xí)方法,其特征是:
(1)對(duì)訓(xùn)練數(shù)據(jù)做去停用詞、詞干化處理,分別計(jì)算源領(lǐng)域與目標(biāo)領(lǐng)域詞匯權(quán)重,得到詞匯-文本矩陣M;
(2)對(duì)矩陣M進(jìn)行奇異值分解,將M中詞匯與文本映射到低維潛在語(yǔ)義空間:
矩陣M可表示為:
M=UΣVT
U、V是正交陣(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是對(duì)角陣,(a1,a2,...,av為M的奇異值),潛在語(yǔ)義分析只取前k個(gè)最大的奇異值,而將剩余的值設(shè)為零,
(3)去除源領(lǐng)域中同義詞噪音影響,調(diào)整矩陣M結(jié)構(gòu):
計(jì)算詞匯與詞匯之間的相似度,即對(duì)矩陣做正向乘法:
所求得的結(jié)果中,第i行第j列表明了詞匯i與詞匯j之間的相似程度,設(shè)定閾值θ1,從源領(lǐng)域中找出與目標(biāo)領(lǐng)域詞匯相似度大于θ1的詞匯,記為目標(biāo)領(lǐng)域詞匯的同義詞匯,將源領(lǐng)域該詞匯用目標(biāo)領(lǐng)域詞匯替換,調(diào)整矩陣M結(jié)構(gòu);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310069560.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





