[發(fā)明專利]基于多源域集成遷移學習的文本主題分類模型及分類方法在審
| 申請?zhí)枺?/td> | 201810181122.3 | 申請日: | 2018-03-06 |
| 公開(公告)號: | CN108460134A | 公開(公告)日: | 2018-08-28 |
| 發(fā)明(設(shè)計)人: | 楊云;李燕 | 申請(專利權(quán))人: | 云南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京科億知識產(chǎn)權(quán)代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 650091 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本主題 目標域 多源 遷移 分類模型 分類器 分類 標簽模塊 數(shù)據(jù)模塊 源域 判定 標簽 集成學習 模塊組成 正確數(shù)據(jù) 域標簽 正確率 類標 學習 并用 測試 平衡 | ||
本發(fā)明公開了基于多源域集成遷移學習的文本主題分類模型,由目標域數(shù)據(jù)模塊、加標簽模塊、多源域標簽判定的集成學習模塊和正確數(shù)據(jù)模塊組成。基于多源域集成遷移學習的文本主題分類模型的分類方法,首先對無類標數(shù)據(jù)用加標簽模塊進行分類;隨后對帶有標簽的數(shù)據(jù)進行判定,選出三個分類器都分類正確的數(shù)據(jù)將其加入到目標域數(shù)據(jù)模塊,將三個分類器都進行分類得到不同類型文本主題的帶有偽標簽的數(shù)據(jù),選用一種類型的文本主題作為目標域數(shù)據(jù),其他類型的文本主題作為源域數(shù)據(jù)加入到目標域數(shù)據(jù)中,并用Softmax分類器測試正確率。有效的避免了單源域遷移帶來的負遷移現(xiàn)象,數(shù)據(jù)的組成來自于目標域的各個方面,能夠更好的滿足了數(shù)據(jù)的平衡。
技術(shù)領(lǐng)域
本發(fā)明屬于多源域?qū)W習技術(shù)領(lǐng)域,涉及一種基于多源域集成遷移學習的文本主題分類模型及分類方法。
背景技術(shù)
多源域遷移學習是機器學習的一個非常活躍的應用研究方向,其目的就是在目標域和多個源域中找到相關(guān)性強的數(shù)據(jù),將多源域中相關(guān)性強的這些數(shù)據(jù)遷移到目標域中幫助目標域樣本數(shù)據(jù)訓練出一個“好”的分類器,而不同源域的數(shù)據(jù)樣本和目標域的數(shù)據(jù)樣本具有不同的相似性,從而,多源域的遷移會導致負遷移現(xiàn)象的產(chǎn)生。根據(jù)得到的其他相關(guān)領(lǐng)域的有標記的數(shù)據(jù),可以找到相關(guān)領(lǐng)域和研究領(lǐng)域也就是目標領(lǐng)域的某方面的相關(guān)性。把已有的分類結(jié)果,那些帶有偽標簽的數(shù)據(jù)運用到未知的領(lǐng)域中去。例如:對音樂歌曲的分類評價,分析這些評價中的一些喜歡和厭惡,將其運用到對讀物的喜歡和厭惡,即使對讀物的分類沒有收集整理,也能夠?qū)σ魳返姆诸悩藴蔬w移到讀物領(lǐng)域中去,避免了花費巨大的代價對一個新領(lǐng)域重新分配資源去搜集去標記;對報紙雜志上的文章描述主題的分類,文章主題有不同的分類,可以對于已經(jīng)有的分類進行整理,借鑒與此,可以推出新的分類類型等。
由于此項研究領(lǐng)域具有較高的理論研究與實際應用價值,國內(nèi)外許多研究者提出了較多針對多源域遷移學習的分類技術(shù),大致包含兩個方面的工作:對源域數(shù)據(jù)進行預測標簽和判斷遷移能力的強弱。首先,要對幾個相關(guān)源域的無類標數(shù)據(jù)進行預測,如何標記出更多與真實情況接近的數(shù)據(jù)樣本;其次,在多個源域中做集成分析,找出更適合做實例樣本遷移的數(shù)據(jù)。
盡管研究人員在此研究領(lǐng)域上已經(jīng)取得了一些成果,但由于遷移學習的復雜性,現(xiàn)有遷移學習模型具有以下缺點:(1)目標域數(shù)據(jù)過少,需要找到原域數(shù)據(jù)進行實例遷移,而能夠?qū)δ繕擞驍?shù)據(jù)進行輔助的源域數(shù)據(jù)比較單一,容易造成數(shù)據(jù)分布與目標域數(shù)據(jù)分布不相同,從而造成負遷移現(xiàn)象;(2)對于源域的數(shù)據(jù)樣本要求比較高,需要帶有標簽,但實際問題上,更多的源域數(shù)據(jù)是沒有標簽的;(3)繼續(xù)發(fā)展目標域數(shù)據(jù),標記目標域中無類標數(shù)據(jù)需要大量的人工和專家知識,需要耗費大量的資源,而且所標記的數(shù)據(jù)類標的正確與否無法判斷;(4)加入目標域的源域帶偽類標數(shù)據(jù)正確率無法判斷,用目標域的數(shù)據(jù)太少不足以訓練出一個好的分類器,而帶有偽類標的數(shù)據(jù)也是通過這一個分類效果不好的分類器添加的,效果比較差,如果要是能夠訓練出多個分類器,其中一個給無類標源域數(shù)據(jù)加上偽類標,利用集成學習的思想,然后用其他的分類器做測試,判斷帶有偽類標的正確性,選出分類器分類正確的帶有偽類標的源域數(shù)據(jù),認為是遷移能力較強的數(shù)據(jù),加入到目標域中,進行遷移,以得到更好的分類效果;(5)利用數(shù)據(jù)不充分,大部分的遷移學習都是利用單個源域進行遷移,此種方式并不理想,數(shù)據(jù)分布的不同容易造成負遷移現(xiàn)象,即不但沒有幫助目標域數(shù)據(jù)訓練出“好”的分類器,反而影響了分類器的分類效果,大部分的遷移學習采用了賦予權(quán)重的大小來改變實例對于遷移學習的影響,在這種情況下,實驗會出現(xiàn)超重現(xiàn)象,導致過度擬合。總的來說,現(xiàn)有的遷移學習模型,遷移不當會出現(xiàn)負遷移的狀態(tài),而且沒有幫助目標域數(shù)據(jù)訓練出一個分類效果好的分類器,還抑制了分類器的正常分類,使得現(xiàn)有的遷移學習并不成熟。
所以部分研究人員嘗試引入多源域遷移學習,用以進一步提高加入目標域數(shù)據(jù)的源域數(shù)據(jù)的正確率。集成學習的目的就是通過集成多個互補的分類器的分類正確率以得到一些高可靠性的帶有偽類標的源域數(shù)據(jù),旨在篩選出更加接近目標域且?guī)в袀晤悩说臄?shù)據(jù),比單個分類器給源域無類標數(shù)據(jù)加上一個無法判斷標簽的正確與否的偽類標的效果要好。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南大學,未經(jīng)云南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810181122.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 領(lǐng)域自適應模式識別方法及系統(tǒng)
- 一種用于遙感圖像分類的基于類心對齊的遷移學習方法
- 顯示面板色域轉(zhuǎn)換方法、裝置、系統(tǒng)、顯示面板及顯示裝置
- 一種基于類心和協(xié)方差對齊的遙感圖像遷移學習方法
- 特征提取網(wǎng)絡訓練方法、圖像處理方法、裝置及其設(shè)備
- 一種目標域檢測網(wǎng)絡的訓練方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于領(lǐng)域適配的水聲目標輻射噪聲識別方法
- 基于遷移學習的智能抗干擾目標檢測方法
- 一種跨域自適應的圖卷積平衡遷移學習方法與系統(tǒng)
- 基于領(lǐng)域翻轉(zhuǎn)的機器人巡航目標識別方法及系統(tǒng)





