[發明專利]基于多源域集成遷移學習的文本主題分類模型及分類方法在審
| 申請號: | 201810181122.3 | 申請日: | 2018-03-06 |
| 公開(公告)號: | CN108460134A | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 楊云;李燕 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 650091 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本主題 目標域 多源 遷移 分類模型 分類器 分類 標簽模塊 數據模塊 源域 判定 標簽 集成學習 模塊組成 正確數據 域標簽 正確率 類標 學習 并用 測試 平衡 | ||
1.基于多源域集成遷移學習的文本主題分類模型,其特征在于,由目標域數據模塊、加標簽模塊、多源域標簽判定的集成學習模塊和正確數據模塊組成;
所述目標域數據模塊用于將帶標簽的樣本數據和未帶標簽的樣本數據加入到訓練模型的行列,帶標簽的樣本數據用來訓練Softmax分類器,未帶標簽的目標域樣本數據加入到訓練模型的行列以訓練好的Softmax分類器;
所述加標簽模塊用帶標簽的樣本數據訓練出來的Softmax分類器對來自源域的無標簽樣本數據進行預測標記。
所述多源域標簽判定的集成學習模塊用NN分類器和CNN分類器對帶有偽標簽的源域數據和Softmax分類器預測的數據做一個判斷,選出三個分類器都分類正確的數據,將其分類為正確的數據樣本;
所述正確數據模塊用于每次訓練分類器,讓每次用在模型訓練上的數據都在遞增,使未帶類標的數據加上的偽類標越來越接近真實情況。
2.一種如權利要求1所述的基于多源域集成遷移學習的文本主題分類模型的分類方法,其特征在于,具體按照以下步驟進行:
步驟一、選定目標域數據模塊中的帶標簽的數據,訓練出Softmax分類器,Softmax分類器對來自源域的無標簽樣本數據進行預測標記;
步驟二、NN分類器和CNN分類器對帶有偽標簽的源域數據和Softmax分類器預測的數據進行判定;選出三個分類器都分類正確的數據,將其分類為正確的數據樣本,將其加入到目標域數據中去,把每一輪篩選得到的遷移能力強的數據加入到目標域數據模塊中去,參與到下一次的模型訓練中去,讓每次用在模型訓練上的數據都在遞增,使未帶類標的數據加上的偽類標越來越接近真實情況;
步驟三、將三個分類器都進行分類得到不同類型文本主題的帶有偽標簽的數據,選用一種類型的文本主題作為目標域數據,其他類型的文本主題作為源域數據加入到目標域數據中,并用Softmax分類器測試正確率。
3.根據權利要求2所述的基于多源域集成遷移學習的文本主題分類模型的分類方法,其特征在于,所述步驟三加入的源域數據為剩余不同類型的單一文本主題數據或剩余幾種不同類型文本主題數據的任意組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810181122.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:利用移動終端進行導購的方法及導購裝置
- 下一篇:電力運維信息知識圖譜構建方法





