[發明專利]一種基于深度多任務學習的文本分類方法在審
| 申請號: | 201611117038.2 | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN106777011A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 張梓濱;潘嶸 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 任務 學習 文本 分類 方法 | ||
技術領域
本發明涉及自然語言處理技術領域,更具體地,涉及一種基于深度多任務學習的文本分類方法。
背景技術
隨著互聯網的發展,話題識別、垃圾郵件鑒別、情感分析等任務的需求也越來越多,而這些任務的基礎都是文本分類。文本分類的目標是給定一些文檔及其對應類標簽作為訓練集,通過算法學習一個分類器,能夠將測試集中不帶標簽的文檔的類標簽預測出來。
現在已有了很多基于深度神經網絡的文本分類算法,包括循環神經網絡、卷積神經網絡、遞歸卷積神經網絡,以及這些網絡與注意力機制、記憶模塊等的結合。這些神經網絡在很多數據集上取得較好的效果,但是他們也很容易遇到由于訓練數據不夠導致過擬合,只能減小網絡規模,從而導致網絡學習能力下降的問題。如果我們把自然語言認為是詞之間的組合,那么詞表的規模經常有數十萬,那樣bi-gram、tri-gram的規模就非常大了,因此需要神經網絡有大量的參數去學習可能出現的組合。神經網絡參數規模大、訓練數據較少,那么帶來的問題就是很容易過擬合,從而在測試集上的泛化能力下降。現在有很多方法都用來改善過擬合問題,比如參數正則化、批歸一化等,然而并沒有本質上解決訓練數據不夠的問題。
發明內容
本發明提供一種提高文本分類準確率的基于深度多任務學習的文本分類方法。
為了達到上述技術效果,本發明的技術方案如下:
一種基于深度多任務學習的文本分類方法,包括以下步驟:
S1:利用詞向量和雙向循環網絡學習當前任務的文檔表示;
S2:利用卷積神經網絡,從其他任務的文檔表示抽取特征;
S3:利用當前任務的文檔表示、其他任務的特征學習分類器。
進一步地,所述步驟S1的具體過程為是:
將所有任務中所有中文文檔進行分詞,假設總共有N個詞,然后賦予每個詞一個唯一標示,然后表示成一個K維的向量,即所有詞向量行程一個N*K的矩陣,然后使用正態分布隨機初始化,詞向量矩陣是所有任務共享的;
用詞向量和雙向循環網絡學習當前任務的文檔表示,雙向循環網絡的上文表示學習部分公式為:
雙向循環網絡的下文表示學習部分公式為:
其中,分別表示文檔的上下文表示;ei為詞wi的詞向量,使用均值為0方差為0.06的正態分布進行隨機初始化,訓練的時候通過查表得到或使用較大規模的語料及word2vec預詞向量同時進行替換掉隨機初始化;Wl、Wr、Wrl、Wrr為參數矩陣,分別用在上文詞向量、下文詞向量、上文循環狀態、下文循環狀態上;f為非線性激活函數;
將得到所有單詞的表示鏈接到一起,得到整個文檔的矩陣表示X,即文檔上文向量,下文向量的連接,其中
進一步地,所述步驟S2的具體過程為是:
1)、利用不同寬度的核矩陣對輔助任務的雙向循環網絡得到的特征進行一維卷積運算,檢測出不同寬度的文檔潛在候選語義特征:
ci=f(w·xi:i+h-1+b)
其中的w為一個卷積核矩陣;h為卷積核矩陣的寬度,b為偏執項;f為非線性激活函數;
2)對于不同卷積核矩陣得到的潛在語義特征,進行最大池化操作,即每個特征取最大值:
3)、不同卷積核矩陣得到的最大池化特征連接在一起,得到的任務的文檔特征,具體公式為:
其中,m為卷積核矩陣的個數。
進一步地,將當前任務的文檔語義表示和其他任務的文檔表示連接到一起,即得到當前任務的文檔的深度多任務文本表示,對該當前任務的文檔的深度多任務文本表示進行全連接神經網絡的特征學習,在全連接神經網絡的輸出層,將最終的語義表示賦予softmax操作,根據softmax的輸出結果進行分類器學習。
進一步地,所述f為非線性激活函數sigmoid函數。
與現有技術相比,本發明技術方案的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611117038.2/2.html,轉載請聲明來源鉆瓜專利網。





