[發(fā)明專利]一種文本分類方法及裝置在審
| 申請?zhí)枺?/td> | 202010622062.1 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111881292A | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設計)人: | 趙瑞輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 北京同達信恒知識產(chǎn)權代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 | ||
本申請實施例提供一種文本分類方法及裝置,涉及自然語言處理技術領域,方法包括:獲取待分類文本,確定所述待分類文本中包括的多層級文本信息;通過編碼器確定每個層級文本信息的重要度,并根據(jù)所有層級文本信息的重要度確定待分類文本的目標特征;通過分類器確定所述目標特征對應的分類結果,其中所述分類器與所述編碼器是通過預訓練編碼器以及待訓練分類器聯(lián)合訓練得到的,所述預訓練編碼器是通過將訓練樣本生成所述訓練樣本的訓練過程訓練得到的。確定不同粒度的待分類文本特征,從而得到更準確的目標特征,通過對更準確的目標特征進行分類,能夠得到更準確的分類結果。
技術領域
本發(fā)明實施例涉及自然語言處理技術領域,尤其涉及一種文本分類方法及裝置。
背景技術
隨著互聯(lián)網(wǎng)在全球范圍內的快速發(fā)展,人們面臨的信息呈指數(shù)增加。在人們所面臨的信息中有大量的文本信息,因此,對文本信息的處理技術尤為重要。其中,對文本信息進行分類是組織和管理文本信息的一個有效手段,將文本信息進行分類可以方便人們對文本信息的瀏覽、查找和使用。
傳統(tǒng)分類方法通常是通過人工標注的方法對文本進行分類,但是文本分類的效率低,不能滿足海量文本數(shù)據(jù)的分類要求;隨著機器學習的發(fā)展,提出了一些基于深度神經(jīng)網(wǎng)絡模型的文本分類方法,但是現(xiàn)有技術中的文本分類模型體量大,需要海量的訓練數(shù)據(jù)和參數(shù),導致現(xiàn)有技術中文本分類方法的分類效果不理想。
發(fā)明內容
本申請實施例提供一種文本分類方法及裝置,用以能夠根據(jù)待分類文本中包括的多層級文本信息的重要度,確定待分類文本的準確全面的目標特征,并根據(jù)目標特征確定待分類文本的。
一方面,本申請實施例提供一種文本分類方法,方法包括:
獲取待分類文本,確定所述待分類文本中包括的多層級文本信息;
通過編碼器確定每個層級文本信息的重要度,并根據(jù)所有層級文本信息的重要度確定待分類文本的目標特征;
通過分類器確定所述目標特征對應的分類結果,其中所述分類器與所述編碼器是通過預訓練編碼器以及待訓練分類器聯(lián)合訓練得到的,所述預訓練編碼器是通過將訓練樣本生成所述訓練樣本的訓練過程訓練得到的。
一方面,本申請實施例提供一種文本分類裝置,包括:
多層級文本信息獲取單元,用于確定所述待分類文本中包括的多層級文本信息;
目標特征確定單元,用于通過編碼器確定每個層級文本信息的重要度,并根據(jù)所有層級文本信息的重要度確定待分類文本的目標特征;
分類單元,用于通過分類器確定所述目標特征對應的分類結果,其中所述分類器與所述編碼器是通過預訓練編碼器以及待訓練分類器聯(lián)合訓練得到的,所述預訓練編碼器是通過將訓練樣本生成所述訓練樣本的訓練過程訓練得到的。
可選的,裝置還包括:
訓練單元,獲取第一訓練樣本,第一訓練樣本中包括第一分類文本,第一分類文本至少由多層級第一訓練文本信息構成;
根據(jù)第一分類文本對待訓練編碼器進行迭代訓練,直至迭代終止時,得到預訓練編碼器;
其中每次迭代訓練過程中,將第一分類文本輸入至待訓練編碼器,通過待訓練編碼器確定第一分類文本中每個層級第一訓練文本信息的重要度,并根據(jù)所有層級第一訓練文本信息的重要度確定第一分類文本的第一目標特征;
將第一目標特征輸入至待訓練解碼器中,通過待訓練的解碼器輸出第一輸出結果,根據(jù)第一輸出結果與第一分類文本自身確定第一損失函數(shù),并通過第一損失函數(shù)調整待訓練編碼單元以及待訓練解碼單元的模型參數(shù)。
可選的,訓練單元具體用于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010622062.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





