[發明專利]一種基于K鄰近結點算法和對比學習的文本分類方法在審
| 申請號: | 202110960433.1 | 申請日: | 2021-08-20 |
| 公開(公告)號: | CN113673242A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 邱錫鵬;宋德敏;李林陽;傅家慶;楊非 | 申請(專利權)人: | 之江實驗室;復旦大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06K9/62;G06N3/08 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 楊小凡 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 鄰近 結點 算法 對比 學習 文本 分類 方法 | ||
1.一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于包括如下步驟:
S1,訓練過程中,通過構建句子向量表示k的正負樣本,進行對比學習,對比學習的損失函數如下:
其中,M表示正樣本的數量,N表示負樣本的數量,q表示預訓練編碼器encoder_q輸出的句子的向量表示,k表示預訓練編碼器encoder_k輸出的句子向量表示,encoder_q與encoder_k相同,kj表示第j個正樣本k+,ki表示遍歷負樣本k-和kj的集合,exp(·)表示指數函數,τ為超參數;
結合交叉熵損失函數,進行聯合訓練,聯合損失函數如下:
L=λLec+(1-λ)Lsc
其中,λ表示調節交叉熵損失函數Lec和所述對比學習的損失函數Lsc之間的權重參數,yc表示q的類別,C表示文本分類的分類數,F(·)表示線性分類器;
反向傳播損失函數,更新encoder_q和線性分類器的參數;
S2,通過訓練好的encoder_q和線性分類器,對文本進行分類。
2.根據權利要求1所述的一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于所述S2中,通過訓練好的encoder_q獲得待預測文本的句子向量表示q,使用聯合預測函數預測文本分類,聯合預測函數如下:
其中,S表示最終分類的概率值,表示超參數,Softmax(·)表示激活函數,F(q)表示訓練好的線性分類器,KNN(q)表示從隊列Q中選取離q最近的K個訓練樣本,根據訓練樣本的分類標簽,用投票的方式給出KNN模型的概率值,通過概率值得到分類結果。
3.根據權利要求2所述的一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于所述選取離q最近的K個訓練樣本,由于K個訓練樣本的分類標簽已知,K=s1+s2+……+sc,si表示樣本的分類標簽屬于第i個類別的數量,c表示訓練樣本的類別數量,通過KNN模型,給出的q屬于分類yi的概率值為
4.根據權利要求2所述的一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于所述q與訓練樣本的相似度,通過cos函數來計算。
5.根據權利要求1所述的一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于所述S1中,通過超參數m更新encoder_k的動量參數:
θk←mθk+(1-m)θq
其中θk表示encoder_k的動量參數,θq表示encoder_q的動量參數,將經過encoder_k編碼獲得的k存放在隊列Q中,在每次迭代過程中,通過動量參數更新的方式,更新encoder_k,使其獲得的k與直接通過encoder_q獲得的q接近。
6.根據權利要求5所述的一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于所述隊列Q,按先后順序替換其中的元素k。
7.根據權利要求5所述的一種基于K鄰近結點算法和對比學習的文本分類方法,其特征在于從所述隊列Q中獲取與樣本的分類標簽相同的M個元素k作為正樣本k+,與樣本的分類標簽不同的N個元素k作為負樣本k-。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室;復旦大學,未經之江實驗室;復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110960433.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:驅動芯片、顯示模組、顯示面板與顯示面板的測試方法
- 下一篇:一種軟基處理設備





