[發明專利]一種基于提示學習的中文短文本分類方法在審
| 申請號: | 202210670231.8 | 申請日: | 2022-06-14 |
| 公開(公告)號: | CN115169340A | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 朱毅;穆建媛;周鑫柯;李云;強繼朋;袁運浩 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 董旭東;季雯 |
| 地址: | 225009 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 提示 學習 中文 文本 分類 方法 | ||
1.一種基于提示學習的中文短文本分類方法,其特征在于,包括以下步驟:
1)使用非自然語言化的模板,利用少量的參數在連續空間中自動搜索模板,減少人工設計模板的成本以及誤差;
2)類別預測,將加入模板后的新的輸入數據送到選定的預訓練語言模型中,利用bert預訓練語言模型對輸入數據進行類別的預測;
3)所有的標簽詞概率計算好以后,再將每個標簽詞上預測好的概率映射到回真實的標簽中,最后得出分類的結果。
2.根據權利要求1所述的一種基于提示學習的中文短文本分類方法,其特征在于,所述步驟1)具體包括:
步驟1.1)預訓練語言模型記為M,經過分詞之后的長文本變成以字詞token為單位的數據結構;一個分詞之后的離散token的輸入序列為x1:n={x0,x1,…,xn},這個輸入序列經過預訓練層e∈M得到的嵌入向量序列為{e(x0),e(x1),…,e(xn)};x表示給定的上下文,y表示預測目標,p為一個prompt函數,用于組織上下文和預測目標;
步驟1.2)使用偽token來替換原本的離散token,然后使用其連續向量構建目標,即一個模板T表示為:{h0,…hi,e(x),hi+1,…,hm,e(y)},其中hi是可訓練的向量;
步驟1.3)通過下游的損失函數L,指交叉熵損失函數,L=-[ylogy′+(1-y)log(1-y′)],y表示真實標簽,y′表示預測標簽;逐步優化連續的提示的表示向量hi,優化后的提示的表示向量為
3.根據權利要求1所述的一種基于提示學習的中文短文本分類方法,其特征在于,所述步驟2)具體包括:使用非自然語言模板后的輸入數據可以用以下詞向量的嵌入進行表示:{h0,…hi,e(x),hi+1,…,hm,e(y)},其中e表示詞向量的嵌入embedding,h0:m為可學習的詞向量表示,x表示原始輸入數據,y為類別;這些數據送入bert預訓練語言模型后將會被分類到某個類別y∈Y中,類別標簽的集合記作Vy={v1,…,vn},其中V是整個類別的集合;Vy中每個單詞v被填入bert預訓練語言模型中[MASK]處的概率表示為PM([MASK]=v∈Vy|xp),xp表示加入模板后的輸入數據,隨后文本分類任務轉化為類別標簽詞的概率計算問題,其公式可以為(1)所示:
p(y∈Y|x)=p([MASK]=v∈Vy|xp)#(1)。
4.根據權利要求1所述的一種基于提示學習的中文短文本分類方法,其特征在于,所述步驟3)包括:所有的類別標簽詞概率計算好以后,將每個標簽詞上的預測好的概率映射到對應的類別中;對于每個標簽詞v,為其分配一個可學習的權重參數wv,其中u表示標簽詞中的其它擴展詞,wu為權重參數,exp為指數函數,最后得到標簽詞v的歸一化權重αv如(2)所示:
擴展詞中每個詞對于預測標簽的貢獻相同,并用預測分數的加權平均值作為該標簽的預測分數,最后取出預測分數最大的類別,xp表示加入模板后的輸入數據,y為作為其所屬類別,y′表示其它擴展詞的結果,最終的預測結果如式(3)所示:
其中s為加權和函數,具體表示如(4)所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210670231.8/1.html,轉載請聲明來源鉆瓜專利網。





