[發明專利]一種基于提示學習的中文短文本分類方法在審
| 申請號: | 202210670231.8 | 申請日: | 2022-06-14 |
| 公開(公告)號: | CN115169340A | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 朱毅;穆建媛;周鑫柯;李云;強繼朋;袁運浩 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 董旭東;季雯 |
| 地址: | 225009 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 提示 學習 中文 文本 分類 方法 | ||
本發明公開了一種基于提示學習的中文短文本分類方法,包括:1)使用非自然語言化的模板,利用少量的參數在連續空間中自動搜索模板,減少人工設計模板的成本以及誤差;2)類別預測,將加入模板后的新的輸入數據送到選定的預訓練語言模型中,利用bert預訓練語言模型對輸入數據進行類別的預測;3)所有的標簽詞概率計算好以后,再將每個標簽詞上預測好的概率映射到回真實的標簽中,最后得出分類的結果。本發明提升了中文短文本數據集分類的準確性,僅需要很少的訓練樣本就能實現良好的分類,大大減少了模型對大規模數據的依賴,降低了訓練模型的成本,具有較高的魯棒性和實用性。
技術領域
本發明涉及自然語言處理研究領域,特別涉及一種基于提示學習的中文短文本分類方法。
背景技術
隨著互聯網通訊新時代的到來,每天都有海量的互聯網信息產生,并且這些信息以飛快的速度在更迭。比如新聞標題,微博推送,論壇討論,手機短信等文本信息,這些大多是非結構化的短文本數據,與傳統的長文本數據相比較,這些短文本數據的最大特點在于語句較短,其中包含的詞匯較少,語義較為發散,容易產生歧義。這些特點導致了短文本數據的關鍵特征信息難以提取,所以,如何對短文本進行正確的分類處理,已經成為熱門的研究方向。
短文本分類是自然語言處理(Natural Language Processing,NLP)的重要任務之一,已經有越來越多的國內外學者進行了大量的研究,并且取得了很好的效果。近年來,隨著深度學習的蓬勃發展,基于深度學習的分類模型應用到短文本分類任務上也取得了較好的效果。如有名的基于卷積神經網絡(Convolutional Neural Networks,CNN)的TextCNN模型,將CNN應用到文本分類上。隨著研究的進一步推進,預訓練語言模型也被應用到自然語言處理的任務中,在短文本分類任務上取得了較大的性能改進。
盡管傳統的神經網絡模型以及預訓練語言模型已經較為成熟的應用到短文本分類任務中,并且取得了良好的分類效果。但是,這些方法在訓練過程中通常需要大量的有標簽或無標簽的數據,且模型參數量較大。然而,在實際的應用中,訓練分類模型時,訓練數據的來源是最大的難題之一。我們經常面臨資源匱乏的數據問題,通常是因為訓練時需要的大量數據相對來說難以獲取,并且在對大量的數據進行訓練時耗費的成本較高。因此如何在少樣本數據的情況下,對短文本進行準確的分類,已經成為實際應用中巨大的挑戰。
發明內容
本發明的目的是克服現有技術缺陷,提供一種基于提示學習的中文短文本分類方法,使用利用較少的訓練樣本數據取得了更優越的分類效果,減少了模型對大規模數據的依賴,降低了訓練模型的成本。
本發明的目的是這樣實現的:一種基于提示學習的中文短文本分類方法,包括以下步驟:
1)使用非自然語言化的模板,利用少量的參數在連續空間中自動搜索模板,減少人工設計模板的成本以及誤差;
2)類別預測,將加入模板后的新的輸入數據送到選定的預訓練語言模型中,利用bert預訓練語言模型對輸入數據進行類別的預測;
3)所有的標簽詞概率計算好以后,再將每個標簽詞上預測好的概率映射到回真實的標簽中,最后得出分類的結果。
進一步的,所述步驟1)具體包括:
步驟1.1)預訓練語言模型記為M,經過分詞之后的長文本變成以字詞token為單位的數據結構;一個分詞之后的離散token的輸入序列為x1:n={x0,x1,…,xn},這個輸入序列經過預訓練層e∈M得到的嵌入向量序列為{e(x0),e(x1),…,e(xn)};x表示給定的上下文,y表示預測目標,p為一個prompt函數,用于組織上下文和預測目標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210670231.8/2.html,轉載請聲明來源鉆瓜專利網。





