[發明專利]文本的分類方法、裝置、存儲介質及電子設備有效
| 申請號: | 202310273838.7 | 申請日: | 2023-03-20 |
| 公開(公告)號: | CN115994225B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 蘇海波;李霖楓;杜曉夢;劉譯璟 | 申請(專利權)人: | 北京百分點科技集團股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/186;G06F18/214;G06F18/241 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 于濤 |
| 地址: | 100096 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 存儲 介質 電子設備 | ||
本公開涉及一種文本的分類方法、裝置、存儲介質及電子設備,涉及計算機技術領域,該方法包括:獲取目標文本。根據目標文本和目標分類模板,得到目標輸入數據,目標分類模板包括目標參數向量和目標自然語言模板,目標參數向量是根據第一訓練樣本數據對第一預設網絡模型訓練得到的,第一訓練樣本數據是標注有類別的樣本數據,第一預設網絡模型包括預設參數向量和預設分類模型。將目標輸入數據輸入預設的目標文本分類模型,以得到目標文本分類模型輸出的目標文本類別,目標文本分類模型是根據第二訓練樣本數據對第二預設網絡模型訓練得到的,第二訓練樣本數據是未標注類別的樣本數據,第二預設網絡模型包括目標參數向量和預設分類模型。
技術領域
本公開涉及計算機技術領域,具體地,涉及一種文本的分類方法、裝置、存儲介質及電子設備。
背景技術
針對多分類問題,目前已有的典型小樣本學習方法包括自然語言模版法PET(Pattern-Exploting?Training)、參數向量模版法P-Tuning,針對標注樣本數據集合,訓練對應的模型。自然語言模版法PET需要手工構造模版,不同的模版效果差異比較大,而參數向量模版法P-Tuning學習到的模版缺乏可解釋性。并且這兩種方法只針對標注樣本數據集合進行模型訓練,對于大量的無標注樣本數據,無法進行充分利用。
發明內容
本公開的目的是提供一種文本的分類方法、裝置、存儲介質及電子設備,用于提高文本分類的準確度。
根據本公開實施例的第一方面,提供一種文本的分類方法,所述方法包括:
獲取目標文本;
根據所述目標文本和目標分類模板,得到目標輸入數據,所述目標分類模板包括目標參數向量和目標自然語言模板,所述目標參數向量是根據第一訓練樣本數據對第一預設網絡模型訓練得到的,所述第一訓練樣本數據是標注有類別的樣本數據,所述第一預設網絡模型包括預設參數向量和預設分類模型;
將所述目標輸入數據輸入預設的目標文本分類模型,以得到所述目標文本分類模型輸出的目標文本類別,所述目標文本分類模型是根據第二訓練樣本數據對第二預設網絡模型訓練得到的,所述第二訓練樣本數據是未標注類別的樣本數據,所述第二預設網絡模型包括所述目標參數向量和所述預設分類模型。
可選地,所述第一訓練樣本數據包括至少一個預設分類模板;所述目標參數向量和所述目標文本分類模型是通過以下方式確定的:
針對每個所述預設分類模板,根據所述第一訓練樣本數據對所述第一預設網絡模型進行訓練,得到所述預設分類模板對應的候選參數向量;
針對每個所述候選參數向量,根據所述第二訓練樣本數據對所述候選參數向量對應的待用網絡模型進行訓練,得到所述候選參數向量對應的候選文本分類模型,所述待用網絡模型包括所述候選向量參數和所述預設分類模型;
根據預設驗證數據集,從所述候選參數向量和所述候選文本分類模型中確定所述目標參數向量和所述目標文本分類模型,所述預設驗證數據集包括樣本驗證文本和所述樣本驗證文本對應的樣本驗證類別。
可選地,所述第一訓練樣本數據包括第一樣本輸入數據和所述第一樣本輸入數據對應的第一樣本類別;所述根據所述第一訓練樣本數據對所述第一預設網絡模型進行訓練,得到所述預設分類模板對應的候選參數向量包括:
根據所述第一樣本輸入數據和所述第一樣本類別對所述第一預設網絡模型進行訓練,得到所述候選參數向量。
可選地,所述第一樣本輸入數據包括所述預設分類模板和第一樣本文本,所述預設分類模板包括預設參數向量和預設自然語言模板;所述根據所述第一樣本輸入數據和所述第一樣本類別對所述第一預設網絡模型進行訓練,得到所述候選參數向量包括:
根據所述第一樣本文本和所述預設分類模板,得到所述第一樣本輸入數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百分點科技集團股份有限公司,未經北京百分點科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310273838.7/2.html,轉載請聲明來源鉆瓜專利網。





