[發明專利]適用長文本預測模型的訓練方法、裝置、設備及存儲介質在審
| 申請號: | 202210950829.2 | 申請日: | 2022-08-09 |
| 公開(公告)號: | CN115293136A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 謝國平 | 申請(專利權)人: | 青牛智勝(深圳)科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/211;G06F40/284;G06K9/62;G06N3/08 |
| 代理公司: | 深圳國新南方知識產權代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 適用 文本 預測 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種適用長文本預測模型的訓練方法,包括:獲取預標注的第一短文本語料以及短文本預測模型;獲取未標注的第二長文本語料,將第二長文本語料進行切分,得到未標注的第二短文本語料;利用短文本預測模型對第二短文本語料的類別標簽進行預測,并對第二短文本語料進行標注,得到標注好的第二短文本語料;將標注好的第二短文本語料進行拼接得到標注好的第二長文本語料,將預標注的第一短文本語料進行拼接得到標注好的第一長文本語料;將預標注的第一短文本語料、標注好的第一長文本語料、標注好的第二短文本語料、標注好的第二長文本語料進行合并處理,得到目標數據集;利用目標數據集對長文本預測模型進行訓練,得到目標預測模型。
技術領域
本發明涉及機器學習領域,特別是涉及一種適用長文本預測模型的訓練方法、裝置、設備及存儲介質。
背景技術
在文本預測領域,有標注的樣本成本高昂,也很稀缺,而在不同長度訓練語料下訓練出來的預訓練模型之間并不通用,常常有在短文本語料上訓練出來的模型在長文本語料上預測效果很差,反之亦然。這就導致在某些領域如語義質檢的在線和離線質檢上,常常需要分別針對不同場景構建不同的有標簽數據集,甚至需要對同一段語料分別構建短文本和長文本的樣本并分別標注。而長樣本往往比短樣本更少、更難獲取。尤其是隨著現在預訓練模型越來越大、參數越來越多,在提高模型能力上限的同時也對語料的數據量提出了越來越高的要求,標注變得愈發耗時耗力。與此同時,在不同長度文本語料上遷移模型效果上,現有的方案常常或復雜,涉及到大量的數學計算,沒有利用已有的短文本語料、模型或需要大量人工標注。
所以,一種能利用現有語料,在不進行人工標注情況下,又能充分利用原模型學到的知識,在不同長度文本上能有效遷移知識的方法顯得尤為急迫。
發明內容
本發明提供一種適用長文本預測模型的訓練方法、裝置、設備及存儲介質,能夠在利用現有的語料和短文本預測模型在不同長度文本上有效遷移知識。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種適用長文本預測模型的訓練方法,包括:
獲取預標注的第一短文本語料以及基于所述第一短文本語料訓練得到的短文本預測模型;
獲取未標注的第二長文本語料,按預設切分規則依序將所述第二長文本語料進行切分,得到未標注的第二短文本語料;
利用所述短文本預測模型對所述第二短文本語料的類別標簽進行預測,將預測得到的類別標簽對所述第二短文本語料進行標注處理,得到標注好的第二短文本語料;
將標注好的所述第二短文本語料進行拼接處理,得到標注好的所述第二長文本語料,將預標注的所述第一短文本語料進行拼接處理,得到標注好的第一長文本語料;
將預標注的所述第一短文本語料、標注好的所述第一長文本語料、標注好的所述第二短文本語料、以及標注好的所述第二長文本語料進行合并處理,得到目標數據集;
利用所述目標數據集對支持長文本的長文本預測模型進行訓練,得到目標預測模型。
優選地,所述獲取預標注的第一短文本語料以及基于所述第一短文本語料訓練得到的短文本預測模型包括:
獲取未標注的第一長文本語料,按預設切分規則依序將所述第一長文本語料進行切分處理,得到未標注的第一短文本語料;
對未標注的所述第一短文本語料進行標注處理,得到預標注的所述第一短文本語料;
基于預標注的所述第一短文本語料訓練預構建的初始預測模型,獲得所述短文本預測模型。
優選地,所述利用所述短文本預測模型對所述第二短文本語料的類別標簽進行預測,將預測得到的類別標簽對所述第二短文本語料進行標注處理,得到標注好的第二短文本語料包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青牛智勝(深圳)科技有限公司,未經青牛智勝(深圳)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210950829.2/2.html,轉載請聲明來源鉆瓜專利網。





