[發明專利]文本分類模型的訓練方法、裝置、存儲介質及計算機設備有效
| 申請號: | 202010190582.X | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111522942B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 林連升 | 申請(專利權)人: | 大箴(杭州)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威;賈依嬌 |
| 地址: | 310000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 模型 訓練 方法 裝置 存儲 介質 計算機 設備 | ||
1.一種文本分類模型的訓練方法,其特征在于,所述方法包括:
對第一文本樣本進行聚類,得到至少一個第一文本簇;
基于從每個所述第一文本簇中分別獲取的第一預設數量的所述第一文本樣本,獲取每個所述第一文本簇對應的文本標簽;
分別從每個所述第一文本簇中獲取第二預設數量的所述第一文本樣本作為第一訓練樣本;
基于所述第一訓練樣本及其對應的文本標簽建立第一訓練集,訓練文本分類模型;
對第N文本樣本進行聚類,得到至少一個第N文本簇,N≥2;
分別從每個所述第N文本簇中獲取第三預設數量的所述第N文本樣本;
利用所述文本分類模型對從所述第N文本簇中獲取的所述第N文本樣本分類,得到所述第N文本樣本對應的預測標簽,并校驗所述預測標簽的準確性;
在所述預測標簽不準確時,獲取所述第N文本樣本對應的實際標簽;
若所述文本標簽包括所述實際標簽,則基于相應的所述文本標簽以及所述文本標簽對應的文本簇,確定所述文本標簽是否標注正確,當所述文本標簽標注錯誤時,糾正標注錯誤的所述文本標簽,當所述文本標簽標注正確時,從相應的所述第N文本簇中獲取第四預設數量的所述第N文本樣本;
基于所述第N文本樣本及其對應的文本標簽以及第N-1訓練集建立第N訓練集,訓練所述文本分類模型;
若所述文本標簽不包括所述實際標簽,則從相應的所述第N文本簇中獲取所述第二預設數量的所述第N文本樣本;
基于所述第N文本樣本及其對應的所述實際標簽以及第N-1訓練集建立第N訓練集,訓練所述文本分類模型。
2.根據權利要求1所述的方法,其特征在于,所述校驗所述預測標簽的準確性之后,所述方法還包括:
在所述預測標簽準確時,利用所述預測標簽標注所述第N文本樣本對應的所述第N文本簇。
3.根據權利要求1或2所述的方法,其特征在于,所述第N文本樣本基于第N文本獲取周期獲??;所述方法還包括:
統計所述文本分類模型對第N文本簇的分類成功率;
基于所述分類成功率,確定第N+1文本獲取周期,其中,所述分類成功率越高所述第N+1文本獲取周期越長。
4.一種文本分類模型的訓練裝置,其特征在于,所述裝置包括:
第一文本聚類模塊,用于對第一文本樣本進行聚類,得到至少一個第一文本簇;
第一文本標簽獲取模塊,用于基于從每個所述第一文本簇中分別獲取的第一預設數量的所述第一文本樣本,獲取每個所述第一文本簇對應的文本標簽;
第一訓練樣本獲取模塊,用于分別從每個所述第一文本簇中獲取第二預設數量的所述第一文本樣本作為第一訓練樣本;
第一模型訓練模塊,用于基于所述第一訓練樣本及其對應的文本標簽建立第一訓練集,訓練文本分類模型;
第N文本聚類模塊,用于訓練文本分類模型之后,對第N文本樣本進行聚類,得到至少一個第N文本簇,N≥2;
預測文本獲取模塊,用于分別從每個所述第N文本簇中獲取第三預設數量的所述第N文本樣本;
分類模塊,用于利用所述文本分類模型對從所述第N文本簇中獲取的所述第N文本樣本分類,得到所述第N文本樣本對應的預測標簽,并校驗所述預測標簽的準確性;
第N模型訓練模塊,用于在所述預測標簽不準確時,獲取所述第N文本樣本對應的實際標簽,若所述文本標簽包括所述實際標簽,則基于相應的所述文本標簽以及所述文本標簽對應的文本簇,確定所述文本標簽是否標注正確,當所述文本標簽標注錯誤時,糾正標注錯誤的所述文本標簽,當所述文本標簽標注正確時,從相應的所述第N文本簇中獲取第四預設數量的所述第N文本樣本,基于所述第N文本樣本及其對應的文本標簽以及第N-1訓練集建立第N訓練集,訓練所述文本分類模型;
第N模型訓練模塊,還用于若所述文本標簽不包括所述實際標簽,則從相應的所述第N文本簇中獲取所述第二預設數量的所述第N文本樣本;
基于所述第N文本樣本及其對應的所述實際標簽以及第N-1訓練集建立第N訓練集,訓練所述文本分類模型。
5.一種存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現權利要求1至3中任一項所述的文本分類模型的訓練方法。
6.一種計算機設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1至3中任一項所述的文本分類模型的訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大箴(杭州)科技有限公司,未經大箴(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010190582.X/1.html,轉載請聲明來源鉆瓜專利網。





