[發明專利]文本分類模型的更新方法及系統、電子設備及存儲介質在審
| 申請號: | 202010626363.1 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111737472A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 鄧艷江;羅超;胡泓 | 申請(專利權)人: | 攜程計算機技術(上海)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/958;G06F16/23 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 模型 更新 方法 系統 電子設備 存儲 介質 | ||
本發明公開了一種文本分類模型的更新方法及系統、電子設備及存儲介質。所述文本分類模型的更新方法包括:利用目標文本分類模型對網頁文本進行分類,并將分類結果展示于前端頁面;若接收到用戶對所述分類結果執行的質疑操作,則將所述網頁文本以及對所述網頁文本進行人工標注的分類結果作為新增樣本;將包括原有訓練集和所述新增樣本的數據集劃分為訓練集、測試集和驗證集,重新訓練文本分類模型;根據文本分類模型在訓練集、測試集以及驗證集上的F1值篩選最佳模型,并將所述目標文本分類模型更新為所述最佳模型。本發明實現了對誤判樣本的收集,并據此來重新訓練更準確的文本分類模型,從而替換原有的文本分類模型,提高了用戶體驗。
技術領域
本發明涉及信息技術領域,特別涉及一種文本分類模型的更新方法及系統、電子設備及存儲介質。
背景技術
隨著人工智能技術的發展,很多原來由人工完成的工作現在逐步被模型所替代,例如投訴分析系統、細粒度情感分析系統等。訓練集有標注錯誤或者訓練集樣本不全等原因可能導致模型上線后有一些誤判的樣本。如果能不斷地收集、甄別并利用這部分樣本,讓模型進一步學習,模型的準確率和召回率也會不斷地提高。但是,當前缺乏一套流程化、規范化的系統以高效完成以上工作。
發明內容
本發明要解決的技術問題是為了克服現有技術中的上述缺陷,提供一種文本分類模型的更新方法及系統、電子設備及存儲介質。
本發明是通過下述技術方案來解決上述技術問題:
本發明的第一方面提供一種文本分類模型的更新方法,包括:
利用目標文本分類模型對網頁文本進行分類,并將分類結果展示于前端頁面;
若接收到用戶對所述分類結果執行的質疑操作,則將所述網頁文本以及對所述網頁文本進行人工標注的分類結果作為新增樣本;
將包括原有訓練集和所述新增樣本的數據集劃分為訓練集、測試集和驗證集,重新訓練文本分類模型;其中,所述原有訓練集為訓練所述目標文本分類模型所使用的訓練集;
根據文本分類模型在訓練集、測試集以及驗證集上的F1值篩選最佳模型,并將所述目標文本分類模型更新為所述最佳模型。
較佳地,所述根據文本分類模型在訓練集、測試集以及驗證集上的F1值篩選最佳模型,具體包括:
根據文本分類模型在訓練集和驗證集上的F1值的平均值以及方差篩選備選模型;
根據更新前的目標文本分類模型與所述備選模型分別在測試集上的F1值確定是否將所述備選模型作為最佳模型。
較佳地,所述根據文本分類模型在訓練集和驗證集上的F1值的平均值以及方差篩選備選模型,具體包括:
利用以下公式計算文本分類模型的分數Score:
Score=a*F1平均值-(1-a)*F1方差;
其中,F1平均值為文本分類模型在訓練集和驗證集上的F1值的平均值,F1方差為文本分類模型在訓練集和驗證集上的F1值的方差,a為權重;
篩選分數Score最大的文本分類模型作為備選模型。
較佳地,所述根據更新前的目標文本分類模型與所述備選模型分別在測試集上的F1值確定是否將所述備選模型作為最佳模型,具體包括:
若更新前的目標文本分類模型在測試集上的F1值與所述備選模型在測試集上的F1值之間的差值不大于1%,則確定將所述備選模型作為最佳模型。
較佳地,所述更新方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程計算機技術(上海)有限公司,未經攜程計算機技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010626363.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種波紋管推進輔助裝置
- 下一篇:腹透用輸液裝置





