[發(fā)明專利]文本分類模型的元學習方法、裝置、設備及存儲介質在審
| 申請?zhí)枺?/td> | 202110702623.3 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113434648A | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設計)人: | 饒剛 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 深圳國新南方知識產權代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 模型 學習方法 裝置 設備 存儲 介質 | ||
本發(fā)明公開了一種文本分類模型的元學習方法,應用于人工智能技術領域,用于解決通過少量樣本實現(xiàn)分類模型對新增類別進行學習時學習難度大、學習效率低的技術問題。本發(fā)明提供的方法包括:獲取文本樣本數(shù)據(jù);將文本樣本數(shù)據(jù)的數(shù)量小于該預設值的類別中包含的文本樣本數(shù)據(jù)確定為元測試集,將文本樣本數(shù)據(jù)的數(shù)量大于等于該預設值的類別中包含的文本樣本數(shù)據(jù)確定為元訓練集;通過該元訓練集對文本分類模型進行元訓練,得到文本分類模型學習器;通過元測試集對該文本分類模型學習器進一步進行測試階段訓練,最終得到訓練好的該文本分類模型。
技術領域
本發(fā)明涉及人工智能技術領域,尤其涉及一種文本分類模型的元學習方法、裝置、設備及存儲介質。
背景技術
在例如人機對話或用戶與人工客服的對話場景中,需要將對話內容整理成文本,然后根據(jù)文本中包含的主題對該文本內容進行分類,以便于了解各用戶所關注的問題,便于更好的為用戶提供對應的解決方案。
目前對于文本的分類方法是基于大量真實數(shù)據(jù)挖掘一撥主題,制定分類的類別后,開始進行大量的人工標注,然后訓練一個分類器,通過該分類器對待分類的文本進行分類。然而現(xiàn)實中經常出現(xiàn)這些的場景,由于樣本文本數(shù)據(jù)的局限,或者是之前的類別挖掘不充分,需要新增一個文本的主題或者類別,無疑又要再次積累大量的標注樣本。實際情況是某些類別的文本樣本在業(yè)務上本來就比較少,或者是在新增的業(yè)務服務類別中,標注樣本本身就很少,要實現(xiàn)模型對新增的主題或者類別進行智能識別,使得訓練樣本的獲取成本異常高。
現(xiàn)亟待提出一種通過少量文本樣本就可以實現(xiàn)分類模型對新增的主題或類別進行訓練的方法。
發(fā)明內容
本發(fā)明實施例提供一種文本分類模型的元學習方法、裝置、計算機設備及存儲介質,以解決通過少量樣本實現(xiàn)分類模型對新增類別進行學習時學習難度大、學習效率低的技術問題。
一種文本分類模型的元學習方法,該方法包括:
獲取文本樣本數(shù)據(jù),該文本樣本數(shù)據(jù)攜帶有該文本樣本數(shù)據(jù)所屬類別的標識,其中,至少一個該類別中包含的文本樣本數(shù)據(jù)的數(shù)量小于預設值;
將文本樣本數(shù)據(jù)的數(shù)量小于該預設值的類別中包含的文本樣本數(shù)據(jù)確定為元測試集,將文本樣本數(shù)據(jù)的數(shù)量大于等于該預設值的類別中包含的文本樣本數(shù)據(jù)確定為元訓練集;
通過該元訓練集對文本分類模型進行元訓練,得到文本分類模型學習器;
將該文本分類模型學習器作為待訓練的文本分類模型,通過該元測試集對該文本分類模型學習器進行測試訓練,當所述文本分類模型學習器的損失函數(shù)在測試階段收斂時,得到訓練好的文本分類模型。
一種文本分類模型的元學習裝置,該裝置包括:
樣本獲取模塊,用于獲取文本樣本數(shù)據(jù),該文本樣本數(shù)據(jù)攜帶有該文本樣本數(shù)據(jù)所屬類別的標識,其中,至少一個該類別中包含的文本樣本數(shù)據(jù)的數(shù)量小于預設值;
分類模塊,用于將文本樣本數(shù)據(jù)的數(shù)量小于該預設值的類別中包含的文本樣本數(shù)據(jù)確定為元測試集,將文本樣本數(shù)據(jù)的數(shù)量大于等于該預設值的類別中包含的文本樣本數(shù)據(jù)確定為元訓練集;
學習器訓練模塊,用于通過該元訓練集對文本分類模型進行元訓練,得到文本分類模型學習器;
測試訓練模塊,用于將該文本分類模型學習器作為待訓練的文本分類模型,通過該元測試集對該文本分類模型學習器進行測試訓練,當所述文本分類模型學習器的損失函數(shù)在測試階段收斂時,得到訓練好的文本分類模型。
一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述文本分類模型的元學習方法的步驟。
一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述文本分類模型的元學習方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110702623.3/2.html,轉載請聲明來源鉆瓜專利網。





