[發明專利]文本分類模型訓練方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201910247846.8 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN110110080A | 公開(公告)日: | 2019-08-09 |
| 發明(設計)人: | 金戈;徐亮 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06K9/66 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 黃章輝 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 文本分類模型 計算機設備 初級分類 存儲介質 分類模型 類別標記 類別標注 相關度 信息熵 預設樣本庫 方案解決 訓練過程 訓練樣本 預設條件 預設 | ||
本發明公開了一種文本分類模型訓練方法、裝置、計算機設備及存儲介質,所述方法包括:從預設樣本庫中獲取具有類別標記的第一樣本數據和不具有類別標記的第二樣本數據;根據第一樣本數據建立初級分類模型;同時,計算第二樣本數據的信息熵值和相關度值;根據預設的類別標注方式,對信息熵值和相關度值滿足預設條件的第二樣本數據進行類別標注,得到第三樣本數據;使用第三樣本數據對初級分類模型進行訓練,得到中級分類模型;使用第一樣本數據和第三樣本數據對中級分類模型進行訓練,得到文本分類模型。本發明的技術方案解決了文本分類模型訓練過程中,訓練樣本規模龐大,訓練時間長的問題。
技術領域
本發明涉及信息處理領域,尤其涉及文本分類模型訓練方法、裝置、計算機設備及存儲介質。
背景技術
文本分類是自然語言處理研究領域中的一個重要應用方向。文本分類是指利用分類器對包含文本的數據文檔進行分類,從而確定每個文檔所屬的類別,使得用戶能夠方便的獲取需要的文檔。
其中,分類器又稱為分類模型,是通過使用大量的帶有類別標記的樣本數據,對分類準則或模型參數進行訓練而得到的。利用訓練得到的分類器對未知類別的文本數據進行識別,從而實現對大規模文本數據的自動分類。因此,分類模型的優劣直接影響到分類的最終效果。
然而,在現實的大型文本分類問題中,有類別標記的樣本數據非常有限,大部分樣本是沒有類別標記的。這使得在分類模型的構建過程中,不得不采用由領域內的專家來進行人工標注的方式。這種方式需要耗費大量的人力、財力和時間,并且訓練樣本的規模龐大,訓練過程也將花費大量的時間。
發明內容
本發明實施例提供一種文本分類模型訓練方法、裝置、計算機設備及存儲介質,以解決在文本分類模型訓練過程中,訓練樣本規模龐大,訓練時間長的問題。
一種文本分類模型訓練方法,包括:
從預設樣本庫中獲取具有類別標記的第一樣本數據,并根據所述第一樣本數據建立初級分類模型;
從所述預設樣本庫中獲取不具有所述類別標記的第二樣本數據;
計算每個所述第二樣本數據的信息熵,得到每個所述第二樣本數據的信息熵值;
根據所述第二樣本數據中包含相同詞組的數量,計算每個所述第二樣本數據的相關度值;
選取所述信息熵值超過預設信息熵閾值,并且所述相關度值低于所述預設相關度閾值的所述第二樣本數據作為待標注數據;
根據預設的類別標注方式,對所述待標注數據進行類別標注,得到第三樣本數據;
按照預設的模型訓練方式,使用所述第三樣本數據對所述初級分類模型進行訓練,得到中級分類模型;
按照所述預設的模型訓練方式,使用所述第一樣本數據和所述第三樣本數據對所述中級分類模型進行訓練,得到文本分類模型。
一種文本分類模型訓練裝置,包括:
初級模型建立模塊,用于從預設樣本庫中獲取具有類別標記的第一樣本數據,并根據所述第一樣本數據建立初級分類模型;
樣本數據獲取模塊,用于從所述預設樣本庫中獲取不具有所述類別標記的第二樣本數據;
信息熵計算模塊,用于計算每個所述第二樣本數據的信息熵,得到每個所述第二樣本數據的信息熵值;
相關度計算模塊,用于根據所述第二樣本數據中包含相同詞組的數量,計算每個所述第二樣本數據的相關度值;
待標注數據選取模塊,用于選取所述信息熵值超過預設信息熵閾值,并且所述相關度值低于所述預設相關度閾值的所述第二樣本數據作為待標注數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910247846.8/2.html,轉載請聲明來源鉆瓜專利網。





