[發明專利]預測模型訓練方法、裝置、存儲介質及計算機設備在審
| 申請號: | 201910559074.1 | 申請日: | 2019-06-26 |
| 公開(公告)號: | CN110457675A | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 畢野;黃博;吳振宇;王建明 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62;G06F16/33;G06N3/08 |
| 代理公司: | 11448 北京中強智尚知識產權代理有限公司 | 代理人: | 黃耀威;賈依嬌<國際申請>=<國際公布> |
| 地址: | 518000廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 標注 預測模型 預測 置信度 神經網絡模型 預測模型訓練 計算機設備 存儲介質 迭代訓練 人工標注 神經網絡 訓練效率 預設條件 更新 預設 樣本 重復 勞動 | ||
本發明公開了一種基于神經網絡的預測模型訓練方法、裝置、存儲介質及計算機設備,主要在于能夠降低人工標注的樣本數量,避免了大量的重復勞動,從而提升了預測模型的訓練效率和預測精度。所述方法包括:獲取標注樣本數據和未標注樣本數據;將所述標注樣本數據輸入至預設神經網絡模型進行訓練,得到所述預測模型對應的初步模型;將所述未標注樣本數據輸入至所述初步模型進行預測,得到所述未標注樣本數據對應各個預測類別的置信度;確定置信度不符合預設條件的預測類別,選取確定的預測類別下的未標注樣本數據供標注,利用新標注的樣本數據,更新所述標注樣本數據;將更新后的標注樣本數據輸入至所述初步模型進行迭代訓練,得到所述預測模型。本發明適用于預測模型的訓練。
技術領域
本發明涉及信息技術領域,尤其是涉及一種預測模型訓練方法、裝置、存儲介質及計算機設備。
背景技術
自然語言處理是屬于人工智能領域中的一個重要方向,其應用領域涉及廣泛,包括智能助手,機器翻譯,實體命名識別、情緒識別等,例如,根據自然語言處理技術可以將文字序列中出現的不同種類的命名實體標注出來,在自然語言處理領域中深度學習模型訓練時需要人工標注數據,因此,人工標注數據對于自然語言處理領域十分重要。
目前,由于深度學習模型需要大量的標注數據完成對不同結構化預測的任務需求,因此在模型訓練時需要對所有樣本數據進行標注,即要進行大量的人工標注工作,然而,人工標注工作需要大量的重復性勞動,工作內容繁瑣,并且效率低下,在模型訓練時,對所有樣本數據重視程度一致,不利于將有效資源關注于最難識別的樣本數據,由此導致模型的訓練效率低下和預測精度較低。
發明內容
本發明提供了一種預測模型訓練方法、裝置、存儲介質及計算機設備,主要在于能夠降低人工標注的樣本數量,避免了大量的重復勞動,從而提升了預測模型的訓練效率和預測精度。
根據本發明的第一個方面,提供一種預測模型訓練方法,包括:
獲取待訓練的預測模型所需要的標注樣本數據量、以及數據量之和等于所述標注樣本數據量的標注樣本數據和未標注樣本數據;
將所述標注樣本數據輸入至預設神經網絡模型進行訓練,得到所述預測模型對應的初步模型;
將所述未標注樣本數據輸入至所述初步模型進行預測,得到所述未標注樣本數據對應各個預測類別的置信度;
確定置信度不符合預設條件的預測類別,選取確定的預測類別下的未標注樣本數據供標注,利用新標注的樣本數據,更新所述標注樣本數據;
將更新后的標注樣本數據輸入至所述初步模型進行迭代訓練,得到所述預測模型。
根據本發明的第二個方面,提供一種預測模型訓練裝置,包括:
獲取單元,用于獲取待訓練的預測模型所需要的標注樣本數據量、以及數據量之和等于所述標注樣本數據量的標注樣本數據和未標注樣本數據;
第一訓練單元,用于將所述標注樣本數據輸入至預設神經網絡模型進行訓練,得到所述預測模型對應的初步模型;
預測單元,用于將所述未標注樣本數據輸入至所述初步模型進行預測,得到所述未標注樣本數據對應各個預測類別的置信度;
選取單元,用于確定置信度不符合預設條件的預測類別,選取確定的預測類別下的未標注樣本數據供標注,利用新標注的樣本數據,更新所述標注樣本數據;
第二訓練單元,用于將更新后的標注樣本數據輸入至所述初步模型進行迭代訓練,得到所述預測模型。
根據本發明的第三個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現以下步驟:
獲取待訓練的預測模型所需要的標注樣本數據量、以及數據量之和等于所述標注樣本數據量的標注樣本數據和未標注樣本數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910559074.1/2.html,轉載請聲明來源鉆瓜專利網。





