[發明專利]一種訓練樣本有效性檢測方法及裝置在審
| 申請號: | 201910022265.4 | 申請日: | 2019-01-10 |
| 公開(公告)號: | CN109902157A | 公開(公告)日: | 2019-06-18 |
| 發明(設計)人: | 許開河;杜堯鑫;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 馮曉平 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 有效性檢測 交叉驗證 訓練樣本 預設 分類模型 預設標準 訓練集 樣本集 人工智能技術 關聯 訓練分類 輸出 | ||
本發明實施例提供了一種訓練樣本有效性檢測方法及裝置,本發明涉及人工智能技術領域,方法包括:獲取多個擴展問,其中,每個擴展問與對應的一個預設標準問關聯;將多個擴展問隨機分為預設份數的樣本集,并根據預設比例將預設份數的樣本集分為訓練集和交叉驗證集;利用訓練集訓練分類模型;采用交叉驗證方法,并利用分類模型對交叉驗證集中的多個擴展問標注,直至所有的擴展問標注完成;獲取分類模型輸出的所有的擴展問的標注結果;根據標注結果得到異常擴展問,異常擴展問的標注結果與所關聯的預設標準問不同。本發明實施例提供的技術方案能夠解決現有技術中訓練樣本有效性檢測效率低的問題。
【技術領域】
本發明涉及人工智能技術領域,尤其涉及一種訓練樣本有效性檢測方法及裝置。
【背景技術】
目前,客服機器人發展趨于成熟,根據所需要實現的業務場景,需要大量的訓練語料對基于機器學習智能應答模型進行訓練,然而,現實中訓練語料往往質量參差不齊,不好的語料會導致應答模型的回答效果產生負面影響,因此如何提高訓練樣本的有效性檢測效率成為目前亟待解決的問題。
【發明內容】
有鑒于此,本發明實施例提供了一種訓練樣本有效性檢測方法、裝置和計算機設備,用以解決現有技術中訓練樣本的有效性檢測效率低的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種訓練樣本有效性檢測方法,所述方法包括:
步驟S101,獲取多個擴展問,其中,每個所述擴展問與對應的一個預設標準問關聯;
步驟S102,將多個所述擴展問隨機分為預設份數的樣本集,并根據預設比例將所述預設份數的樣本集分為訓練集和交叉驗證集;
步驟S103,利用所述訓練集訓練分類模型;
步驟S104,采用交叉驗證方法,并利用所述分類模型對所述交叉驗證集中的多個擴展問標注,直至所有的所述擴展問標注完成;
步驟S105,獲取所述分類模型輸出的所有的所述擴展問的標注結果;
步驟S106,根據所述標注結果得到異常擴展問,所述異常擴展問的標注結果與所關聯的預設標準問不同。
進一步地,在所述步驟S105之后,所述方法還包括:
重復操作M次的所述步驟S102至所述步驟S104,其中,M為大于1的自然數,每次重復操作前對所述分類模型進行初始化;獲取所述分類模型的輸出的所有的所述擴展問的M次標注結果;當所述擴展問的標注結果與所述預設標準問相同時,所述擴展問的當次計分為第一預設分值;或,當所述擴展問的標注結果與所述預設標準問不同時,所述擴展問的當次計分為第二預設分值;計算各個所述擴展問的第一累計得分;篩選出所述第一累計得分小于第一預設閾值的所述擴展問;將篩選出的擴展問作為所述異常擴展問,并輸出。
進一步地,在所述獲取所述分類模型的輸出的所有的所述擴展問的M次標注結果之后,所述方法還包括:
當所述標注結果與所述預設標準問相同時,由所述標注結果與所述預設標準問所組成的標準問對的當次計分為所述第一預設分值;或,當所述標注結果與所述預設標準問不同時,所述標準問對的當次計分為所述第二預設分值;計算各個所述標準問對的第二累計得分;篩選出所述第二累計得分小于第二預設閾值的所述標準問對;將篩選出的標準問對作為易混淆標準問對,并輸出。
進一步地,在所述步驟S105之后,所述方法還包括:
獲取實質相同的多個擴展問的標注結果,所述實質相同的多個擴展問的語義相似度大于預設值;統計所述實質相同的多個擴展問的標注結果;將重復次數最多的標注結果作為所述實質相同的多個擴展問對應的正確預設標準問;將所述標注結果與所述正確預設標準問不同的擴展問確認為所述異常擴展問。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910022265.4/2.html,轉載請聲明來源鉆瓜專利網。





