[發(fā)明專利]一種訓練樣本有效性檢測方法及裝置在審
| 申請?zhí)枺?/td> | 201910022265.4 | 申請日: | 2019-01-10 |
| 公開(公告)號: | CN109902157A | 公開(公告)日: | 2019-06-18 |
| 發(fā)明(設計)人: | 許開河;杜堯鑫;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35 |
| 代理公司: | 北京匯思誠業(yè)知識產權代理有限公司 11444 | 代理人: | 馮曉平 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 有效性檢測 交叉驗證 訓練樣本 預設 分類模型 預設標準 訓練集 樣本集 人工智能技術 關聯(lián) 訓練分類 輸出 | ||
1.一種訓練樣本有效性檢測方法,其特征在于,所述方法包括:
步驟S101,獲取多個擴展問,其中,每個所述擴展問與對應的一個預設標準問關聯(lián);
步驟S102,將多個所述擴展問隨機分為預設份數(shù)的樣本集,并根據(jù)預設比例將所述預設份數(shù)的樣本集分為訓練集和交叉驗證集;
步驟S103,利用所述訓練集訓練分類模型;
步驟S104,采用交叉驗證方法,并利用所述分類模型對所述交叉驗證集中的多個擴展問標注,直至所有的所述擴展問標注完成;
步驟S105,獲取所述分類模型輸出的所有的所述擴展問的標注結果;
步驟S106,根據(jù)所述標注結果得到異常擴展問,所述異常擴展問的標注結果與所關聯(lián)的預設標準問不同。
2.根據(jù)權利要求1所述的方法,其特征在于,在所述步驟S105之后,所述方法還包括:
重復操作M次的所述步驟S102至所述步驟S104,其中,M為大于1的自然數(shù),每次重復操作前對所述分類模型進行初始化設置;
獲取所述分類模型的輸出的所有的所述擴展問的M次標注結果;
當所述擴展問的標注結果與所述預設標準問相同時,所述擴展問的當次計分為第一預設分值;或,當所述擴展問的標注結果與所述預設標準問不同時,所述擴展問的當次計分為第二預設分值;
計算各個所述擴展問的第一累計得分;
篩選出所述第一累計得分小于第一預設閾值的所述擴展問;
將篩選出的擴展問作為所述異常擴展問,并輸出。
3.根據(jù)權利要求2所述的方法,其特征在于,在所述獲取所述分類模型的輸出的所有的所述擴展問的M次標注結果之后,所述方法還包括:
當所述標注結果與所述預設標準問相同時,由所述標注結果與所述預設標準問所組成的標準問對的當次計分為所述第一預設分值;或,當所述標注結果與所述預設標準問不同時,所述標準問對的當次計分為所述第二預設分值;
計算各個所述標準問對的第二累計得分;
篩選出所述第二累計得分小于第二預設閾值的所述標準問對;
將篩選出的標準問對作為易混淆標準問對,并輸出。
4.根據(jù)權利要求1所述的方法,其特征在于,在所述步驟S105之后,所述方法還包括:
獲取實質相同的多個擴展問的標注結果,所述實質相同的多個擴展問的語義相似度大于預設值;
統(tǒng)計所述實質相同的多個擴展問的標注結果;
將重復次數(shù)最多的標注結果作為所述實質相同的多個擴展問對應的正確預設標準問;
將所述標注結果與所述正確預設標準問不同的擴展問確認為所述異常擴展問。
5.根據(jù)權利要求4所述的方法,其特征在于,在所述將所述標注結果與所述正確預設標準問不同的擴展問確認為所述異常擴展問之后,所述方法還包括:
將所述異常擴展問所關聯(lián)的預設標準問修改為所述正確預設標準問。
6.根據(jù)權利要求1~5中任意一項所述的方法,其特征在于,所述方法還包括:
修正所述異常擴展問,并用修正后的所述異常擴展問替換原擴展問;
用替換后的多個所述擴展問訓練所述分類模型。
7.根據(jù)權利要求1所述的方法,其特征在于,所述交叉驗證方法為十折交叉驗證方法或五折交叉驗證方法中的任意一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910022265.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





