[發明專利]數據處理方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201910432715.7 | 申請日: | 2019-05-23 |
| 公開(公告)號: | CN110298541A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 韓磊 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/00;G06K9/62 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 黃章輝 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 打標 樣本數據 計算機設備 存儲介質 模型訓練 數據使用 無效數據 數據處理 數據打 標注 數據采樣 數據集合 數據記錄 訓練效果 不一致 噪聲 復制 集合 保留 檢測 | ||
1.一種數據處理方法,其特征在于,包括:
獲取初始樣本數據集合中的樣本數據的數量,并執行數據采樣流程,且所述數據采樣流程的執行次數與所述樣本數據的數量一致,所述數據采樣流程包括:從所述初始樣本數據集合中隨機剪切一個樣本數據放入待打標數據集合中作為待打標數據,再將剪切的所述樣本數據復制之后放回所述初始數據集合中;
將所述待打標數據集合中噪聲待打標數據進行清除并保留共性待打標數據,所述噪聲待打標數據是指冗余或/和異常錯誤的待打標數據,所述共性待打標數據是指除所述噪聲待打標數據之外的待打標數據;
從所述待打標數據集合的所述共性待打標數據中選取第一待打標數據,并對選取的所述第一待打標數據進行復制之后,得到第二待打標數據;
對所述第一待打標數據使用第一打標規則進行數據打標得到第一打標數據,同時對所述第二待打標數據使用第二打標規則進行數據打標得到第二打標數據,并將所述第一打標數據和所述第二打標數據存儲至預設數據庫,所述第一打標數據和所述第二打標數據是帶有標注結果的打標數據;
判斷所述第一打標數據中的標注結果和所述第二打標數據中的標注結果是否一致;
若所述第一打標數據和所述第二打標數據中的標注結果不一致,則將所述第一打標數據和所述第二打標數據記錄為無效數據,并將所述第一打標數據和所述第二打標數據從所述預設數據庫中清除。
2.根據權利要求1所述的數據處理方法,其特征在于,所述將所述待打標數據集合中噪聲待打標數據進行清除并保留共性待打標數據之后,還包括:
獲取共性待打標數據的數量;
將所述共性待打標數據的數量與所述樣本數據的數量的比值記錄為第一比值;
判斷所述第一比值是否大于或等于第一預設的比值閾值;
若所述第一比值小于所述第一預設的比值閾值,則提示所述待打標數據集合中的所述共性待打標數據的數量不符合要求,并繼續執行所述數據采樣流程直至所述第一比值大于或等于所述第一預設的比值閾值。
3.根據權利要求1所述的數據處理方法,其特征在于,所述將所述待打標數據集合中噪聲待打標數據進行清除并保留共性待打標數據,包括:
判斷所述待打標數據集合中是否存在相同的待打標數據,同時,檢測所述待打標數據集合中是否存在所述異常錯誤的待打標數據;
若所述待打標數據集合中存在所述相同的待打標數據且并不存在所述異常錯誤的待打標數據,則確定所述初始樣本數據集合中的所述噪聲待打標數據僅包含所述冗余的待打標數據,并在保留所述相同的待打標數據中的其中一個之后,將其他的所述相同的待打標數據自所述待打標數據集合中刪除;
若所述待打標數據集合中存在所述相同的待打標數據且存在所述異常錯誤的待打標數據,則確定所述初始樣本數據集合中的所述噪聲待打標數據包含所述冗余的待打標數據和所述異常錯誤的待打標數據,并在保留所述相同的待打標數據中的其中一個之后,刪除剩余的所述噪聲待打標數據,同時自另一個初始樣本數據集合中剪切與所述異常錯誤的待打標數據對應且無誤的樣本數據,并將所述無誤的樣本數據放入所述待打標數據集合中作為所述待打標數據之后,再將剪切的所述無誤的樣本數據放回所述另一個初始數據集合中;
若所述待打標數據集合中不存在所述相同的待打標數據但存在所述異常錯誤的待打標數據,則確定所述初始樣本數據集合中的所述噪聲待打標數據僅包含所述異常錯誤的待打標數據,并在刪除所述噪聲待打標數據之后,自另一個初始樣本數據集合中剪切與所述異常錯誤的待打標數據對應且無誤的樣本數據,并將所述無誤的樣本數據放入所述待打標數據集合中作為所述待打標數據之后,再將剪切的所述無誤的樣本數據放回所述另一個初始數據集合中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910432715.7/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





