[發(fā)明專利]數(shù)據(jù)處理方法、裝置、計算機設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910432715.7 | 申請日: | 2019-05-23 |
| 公開(公告)號: | CN110298541A | 公開(公告)日: | 2019-10-01 |
| 發(fā)明(設計)人: | 韓磊 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/00;G06K9/62 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 黃章輝 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 打標 樣本數(shù)據(jù) 計算機設備 存儲介質(zhì) 模型訓練 數(shù)據(jù)使用 無效數(shù)據(jù) 數(shù)據(jù)處理 數(shù)據(jù)打 標注 數(shù)據(jù)采樣 數(shù)據(jù)集合 數(shù)據(jù)記錄 訓練效果 不一致 噪聲 復制 集合 保留 檢測 | ||
本發(fā)明公開了一種數(shù)據(jù)處理方法、裝置、計算機設備及存儲介質(zhì)。所述方法包括:獲取初始樣本數(shù)據(jù)集合中的樣本數(shù)據(jù)的數(shù)量,執(zhí)行數(shù)據(jù)采樣流程;將待打標數(shù)據(jù)集合中噪聲待打標數(shù)據(jù)進行清除并保留共性待打標數(shù)據(jù);從共性待打標數(shù)據(jù)中選取第一待打標數(shù)據(jù),并復制得到第二待打標數(shù)據(jù);對第一待打標數(shù)據(jù)使用第一打標規(guī)則進行數(shù)據(jù)打標得到第一打標數(shù)據(jù),對第二待打標數(shù)據(jù)使用第二打標規(guī)則進行數(shù)據(jù)打標得到第二打標數(shù)據(jù);若第一打標數(shù)據(jù)中的標注結(jié)果和第二打標數(shù)據(jù)中的標注結(jié)果不一致,將第一打標數(shù)據(jù)和第二打標數(shù)據(jù)記錄為無效數(shù)據(jù)并將清除。本發(fā)明通過提前清除用于模型訓練的樣本數(shù)據(jù)中的無效數(shù)據(jù),可以提高了模型訓練的訓練效果和檢測效果。
技術(shù)領域
本發(fā)明涉及數(shù)據(jù)分析領域,尤其涉及一種數(shù)據(jù)處理方法、裝置、計算機設備及存儲介質(zhì)。
背景技術(shù)
目前企業(yè)坐席通過企業(yè)電話、某種客戶端或網(wǎng)頁上與客戶進行溝通會話,且部分企業(yè)坐席可能會發(fā)生違規(guī)的現(xiàn)象,從而對公司的聲譽以及經(jīng)濟效益帶來一定的負面影響。因此,公司監(jiān)管坐席與客戶的會話消息就非常重要,監(jiān)管坐席與客戶的會話消息可以用到質(zhì)檢模型,但需要提前訓練好一個質(zhì)檢模型,此時,如果用于進行訓練的數(shù)據(jù)有太多的無效數(shù)據(jù),就會降低質(zhì)檢模型的檢測效果。
因此,尋找一種能夠獲取一定的有效數(shù)據(jù)從而可以提高質(zhì)檢模型訓練的訓練效果和檢測效果的技術(shù)方案成為本領域技術(shù)人員亟需解決的問題。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種數(shù)據(jù)處理方法、裝置、計算機設備及存儲介質(zhì),用于提高模型訓練的訓練效果和檢測效果。
一種數(shù)據(jù)處理方法,包括:
獲取初始樣本數(shù)據(jù)集合中的樣本數(shù)據(jù)的數(shù)量,并執(zhí)行數(shù)據(jù)采樣流程,且所述數(shù)據(jù)采樣流程的執(zhí)行次數(shù)與所述樣本數(shù)據(jù)的數(shù)量一致,所述數(shù)據(jù)采樣流程包括:從所述初始樣本數(shù)據(jù)集合中隨機剪切一個樣本數(shù)據(jù)放入待打標數(shù)據(jù)集合中作為待打標數(shù)據(jù),再將剪切的所述樣本數(shù)據(jù)復制之后放回所述初始數(shù)據(jù)集合中;
將所述待打標數(shù)據(jù)集合中噪聲待打標數(shù)據(jù)進行清除并保留共性待打標數(shù)據(jù),所述噪聲待打標數(shù)據(jù)是指冗余或/和異常錯誤的待打標數(shù)據(jù),所述共性待打標數(shù)據(jù)是指除所述噪聲待打標數(shù)據(jù)之外的待打標數(shù)據(jù);
從所述待打標數(shù)據(jù)集合的所述共性待打標數(shù)據(jù)中選取第一待打標數(shù)據(jù),并對選取的所述第一待打標數(shù)據(jù)進行復制之后,得到第二待打標數(shù)據(jù);
對所述第一待打標數(shù)據(jù)使用第一打標規(guī)則進行數(shù)據(jù)打標得到第一打標數(shù)據(jù),同時對所述第二待打標數(shù)據(jù)使用第二打標規(guī)則進行數(shù)據(jù)打標得到第二打標數(shù)據(jù),并將所述第一打標數(shù)據(jù)和所述第二打標數(shù)據(jù)存儲至預設數(shù)據(jù)庫,所述第一打標數(shù)據(jù)和所述第二打標數(shù)據(jù)是帶有標注結(jié)果的打標數(shù)據(jù);
判斷所述第一打標數(shù)據(jù)中的標注結(jié)果和所述第二打標數(shù)據(jù)中的標注結(jié)果是否一致;
若所述第一打標數(shù)據(jù)和所述第二打標數(shù)據(jù)中的標注結(jié)果不一致,則將所述第一打標數(shù)據(jù)和所述第二打標數(shù)據(jù)記錄為無效數(shù)據(jù),并將所述第一打標數(shù)據(jù)和所述第二打標數(shù)據(jù)從所述預設數(shù)據(jù)庫中清除。
一種數(shù)據(jù)處理裝置,包括:
第一獲取模塊,用于獲取初始樣本數(shù)據(jù)集合中的樣本數(shù)據(jù)的數(shù)量,并執(zhí)行數(shù)據(jù)采樣流程,且所述數(shù)據(jù)采樣流程的執(zhí)行次數(shù)與所述樣本數(shù)據(jù)的數(shù)量一致,所述數(shù)據(jù)采樣流程包括:從所述初始樣本數(shù)據(jù)集合中隨機剪切一個樣本數(shù)據(jù)放入待打標數(shù)據(jù)集合中作為待打標數(shù)據(jù),再將剪切的所述樣本數(shù)據(jù)復制之后放回所述初始數(shù)據(jù)集合中;
清除模塊,用于將所述待打標數(shù)據(jù)集合中噪聲待打標數(shù)據(jù)進行清除并保留共性待打標數(shù)據(jù),所述噪聲待打標數(shù)據(jù)是指冗余或/和異常錯誤的待打標數(shù)據(jù),所述共性待打標數(shù)據(jù)是指除所述噪聲待打標數(shù)據(jù)之外的待打標數(shù)據(jù);
選取模塊,用于從所述待打標數(shù)據(jù)集合的所述共性待打標數(shù)據(jù)中選取第一待打標數(shù)據(jù),并對選取的所述第一待打標數(shù)據(jù)進行復制之后,得到第二待打標數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910432715.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





