[發(fā)明專利]一種提升樣本數(shù)據(jù)集數(shù)據(jù)質(zhì)量的方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110854516.2 | 申請(qǐng)日: | 2021-07-28 |
| 公開(公告)號(hào): | CN113535703A | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 陳瑞;冷迪;黃建華 | 申請(qǐng)(專利權(quán))人: | 深圳供電局有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06N20/00 |
| 代理公司: | 深圳匯智容達(dá)專利商標(biāo)事務(wù)所(普通合伙) 44238 | 代理人: | 孫威 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 提升 樣本 數(shù)據(jù) 集數(shù) 質(zhì)量 方法 系統(tǒng) | ||
1.一種提升樣本數(shù)據(jù)集數(shù)據(jù)質(zhì)量的方法,其特征在于,包括以下步驟:
步驟S1,獲取樣本數(shù)據(jù)并根據(jù)預(yù)設(shè)的篩選條件進(jìn)行篩選,獲得高質(zhì)量樣本數(shù)據(jù);根據(jù)預(yù)設(shè)的樣本類型篩選條件對(duì)所述高質(zhì)量樣本數(shù)據(jù)進(jìn)行判斷,保留符合所述預(yù)設(shè)的樣本類型篩選條件中樣本類型的高質(zhì)量樣本數(shù)據(jù);
步驟S2,根據(jù)保留的高質(zhì)量樣本數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練,獲得參考模型;
步驟S3,判斷所述參考模型的性能是否滿足預(yù)設(shè)的閾值,當(dāng)所述參考模型的性能滿足預(yù)設(shè)的閥值時(shí),通過高質(zhì)量樣本數(shù)據(jù)對(duì)所述參考模型進(jìn)行訓(xùn)練,獲得標(biāo)準(zhǔn)模型;
步驟S4,獲取最新的樣本數(shù)據(jù),通過所述標(biāo)準(zhǔn)模型對(duì)所述最新的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得標(biāo)準(zhǔn)預(yù)測(cè)結(jié)果;通過所述參考模型對(duì)所述最新的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得參考預(yù)測(cè)結(jié)果;并將所述標(biāo)準(zhǔn)預(yù)測(cè)結(jié)果與所述參考預(yù)測(cè)結(jié)果進(jìn)行比較,根據(jù)比較結(jié)果確定是否保留標(biāo)準(zhǔn)模型;
步驟S5,當(dāng)保留標(biāo)準(zhǔn)模型時(shí),判定所述最新的樣本數(shù)據(jù)為高質(zhì)量樣本數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟S1包括:
通過預(yù)設(shè)的篩選條件對(duì)獲取的樣本數(shù)據(jù)逐一進(jìn)行判斷,當(dāng)樣本數(shù)據(jù)滿足預(yù)設(shè)的篩選條件時(shí),將該樣本數(shù)據(jù)保留并標(biāo)記為高質(zhì)量樣本數(shù)據(jù);當(dāng)樣本數(shù)據(jù)不滿足預(yù)設(shè)的篩選條件時(shí),將該樣本數(shù)據(jù)刪除。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟S1還包括:
識(shí)別所述高質(zhì)量樣本數(shù)據(jù)的類別,并將高質(zhì)量樣本數(shù)據(jù)的類別與預(yù)設(shè)的樣本類型閾值比較;
當(dāng)高質(zhì)量樣本數(shù)據(jù)的類別與預(yù)設(shè)的樣本類型閾值相同時(shí),將該樣本數(shù)據(jù)保留;
當(dāng)高質(zhì)量樣本數(shù)據(jù)的類別與預(yù)設(shè)的樣本類型閾值不相同時(shí),將該樣本數(shù)據(jù)刪除。
4.如權(quán)利要求3所述的方法,其特征在于,所述步驟S3包括:
識(shí)別所述參考模型包含的業(yè)務(wù)指標(biāo)數(shù)量,并將參考模型包含的業(yè)務(wù)指標(biāo)數(shù)量與預(yù)設(shè)的閾值比較;
當(dāng)參考模型包含的業(yè)務(wù)指標(biāo)數(shù)量大于等于預(yù)設(shè)的閾值時(shí),判定參考模型的性能滿足預(yù)設(shè)的閥值;
當(dāng)參考模型包含的業(yè)務(wù)指標(biāo)數(shù)量小于預(yù)設(shè)的閾值時(shí),判定參考模型的性能不滿足預(yù)設(shè)的閥值。
5.如權(quán)利要求4所述的方法,其特征在于,所述步驟S3還包括:
獲取高質(zhì)量樣本數(shù)據(jù)的歷史標(biāo)注數(shù)據(jù),并識(shí)別歷史標(biāo)注數(shù)據(jù)的特征;
將屬于同一特征的歷史標(biāo)注數(shù)據(jù)根據(jù)預(yù)設(shè)的訓(xùn)練規(guī)則進(jìn)行訓(xùn)練,獲得標(biāo)注參考模型;
獲取高質(zhì)量樣本數(shù)據(jù)的未標(biāo)注數(shù)據(jù),通過標(biāo)注參考模型識(shí)別所述未標(biāo)注數(shù)據(jù)的特征并與歷史標(biāo)注數(shù)據(jù)的特征比較,按相同或相似的歷史標(biāo)注數(shù)據(jù)的特征對(duì)所述未標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)記,標(biāo)記上與所述歷史標(biāo)注數(shù)據(jù)相同的軟標(biāo)簽;
根據(jù)預(yù)設(shè)的訓(xùn)練規(guī)則對(duì)所述軟標(biāo)簽進(jìn)行訓(xùn)練,獲得標(biāo)準(zhǔn)模型。
6.如權(quán)利要求5所述的方法,其特征在于,所述步驟S4包括:
當(dāng)所述標(biāo)準(zhǔn)預(yù)測(cè)結(jié)果與所述參考預(yù)測(cè)結(jié)果一致時(shí),判定保留該標(biāo)準(zhǔn)模型;
當(dāng)所述標(biāo)準(zhǔn)預(yù)測(cè)結(jié)果與所述參考預(yù)測(cè)結(jié)果不一致時(shí),判定不保留該標(biāo)準(zhǔn)模型。
7.一種提升樣本數(shù)據(jù)集數(shù)據(jù)質(zhì)量的系統(tǒng),用以實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,包括:
樣本挑選模塊,用以獲取樣本數(shù)據(jù)并根據(jù)預(yù)設(shè)的篩選條件進(jìn)行篩選,獲得高質(zhì)量樣本數(shù)據(jù);根據(jù)預(yù)設(shè)的樣本類型篩選條件對(duì)所述高質(zhì)量樣本數(shù)據(jù)進(jìn)行判斷,保留符合所述預(yù)設(shè)的樣本類型篩選條件中樣本類型的高質(zhì)量樣本數(shù)據(jù);
參考模型模塊,用以根據(jù)保留的高質(zhì)量樣本數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練,獲得參考模型;
標(biāo)準(zhǔn)模型模塊,用以判斷所述參考模型的性能是否滿足預(yù)設(shè)的閾值,當(dāng)所述參考模型的性能滿足預(yù)設(shè)的閥值時(shí),通過高質(zhì)量樣本數(shù)據(jù)對(duì)所述參考模型進(jìn)行訓(xùn)練,獲得標(biāo)準(zhǔn)模型;
校驗(yàn)?zāi)K,用以獲取最新的樣本數(shù)據(jù),通過所述標(biāo)準(zhǔn)模型對(duì)所述最新的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得標(biāo)準(zhǔn)預(yù)測(cè)結(jié)果;通過所述參考模型對(duì)所述最新的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得參考預(yù)測(cè)結(jié)果;并將所述標(biāo)準(zhǔn)預(yù)測(cè)結(jié)果與所述參考預(yù)測(cè)結(jié)果進(jìn)行比較,根據(jù)比較結(jié)果確定是否保留標(biāo)準(zhǔn)模型,當(dāng)保留標(biāo)準(zhǔn)模型時(shí),判定所述最新的樣本數(shù)據(jù)為高質(zhì)量樣本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳供電局有限公司,未經(jīng)深圳供電局有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110854516.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





