[發(fā)明專利]優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的方法、裝置、電子設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 201710269921.1 | 申請日: | 2017-04-21 |
| 公開(公告)號: | CN108734296A | 公開(公告)日: | 2018-11-02 |
| 發(fā)明(設(shè)計(jì))人: | 俞曉光;李葆倉 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;趙靜 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練數(shù)據(jù) 測試集 預(yù)估 電子設(shè)備 分類結(jié)果 分類模型 達(dá)標(biāo) 標(biāo)注 優(yōu)化 判斷步驟 訓(xùn)練分類 訓(xùn)練集 測試 監(jiān)督 篩選 學(xué)習(xí) 重復(fù) | ||
本發(fā)明提供一種優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的方法、裝置、電子設(shè)備和介質(zhì),只需重新標(biāo)注少量而非全量訓(xùn)練數(shù)據(jù)。該方法包括:步驟一:判斷訓(xùn)練數(shù)據(jù)的質(zhì)量是否達(dá)標(biāo),若達(dá)標(biāo),則將所述訓(xùn)練數(shù)據(jù)用于分類模型的訓(xùn)練,若不達(dá)標(biāo),則進(jìn)入步驟二;步驟二:將所述訓(xùn)練數(shù)據(jù)劃分為N份,其中,N為大于1的整數(shù);步驟三:選擇N份中的N?1份作為訓(xùn)練集用以訓(xùn)練分類模型,剩余的1份作為測試集,然后利用訓(xùn)練好的分類模型預(yù)估所述測試集中的訓(xùn)練數(shù)據(jù)的分類結(jié)果,根據(jù)所述分類結(jié)果篩選需要重新標(biāo)注的訓(xùn)練數(shù)據(jù);步驟四:判斷步驟三中的測試集是否為最后一份測試集,若是,則結(jié)束優(yōu)化,若不是,則重復(fù)步驟三至步驟四,直至N份中的每一份訓(xùn)練數(shù)據(jù)都作為測試集被預(yù)估過。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的方法、裝置、電子設(shè)備和介質(zhì)。
背景技術(shù)
監(jiān)督學(xué)習(xí)是指從給定的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一個函數(shù),當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測新數(shù)據(jù)的結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)要求是包括輸入和輸出(即分類值),也可以說是特征和目標(biāo)。訓(xùn)練數(shù)據(jù)中的目標(biāo)是由人標(biāo)注的。
根據(jù)前述描述可知,監(jiān)督學(xué)習(xí),需要有一定的已知類別的標(biāo)注數(shù)據(jù)。現(xiàn)有監(jiān)督學(xué)習(xí)的方法中,主要是獲取一批數(shù)據(jù),通過人工的方式給每條數(shù)據(jù)標(biāo)注類別從而得到訓(xùn)練數(shù)據(jù),然后利用訓(xùn)練數(shù)據(jù)結(jié)合特定的算法訓(xùn)練出分類模型,并使用所得分類模型對新的數(shù)據(jù)進(jìn)行分類。例如在電子商務(wù)領(lǐng)域客服與客戶聊天場景中,可以將聊天內(nèi)容劃分為多個意圖(例如運(yùn)費(fèi)相關(guān)、退貨相關(guān)、優(yōu)惠相關(guān)等)。在劃分好意圖后,完成對指定的訓(xùn)練數(shù)據(jù)的標(biāo)注。然后根據(jù)已標(biāo)注的訓(xùn)練數(shù)據(jù)得到最終的分類模型用于線上預(yù)估。
由上述描述可以看出,最初標(biāo)注的訓(xùn)練數(shù)據(jù)的準(zhǔn)確性對于后期線上預(yù)估效果有很大的影響。因此,為了優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù),往往需要對訓(xùn)練數(shù)據(jù)進(jìn)行審核?,F(xiàn)有技術(shù)中,優(yōu)化訓(xùn)練數(shù)據(jù)主要是通過人工、全量、多次的對訓(xùn)練數(shù)據(jù)重新標(biāo)注的方式進(jìn)行。
在實(shí)現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
1、在分類的類別種類較多,且類別相似的場景下,人工標(biāo)注不能保證準(zhǔn)確度。加之人工在區(qū)分每個數(shù)據(jù)的類別時是一個主觀判斷,不同的人標(biāo)準(zhǔn)不一樣,甚至同一個人在標(biāo)注中因?yàn)楦鞣N因素標(biāo)注的數(shù)據(jù)也會有較大差異。因此標(biāo)注的數(shù)據(jù)較難達(dá)到較高準(zhǔn)確率的標(biāo)磚,從而直接影響后期的分類模型的預(yù)估效果;
2、為了提升訓(xùn)練數(shù)據(jù)的質(zhì)量,往往需要對訓(xùn)練數(shù)據(jù)進(jìn)行多次審核。每次需要審核所有的數(shù)據(jù)。而人工標(biāo)注的訓(xùn)練數(shù)據(jù)真正有問題的可能只是其中的一部分,為了修復(fù)這一部分而審核所有數(shù)據(jù),不利于工作效率的提高。且這種審核是沒有側(cè)重點(diǎn)的審核,往往很難發(fā)現(xiàn)那些有問題的標(biāo)注數(shù)據(jù),審核質(zhì)量不高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的方法、裝置、電子設(shè)備和介質(zhì),能夠在提升訓(xùn)練數(shù)據(jù)質(zhì)量的過程中,篩選標(biāo)注有誤的訓(xùn)練數(shù)據(jù),且每次只需要重新標(biāo)注少量而非全量的數(shù)據(jù),從而可以提升優(yōu)化效率,快速獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)和分類模型。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的方法。
本發(fā)明實(shí)施例的一種優(yōu)化監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的方法包括:步驟一:判斷訓(xùn)練數(shù)據(jù)的質(zhì)量是否達(dá)標(biāo),若達(dá)標(biāo),則將所述訓(xùn)練數(shù)據(jù)用于分類模型的訓(xùn)練,若不達(dá)標(biāo),則進(jìn)入步驟二,其中,所述訓(xùn)練數(shù)據(jù)的質(zhì)量是指訓(xùn)練數(shù)據(jù)被預(yù)先標(biāo)注的分類值的準(zhǔn)確程度;步驟二:將所述訓(xùn)練數(shù)據(jù)劃分為N份,其中,N為大于1的整數(shù);步驟三:選擇N份中的N-1份作為訓(xùn)練集用以訓(xùn)練分類模型,剩余的1份作為測試集,然后利用訓(xùn)練好的分類模型預(yù)估所述測試集中的訓(xùn)練數(shù)據(jù)的分類結(jié)果,根據(jù)所述分類結(jié)果篩選需要重新標(biāo)注的訓(xùn)練數(shù)據(jù);以及步驟四:判斷步驟三中的測試集是否為最后一份測試集,若是,則結(jié)束優(yōu)化,若不是,則重復(fù)步驟三至步驟四,直至N份中的每一份訓(xùn)練數(shù)據(jù)都作為測試集被預(yù)估過。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710269921.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種訓(xùn)練數(shù)據(jù)的模型訓(xùn)練方法及裝置
- 模型訓(xùn)練系統(tǒng)、方法和存儲介質(zhì)
- 一種數(shù)據(jù)訓(xùn)練方法、裝置及服務(wù)器
- 在數(shù)據(jù)隱私保護(hù)下執(zhí)行機(jī)器學(xué)習(xí)的方法和系統(tǒng)
- 獲取訓(xùn)練數(shù)據(jù)的方法、裝置、設(shè)備及存儲介質(zhì)
- 圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 虛擬維修訓(xùn)練平臺開發(fā)系統(tǒng)
- 分類模型的訓(xùn)練方法、數(shù)據(jù)風(fēng)險(xiǎn)類別的檢測方法及裝置
- 一種訓(xùn)練數(shù)據(jù)的糾錯方法、裝置、設(shè)備及存儲介質(zhì)
- 基于音視頻的魯棒情感建模系統(tǒng)





