[發(fā)明專利]樣本數(shù)據(jù)的處理方法、裝置、服務器和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910322574.3 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110263803A | 公開(公告)日: | 2019-09-20 |
| 發(fā)明(設計)人: | 郭亞;趙智源;周書恒;祝慧佳 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京三友知識產(chǎn)權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注信息 目標樣本 樣本數(shù)據(jù) 標注 多個目標 存儲介質(zhì) 目標數(shù)據(jù) 服務器 篩選 一致性程度 不確定度 數(shù)據(jù)誤差 數(shù)據(jù)攜帶 質(zhì)量符合 預設 量化 攜帶 | ||
本說明書提供了一種樣本數(shù)據(jù)的處理方法、裝置、服務器和存儲介質(zhì)。其中,方法包括:獲取多個目標樣本數(shù)據(jù),目標樣本數(shù)據(jù)攜帶有標注信息;根據(jù)目標樣本數(shù)據(jù)所攜帶的標注信息,確定目標樣本數(shù)據(jù)的標注信息熵;根據(jù)目標樣本數(shù)據(jù)的標注信息熵,從多個目標樣本數(shù)據(jù)中確定出標注質(zhì)量符合預設的質(zhì)量要求的第一目標數(shù)據(jù)。在本說明書實施例中,由于通過先確定出能夠反映目標樣本數(shù)據(jù)的標注信息的不確定度的標注信息熵來量化不同標注源針對同一樣本數(shù)據(jù)標注時的一致性程度;進而可以根據(jù)上述標注信息熵篩選出標注質(zhì)量相對校高的目標樣本數(shù)據(jù)作為第一目標數(shù)據(jù)來使用,從而能夠高效、準確地從多個目標樣本數(shù)據(jù)中篩選出標注質(zhì)量較高的數(shù)據(jù),減少數(shù)據(jù)誤差。
技術領域
本說明書屬于互聯(lián)網(wǎng)技術領域,尤其涉及一種樣本數(shù)據(jù)的處理方法、裝置、服務器和存儲介質(zhì)。
背景技術
在利用樣本數(shù)據(jù)進行模型訓練時,通常需要先對所使用的樣本數(shù)據(jù)進行標注。
例如,通常會由負責標注的打標員根據(jù)事先確定好的標注規(guī)則對每個樣本數(shù)據(jù)的屬性情況進行分析判斷,再根據(jù)判斷結(jié)果給每個樣本數(shù)據(jù)設置對應的標注信息以指示樣本數(shù)據(jù)的屬性特征(例如樣本數(shù)據(jù)所對應的類型或級別等),完成對樣本數(shù)據(jù)的標注。進而后續(xù)可以根據(jù)上述標注后的樣本數(shù)據(jù),進行具體的模型訓練。
在根據(jù)標注規(guī)則對樣本數(shù)據(jù)進行標注時,打標員可能受到個人的主觀影響,導致單個打標員在標注時容易出現(xiàn)誤差,使得其由單個打標員設置的標注信息往往不夠準確,標注質(zhì)量相對較低。因此,通常會調(diào)用多個不同的打標員同時對同一批樣本數(shù)據(jù)進行標注。但是不同的打標員對于標注規(guī)則以及樣本數(shù)據(jù)的理解和把握程度往往會存在差異,導致同一個樣本數(shù)據(jù)被不同的打標員標注后,可能會存在多個不同的標注信息,使得在后續(xù)使用上述標注后的樣本數(shù)據(jù)時會出現(xiàn)混亂或誤差,影響樣本數(shù)據(jù)的標注質(zhì)量。
因此,亟需一種能夠高效、準確地從被多個打標員標注過的樣本數(shù)據(jù)中篩選出標注質(zhì)量較高的樣本數(shù)據(jù)的處理方法。
發(fā)明內(nèi)容
本說明書目的在于提供一種樣本數(shù)據(jù)的處理方法、裝置、服務器和存儲介質(zhì),以高效、準確地從多個標注過的目標樣本數(shù)據(jù)中篩選出標注質(zhì)量較高的目標樣本數(shù)據(jù)。
本說明書提供的一種樣本數(shù)據(jù)的處理方法、裝置、服務器和存儲介質(zhì)是這樣實現(xiàn)的:
一種樣本數(shù)據(jù)的處理方法,包括:獲取多個目標樣本數(shù)據(jù),其中,所述目標樣本數(shù)據(jù)攜帶有標注信息;根據(jù)所述目標樣本數(shù)據(jù)所攜帶的標注信息,確定目標樣本數(shù)據(jù)的標注信息熵;根據(jù)所述目標樣本數(shù)據(jù)的標注信息熵,從所述多個目標樣本數(shù)據(jù)中確定出標注質(zhì)量符合預設的質(zhì)量要求的目標樣本數(shù)據(jù)作為第一目標數(shù)據(jù)。
一種樣本數(shù)據(jù)的處理裝置,包括:獲取模塊,用于獲取多個目標樣本數(shù)據(jù),其中,所述目標樣本數(shù)據(jù)攜帶有標注信息;第一確定模塊,用于根據(jù)所述目標樣本數(shù)據(jù)所攜帶的標注信息,確定目標樣本數(shù)據(jù)的標注信息熵;第二確定模塊,用于根據(jù)所述目標樣本數(shù)據(jù)的標注信息熵,從所述多個目標樣本數(shù)據(jù)中確定出標注質(zhì)量符合預設的質(zhì)量要求的目標樣本數(shù)據(jù)作為第一目標數(shù)據(jù)。
一種服務器,包括處理器以及用于存儲處理器可執(zhí)行指令的存儲器,所述處理器執(zhí)行所述指令時實現(xiàn)獲取多個目標樣本數(shù)據(jù),其中,所述目標樣本數(shù)據(jù)攜帶有標注信息;根據(jù)所述目標樣本數(shù)據(jù)所攜帶的標注信息,確定目標樣本數(shù)據(jù)的標注信息熵;根據(jù)所述目標樣本數(shù)據(jù)的標注信息熵,從所述多個目標樣本數(shù)據(jù)中確定出標注質(zhì)量符合預設的質(zhì)量要求的目標樣本數(shù)據(jù)作為第一目標數(shù)據(jù)。
一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,所述指令被執(zhí)行時實現(xiàn)獲取多個目標樣本數(shù)據(jù),其中,所述目標樣本數(shù)據(jù)攜帶有標注信息;根據(jù)所述目標樣本數(shù)據(jù)所攜帶的標注信息,確定目標樣本數(shù)據(jù)的標注信息熵;根據(jù)所述目標樣本數(shù)據(jù)的標注信息熵,從所述多個目標樣本數(shù)據(jù)中確定出標注質(zhì)量符合預設的質(zhì)量要求的目標樣本數(shù)據(jù)作為第一目標數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910322574.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





