[發(fā)明專利]一種數(shù)據(jù)篩選方法、裝置、電子設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010067811.9 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111291259B | 公開(公告)日: | 2023-05-26 |
| 發(fā)明(設(shè)計)人: | 馮愛迪;侯新雨;李常青 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F18/22;G06N5/01;G06N3/04;G06N3/08 |
| 代理公司: | 北京中知法苑知識產(chǎn)權(quán)代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 篩選 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開提供了一種數(shù)據(jù)篩選方法、裝置、電子設(shè)備和存儲介質(zhì),其中,該方法包括:獲取基于神經(jīng)網(wǎng)絡(luò)模型從內(nèi)容召回池召回的與預(yù)設(shè)內(nèi)容類型相關(guān)的多個待篩選數(shù)據(jù)單元;每個所述待篩選數(shù)據(jù)單元中包括至少一種數(shù)據(jù)類型對應(yīng)的待篩選數(shù)據(jù);對于每個所述待篩選數(shù)據(jù)單元,根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元與所述預(yù)設(shè)內(nèi)容類型的匹配度;判斷確定的所述匹配度是否在預(yù)設(shè)范圍內(nèi);如果確定的所述匹配度在所述預(yù)設(shè)范圍內(nèi),則將該待篩選數(shù)據(jù)單元發(fā)送給目標(biāo)設(shè)備,相對于將通過神經(jīng)網(wǎng)絡(luò)模型召回的數(shù)據(jù)進行人工排查的方式,本公開有利于降低進行人工排查的數(shù)據(jù)的數(shù)據(jù)量,從而有利于降低人工工作量。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,具體而言,涉及一種數(shù)據(jù)篩選方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們與網(wǎng)絡(luò)的關(guān)系越來越密切,人們會將大量的數(shù)據(jù)上傳至網(wǎng)絡(luò)上,例如:人們可以通過某社交平臺將一些視頻、圖片或文字等數(shù)據(jù)上傳至網(wǎng)絡(luò),以供其他用戶觀看。
為了保證人們上傳的內(nèi)容符合一定要求,例如:上傳的內(nèi)容是非色情內(nèi)容,或者是非暴力內(nèi)容,通常,需要先對可能不符合要求的上傳內(nèi)容進行召回,然后通過人工排查的方式確定該召回的內(nèi)容是否符合要求,在對可能不符合要求的上傳內(nèi)容進行召回時,通常采用通過神經(jīng)網(wǎng)絡(luò)模型進行召回,但是通過神經(jīng)網(wǎng)絡(luò)模型召回的內(nèi)容數(shù)據(jù)量較大,且召回的內(nèi)容中存在符合要求的內(nèi)容,因此,通過上述方式進行召回的準(zhǔn)確率較低,從而導(dǎo)致人工排查時的人工工作量較大。
發(fā)明內(nèi)容
有鑒于此,本公開實施例提供了一種數(shù)據(jù)篩選方法、裝置、電子設(shè)備和存儲介質(zhì),以降低人工排查時的人工工作量。
第一方面,本公開實施例提供了一種數(shù)據(jù)篩選方法,包括:
獲取基于神經(jīng)網(wǎng)絡(luò)模型從內(nèi)容召回池召回的與預(yù)設(shè)內(nèi)容類型相關(guān)的多個待篩選數(shù)據(jù)單元;每個所述待篩選數(shù)據(jù)單元中包括至少一種數(shù)據(jù)類型對應(yīng)的待篩選數(shù)據(jù);
對于每個所述待篩選數(shù)據(jù)單元,根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元與所述預(yù)設(shè)內(nèi)容類型的匹配度;
判斷確定的所述匹配度是否在預(yù)設(shè)范圍內(nèi);
如果確定的所述匹配度在所述預(yù)設(shè)范圍內(nèi),則將該待篩選數(shù)據(jù)單元發(fā)送給目標(biāo)設(shè)備。
可選地,所述根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元與所述預(yù)設(shè)內(nèi)容類型的匹配度,包括:
根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)與所述預(yù)設(shè)內(nèi)容類型的第一匹配度;
根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)與所述預(yù)設(shè)內(nèi)容類型的第一匹配度,確定該待篩選數(shù)據(jù)單元與所述預(yù)設(shè)內(nèi)容類型的匹配度。
可選地,所述根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)與所述預(yù)設(shè)內(nèi)容類型的第一匹配度,包括:
針對數(shù)據(jù)類型為文本的待篩選數(shù)據(jù),對所述文本進行拆詞處理,得到所述文本中包括的詞語;將得到的詞語的詞向量作為所述文本的特征信息輸入至文本得分模型中,以得到所述文本與所述預(yù)設(shè)內(nèi)容類型的第一匹配度;
針對數(shù)據(jù)類型為圖片的待篩選數(shù)據(jù),獲取所述圖片中的各像素的三通道像素值;將所述三通道像素值作為所述圖片的特征信息輸入至圖片得分模型中,以得到所述圖片與所述預(yù)設(shè)內(nèi)容類型的第一匹配度;
針對數(shù)據(jù)類型為視頻的待篩選數(shù)據(jù),獲取所述視頻中的關(guān)鍵幀;獲取所述關(guān)鍵幀的各像素的三通道像素值;將所述三通道像素值作為所述視頻的特征信息輸入至所述圖片得分模型中,以得到所述視頻與所述預(yù)設(shè)內(nèi)容類型的第一匹配度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010067811.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





