[發(fā)明專利]一種數(shù)據(jù)篩選方法、裝置、電子設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010067811.9 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111291259B | 公開(公告)日: | 2023-05-26 |
| 發(fā)明(設(shè)計)人: | 馮愛迪;侯新雨;李常青 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F18/22;G06N5/01;G06N3/04;G06N3/08 |
| 代理公司: | 北京中知法苑知識產(chǎn)權(quán)代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 篩選 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種數(shù)據(jù)篩選方法,其特征在于,包括:
獲取基于神經(jīng)網(wǎng)絡(luò)模型從內(nèi)容召回池召回的與預(yù)設(shè)內(nèi)容類型相關(guān)的多個待篩選數(shù)據(jù)單元;每個所述待篩選數(shù)據(jù)單元中包括至少一種數(shù)據(jù)類型對應(yīng)的待篩選數(shù)據(jù);
對于每個所述待篩選數(shù)據(jù)單元,根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)與所述預(yù)設(shè)內(nèi)容類型的第一匹配度;
獲取該待篩選數(shù)據(jù)單元在網(wǎng)絡(luò)上的網(wǎng)絡(luò)傳播信息,以及在預(yù)設(shè)時間段內(nèi)與該待篩選數(shù)據(jù)單元的作者的作品、網(wǎng)絡(luò)行為和基本信息相關(guān)的作者特征信息;
將所述第一匹配度、所述網(wǎng)絡(luò)傳播信息和所述作者特征信息作為輸入?yún)?shù)輸入至梯度上升決策樹模型GBDT中,得到第二匹配度,將該第二匹配度作為該待篩選數(shù)據(jù)單元與所述預(yù)設(shè)內(nèi)容類型的匹配度;
判斷確定的所述匹配度是否在預(yù)設(shè)范圍內(nèi);
如果確定的所述匹配度在所述預(yù)設(shè)范圍內(nèi),則將該待篩選數(shù)據(jù)單元發(fā)送給目標設(shè)備。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)的特征信息,確定該待篩選數(shù)據(jù)單元中每一種數(shù)據(jù)類型下的待篩選數(shù)據(jù)與所述預(yù)設(shè)內(nèi)容類型的第一匹配度,包括:
針對數(shù)據(jù)類型為文本的待篩選數(shù)據(jù),對所述文本進行拆詞處理,得到所述文本中包括的詞語;將得到的詞語的詞向量作為所述文本的特征信息輸入至文本得分模型中,以得到所述文本與所述預(yù)設(shè)內(nèi)容類型的第一匹配度;
針對數(shù)據(jù)類型為圖片的待篩選數(shù)據(jù),獲取所述圖片中的各像素的三通道像素值;將所述三通道像素值作為所述圖片的特征信息輸入至圖片得分模型中,以得到所述圖片與所述預(yù)設(shè)內(nèi)容類型的第一匹配度;
針對數(shù)據(jù)類型為視頻的待篩選數(shù)據(jù),獲取所述視頻中的關(guān)鍵幀;獲取所述關(guān)鍵幀的各像素的三通道像素值;將所述三通道像素值作為所述視頻的特征信息輸入至所述圖片得分模型中,以得到所述視頻與所述預(yù)設(shè)內(nèi)容類型的第一匹配度。
3.如權(quán)利要求1所述的方法,其特征在于,所述第二匹配度包括第三匹配度和第四匹配度;所述將所述第一匹配度、所述網(wǎng)絡(luò)傳播信息和所述作者特征信息作為輸入?yún)?shù)輸入至梯度上升決策樹模型GBDT中,得到第二匹配度,包括:
將所述第一匹配度、所述網(wǎng)絡(luò)傳播信息和所述作者特征信息作為輸入?yún)?shù)分別輸入第一GBDT和第二GBDT中,以得到所述第三匹配度和所述第四匹配度;
其中,所述第一GBDT在進行訓練時使用的樣本為所述預(yù)設(shè)內(nèi)容類型中屬于第一類內(nèi)容類型的樣本,所述第二GBDT在進行訓練時使用的樣本為所述預(yù)設(shè)內(nèi)容類型中屬于第二類內(nèi)容類型的樣本,所述第一類內(nèi)容類型的召回優(yōu)先級高于所述第二類內(nèi)容類型的召回優(yōu)先級。
4.如權(quán)利要求3所述的方法,其特征在于,所述判斷確定的所述匹配度是否在預(yù)設(shè)范圍內(nèi),包括:
當所述第三匹配度屬于第一預(yù)設(shè)范圍和/或當所述第四匹配度屬于第二預(yù)設(shè)范圍時,確定所述匹配度在預(yù)設(shè)范圍內(nèi);
其中,所述第一預(yù)設(shè)范圍位于第一預(yù)設(shè)匹配度和第二預(yù)設(shè)匹配度之間,所述第二預(yù)設(shè)范圍位于第三預(yù)設(shè)匹配度和第四預(yù)設(shè)匹配度之間。
5.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
當所述第三匹配度小于或等于所述第一預(yù)設(shè)匹配度,以及所述第四匹配度小于或等于所述第三預(yù)設(shè)匹配度時,則確定該待篩選數(shù)據(jù)單元與所述預(yù)設(shè)內(nèi)容類型不相匹配。
6.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
當所述第三匹配度大于或等于所述第二預(yù)設(shè)匹配度,以及所述第四匹配度大于或等于所述第四預(yù)設(shè)匹配度時,則確定該待篩選數(shù)據(jù)單元為違規(guī)內(nèi)容。
7.如權(quán)利要求1所述的方法,其特征在于,所述至少一種數(shù)據(jù)類型包括以下至少一種:
文本、圖片、視頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010067811.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





