[發(fā)明專(zhuān)利]一種垂直領(lǐng)域源數(shù)據(jù)過(guò)濾方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710787579.4 | 申請(qǐng)日: | 2017-09-04 |
| 公開(kāi)(公告)號(hào): | CN109948033B | 公開(kāi)(公告)日: | 2021-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 馬慶麗 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京國(guó)雙科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/9535 | 分類(lèi)號(hào): | G06F16/9535 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 黨麗;王寶筠 |
| 地址: | 100080 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 垂直 領(lǐng)域 數(shù)據(jù) 過(guò)濾 方法 裝置 | ||
1.一種垂直領(lǐng)域源數(shù)據(jù)的過(guò)濾方法,其特征在于,包括:
配置過(guò)濾流程,過(guò)濾流程包括依次執(zhí)行的匹配規(guī)則和過(guò)濾模型;
根據(jù)過(guò)濾流程,對(duì)源數(shù)據(jù)進(jìn)行規(guī)則匹配,若符合所述匹配規(guī)則,則過(guò)濾流程停止;否則,利用所述過(guò)濾模型繼續(xù)對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾;
所述匹配規(guī)則包括關(guān)鍵詞白名單匹配規(guī)則和黑名單匹配規(guī)則,所述對(duì)源數(shù)據(jù)進(jìn)行規(guī)則匹配,包括:
根據(jù)所述關(guān)鍵詞白名單匹配規(guī)則,判斷源數(shù)據(jù)中是否存在關(guān)鍵詞白名單中的詞條,若是,則認(rèn)為源數(shù)據(jù)為有效數(shù)據(jù),且過(guò)濾流程停止;否則,
根據(jù)所述黑名單匹配規(guī)則,繼續(xù)判斷源數(shù)據(jù)中是否存在黑名單中的詞條,若是,則認(rèn)為所述源數(shù)據(jù)為無(wú)效數(shù)據(jù);
所述過(guò)濾模型包括依次執(zhí)行的多個(gè)子過(guò)濾模型,所述利用所述過(guò)濾模型繼續(xù)對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾,包括:依次利用各子過(guò)濾模型對(duì)源數(shù)據(jù)進(jìn)行過(guò)濾,若當(dāng)前子過(guò)濾模型輸出分類(lèi)結(jié)果,則停止過(guò)濾流程,否則,繼續(xù)利用下一個(gè)子過(guò)濾模型對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾;
所述過(guò)濾模型包括多條過(guò)濾支路,每條過(guò)濾支路包括依次執(zhí)行的多個(gè)子分類(lèi)過(guò)濾模型,每個(gè)子分類(lèi)過(guò)濾模型通過(guò)不同的樣本進(jìn)行訓(xùn)練而獲得,所述利用所述過(guò)濾模型繼續(xù)對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾,包括:
多條過(guò)濾支路同時(shí)對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾,每一條過(guò)濾支路進(jìn)行過(guò)濾的步驟包括:依次利用各子分類(lèi)過(guò)濾模型對(duì)源數(shù)據(jù)進(jìn)行過(guò)濾,若當(dāng)前子分類(lèi)模型輸出分類(lèi)結(jié)果,則停止過(guò)濾流程,否則,繼續(xù)利用下一個(gè)子分類(lèi)過(guò)濾模型對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾。
2.根據(jù)權(quán)利要求1所述的過(guò)濾方法,其特征在于,所述匹配規(guī)則還包括URL白名單匹配規(guī)則,則,判斷源數(shù)據(jù)中是否存在白名單中的詞條之前,還包括:
根據(jù)所述URL白名單匹配規(guī)則,判斷獲取源數(shù)據(jù)的URL是否存在于URL白名單中,若是,則認(rèn)為源數(shù)據(jù)為有效數(shù)據(jù),且過(guò)濾流程停止;否則,
進(jìn)入判斷源數(shù)據(jù)中是否存在關(guān)鍵詞白名單中的詞條的步驟中。
3.根據(jù)權(quán)利要求1所述的過(guò)濾方法,其特征在于,每條過(guò)濾支路中的子分類(lèi)過(guò)濾模型采用同一信源的樣本數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的過(guò)濾方法,其特征在于,所述多個(gè)子分類(lèi)過(guò)濾模型為依次執(zhí)行的特定分類(lèi)模型和通用分類(lèi)模型,所述特定分類(lèi)模型通過(guò)對(duì)預(yù)設(shè)領(lǐng)域中特定關(guān)鍵詞的樣本進(jìn)行分類(lèi)訓(xùn)練而獲得;所述通用分類(lèi)模型通過(guò)對(duì)預(yù)設(shè)領(lǐng)域中多個(gè)關(guān)鍵詞的樣本進(jìn)行分類(lèi)訓(xùn)練而獲得。
5.一種垂直領(lǐng)域源數(shù)據(jù)的過(guò)濾裝置,其特征在于,包括:
過(guò)濾流程配置單元,用于配置過(guò)濾流程,過(guò)濾流程包括依次執(zhí)行的匹配規(guī)則和過(guò)濾模型;
規(guī)則匹配單元,用于根據(jù)過(guò)濾流程,對(duì)源數(shù)據(jù)進(jìn)行規(guī)則匹配,若符合所述匹配規(guī)則,則過(guò)濾流程停止;
所述匹配規(guī)則包括關(guān)鍵詞白名單匹配規(guī)則和黑名單匹配規(guī)則;所述規(guī)則匹配單元包括:
關(guān)鍵字白名單匹配單元,用于根據(jù)所述關(guān)鍵詞白名單匹配規(guī)則,判斷源數(shù)據(jù)中是否存在關(guān)鍵詞白名單中的詞條,若是,則認(rèn)為源數(shù)據(jù)為有效數(shù)據(jù),且過(guò)濾流程停止;
黑名單匹配單元,用于在判斷源數(shù)據(jù)中不存在關(guān)鍵詞白名單中的詞條時(shí),根據(jù)所述黑名單匹配規(guī)則,繼續(xù)判斷源數(shù)據(jù)中是否存在黑名單中的詞條,若是,則認(rèn)為所述源數(shù)據(jù)為無(wú)效數(shù)據(jù);
模型過(guò)濾單元,用于規(guī)則匹配單元中不符合所述匹配規(guī)則時(shí),利用所述過(guò)濾模型繼續(xù)對(duì)所述源數(shù)據(jù)進(jìn)行過(guò)濾;
所述過(guò)濾模型包括依次執(zhí)行的多個(gè)子過(guò)濾模型;所述模型過(guò)濾單元包括依次執(zhí)行的多個(gè)子模型過(guò)濾單元;每個(gè)子模型過(guò)濾單元,用于利用子過(guò)濾模型對(duì)源數(shù)據(jù)進(jìn)行過(guò)濾,若輸出分類(lèi)結(jié)果,則停止過(guò)濾流程,否則,觸發(fā)下一子模型過(guò)濾單元;
所述過(guò)濾模型包括多條過(guò)濾支路,每條過(guò)濾支路包括依次執(zhí)行的多個(gè)子分類(lèi)過(guò)濾模型,每個(gè)子分類(lèi)過(guò)濾模型通過(guò)不同的樣本進(jìn)行訓(xùn)練而獲得;所述模型過(guò)濾單元包括:多條過(guò)濾支路單元,每條過(guò)濾支路單元包括依次執(zhí)行的多個(gè)子模型過(guò)濾單元;每個(gè)子模型過(guò)濾單元,用于利用子過(guò)濾模型對(duì)源數(shù)據(jù)進(jìn)行過(guò)濾,若輸出分類(lèi)結(jié)果,則停止過(guò)濾流程,否則,觸發(fā)下一子模型過(guò)濾單元。
6.一種存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的垂直領(lǐng)域源數(shù)據(jù)的過(guò)濾方法。
7.一種處理器,其特征在于,所述處理器中包含內(nèi)核,由所述內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元;所述內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)提高過(guò)濾效率;
所述處理器用于運(yùn)行程序,其中所述程序運(yùn)行時(shí)執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的垂直領(lǐng)域源數(shù)據(jù)的過(guò)濾方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京國(guó)雙科技有限公司,未經(jīng)北京國(guó)雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710787579.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 用于微米過(guò)濾、超級(jí)過(guò)濾和納米過(guò)濾的過(guò)濾裝置
- 過(guò)濾裝置、過(guò)濾件及過(guò)濾方法
- 過(guò)濾膜、過(guò)濾單元、過(guò)濾系統(tǒng)以及過(guò)濾方法
- 過(guò)濾介質(zhì)、過(guò)濾元件和過(guò)濾組件
- 過(guò)濾裝置、過(guò)濾系統(tǒng)和過(guò)濾方法
- 過(guò)濾模組、過(guò)濾裝置及過(guò)濾方法
- 過(guò)濾介質(zhì)、過(guò)濾元件和過(guò)濾方法
- 過(guò)濾裝置、過(guò)濾系統(tǒng)及過(guò)濾方法
- 過(guò)濾材料、過(guò)濾組件、過(guò)濾器及過(guò)濾方法
- 過(guò)濾裝置(水過(guò)濾)





