[發(fā)明專(zhuān)利]一種新聞列表區(qū)域的確定方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201611238479.8 | 申請(qǐng)日: | 2016-12-28 |
| 公開(kāi)(公告)號(hào): | CN106802933B | 公開(kāi)(公告)日: | 2020-04-10 |
| 發(fā)明(設(shè)計(jì))人: | 王勇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類(lèi)號(hào): | G06F16/957 | 分類(lèi)號(hào): | G06F16/957 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 新聞 列表 區(qū)域 確定 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉信息處理技術(shù)領(lǐng)域,尤其涉及一種新聞列表區(qū)域的確定方法及裝置。
背景技術(shù)
在互聯(lián)網(wǎng)新聞聚合應(yīng)用中,需要使用爬蟲(chóng)爬取大量的新聞網(wǎng)站,然后將相關(guān)的新聞聚合在一起,并根據(jù)用戶(hù)的閱讀習(xí)慣建立起用戶(hù)的興趣模型,并將新聞推送給對(duì)這些主題感興趣的用戶(hù)。
新聞網(wǎng)站一般包括新聞首頁(yè)和新聞頁(yè)面兩種不同的頁(yè)面,新聞首頁(yè)中一般會(huì)包含一個(gè)最新更新新聞的新聞列表,為了獲取最新的新聞,爬取系統(tǒng)需要自動(dòng)地確定新聞列表,即需要確定新聞列表區(qū)域。但是,確定新聞列表區(qū)域不是一個(gè)容易的問(wèn)題,這是因?yàn)椋侣勈醉?yè)中,除了新聞列表之外,還包括主菜單、廣告條、版權(quán)信息等無(wú)關(guān)的因素。
傳統(tǒng)爬蟲(chóng)在確定新聞列表時(shí),會(huì)將非新聞列表如廣告列表等也作為新聞列表識(shí)別并爬取出來(lái),這導(dǎo)致新聞列表的識(shí)別準(zhǔn)確率較低,并且,在將新聞推送至用戶(hù)時(shí),由于推送的內(nèi)容中除了包含新聞列表外,還包含了非新聞列表,而冗余的非新聞列表導(dǎo)致大量的網(wǎng)絡(luò)資源被浪費(fèi)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種新聞列表區(qū)域的確定方法及裝置,用以解決傳統(tǒng)爬蟲(chóng)在確定新聞列表時(shí),會(huì)將非新聞列表如廣告列表等也作為新聞列表識(shí)別并爬取出來(lái),從而導(dǎo)致新聞列表的識(shí)別準(zhǔn)確率較低,且在將新聞推送至用戶(hù)時(shí),冗余的非新聞列表導(dǎo)致大量的網(wǎng)絡(luò)資源被浪費(fèi)的問(wèn)題,其技術(shù)方案如下:
一種新聞列表區(qū)域的確定方法,所述方法包括:
判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊;
當(dāng)所述目標(biāo)頁(yè)面塊中包含所述滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊時(shí),將所述滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊作為目標(biāo)頁(yè)面塊分割為多個(gè)頁(yè)面子塊,轉(zhuǎn)入執(zhí)行所述判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊;
當(dāng)所述目標(biāo)頁(yè)面塊中不包含滿(mǎn)足所述預(yù)設(shè)分割條件的頁(yè)面子塊時(shí),基于所述目標(biāo)頁(yè)面塊中的頁(yè)面子塊判斷所述目標(biāo)頁(yè)面塊是否滿(mǎn)足預(yù)設(shè)新聞列表判定條件,當(dāng)所述目標(biāo)頁(yè)面塊滿(mǎn)足所述預(yù)設(shè)新聞列表判定條件時(shí),將所述目標(biāo)頁(yè)面塊確定為新聞列表區(qū)域。
其中,所述判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊,包括:
在所述目標(biāo)頁(yè)面塊中查找在目標(biāo)頁(yè)面中所占比例大于預(yù)設(shè)值,且在所述目標(biāo)頁(yè)面中的位置滿(mǎn)足預(yù)設(shè)位置條件的頁(yè)面子塊,獲得查找結(jié)果;
當(dāng)所述查找結(jié)果表明在所述目標(biāo)頁(yè)面塊中查找到在所述目標(biāo)頁(yè)面中所占比例大于所述預(yù)設(shè)值,且在所述目標(biāo)頁(yè)面中的位置滿(mǎn)足所述預(yù)設(shè)位置條件的頁(yè)面子塊時(shí),判定所述目標(biāo)頁(yè)面塊中包含滿(mǎn)足所述預(yù)設(shè)分割條件的頁(yè)面子塊。
其中,所述預(yù)設(shè)位置條件為:在水平方向上位于所述目標(biāo)頁(yè)面的中部,且在垂直方向上位于所述目標(biāo)頁(yè)面的中部或上部。
其中,所述將所述目標(biāo)頁(yè)面塊分割為多個(gè)頁(yè)面子塊,包括:
基于VIPS算法將所述目標(biāo)頁(yè)面塊進(jìn)行一次分割,獲得所述多個(gè)頁(yè)面子塊。
其中,當(dāng)所述目標(biāo)頁(yè)面塊中滿(mǎn)足所述預(yù)設(shè)分割條件的頁(yè)面子塊為多個(gè)時(shí),所述將所述滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊作為目標(biāo)頁(yè)面塊分割為多個(gè)頁(yè)面子塊,執(zhí)行所述判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊,包括:
當(dāng)所述目標(biāo)頁(yè)面塊中滿(mǎn)足所述預(yù)設(shè)分割條件的頁(yè)面子塊為多個(gè)時(shí),對(duì)于每個(gè)所述滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊,將該頁(yè)面子塊作為目標(biāo)頁(yè)面塊分割為多個(gè)頁(yè)面子塊,執(zhí)行所述判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊。
其中,所述基于所述目標(biāo)頁(yè)面塊中的多個(gè)頁(yè)面子塊判斷所述目標(biāo)頁(yè)面塊是否滿(mǎn)足預(yù)設(shè)新聞列表判定條件,包括:
判斷所述目標(biāo)頁(yè)面塊中頁(yè)面子塊的數(shù)量是否大于或等于預(yù)設(shè)數(shù)量;
當(dāng)所述目標(biāo)頁(yè)面塊中頁(yè)面子塊的數(shù)量大于或等于所述預(yù)設(shè)數(shù)量時(shí),判斷所述目標(biāo)頁(yè)面塊中的各個(gè)頁(yè)面子塊是否同時(shí)滿(mǎn)足三個(gè)預(yù)設(shè)條件,當(dāng)所述目標(biāo)頁(yè)面塊中的各個(gè)頁(yè)面子塊同時(shí)滿(mǎn)足所述三個(gè)預(yù)設(shè)條件時(shí),判定所述目標(biāo)頁(yè)面塊滿(mǎn)足所述預(yù)設(shè)新聞列表判定條件;
其中,所述三個(gè)預(yù)設(shè)條件分別為:所述各個(gè)頁(yè)面子塊均包含至少一個(gè)鏈接、所述各個(gè)頁(yè)面子塊具有相同的寬度、所述各個(gè)頁(yè)面子塊具有相同的鏈接密度。
一種新聞列表區(qū)域的確定裝置,所述裝置包括:第一判斷模塊、頁(yè)面分割模塊、第二判斷模塊和確定模塊;
所述第一判斷模塊,用于判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊;
所述頁(yè)面分割模塊,用于當(dāng)所述第一判斷模塊判斷出所述目標(biāo)頁(yè)面塊中包含所述滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊時(shí),將所述滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊作為目標(biāo)頁(yè)面塊分割為多個(gè)頁(yè)面子塊,并觸發(fā)所述第一判斷模塊判斷目標(biāo)頁(yè)面塊中是否包含滿(mǎn)足預(yù)設(shè)分割條件的頁(yè)面子塊;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611238479.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





