[發(fā)明專利]目錄型網(wǎng)頁的介紹頁識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310026313.X | 申請(qǐng)日: | 2013-01-21 |
| 公開(公告)號(hào): | CN103942233B | 公開(公告)日: | 2019-02-26 |
| 發(fā)明(設(shè)計(jì))人: | 黃鈺 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/957 | 分類號(hào): | G06F16/957 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目錄 網(wǎng)頁 介紹 識(shí)別 方法 裝置 | ||
1.一種目錄型網(wǎng)頁的介紹頁識(shí)別方法,其特征在于,包括以下步驟:
接收頁面瀏覽請(qǐng)求,獲取頁面數(shù)據(jù);
基于視覺信息對(duì)所述頁面數(shù)據(jù)進(jìn)行分塊分析,形成分塊數(shù)據(jù);根據(jù)介紹頁的介紹塊及評(píng)論塊位置特征,識(shí)別出所述分塊數(shù)據(jù)中具有準(zhǔn)介紹塊和準(zhǔn)評(píng)論塊的頁面;
根據(jù)所述介紹頁的判定條件對(duì)所述具有準(zhǔn)介紹塊及準(zhǔn)評(píng)論塊的頁面進(jìn)行判斷,以確定該頁面是否為目錄型網(wǎng)頁的介紹頁;
其中,所述根據(jù)介紹頁的判定條件對(duì)具有準(zhǔn)介紹塊及準(zhǔn)評(píng)論塊的頁面進(jìn)行判斷,以確定該頁面是否為目錄型網(wǎng)頁的介紹頁包括:判斷頁面的網(wǎng)頁地址中是否含有介紹頁標(biāo)識(shí)關(guān)鍵詞;是則提取所述準(zhǔn)介紹塊的關(guān)鍵詞集合,并判斷該準(zhǔn)介紹塊的關(guān)鍵詞集合中是否具有強(qiáng)介紹性關(guān)鍵詞組合;當(dāng)所述準(zhǔn)介紹塊的關(guān)鍵詞集合中具有強(qiáng)介紹性關(guān)鍵詞組合時(shí),確定該頁面是所述介紹頁;或,
其中,所述根據(jù)介紹頁的判定條件對(duì)具有準(zhǔn)介紹塊及準(zhǔn)評(píng)論塊的頁面進(jìn)行判斷,以確定該頁面是否為目錄型網(wǎng)頁的介紹頁包括:提取所述準(zhǔn)介紹塊的關(guān)鍵詞集合,判斷該準(zhǔn)介紹塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量是否大于第一閾值;是則確定該頁面是所述介紹頁;或,
其中,所述根據(jù)介紹頁的判定條件對(duì)具有準(zhǔn)介紹塊及準(zhǔn)評(píng)論塊的頁面進(jìn)行判斷,以確定該頁面是否為目錄型網(wǎng)頁的介紹頁包括:提取所述準(zhǔn)介紹塊的關(guān)鍵詞集合,判斷該準(zhǔn)介紹塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量是否大于第二閾值;當(dāng)所述準(zhǔn)介紹塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量大于第二閾值時(shí),則判斷頁面的網(wǎng)頁地址中是否含有介紹頁標(biāo)識(shí)關(guān)鍵詞;或者判斷所述準(zhǔn)介紹塊的關(guān)鍵詞集合中是否具有強(qiáng)介紹性關(guān)鍵詞組合;或者提取準(zhǔn)評(píng)論塊的關(guān)鍵詞集合,并判斷所提取的準(zhǔn)評(píng)論塊的關(guān)鍵詞集合中是否具有強(qiáng)評(píng)論性關(guān)鍵詞組合;或者提取準(zhǔn)評(píng)論塊的關(guān)鍵詞集合,并判斷所提取的準(zhǔn)評(píng)論塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量是否大于第三閾值;
并在任一判斷為是時(shí),確定該頁面是所述介紹頁。
2.根據(jù)權(quán)利要求1所述的目錄型網(wǎng)頁的介紹頁識(shí)別方法,其特征在于,所述對(duì)頁面數(shù)據(jù)進(jìn)行分塊分析,形成分塊數(shù)據(jù)之前包括:
對(duì)所述頁面數(shù)據(jù)中的網(wǎng)頁地址進(jìn)行識(shí)別,將非介紹頁類型的網(wǎng)頁地址過濾,獲得準(zhǔn)介紹頁。
3.根據(jù)權(quán)利要求2所述的目錄型網(wǎng)頁的介紹頁識(shí)別方法,其特征在于,所述對(duì)頁面數(shù)據(jù)中的網(wǎng)頁地址進(jìn)行識(shí)別,將非介紹頁過濾,獲得準(zhǔn)介紹頁包括:
判斷頁面網(wǎng)頁地址是否具備一二級(jí)首頁或內(nèi)容頁的特征;
若是,則將其過濾;
若否,則判斷該頁面包括的錨文本連接的網(wǎng)頁地址是否與該頁面的網(wǎng)頁地址相似,并在判斷該頁面包括的錨文本連接的網(wǎng)頁地址與該頁面的網(wǎng)頁地址不相似時(shí),將其過濾。
4.一種目錄型網(wǎng)頁的介紹頁識(shí)別裝置,其特征在于,包括:
頁面獲取模塊,用于接收頁面瀏覽請(qǐng)求,獲取頁面數(shù)據(jù);
頁面分析模塊,用于基于視覺信息對(duì)所述頁面數(shù)據(jù)進(jìn)行分塊分析,形成分塊數(shù)據(jù);根據(jù)介紹頁的介紹塊及評(píng)論塊位置特征,識(shí)別出所述分塊數(shù)據(jù)中具有準(zhǔn)介紹塊和準(zhǔn)評(píng)論塊的頁面;
介紹頁識(shí)別模塊,用于根據(jù)所述介紹頁的判定條件對(duì)所述具有準(zhǔn)介紹塊及準(zhǔn)評(píng)論塊的頁面進(jìn)行判斷,以確定該頁面是否為目錄型網(wǎng)頁的介紹頁;
其中,所述介紹頁識(shí)別模塊用于:判斷頁面的網(wǎng)頁地址中是否含有介紹頁標(biāo)識(shí)關(guān)鍵詞;是則提取所述準(zhǔn)介紹塊的關(guān)鍵詞集合,并判斷該準(zhǔn)介紹塊的關(guān)鍵詞集合中是否具有強(qiáng)介紹性關(guān)鍵詞組合;當(dāng)所述準(zhǔn)介紹塊的關(guān)鍵詞集合中具有強(qiáng)介紹性關(guān)鍵詞組合時(shí),確定該頁面是所述介紹頁;或,
所述介紹頁識(shí)別模塊用于:提取所述準(zhǔn)介紹塊的關(guān)鍵詞集合,判斷該準(zhǔn)介紹塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量是否大于第一閾值;是則確定該頁面是所述介紹頁;或,
其中,所述介紹頁識(shí)別模塊用于:提取所述準(zhǔn)介紹塊的關(guān)鍵詞集合,判斷該準(zhǔn)介紹塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量是否大于第二閾值;當(dāng)所述準(zhǔn)介紹塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量大于第二閾值時(shí),則判斷頁面的網(wǎng)頁地址中是否含有介紹頁標(biāo)識(shí)關(guān)鍵詞;或者判斷所述準(zhǔn)介紹塊的關(guān)鍵詞集合中是否具有強(qiáng)介紹性關(guān)鍵詞組合;或者提取準(zhǔn)評(píng)論塊的關(guān)鍵詞集合,并判斷所提取的準(zhǔn)評(píng)論塊的關(guān)鍵詞集合中是否具有強(qiáng)評(píng)論性關(guān)鍵詞組合;或者提取準(zhǔn)評(píng)論塊的關(guān)鍵詞集合,并判斷所提取的準(zhǔn)評(píng)論塊的關(guān)鍵詞集合中的關(guān)鍵詞數(shù)量是否大于第三閾值;并在任一判斷為是時(shí),確定該頁面是所述介紹頁。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310026313.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





