[發(fā)明專利]一種網(wǎng)頁地址分類方法及裝置有效
| 申請?zhí)枺?/td> | 201611199522.4 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106874340B | 公開(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計)人: | 張驚申;魯廣平 | 申請(專利權(quán))人: | 新華三技術(shù)有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 310052 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 地址 分類 方法 裝置 | ||
本發(fā)明實施例提供了一種網(wǎng)頁地址分類方法及裝置。該方法應(yīng)用于電子設(shè)備,包括:獲得待分類網(wǎng)頁地址;確定第一地址組,該地址組包括目標(biāo)網(wǎng)頁地址,該地址為第二地址組中存在于權(quán)威數(shù)據(jù)庫的網(wǎng)頁地址,第二地址組中包括待分類網(wǎng)頁地址對應(yīng)的網(wǎng)頁中的正向鏈接,權(quán)威數(shù)據(jù)庫中具有類型互不相同的權(quán)威信息組,每個信息組中具有權(quán)威網(wǎng)頁地址與權(quán)重值的對應(yīng)關(guān)系;基于各信息組中分布的目標(biāo)網(wǎng)頁地址對應(yīng)的權(quán)重值、其在第一地址組中出現(xiàn)的次數(shù)及得分計算公式,確定各信息組與待分類網(wǎng)頁地址的匹配得分;將得分最高的信息組的類型確定為待分類網(wǎng)頁地址的類型。可見,本方案可以對網(wǎng)頁地址的類型進行科學(xué)地識別。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)頁地址分類方法及裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)通信技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)目異常龐大。容易理解的是,按照不同的分類依據(jù),這些網(wǎng)頁對應(yīng)的網(wǎng)頁地址會被分成不同的類型。具體地,在一種分類方式中,這些網(wǎng)頁地址被分為新聞類的、體育類的、購物類的等;在另一種分類方式中,這些網(wǎng)頁地址被分為與工作相關(guān)的或者與工作無關(guān)的。
對于現(xiàn)有技術(shù)而言,當(dāng)對網(wǎng)頁地址進行分類時,一般需要依賴于對樣本網(wǎng)頁地址的挑選和字典的生成。一般而言,當(dāng)該網(wǎng)頁地址對應(yīng)的網(wǎng)頁中的內(nèi)容較少時,依靠上述分類方法根本無法得出該網(wǎng)頁地址的明確分類。因此,如何對網(wǎng)頁地址的分類進行科學(xué)地識別對于本領(lǐng)域技術(shù)人員而言是一個亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種網(wǎng)頁地址分類方法及裝置,以對網(wǎng)頁地址的分類進行科學(xué)地識別。
本發(fā)明實施例提供了一種網(wǎng)頁地址分類方法,應(yīng)用于電子設(shè)備中,所述方法包括:
獲得待分類網(wǎng)頁地址;
確定第一地址組,所述第一地址組中包括目標(biāo)網(wǎng)頁地址,所述目標(biāo)網(wǎng)頁地址為第二地址組中的、存在于權(quán)威數(shù)據(jù)庫中的網(wǎng)頁地址,所述第二地址組中包括所述待分類網(wǎng)頁地址對應(yīng)的網(wǎng)頁中的各正向鏈接,所述權(quán)威數(shù)據(jù)庫中存儲有類型互不相同的多個權(quán)威信息組,每個權(quán)威信息組中存儲有權(quán)威網(wǎng)頁地址與權(quán)重值之間的對應(yīng)關(guān)系;
基于各權(quán)威信息組中所分布的每個目標(biāo)網(wǎng)頁地址對應(yīng)的權(quán)重值、該目標(biāo)網(wǎng)頁地址在所述第一地址組中出現(xiàn)的次數(shù),以及預(yù)設(shè)的匹配得分計算公式,確定各權(quán)威信息組與所述待分類網(wǎng)頁地址的匹配得分;
將與所述待分類網(wǎng)頁地址的匹配得分最高的權(quán)威信息組的類型確定為所述待分類網(wǎng)頁地址的類型。
本發(fā)明實施例提供了一種網(wǎng)頁地址分類裝置,應(yīng)用于電子設(shè)備中,所述裝置包括:
獲得模塊,用于獲得待分類網(wǎng)頁地址;
地址組確定模塊,用于確定第一地址組,所述第一地址組中包括目標(biāo)網(wǎng)頁地址,所述目標(biāo)網(wǎng)頁地址為第二地址組中的、存在于權(quán)威數(shù)據(jù)庫中的網(wǎng)頁地址,所述第二地址組中包括所述待分類網(wǎng)頁地址對應(yīng)的網(wǎng)頁中的各正向鏈接,所述權(quán)威數(shù)據(jù)庫中存儲有類型互不相同的多個權(quán)威信息組,每個權(quán)威信息組中存儲有權(quán)威網(wǎng)頁地址與權(quán)重值之間的對應(yīng)關(guān)系;
匹配得分確定模塊,用于基于各權(quán)威信息組中所分布的每個目標(biāo)網(wǎng)頁地址對應(yīng)的權(quán)重值、該目標(biāo)網(wǎng)頁地址在所述第一地址組中出現(xiàn)的次數(shù),以及預(yù)設(shè)的匹配得分計算公式,確定各權(quán)威信息組與所述待分類網(wǎng)頁地址的匹配得分;
分類模塊,用于將與所述待分類網(wǎng)頁地址的匹配得分最高的權(quán)威信息組的類型確定為所述待分類網(wǎng)頁地址的類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三技術(shù)有限公司,未經(jīng)新華三技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611199522.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種絞吸船開挖珊瑚淺區(qū)的施工方法
- 下一篇:一種鏈軌挖機





