[發(fā)明專利]一種網頁分類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201611117608.8 | 申請日: | 2016-12-07 | 
| 公開(公告)號: | CN106599155B | 公開(公告)日: | 2020-05-26 | 
| 發(fā)明(設計)人: | 謝念;周名揚;洪秋月;潘練;金堯;林飛;唐新民;沈智杰;景曉軍 | 申請(專利權)人: | 北京亞鴻世紀科技發(fā)展有限公司;任子行網絡技術股份有限公司 | 
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06K9/62 | 
| 代理公司: | 深圳市順天達專利商標代理有限公司 44217 | 代理人: | 郭偉剛 | 
| 地址: | 100088 北京市海淀區(qū)*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 分類 方法 系統(tǒng) | ||
本發(fā)明公開了一種網頁分類方法,包括:抓取并從網頁的文本數(shù)據中提取所述網頁的關鍵詞;將所述關鍵詞與已分類好的網頁特征詞庫中的特征詞進行匹配,統(tǒng)計所述特征詞的詞頻總數(shù);判斷所述詞頻總數(shù)是否小于預設的閾值;若是,則截取并根據所述網頁的頁面圖像對所述網頁進行分類;若否,則根據多個所述特征詞及其對應的詞頻對所述網頁進行分類。由此,所述方法綜合利用圖像信息與文本信息,有機地結合了基于文本信息對網頁進行分類和基于圖像信息對網頁進行分類的方法,通過準確的判斷待分類網頁屬于短文本網頁還是長文本網頁,選擇最合適有效的網頁分類步驟,相比現(xiàn)有的網頁分類方法,其在對現(xiàn)行的網頁進行分類時有更高的準確率和召回率。
技術領域
本發(fā)明涉及互聯(lián)網技術領域,具體涉及一種網頁分類方法及系統(tǒng)。
背景技術
隨著互聯(lián)網技術的普及和飛速發(fā)展,網絡信息成爆炸性增長,一方面滿足了用戶對信息的需求,另一方面,如何根據網頁內容把網頁自動劃分到不同的類別,以提高用戶的體驗,是目前面臨的一個問題。
衡量網頁分類方法的指標具體包括召回率和準確率等。其中,召回率,是正確分出類別的網頁數(shù)量和所有網頁中屬于該類別的網頁數(shù)量的比值,用于衡量網頁分類方法是否具有通用性;準確率,是正確分出類別的網頁數(shù)量除以所有分出類別的網頁數(shù)量的比值,用于衡量網頁分類方法是否準確。現(xiàn)有技術常用的網頁分類方法是:提取網頁的文本內容和標簽信息等網頁內容特征,利用文本分類器對網頁內容特征進行分類。其中的文本分類器是預先訓練好的分類器,其使用分類算法對文本進行分類。
對于短文本的網頁,現(xiàn)有技術能夠提取的有效文本特征(代表網頁唯一主題的有效特征)維度不足,再者,網頁自身的背景資料容易產生諸如廣告、推薦信息、版權聲明等與網頁內容無關的噪聲信息,更容易導致錯誤分類,從而引起準確率和召回率較低的問題。隨著各種數(shù)字設備的廣泛普及,網頁中的圖像數(shù)量越來越多,文本數(shù)量越來越少,只利用文本信息對網頁進行分類已經不能很好地符合如今網頁的實際形態(tài)。
為此,非常有必要設計一種綜合利用圖像信息與文本信息的網頁分類方法,以提高對現(xiàn)行網頁進行分類的召回率和準確率。
發(fā)明內容
本發(fā)明要解決的技術問題在于,針對現(xiàn)有網頁分類方法不能準確地對現(xiàn)行的文本數(shù)量少、圖像數(shù)量多的網頁進行分類的問題,提供一種綜合利用圖像信息與文本信息的網頁分類方法,以提高對現(xiàn)行發(fā)的文本數(shù)量少、圖像數(shù)量多的網頁進行分類的召回率和準確率。
本發(fā)明解決其問題所采用的技術方案是:
一方面,提供一種網頁分類方法,包括以下步驟:
步驟S1,抓取并從網頁的文本數(shù)據中提取所述網頁的關鍵詞;
步驟S2,將所述關鍵詞與已分類好的網頁特征詞庫中的特征詞進行匹配,統(tǒng)計所述特征詞的詞頻總數(shù);
步驟S3,判斷所述詞頻總數(shù)是否小于預設的閾值;
步驟S4,若是,則截取并根據所述網頁的頁面圖像對所述網頁進行分類;
步驟S5,若否,則根據多個所述特征詞及其對應的詞頻對所述網頁進行分類。
在本發(fā)明提供的網頁分類方法中,所述步驟S1包括以下步驟:
步驟S11,提取所述網頁中包含的文本數(shù)據;
步驟S12,對所述文本數(shù)據進行分詞處理,得到至少一個關鍵詞;
步驟S13,除掉無類別代表性的各類網頁通用的所述關鍵詞。
在本發(fā)明提供的網頁分類方法中,所述步驟S4包括以下步驟:
步驟S41,對所述網頁頁面進行截圖,得到所述網頁的頁面圖像;
步驟S42,根據所述頁面圖像對所述網頁的結構進行解構分析,提取出所述網頁包含的圖片;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京亞鴻世紀科技發(fā)展有限公司;任子行網絡技術股份有限公司,未經北京亞鴻世紀科技發(fā)展有限公司;任子行網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611117608.8/2.html,轉載請聲明來源鉆瓜專利網。





