[發明專利]網頁分類方法和裝置、網頁分類器的訓練方法和裝置在審
申請號: | 201210362603.7 | 申請日: | 2012-09-25 |
公開(公告)號: | CN103678422A | 公開(公告)日: | 2014-03-26 |
發明(設計)人: | 張中峰;劉書良;趙琴琴;張一凡;羅峰;黃蘇支;李娜 | 申請(專利權)人: | 北京億贊普網絡技術有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
地址: | 100081 北京市海淀*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 網頁 分類 方法 裝置 訓練 | ||
1.一種網頁分類方法,其特征在于,包括:
提取待分類網頁的用戶搜索行為特征;
依據第一網頁分類器判別該用戶搜索行為特征所屬的網頁類別;其中,所述第一網頁分類器為依據網頁類別樣本的用戶搜索行為特征所構造的分類器。
2.如權利要求1所述的方法,其特征在于,所述提取待分類網頁的用戶搜索行為特征的步驟,進一步包括:
依據所述待分類網頁的頁面地址,在關系數據庫中檢索所述待分類網頁對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征;
所述關系數據庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數據和用戶訪問行為數據進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
3.如權利要求1所述的方法,其特征在于,所述提取待分類網頁的用戶搜索行為特征的步驟,進一步包括:
依據所述待分類網頁的頁面地址,在用戶訪問行為數據中查詢得到所述待分類網頁對應的用戶物理地址和搜索跳轉信息;
所述用戶訪問行為數據記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址;
依據所述待分類網頁對應的用戶物理地址和搜索跳轉信息,在所述用戶搜索行為數據中查詢得到所述待分類網頁對應的搜索關鍵詞,作為用戶搜索行為特征;
所述用戶搜索行為數據記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據搜索關鍵詞得到的多個頁面地址。
4.如權利要求2所述的方法,其特征在于,通過如下步驟對所述用戶搜索行為數據和用戶訪問行為數據進行分析得到所述關系頻率:
通過查詢用戶訪問行為數據,獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息;
所述用戶訪問行為數據記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面;
針對搜索跳轉訪問頁面,依據其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數據中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數;所述用戶搜索行為數據記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據搜索關鍵詞得到的多個頁面地址;
建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數作為相應的關系頻率。
5.如權利要求1所述的方法,其特征在于,還包括:
提取待分類網頁的網頁內容特征;
對所述網頁內容特征進行降維;
融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征;
依據第二網頁分類器判別該融合特征所屬的網頁類別;其中,所述第二網頁分類器為依據網頁類別樣本的融合特征所構造的分類器。
6.如權利要求5所述的方法,其特征在于,所述用戶搜索行為特征為搜索關鍵詞集合,所述網頁內容特征為內容詞匯集合;
所述融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征的步驟,進一步包括:
選取全部所述搜索關鍵詞集合,以及,特定維數的部分所述內容詞匯集合,組成融合特征;所述特定維數為第一預設維數與所述搜索關鍵詞集合維數的差值;或者,
對所述搜索關鍵詞集合和內容詞匯集合的特征值進行歸一化,依據歸一化后的特征值對所述搜索關鍵詞集合和內容詞匯集合進行從高到低的合并排序,并選取排在前面的數目與第二預設維數相應的詞匯,組成融合特征。
7.如權利要求5或6所述的方法,其特征在于,所述網頁內容特征為內容詞匯集合;
所述對所述網頁內容特征進行降維的步驟,進一步包括:
依據分類影響因子,去除所述內容詞匯集合中的噪聲特征;所述分類影響因子具體可以包括規范因子、位置因子、標簽因子、字體因子和詞性因子中的一項或多項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京億贊普網絡技術有限公司,未經北京億贊普網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210362603.7/1.html,轉載請聲明來源鉆瓜專利網。