[發明專利]根據瀏覽網頁確定用戶感興趣的網頁文本的方法和系統在審

申請號：	201310163619.X	申請日：	2013-05-06
公開（公告）號：	CN103235824A	公開（公告）日：	2013-08-07
發明（設計）人：	劉臻;呂琳媛;肖思源;劉潤然;佘莉	申請（專利權）人：	上海河廣信息科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海順華專利代理有限責任公司 31203	代理人：	陳淑章
地址：	200433 上海市楊***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	根據瀏覽網頁確定用戶感興趣文本方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法，其特征在于：包括步驟：

對一定時段內用戶瀏覽的網頁進行過濾處理，去除掉無用網頁和某些無法訪問的網頁，對經過篩選剩下的URL地址進行鏈接，獲得頁面的文本內容，提取標題和文本信息；

按照預先定義的主題類別，為網頁文檔集合的每個網頁文檔確定一個類別；

對每個類進行訪問頻度統計，

訪問頻度值最高的網頁集作為用戶感興趣的相關網頁。

2.如權利要求1所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法，其特征在于：網頁分類步驟中需要構建和訓練網頁分類器，輸入訓練文本集，通過文本表示和特征選擇，根據特征詞庫構建分類器模型，輸出為類似于樹形結構的分類規則集，

網頁分類器的訓練過程即是對訓練樣本不斷分組，通過建立目標變量關于各個輸入變量的分類預測模型，全面實現輸入變量和目標變量不同取值下的數據分組，進而用于對新數據對象的分類和預測。

3.如權利要求2所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法，其特征在于：網頁分類器使用決策樹分類方法，其步驟為：

①將測試樣本表達成和訓練樣本同樣的形式；

②t←決策樹根結點；

③取決策樹結點t的測試屬性和閾值，將待測試樣本對應特征的值與之比較，

然后根據t結點分裂的標準決定是

t←t的左孩子or?t←t的右孩子；

④遞歸執行⑶，直到t為葉子結點；

⑤測試樣本的類別為葉子t代表的類別。

4.如權利要求2所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法，其特征在于：網頁分類步驟中，輸入經過文本預處理模塊處理過的待分類文本，通過文本表示，根據特征詞庫進行特征選擇，與訓練所生成的分類器模型的分類規則進行文本分類，輸出為各文本所屬類別信息。

5.如權利要求2或4所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法，其特征在于：文本表示步驟中，采用特征向量空間表示文本特征，文檔i可以表示成如下公式的特征向量：

W_ij=(W_i1,W_i2,...,W_im)

其中，W_ij為詞條j在文檔i中出現頻率f_ij的函數,直接使用詞條在文檔的出現頻率作為特征值，計算公式為：

W_ij=f_ij。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海河廣信息科技有限公司，未經上海河廣信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310163619.X/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】