[發明專利]根據瀏覽網頁確定用戶感興趣的網頁文本的方法和系統在審
| 申請號: | 201310163619.X | 申請日: | 2013-05-06 |
| 公開(公告)號: | CN103235824A | 公開(公告)日: | 2013-08-07 |
| 發明(設計)人: | 劉臻;呂琳媛;肖思源;劉潤然;佘莉 | 申請(專利權)人: | 上海河廣信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海順華專利代理有限責任公司 31203 | 代理人: | 陳淑章 |
| 地址: | 200433 上海市楊*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 根據 瀏覽 網頁 確定 用戶 感興趣 文本 方法 系統 | ||
1.一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法,其特征在于:包括步驟:
對一定時段內用戶瀏覽的網頁進行過濾處理,去除掉無用網頁和某些無法訪問的網頁,對經過篩選剩下的URL地址進行鏈接,獲得頁面的文本內容,提取標題和文本信息;
按照預先定義的主題類別,為網頁文檔集合的每個網頁文檔確定一個類別;
對每個類進行訪問頻度統計,
訪問頻度值最高的網頁集作為用戶感興趣的相關網頁。
2.如權利要求1所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法,其特征在于:網頁分類步驟中需要構建和訓練網頁分類器,輸入訓練文本集,通過文本表示和特征選擇,根據特征詞庫構建分類器模型,輸出為類似于樹形結構的分類規則集,
網頁分類器的訓練過程即是對訓練樣本不斷分組,通過建立目標變量關于各個輸入變量的分類預測模型,全面實現輸入變量和目標變量不同取值下的數據分組,進而用于對新數據對象的分類和預測。
3.如權利要求2所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法,其特征在于:網頁分類器使用決策樹分類方法,其步驟為:
①將測試樣本表達成和訓練樣本同樣的形式;
②t←決策樹根結點;
③取決策樹結點t的測試屬性和閾值,將待測試樣本對應特征的值與之比較,
然后根據t結點分裂的標準決定是
t←t的左孩子or?t←t的右孩子;
④遞歸執行⑶,直到t為葉子結點;
⑤測試樣本的類別為葉子t代表的類別。
4.如權利要求2所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法,其特征在于:網頁分類步驟中,輸入經過文本預處理模塊處理過的待分類文本,通過文本表示,根據特征詞庫進行特征選擇,與訓練所生成的分類器模型的分類規則進行文本分類,輸出為各文本所屬類別信息。
5.如權利要求2或4所述的一種根據瀏覽網頁URL確定用戶感興趣的相關網頁文本的方法,其特征在于:文本表示步驟中,采用特征向量空間表示文本特征,文檔i可以表示成如下公式的特征向量:
Wij=(Wi1,Wi2,...,Wim)
其中,Wij為詞條j在文檔i中出現頻率fij的函數,直接使用詞條在文檔的出現頻率作為特征值,計算公式為:
Wij=fij。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海河廣信息科技有限公司,未經上海河廣信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310163619.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:燃氣渦輪發動機燃料回流閥和系統
- 下一篇:安全門





