[發明專利]識別新聞網頁屬性特征的方法和系統有效
| 申請號: | 201310585455.X | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103617213B | 公開(公告)日: | 2017-04-19 |
| 發明(設計)人: | 韓孟崗 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙)11348 | 代理人: | 王偉鋒,劉鐵生 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 新聞 網頁 屬性 特征 方法 系統 | ||
1.一種識別新聞網頁屬性特征的方法,其包括:
從抓取到的新聞網頁中分別提取標題信息和正文信息;
從所述標題信息中提取一個或多個詞作為關鍵詞,其中,提取所述標題信息中包含的動詞和/或名詞作為關鍵詞,如所述關鍵詞的數量為多個且超過預定個數,則保留其中預定個數的關鍵詞;
根據所述關鍵詞在所述正文信息中出現的頻率和/或位置,計算所述標題信息和所述正文信息的匹配度,其中,所述關鍵詞的位置為所述正文信息中首次出現的位置;
根據所述標題信息和所述正文信息的匹配度,判斷所述新聞網頁的屬性特征。
2.根據權利要求1所述的識別新聞網頁屬性特征的方法,其中,所述根據所述關鍵詞在所述正文信息中出現的頻率和/或位置,計算所述匹配度的步驟進一步包括:
根據所述關鍵詞在所述正文信息中出現的頻率和/或位置,得到所述關鍵詞的詞權重;
按預定方式,計算所述正文信息的離散度;
根據所述關鍵詞的詞權重和所述正文信息的離散度,計算所述匹配度。
3.根據權利要求2所述的識別新聞網頁屬性特征的方法,其中,根據所述關鍵詞在所述正文信息中出現的頻率和/或位置,得到所述關鍵詞的詞權重的步驟進一步包括:
根據每個關鍵詞在所述正文信息中首次出現的位置,計算所述每個關鍵詞的位置權重;
根據所述每個關鍵詞在所述正文信息中出現的頻率,計算所述每個關鍵詞的頻率權重;
根據所述每個關鍵詞的位置權重和/或頻率權重,得到所述每個關鍵詞的詞權重。
4.根據權利要求3所述的識別新聞網頁屬性特征的方法,其中,所述每個關鍵詞的位置權重=a/log(b+first_position),a的值為第一常數,b的值為第二常數,first_position的值用于表示所述每個關鍵詞在所述正文信息中首次出現時的位置;
所述每個關鍵詞的頻率權重=m/log(c+e^((n-freq)^o)),e為自然常數,m的值為第三常數,n的值為第四常數,o的值為第五常數,c為第六常數,freq的值用于表示所述每個關鍵詞在所述正文信息中出現的次數,符號^表示乘方。
5.根據權利要求4所述的識別新聞網頁屬性特征的方法,其中,按預定方式,計算所述正文信息的離散度的步驟進一步包括:
根據所述正文信息中出現的所有詞的數量,以及所述正文信息中出現的獨立詞的數量,計算所述正文信息的離散度,所述所有詞中排除重復出現的詞后得到所述獨立詞。
6.根據權利要求5所述的識別新聞網頁屬性特征的方法,其中,所述正文信息的離散度=所述所有詞的數量/所述獨立詞的數量;
所述匹配度=所述所有關鍵詞的詞權重之和/(N×所述正文信息的離散度),N為所述所有關鍵詞的數量。
7.根據權利要求1-6中任一項所述的識別新聞網頁屬性特征的方法,其中,在從抓取到的新聞網頁中分別提取標題信息和正文信息的步驟還包括:
響應搜索請求獲取新聞網頁;
在根據所述標題信息和所述正文信息的匹配度,判斷所述新聞網頁的屬性特征的步驟后,還包括:
根據所述新聞網頁的屬性特征,判斷是否將所述新聞網頁的地址作為對應所述搜索請求的搜索結果。
8.一種識別新聞網頁屬性特征的系統,其包括:
網頁數據庫,適于存儲抓取到的網頁;
提取模塊,適于從抓取到的新聞網頁中分別提取標題信息和正文信息;
關鍵詞提取模塊,適于從所述標題信息中提取一個或多個詞作為關鍵詞,其中,所述關鍵詞提取模塊提取所述標題信息中包含的動詞和/或名詞作為關鍵詞;
關鍵詞保留模塊,如所述關鍵詞的數量為多個且超過預定個數,則保留其中預定個數的關鍵詞;
匹配度計算模塊,適于根據所述關鍵詞在所述正文信息中出現的頻率和/或位置,計算所述標題信息和所述正文信息的匹配度,其中,所述關鍵詞的位置為所述正文信息中首次出現的位置;
屬性特征判斷模塊,適于根據所述標題信息和所述正文信息的匹配度,判斷所述新聞網頁的屬性特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310585455.X/1.html,轉載請聲明來源鉆瓜專利網。





