[發明專利]識別新聞網頁屬性特征的方法和系統有效
| 申請號: | 201310585455.X | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103617213B | 公開(公告)日: | 2017-04-19 |
| 發明(設計)人: | 韓孟崗 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙)11348 | 代理人: | 王偉鋒,劉鐵生 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 新聞 網頁 屬性 特征 方法 系統 | ||
技術領域
本發明涉及一種識別新聞網頁屬性特征的方法和系統。
背景技術
目前,網絡上存在大量的新聞網頁,新聞網頁上具有豐富的新聞,供用戶進行瀏覽,以獲取最新的新聞消息。而現在不少的新聞網頁上,被植入了一些和新聞無關的信息,這些通常對用戶毫無價值可言,對用戶來說成為“垃圾新聞”,只會干擾用戶的瀏覽。
例如,某新聞網頁的標題信息為“來XXX玩游戲看電影”,正文信息為:“在奴隸社會下,沒有財產權的商人是軟弱的,在合法勞動所得都不能得到保障的奴隸社會,發展商業文明,是絕對不可行的……”。很明顯地,該新聞網頁提供的標題信息和正文信息完全無關,并非正常的新聞,而是“垃圾新聞”,其只會對用戶造成干擾,影響用戶正常的新聞閱讀。“垃圾新聞”應及時識別出來并進行處理,以免對用戶造成干擾,但目前尚無有效的識別方案。
所以,本發明需要解決的技術問題在于,需要有一種技術方案來對新聞網頁的屬性特征進行判斷。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的識別新聞網頁屬性特征的方法和系統。
依據本發明的一個方面,提供了一種識別新聞網頁屬性特征的方法,其包括:從抓取到的新聞網頁中分別提取標題信息和正文信息;分別對標題信息和正文信息進行分析,根據標題信息分析數據與正文信息分析數據計算標題信息和正文信息的匹配度;根據標題信息和正文信息的匹配度,判斷新聞網頁的屬性特征。
可選地,分別對標題信息和正文信息進行分析的步驟包括:從標題信息中提取一個或多個詞作為關鍵詞;根據關鍵詞在正文信息中出現的頻率和/或位置,計算匹配度。
可選地,從標題信息中提取一個或多個詞作為關鍵詞的步驟包括:提取標題信息中包含的動詞和/或名詞作為關鍵詞。
可選地,從標題信息中提取一個或多個詞作為關鍵詞的步驟還包括:如關鍵詞的數量為多個且超過預定個數,則保留其中預定個數的關鍵詞。
可選地,根據關鍵詞在正文信息中出現的頻率和/或位置,計算匹配度的步驟進一步包括:根據關鍵詞在正文信息中出現的頻率和/或位置,得到關鍵詞的詞權重;按預定方式,計算正文信息的離散度;根據關鍵詞的詞權重和正文信息的離散度,計算匹配度。
可選地,根據關鍵詞在正文信息中出現的頻率和/或位置,得到關鍵詞的詞權重的步驟進一步包括:根據每個關鍵詞在正文信息中首次出現的位置,計算每個關鍵詞的位置權重;根據每個關鍵詞在正文信息中出現的頻率,計算每個關鍵詞的頻率權重;根據每個關鍵詞的位置權重和/或頻率權重,得到每個關鍵詞的詞權重。
可選地,每個關鍵詞的位置權重=a/log(b+first_position),a的值為第一常數,b的值為第二常數,first_position的值用于表示每個關鍵詞在正文信息中首次出現時的位置;每個關鍵詞的頻率權重=m/log(c+e^((n-freq)^o)),e為自然常數,m的值為第三常數,n的值為第四常數,o的值為第五常數,c為第六常數,freq的值用于表示每個關鍵詞在正文信息中出現的次數,符號^表示乘方。
可選地,按預定方式,計算正文信息的離散度的步驟進一步包括:根據正文信息中出現的所有詞的數量,以及正文信息中出現的獨立詞的數量,計算正文信息的離散度,所有詞中排除重復出現的詞后得到獨立詞。
可選地,正文信息的離散度=所有詞的數量/獨立詞的數量;匹配度=所有關鍵詞的詞權重之和/(n×正文信息的離散度),n為所有關鍵詞的數量。
可選地,在從抓取到的新聞網頁中分別提取標題信息和正文信息的步驟還包括:響應搜索請求獲取新聞網頁;在根據標題信息和正文信息的匹配度,判斷新聞網頁的屬性特征的步驟后,還包括:根據新聞網頁的屬性特征,判斷是否將新聞網頁的地址作為對應搜索請求的搜索結果。
依據本發明的另一個方面,提供了一種識別新聞網頁屬性特征的系統,其包括:網頁數據庫,適于存儲抓取到的網頁;提取模塊,適于從抓取到的新聞網頁中分別提取標題信息和正文信息;匹配度計算模塊,適于分別對標題信息和正文信息進行分析,根據標題信息分析數據與正文信息分析數據計算標題信息和正文信息的匹配度;屬性特征判斷模塊,適于根據標題信息和正文信息的匹配度,判斷新聞網頁的屬性特征。
可選地,還包括:關鍵詞提取模塊,適于從標題信息中提取一個或多個詞作為關鍵詞;匹配度計算模塊根據關鍵詞在正文信息中出現的頻率和/或位置,計算匹配度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310585455.X/2.html,轉載請聲明來源鉆瓜專利網。





