[發明專利]一種識別網頁類型的系統和方法有效
| 申請號: | 201310391961.5 | 申請日: | 2013-09-02 |
| 公開(公告)號: | CN103544210B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 李海燕;王海洋;劉大偉;劉瑋;余智華;隋雪青 | 申請(專利權)人: | 煙臺中科網絡技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 楊立 |
| 地址: | 264003 山東省煙臺*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 網頁 類型 系統 方法 | ||
技術領域
本發明涉及網絡信息檢索與挖掘領域,特別涉及一種識別網頁類型的系統和方法。
背景技術
隨著網絡信息的增加,通過搜索引擎有時很難檢索到用戶想要的信息文檔,同時如何向用戶表達搜索引擎的搜索結果也引起越來越多的關注。傳統的搜索系統多數返回一個大量的、能夠匹配用戶查詢的網頁文檔集合。然而,搜索引擎處理結果文檔的高召回率和低精度使得尋找對用戶有用的信息越來越困難。近幾年來,研究學者對于文檔根據主題分類的方法進行了大量的研究,并取得了很好的成效。但是,盡管文檔能夠成功的根據主題進行分類,每個主題之內還有的大量不同的網頁風格類型,例如根據主題“NBA比賽”進行分類,分類結果的文檔里既有主頁,新聞網頁,圖片頁面等等。然而,有些用戶只想看關于“NBA比賽”的新聞頁面,或者只想看關于“NBA比賽”的論壇頁面……因此,除了主題,文件的風格或者類型可以認為是表達文檔的第二種視圖,也成為滿足搜索引擎用戶對網頁進行分類的另一個標準準則。
另外,以網頁類型為標準對網頁進行分類在網絡輿情監控系統上也有很好的應用效果。隨著互聯網技術的發展,網絡逐漸取代了報紙、廣播、電視等傳統信息媒體,成為人們生活中必不可少的一種新媒體,承擔著快速傳遞、傳播信息的角色,無論是國內還是國際上的事件,都會以超快的速度發布到網絡上,網友也通過網絡發表言論表達對某個公眾事件、熱點、焦點問題的看法、觀點、意見與見解,從而形成網絡輿論。網絡輿情以其空前的快捷傳播速度,成為表達社會輿論的聚集地。對于政府等部門來講,網絡輿情對于民生、民意的及時監控、引導對維護國家長治久安的發展和社會的和諧穩定具有重大的意義;對于負面的輿情言論,需要進行及時有效的引導與化解,從而消除對社會安全的威脅,維護社會的穩定發展。目前,網絡輿情的四大主要載體是新聞(news)、論壇(bbs)、博客(blog)和微博(weibo)。網絡輿情監測系統是在一定的時間空間范圍內,為某個社會事件的產生、發展以及群眾在網絡上對該事件持有的觀點、態度集合而進行監測的系統。它主要是通過采集系統對互聯網上的海量信息實時的進行采集,之后對網頁進行主體內容的信息抽取,最后對信息進行智能化的分析和處理,從而實現輿情熱點的識別、主題跟蹤、敏感話題的挖掘、輿情趨勢的分析、輿情預警以及傾向性分析等功能。輿情載體主要是通過對新聞、論壇、博客的正文網頁進行采集與信息抽取?,F有的網頁信息抽取技術多種多樣,然而由于新聞、論壇、博客正文網頁的結構各有特點,互不相同,因此沒有一個完美的算法能夠適用所有的網絡輿情載體,因此在處理不同類型的輿情載體時,分別選擇各自適合其特點的算法,從而保證信息抽取的準確度,滿足監測系統對數據的準確處理。因此,對輿情載體的類型的準確識別至關重要,目前部分的輿情系統都采用人工的方式對網頁的類型進行匹配識別,然而隨著網站數量的增加、網頁入口網址url(Uniform?Resource?Locator,統一資源定位符)也經常發生變化,在處理數以幾百萬計的網站時,人工處理的方式顯得效率極低,因此對網頁類型的自動識別也顯得尤為重要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于煙臺中科網絡技術研究所,未經煙臺中科網絡技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310391961.5/2.html,轉載請聲明來源鉆瓜專利網。





