[發明專利]基于頁面分析的互聯網信息發表時間提取方法在審
| 申請號: | 201210290557.4 | 申請日: | 2012-08-16 |
| 公開(公告)號: | CN103593360A | 公開(公告)日: | 2014-02-19 |
| 發明(設計)人: | 陳宗華;陳永江;葛恒虎;劉永超;喬磊 | 申請(專利權)人: | 江蘇金鴿網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 頁面 分析 互聯網 信息 發表 時間 提取 方法 | ||
技術領域
?本發明屬于互聯網信息采集領域,具體地說是一種基于頁面分析的互聯網信息發表時間提取方法。
背景技術
隨著社會信息化的迅猛發展,網絡已經成為人們獲取信息的重要來源。而網絡信息具有海量,復雜,非結構化等特點,為網絡信息的獲取以及基于網絡信息搜集的分析與研究工作都帶來了很大困難。大量的實踐也表明,在網絡上對各種不同的信息載體(新聞網、博客、論壇、微博等)進行信息采集已經可以基本達到要求,但如果進一步得到信息的發表時間還有一定的技術難題。特別是想要臨時性的針對某個特定目標進行信息采集時,對采集系統的適用能力、采集效率和準確率都提出了很高的要求?,F有技術中還沒有公開可以滿足這些要求的互聯網信息發表時間提取技術。
發明內容
本發明要解決的技術問題是針對現有技術存在的不足,提供一種方法更為簡單、可以對采集目標的發表時間進行準確提取的基于頁面分析的互聯網信息發表時間提取方法。
本發明所要解決的技術問題是通過下述技術方案來實現的。本發明是一種基于頁面分析的互聯網信息發表時間提取方法,其特點是:首先訪問互聯網根據Url判斷網站類型,加載目標頁面得到網頁文本源碼集合S;其次對于新聞類網站根據標簽的正則表達式識別出集合S中的標題行L,并為標題行L中的每個符號節點進行分割,得到最大標題長度;其具體步驟如下:
A、根據Url判斷網站類型,加載目標頁面得到文本源碼集合S;其操作步驟如下:
A1、輸入網頁地址,根據Url的一般表示習慣,判斷出網站類型;
A2、輸入網頁地址,利用HttpClient獲取原始HTML源碼集合S;
B、新聞類網站,識別并標記集合S中的標題行L,并匹配時間;其操作步驟如下:
B1、依據正則匹配文本源碼集合S得到標題行L;
B2、用標題行L中的符號對L進行分割,取到最大長度無符號標題T;
B3、根據得到的標題T,在其500的字符內用時間正則表達式進行時間匹配;
B4、如果匹配不到時間,找集合S中出現的下一個標題,轉B3,如果無下一標題,則匹配失敗;
C、論壇類網站,根據關鍵字匹配時間;其操作步驟如下:
C1、根據論壇發表時間關鍵字集合后10個字符內匹配時間正則表達式;
C2、根據由C1生成的新的正則表達式,對集合S進行匹配;
C3、若匹配到時間則成功,否則直接匹配時間格式,取最新時間;
D、對于其它網站的時間匹配,其操作步驟如下:
D1、對于百度貼吧,根據特有的關鍵字進行時間匹配;
D2、對于微博,調用微博的API,進行時間提??;
D3、對于其它網站,直接對S進行時間正則表達式匹配;
至此,信息發表時間的自動提取結束。
本發明方法中,輸入網頁地址,根據Url的一般表示習慣,可以判斷出網站類型,如包含關鍵字“bbs”、“forum”、“club”等可判斷網站為論壇。
本發明方法是為了適應市場越來越多的需求,可以比較準確地對一些信息載體(新聞網、博客、論壇、微博等)進行時間提取。本發明信息發表時間的自動提取方法,一方面應用于輿情管理領域,使用在公安、安全、安監等政府部門,對監測內容的時間進行自動提取,對于政府部門來說時的確定監測內容的時間可幫助有有關總站及時做出反應,及時的確定監測內容的時間可幫助有有關總站及時做出反應;另一方面也可以使用在信息分析領域,如:電子商務行業。
與現有技術相比,本發明的一種基于頁面分析的互聯網信息發表時間提取方法具有以下技術優點:
1、本發明方法對信息發表時間能快速準確的提?。?/p>
2、本發明方法采集效率高:在采集過程中,占用網絡資源小。
附圖說明
圖1是本發明方法的一種流程框圖;
圖2是圖1中步驟102所述的識別網站類型并得到集合S流程圖;
圖3是圖1中步驟103所述的對于新聞類網站時間提取的流程圖;
圖4是圖1中步驟104所述的是對論壇及普通網站時間提取的流程圖。
具體實施方式
以下參照附圖,進一步描述本發明的具體技術方案,以便于本領域的技術人員進一步地理解本發明,而不構成對其權利的限制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金鴿網絡科技有限公司,未經江蘇金鴿網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210290557.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可多面進風的空氣凈化器
- 下一篇:壁掛式空調器





