[發明專利]基于頁面分析的互聯網信息發表時間提取方法在審
| 申請號: | 201210290557.4 | 申請日: | 2012-08-16 |
| 公開(公告)號: | CN103593360A | 公開(公告)日: | 2014-02-19 |
| 發明(設計)人: | 陳宗華;陳永江;葛恒虎;劉永超;喬磊 | 申請(專利權)人: | 江蘇金鴿網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 頁面 分析 互聯網 信息 發表 時間 提取 方法 | ||
1.一種基于頁面分析的互聯網信息發表時間提取方法,其特征在于:首先訪問互聯網根據Url判斷網站類型,加載目標頁面得到網頁文本源碼集合S;其次對于新聞類網站根據標簽的正則表達式識別出集合S中的標題行L,并為標題行L中的每個符號節點進行分割,得到最大標題長度;其具體步驟如下:
A、根據Url判斷網站類型,加載目標頁面得到文本源碼集合S;其操作步驟如下:
A1、輸入網頁地址,根據Url的一般表示習慣,判斷出網站類型;
A2、輸入網頁地址,利用HttpClient獲取原始HTML源碼集合S;
B、新聞類網站,識別并標記集合S中的標題行L,并匹配時間;其操作步驟如下:
B1、依據正則匹配文本源碼集合S得到標題行L;
B2、用標題行L中的符號對L進行分割,取到最大長度無符號標題T;
B3、根據得到的標題T,在其500的字符內用時間正則表達式進行時間匹配;
B4、如果匹配不到時間,找集合S中出現的下一個標題,轉B3,如果無下一標題,則匹配失??;
C、論壇類網站,根據關鍵字匹配時間;其操作步驟如下:
C1、根據論壇發表時間關鍵字集合后10個字符內匹配時間正則表達式;
C2、根據由C1生成的新的正則表達式,對集合S進行匹配;
C3、若匹配到時間則成功,否則直接匹配時間格式,取最新時間;
D、對于其它網站的時間匹配,其操作步驟如下:
D1、對于百度貼吧,根據特有的關鍵字進行時間匹配;
D2、對于微博,調用微博的API,進行時間提取;
D3、對于其它網站,直接對S進行時間正則表達式匹配;
至此,信息發表時間的自動提取結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金鴿網絡科技有限公司,未經江蘇金鴿網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210290557.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可多面進風的空氣凈化器
- 下一篇:壁掛式空調器





