[發明專利]一種在線更新興趣信息的采集方法無效
| 申請號: | 201210266647.X | 申請日: | 2012-07-31 |
| 公開(公告)號: | CN102890704A | 公開(公告)日: | 2013-01-23 |
| 發明(設計)人: | 萬金朋 | 申請(專利權)人: | 萬金朋 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400030 重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 在線 更新 興趣 信息 采集 方法 | ||
技術領域
本發明涉及一種在線信息實時獲取技術,具體地說是一種對在線更新興趣信息的采集方法。
背景技術
隨著信息化技術的發展,Web正在改變著各種業務領域,它涉及新聞、廣告、消費、金融管理、教育、政府、電子商務及其它信息服務。Web包含了豐富和動態的超鏈接信息以及Web頁面的訪問和使用信息,為廣大使用者提供了豐富的資源。如何提取關注的、感興趣的信息,成為各行各業關注的熱點,同時有效地信息采集以及發布方式,成為助推web信息挖掘的關鍵。比如,在各行業工程建設或采購中,招投標工作十分重要,然而招投標信息分散在各個單位的門戶網站上或各地方政府的網站上,使得招投標工作在獲取實時信息時復雜而繁瑣。
發明內容
本發明的目的在于,提供一種能有效幫助企業和個人實時準確的獲取到招投標信息的在線內容更新的采集方法,提高工作效率。
本發明是這樣實現的:
本發明所提供的采集方法,主要包括三大步驟:
步驟1,建立興趣信息(招標信息)網址庫;
采集行業領域的感興趣web網址,形成網址庫。
步驟2,興趣點挖掘;
通過網頁源碼分析,對網址庫中的各類網址進行動態檢測,獲取其更新信息。其步驟是:
1)判斷網址的編碼方式,若為GBK格式的網址,利用網址重定向技術將GBK編碼的網址轉化為Punycode編碼;
2)判斷網頁的編碼方式從而獲取相應網址的網頁源代碼;
3)過濾掉與更新內容無關的信息,如格式控制符等;
4)判斷是否為第一次獲取該網頁的源代碼:若是第一次獲取,將過濾過的網頁信息直接保存到數據庫;若不是第一次獲取網頁,利用字符串對比算法,將過濾過的網頁信息與存儲在數據庫中的更新前的網頁信息作對比,獲取到網頁更新的內容;
5)在更新的內容中搜索興趣點。
步驟3,信息發布
將更新的興趣點信息重新編輯后,通過短信、郵件等方式實時地分發給訂閱者。
上述步驟2之興趣點挖掘中的字符串對比算法,此算法將最新時刻的網頁內容與上一時刻的網頁做對比,從而獲取網頁一處或多處更新的內容,而忽略上一時刻的網頁比最新時刻的網頁多出的內容。在這個算法中,可以人工設定m為獲取更新字符串的最短長度(精度),而在網頁更新內容有多處的情況下,人工設定m1為兩更新內容之間允許的最長的與上一時刻相同的字符串。
本發明的有益效果是:使訂閱者在不進行海量網址搜索的情況下實時掌握感興趣的WEB信息,如,若應用到招投標信息采集系統中,可提高招投標工作的效率,減少投標企業進行招投標進行信息搜索時的工作量,使更多的優秀供應商參與到招投標工作中來,使招投標工作更加公正、公開、透明。
附圖說明
圖1為本發明網頁更新內容采集的方法的總流程示意圖;
圖2為本發明網頁更新內容采集的方法之興趣點挖掘的流程圖;
圖3為網頁更新內容的字符串對比算法示意圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚,以招標信息為例,下面結合附圖和實施例對本發明作進一步的描述。
圖1顯示了本實施例采集的方法的流程:本實施例提供了一種由于在線內容更新而觸發的二次發布方法,包括建立興趣信息網址庫、興趣點挖掘、信息發布。在定時獲取網址庫中的所有網址的網頁內容后,與存儲在數據庫中的網頁內容對比,獲取到更新的網頁內容S9,在更新的內容中挖掘興趣點信息,如果有興趣信息,則二次發布給訂閱者。具體步驟如下所述:
(一)建立興趣信息網址庫
采集行業領域的感興趣web網址,一般是信息列表頁的網址,存儲在數據庫中。
(二)興趣點挖掘
(三)信息發布
若在上述步驟中搜索到客戶感興趣招標信息,則將招標信息重新編輯,然后通過短信、郵件、WEB發布等方式將編輯好的招標信息實時分發給訂閱者。
圖2顯示了本實施例之興趣點挖掘流程
1)中文網址的處理S3
利用網址重定向技術將含有GBK編碼文字的網址S2的頁面嵌套到Punycode編碼的網址的頁面中或將英文網址(Punycode編碼)1的網址跳轉到需采集的含有GBK編碼文字的網址。
2)獲取網頁的編碼方式S4
逐行讀取Punycode編碼的英文網址S1,使用webclient或HttpWebRequest獲取網址頁面的編碼方式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于萬金朋,未經萬金朋許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210266647.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種保健飲料及其制備方法
- 下一篇:臍橙酵素營養液及其制備方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





