[發明專利]一種基于搜索策略的多主題信息采集方法有效
| 申請號: | 201310677257.6 | 申請日: | 2013-12-13 |
| 公開(公告)號: | CN103617286B | 公開(公告)日: | 2017-02-22 |
| 發明(設計)人: | 仲兆滿;李存華;管燕 | 申請(專利權)人: | 淮海工學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 連云港潤知專利代理事務所32255 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市海*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 策略 主題 信息 采集 方法 | ||
技術領域
?本發明涉及一種信息采集技術,具體地說,涉及一種基于搜索策略的多主題信息采集方法。
背景技術
主題信息采集是指有選擇性地采集那些與預先定義好的主題相關信息的行為。主題信息采集面對的是特定的行業用戶,采集的信息只限定于特定的主題。按照采集主題的范圍和規模,可以分為廣泛主題采集和具體主題采集。廣泛主題指那些涵蓋面較寬,并且和其他主題相比有較強的獨立性的一類主題。廣泛主題采集也稱作領域信息采集。用戶在采集這類主題時,往往并沒有太具體的要求。這類信息采集往往采集到的信息數量較多,為了達到較高的召回率,在進行信息過濾的時候所設定的閾值較低、限制較寬。比如,“交通事故”、“自然災害”、“地震”、“火災”等都是廣泛主題的例子。簡而言之,廣泛主題缺乏具體的要素約束,比如時間、地點、參與對象等約束要素,因而它獲取的內容比較雜亂,采集內容與主題的平均相關度也較低。
具體主題涵蓋面較窄,因此意義也比較明確,采集信息的規模也較小。這類采集一般可直接服務于用戶,是目前最主要的主題信息采集模式,為此,它在進行信息過濾的時候所設定的閾值較高、限制較嚴。比如,“2008年汶川地震”、“美國斯諾登事件”、“3.15動車事故”、“2008金融危機”、“2012臺灣選舉”等都是具體主題的例子。這類主題由于有明確的約束要素,使得采集到的信息與主題的平均相關度較高。
申請號為200810223523.7的現有技術提出了一種面向主題的信息采集方法,該方法首先根據待采集鏈接隊列中鏈接的順序,從所述待采集鏈接隊列中獲得多個鏈接,采集并存儲所述多個鏈接的頁面內容,提取所述頁面中的新鏈接,判定所述頁面的主題相關性,提取所述頁面的相關鏈接集合,將所述新鏈接添加到所述待采集鏈接隊列中;而后,根據所述頁面的相關鏈接集合和所述頁面的主題相關性,計算所有鏈接的頁面的主題相關性,并調整添加了所述新鏈接的待采集鏈接隊列中的鏈接的順序,重復上述兩步直至采集結束。
在2002年德國出版的會議論文集:2002年第六屆歐洲數字圖書館研究和高級技術會議(Proceedings?of?2002?Conference?of?the?European?Conference?on?Research?and?Advanced?Technology?for?Digital?Libraries),題目為:主題采集、隧道和數字圖書館(Focused?crawls,?tunneling,?and?digital?libraries),作者是:D.?Bergmark,?C.?Lagoze,?and?A.?Sbityakov,該文提出了基于關鍵字的主題信息采集方法,沒有考慮關鍵字之間的“與”、“或”關系。
在2012年中國出版的期刊:情報學報,題目為:一種基于局部分析面向事件的查詢擴展方法,作者是:仲兆滿,朱平,李存華,管燕,劉宗田,該文針對事件檢索問題,討論了事件要素之間的約束關系,體現了關鍵字之間的“與”關系。
現有技術沒有考慮多主題信息采集過程中的重復采集信息的問題,效率低下。
發明內容
本發明所要解決的技術問題是針對現有技術中存在的多主題信息采集效率低下的問題,提出一種基于搜索策略的多主題信息采集方法,該方法將主題的規則拆分成原子規則,并利用原子規則間的相同、互換、包含三種關系達到減少在互聯網上搜索采集次數的目的,提高了多主題信息采集的性能。
本發明所要解決的技術問題是通過以下的技術方案來實現的。本發明是一種基于搜索策略的多主題信息采集方法,其特點是:其具體步驟如下:
A、將主題規則集???????????????????????????????????????????????拆分成原子規則集;
B、判定原子規則集中原子規則的關系;
C、將原子規則集分配到內置搜索隊列、通用搜索隊列;
D、用和中的原子規則進行搜索采集;
步驟A中所述的將主題規則集拆分成原子規則集,其具體步驟如下:
A1、依次從中取出每條主題規則,置空;
A2、判段中是否包含“+”關系;如果包含,則轉步驟A3;否則,,轉步驟A5;
A3、判斷中是否存在“與”分配律。如果存在個(),循環執行次“與”分配律運算,得到;否則,=,轉步驟A4;
A4、依據“+”關系將切分成條原子規則,將條原子規則放入,轉步驟A5;
A5、得到原子規則集;
步驟(C)中所述的將原子規則集分配到內置搜索隊列、通用搜索隊列,其具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮海工學院,未經淮海工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310677257.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:包含非等軸碳酸鈣微粒的煙草材料
- 下一篇:一種基站功率自優化方法





