[發明專利]基于集成搜索引擎的數據發現方法在審
| 申請號: | 201710432848.5 | 申請日: | 2017-06-09 |
| 公開(公告)號: | CN107133366A | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 張鵬 | 申請(專利權)人: | 成都布林特信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產權代理有限公司11340 | 代理人: | 楊春 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 集成 搜索引擎 數據 發現 方法 | ||
技術領域
本發明涉及數據檢索,特別涉及一種基于集成搜索引擎的數據發現方法。
背景技術
隨著Web技術的不斷發展,網絡信息資源正以幾何速度的方式增長。如何從互聯網海量信息中快速檢索出與用戶相關的有用數據已成為當前急需解決的問題。搜索引擎正是在信息檢索技術的基礎上發展起來的。搜索引擎幫助本發明更好的表達和存儲現實世界中的本質信息,而且通過對搜索引擎中的聯接信息進行分析,可作為一種挖掘隱藏信息的有用工具?,F有搜索引擎單純的依賴有限搜索詞去表達用戶需求,存在這表達不完整的問題。即使是同樣的搜索詞,不同的用戶所期望的結果可能也是不同的。例如微博系統,如果考慮微博以及相關交互對象的關系,它可以抽象為一個異構網絡,其中包含了微博、信息、標簽以及用戶等節點。微博和微博之間存在著關注和粉絲關系,微博和信息之間存在著發表和轉發關系,微博和標簽之間是一個包含關系,而用戶和微博之間存在著擁有關系?,F有的搜索工具并未考慮上述多維對象形成的復雜環境進行數據挖掘。
發明內容
為解決上述現有技術所存在的問題,本發明提出了一種基于集成搜索引擎的數據發現方法,包括:
網絡爬蟲首先讀取程序配置文件,并預加載緩存采集時要用到的數據;事務管理器根據配置信息,初始化各個事務,并控制事務的運行;事務獲取處理任務,先進行爬取鏈接去重檢查,分析爬取鏈接的類型,對不同的采集類型執行不同的處理方式,在采集時,分析是新的采集事務還是更新任務,并在獲取到鏈接的網頁源碼后,對采集到的網頁源碼執行清洗、過濾,根據網頁信息相關特征規律提取出有效信息;事務對提取出的信息進行轉換處理,進行緩存;當緩存待保存數據達到一定數量時,事務執行緩存數據入庫處理;同時事務管理器定時監控各個事務的執行狀態,對異常事務進行控制管理。
優選地,采用多層緩存結構,根據計算機的內存大小對各層緩存大小進行配置;
首先對全局爬取進行緩存;在對爬取數據庫的訪問連接過程中,采用一次性獲取批量爬取結果進行緩存;
其次采用單個事務自身的爬取緩存,每個事務各自擁有一個采集數據源緩存區域;
然后對事務在處理過程中的產生的數據進行緩存,包括在鏈接去重檢查時,緩存訪問過的網頁、媒體鏈接地址;
最后一層緩存是緩存待保存的數據,當待保存的數據達到一定數量以后,事務才對數據進行入庫保存。
優選地,在爬取之前,根據域名生成規則依次遍歷所有可能的組合域名,對組合域名進行依次檢測,識別有效域名與無效域名,建立根域名庫;然后獲取導航站點的網頁源碼,根據根域名組成規則從網頁源碼中提取根站點地址與鏈接文本,更新根域名庫。
優選地,對于頁面重復鏈接,為每個事務部署專門的去重容器,每個容器只存儲自己已經訪問過的鏈接地址的映射碼;去重容器只記錄自己訪問過在同一個根域名站點下的鏈接,對不屬于此根域名下的網頁地址進行丟棄處理;
當事務開始采集另一個根站點信息時,清空去重容器的歷史訪問記錄,重新記錄新的根站點訪問記錄;將信息采集器爬取站點的深度設置閾值,每個事務運行時,實際去重容器所占的內存通過爬取站點深度的閾值來控制。
本發明相比現有技術,具有以下優點:
本發明提出了一種基于集成搜索引擎的數據發現方法,利用事務控制策略進行高效數據采集,針對多維對象之間的耦合關系進行數據挖掘。
附圖說明
圖1是根據本發明實施例的基于集成搜索引擎的數據發現方法的流程圖。
具體實施方式
下文與圖示本發明原理的附圖一起提供對本發明一個或者多個實施例的詳細描述。結合這樣的實施例描述本發明,但是本發明不限于任何實施例。本發明的范圍僅由權利要求書限定,并且本發明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節以便提供對本發明的透徹理解。出于示例的目的而提供這些細節,并且無這些具體細節中的一些或者所有細節也可以根據權利要求書實現本發明。
本發明的一方面提供了一種基于集成搜索引擎的數據發現方法。圖1是根據本發明實施例的基于集成搜索引擎的數據發現方法流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都布林特信息技術有限公司,未經成都布林特信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710432848.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





