[發明專利]一種基于大數據的信息檢索系統及方法在審
| 申請號: | 201711344430.5 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN107977452A | 公開(公告)日: | 2018-05-01 |
| 發明(設計)人: | 楊榮根;龔樂君 | 申請(專利權)人: | 金陵科技學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所32207 | 代理人: | 陳卓 |
| 地址: | 211169 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 信息 檢索系統 方法 | ||
技術領域
本發明設計信息檢索領域,尤其涉及一種大數據的信息檢索系統及方法。
背景技術
搜索引擎是因特網上專門提供檢索服務的一類網站,這些網站通過網絡搜索軟件(又稱為網絡蜘蛛)等方式,將因特網上大量網站的頁面收集到本地,經過加工處理而建庫,從而能夠對用戶提出的各種查詢做出響應。
隨著互聯網應用的普及和大數據時代的到來,每天全球互聯網網頁數目以千萬級的數量增加。要在浩瀚網絡檢索需要的信息,搜索引擎已成為訪問互聯網不可或缺的助手。
傳統的搜索引擎的工作原理可以用圖1來說明,其中陰影部分是本發明經過改進后增加的模塊。搜索引擎一般由數據抓取器、解析器、索引器和檢索器四個部分組成。數據抓取器也叫網絡蜘蛛,從互聯網上抓取網頁,并按照深度優先或者廣度優先的策略沿著網頁中的所有URL爬到其它網頁,將獲得的網頁收集回來。數據解析器將收集到的網頁進行分析,提取相關網頁信息,根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度。索引器用這些相關信息建立網頁索引數據庫。檢索器從用戶提供的查詢條件,在索引數據庫中檢索,找到符合該關鍵詞的所有相關網頁,由頁面生成系統將搜索結果的鏈接地址和摘要等內容組織起來返回給用戶。
得益于硬件技術的發展以及軟件計算算法的進步,現在的搜索引擎的檢索響應速度有了很大的提高,索引數據庫的規模不斷增大。但搜索引擎也面臨一些棘手的問題。其中最突出的問題就是搜索引擎不具有語義,也不能理解用戶在使用搜索引擎時輸入的檢索詞所表達的語義,導致有些檢索結果不能讓用戶滿意。例如用戶輸入“熊貓”,用戶本意是要查詢熊貓這種動物的生活習性以及在中國的分布情況,但是檢索結果的頭條卻是如圖2熊貓直播的娛樂平臺,這其實并不是用戶想要的結果。
出現這種問題的根本是目前的搜索引擎忽視了用戶請求的語義,只是生硬的檢索出現過檢索詞“熊貓”的文檔,而忽略了檢索詞本身的語義。“熊貓”一詞可以作為一種動物,也可以作為企業熊貓電子,還可以作為品牌熊貓電視。
當然用戶只是輸入一個檢索詞,很難確定用戶在當時當地用這個檢索詞所代表的語義,所有就有了一系列的改進做法。例如有的系統會進一步的要求輸入一些限定詞,也就是和用戶多次交互來確定用戶的真實需求。另一種做法就是將所有可能的結果全部呈現給用戶,由用自己選擇其中需要的檢索項。目前大多數搜索引擎都是采用這樣一種方式。但是這兩種做法無疑都增加了用戶負擔,降低了搜索效率。而且在檢索項排序的時候并沒有充分考慮用戶的行為。
解決這一問題正是提出本發明的初衷,基于當前搜索引擎存在的問題現狀,本發明對傳統的搜索引擎做一定改進,巧妙利用大數據智能分析來提高搜索效率,減輕用戶負擔。
發明內容
本發明提供一種基于大數據的信息檢索系統及方法,技術解決方案是:
在傳統搜索引擎框架的檢索器上增加兩個功能模塊分別是客戶端用戶行為收集模塊和服務器端的大數據智能分析模塊。
一種基于大數據的信息檢索系統,包括:數據抓取器、數據解析器、檢索器、索引器和搜索器以及客戶端用戶行為收集模塊和服務器端的大數據智能分析模塊,其特征在于:
用戶行為收集模塊主要收集用戶在輸入檢索信息之后到用戶關閉瀏覽器這段時間,用戶的行為記錄。用戶的行為信息包括:點擊URL的條數,每條URL的內容,點擊URL的時間,關閉瀏覽器的時間。其中,點擊URL的時間指:用戶從搜索引擎返回到檢索結果列表中依次點擊URL的時間點。記錄用戶的點擊URL的時間點是為了計算兩次點擊之間的時間差,以此作為文檔的閱讀時間。
大數據智能分析模塊會根據URL所對應的文檔的長度設定一個時間閾值T,用戶在小于T的時間內點擊了另一條URL,則表明該URL對用戶是沒有多大幫助的,如果在大于T的間隔時間點擊另一條URL,則表明該URL對用戶是有益的。
從用戶點擊URL的記錄信息可以得到用戶最后一次有效點擊的URL,也就是用戶在點擊之前的URL之后都不能充分解決問題,但最后一次點擊之后的得到了滿意的結果。所謂有效點擊是指用戶點擊之后在一個大于T的時間之后關閉了瀏覽器。
用戶行為收集模塊以插件的形式,在用戶第一次訪問搜索引擎的時候下載安裝到客戶端的瀏覽器中,當用戶訪問搜索引擎的時候瀏覽器中的用戶行為收集模塊開始工作。
初始時檢索器根據傳統的相關性計算過程給出檢索項的排序,大數據智能分析模塊在收到客戶端用戶行為收集模塊的發回的用戶行為之后,重新排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金陵科技學院,未經金陵科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711344430.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





