[發明專利]一種智能檢索系統有效
| 申請號: | 201010232107.0 | 申請日: | 2010-07-21 |
| 公開(公告)號: | CN101894158A | 公開(公告)日: | 2010-11-24 |
| 發明(設計)人: | 孫俊;趙紀元;王月穎;張振海 | 申請(專利權)人: | 同方知網(北京)技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京捷誠信通專利事務所(普通合伙) 11221 | 代理人: | 魏殿紳 |
| 地址: | 100084 北京市海淀區清華園清華*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 檢索系統 | ||
技術領域
本發明涉及信息檢索領域,尤其涉及一種智能檢索系統。
背景技術
大量的文獻,包括本科、碩士和博士畢業論文,如果將這些數據直接呈現給用戶,是很難被用戶使用的。因為在海量的并且沒有任何索引信息的文獻數據庫中,用戶查找若干篇所需要的文章,如同大海撈針。即使采用最細致的分類導航,用戶也只能在其所需領域中逐篇文章地尋找,要想解決一個技術問題或者查找專業知識,將不得不閱讀很多文章,直到其找到所需內容,而這個閱讀查找過程是很低效的,有很多文章讀完了才知道并不是所需。
為了能使用戶有效的利用知識信息,從文獻中提取出各類屬性信息,如:會議名稱、作者、學術方向等,將這些數據放入數據庫,然后對各類屬性信息建立索引,使用戶能夠從各種角度,使用不同的屬性信息檢索數據。比如通過作者名字、文獻標題或者用戶感興趣的學術關鍵詞查找,方便用戶快速定位到所需要的文獻。
現有技術的技術方案:
初始化處理,用戶的檢索需求可能是一個詞或者多個詞,當檢索多個詞時,本系統需要對多個詞都做判斷,因此初始化處理就是要把多個詞區分開并逐個計算其屬性。這里假定用戶在詞之間用空格分開,或者上層調用端口做了類似的處理,由于這里要求用戶用空格隔開多個詞,因此不需要分詞及短詞組合,可以保證速度和準確性。
根據詞典查找屬性,這里建立了一個檢索需求對應屬性的詞典,通過詞典能夠又快又準的查到詞典中的檢索需求對應的屬性。這個模塊的作用主要就是將一些常見的檢索需求,或者很難判斷的檢索需求及其所對應的屬性寫入到詞典,通過查詢詞典,能夠快速的判斷檢索需求的屬性,如果該詞典里沒有檢索需求,那么可以做后續的一些名實體識別工作。
屬性輸出,如果沒有找到屬性,那么可以在全文中檢索。
現有技術的缺點
1)數據庫面對的用戶是各行各業的科研技術人員,他們對我們的數據庫產品及其檢索技術的熟悉程度是不同的,這樣就會導致產品的使用情況不好。比如用戶想查找“孫俊??句法分析”,用戶的本意是想找在“句法分析”領域,作者是“孫俊”的一些文獻資料,如果用戶了解網絡出版總庫,那么會選擇作者檢索項,并輸入“孫俊”作為檢索詞,然后選擇全文或者主題檢索項,寫下“句法分析”作為檢索詞,那么這樣檢索的結果將是比較準確的,雖然整個操作過程有些繁瑣;相反,如果用戶不了解網絡出版總庫,很可能直接在全文檢索項中輸入“孫俊??句法分析”,這樣我們的產品就會去全文中找“孫俊”和“句法分析”,由于計算機并不一定能識別“孫俊”是一個人名,很有可能會把它拆成兩個字來檢索,最后檢索的結果就是全文中有“孫”、“俊”、“句法分析”的文章,這個結果就不能準確的滿足用戶需求。另外,我們通過互聯網發布產品,也很難對各個用戶進行產品使用培訓,即使提供了產品使用說明的免費下載,效果可能依然不好。這樣的結果就是:產品足夠好,但是能用好的人不多。
2)本系統擁有一個比較大的詞典,因此在系統運行時,會占用較大內存。并且隨著總庫數據的更新,詞典必須也要隨之更新,以滿足新的檢索需求。而隨著詞典的擴大,系統所占內存也會越來越大。
3)需要一個熟悉總庫數據類型及詞典結構的人來維護詞典,維護人員需要及時了解總庫數據的更新,并對詞典進行更新以適應于新的數據。
發明內容
為解決上述存在的問題與缺陷,本發明提供了一種智能檢索系統。所述技術方案如下:
一種智能檢索系統,包括:初始化處理模塊,用于對接收到的檢索需求的多個詞語進行初始化處理;詞典查詢模塊,用于查找詞語或詞句的屬性,初步分析模塊、屬性分析模塊及輸出模塊,
初步分析模塊,根據詞語的字符類型、字符串的長度,判斷檢索需求可能存在的屬性;
屬性分析模塊,根據初步分析模塊所判斷的詞語可能存在的屬性進行分析,判斷所述詞語具體的屬性;
輸出模塊,輸出根據檢索屬性得到的檢索結果。
本發明提供的技術方案的有益效果是:
通過本系統,網頁前臺不需要用戶輸入屬性信息;獲取到檢索需求后,將首先調用本系統獲取屬性字段,然后再從數據庫相應的屬性字段中查尋檢索需求。系統的運行時間對檢索時間沒有較大影響,所占內存空間比較小,能夠支持多線程訪問。
附圖說明
圖1是本發明系統結構圖;
圖2是本發明系統結構流程圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步地詳細描述:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司,未經同方知網(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010232107.0/2.html,轉載請聲明來源鉆瓜專利網。





