[發明專利]查詢擴展方法和裝置以及相關檢索詞庫有效
| 申請號: | 200710097501.6 | 申請日: | 2007-04-25 |
| 公開(公告)號: | CN101281523A | 公開(公告)日: | 2008-10-08 |
| 發明(設計)人: | 童征宇;湯幟 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 | 代理人: | 張岱 |
| 地址: | 100871北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 查詢 擴展 方法 裝置 以及 相關 檢索 詞庫 | ||
技術領域
本發明涉及信息檢索領域的查詢擴展技術,特別涉及查詢擴展方法和裝置以及相關檢索詞庫。
背景技術
隨著計算機信息技術和互聯網技術的快速發展,網絡上電子化信息的內容和數量急劇增長。面對電子信息的海洋,搜索系統成為了人們有效地利用網絡資源的重要工具。現有主流的搜索系統基本都采用了全文檢索技術,全文檢索技術的原理是:將要檢索的內容分割成較短的文字序列,然后生成每個文字序列中所包含字符串的索引。當用戶輸入檢索詞或語句后,也同樣進行分割,與索引進行比較,然后將匹配的詞匯所屬的文章鏈接列表顯示給用戶。
全文檢索技術根據應用領域分為兩類:互聯網搜索引擎和專業檢索系統。
互聯網搜索引擎面向的是Internet上大量雜亂無章的網頁,主要目的是找到一些有用的參考信息和屏蔽一些有害信息,盡量把有用的網頁排在前面。
而專業檢索系統要求查詢結果具備高查全率和高查準率,信息相對而言是經過整理的有用信息,在要求高查準率的同時要求高查全率。查全率是指系統在進行某一檢索時,檢索出的相關資料量與系統資料庫中相關資料總量的比率,反映查到的信息的全面性;而查準率則是保證我們找到最有用資料的關鍵,是系統在進行某一檢索時,檢索出的有用資料數量與檢索出資料總量的比率。
當然,對于大部分用戶來說,主要是應用互聯網搜索引擎這樣的搜索工具進行搜索信息,在用戶搜索信息時,搜索引擎通過用戶輸入的檢索詞進行匹配,將匹配的結果列表ID顯示給用戶,但用戶的搜索存在以下兩個問題:
(1)由于漢語中存在大量同義詞和多義詞,以及中文表達方式的多樣性,用戶在構建查詢表達式時使用的檢索詞往往不盡規范,與搜索系統文檔索引所使用的詞或者詞組有很大差別,造成信息檢索中的“表達差異”問題。
(2)用戶在進行查詢時,使用的檢索詞數量不多,通常為1~2個,無法詳細具體地描述用戶的信息需求;尤其是當用戶并不明確自己的信息需求時,以上的問題就顯得更加突出。
在這種情況下,用戶的初始查詢通常是不精確的、不夠專業和不完全的,這樣的查詢得到的結果無法很好地滿足用戶的需求。
現有的搜索系統為了解決上述問題,采用查詢擴展(Query?Expansion)技術,查詢擴展技術通過展示與用戶輸入的檢索詞相關的其它相關檢索詞,幫助用戶重新構造準確有效的查詢表達式,這在一定程度上彌補用戶的表達可能與候選段落的差別,盡可能以較小的遺漏檢索出用戶所需要的候選文檔。使得用戶的檢索更加準確,減輕了用戶負擔(所謂用戶負擔是指用戶在檢索過程中付出精力的總和)。對于大部分的非專業用戶和“我不知道我想要什么,但是當我看到它時我就知道了”的信息需求者,更能有效地提高他們的檢索效率。
但是,這種提供查詢擴展功能的搜索系統在實際使用經驗中仍發現存在如下問題:
一是目前的中文搜索引擎通過統計用戶輸入的檢索詞和檢索次數,構建一個檢索詞庫。當用戶搜索信息時,根據用戶所輸入的檢索詞的字符在這個檢索詞庫中進行匹配查詢,然后根據字符的匹配情況和查詢結果的被檢索次數進行排序,將排序的結果作為查詢擴展的結果提交給用戶。如用戶輸入“電腦”,則在查詢擴展的結果里會出現“電腦報”、“電腦報價”、“筆記本電腦”等與“電腦”相關的檢索詞;這種方式方便、直觀,能給用戶提示可能的相關檢索詞,但是得到的查詢擴展結果仍然受到用戶最初選擇的檢索詞的制約,不適合網絡上快速增長的新詞,也無法滿足人們對新聞類的、隨時間變化的關聯詞的需求,進而用戶的查詢效率無法得到保障。
二是以PubMed等為代表專業檢索系統。它通過專業人員來編纂一部詞典,在詞典中定義了同義詞、相關詞等各種詞匯之間的關系。借助這部詞典來進行查詢擴展,達到高查全率和高查準率,且起到規范用戶的查詢用詞,輔助用戶查詢的作用。但這種方法需要專業人員來編纂詞典,定義各種詞匯之間的關系,耗時長,維護費用高,一般只適用于專業領域的搜索系統或者專題數據庫查詢系統,而不適用于大數據量的非專業領域的搜索系統。另外,這種方法也同樣不適合網絡上快速增長的新詞,也無法處理新聞類的、隨時間變化的關聯詞。
綜上所述,在通用的搜索系統上目前還沒有比較好的方法,可以針對用戶搜索所存在的問題,而進行自動高效地查詢擴展,為用戶的檢索行為提供有效的支持。
發明內容
針對上述現有技術中存在的問題,本發明的目的是提供一種查詢擴展方法和裝置以及相關檢索詞庫。利用該相關檢索詞庫進行查詢擴展,輔助用戶進行查詢,減輕用戶的查詢負擔,提高用戶的搜索效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學,未經北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710097501.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式剪貼板
- 下一篇:配液器、配液方法及吸液管





