[發明專利]信息檢索方法和系統有效
| 申請號: | 200810081556.2 | 申請日: | 2008-02-29 |
| 公開(公告)號: | CN101520785A | 公開(公告)日: | 2009-09-02 |
| 發明(設計)人: | 于浩;夏迎炬;駱衛華;劉群 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 | 代理人: | 黃綸偉 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 檢索 方法 系統 | ||
技術領域
本發明涉及信息檢索,更具體地,涉及自適應的個性化信息檢索。
背景技術
隨著因特網和大容量存儲設備等的迅速發展,世界進入了信息過剩 的時代。如何從海量的信息中獲取有用的信息,成為人們關心的問題。
目前,解決這一問題最常見的方法是搜索引擎。通過目前商用的以 Google、百度為代表的搜索引擎,可以得到基本上令人滿意的搜索結果。
然而,與人們對于有效信息獲取的需求相比,目前的搜索引擎提供 的結果還遠遠不能滿足要求。這首先體現在,現有的搜索引擎獲取用戶 信息的手段比較單一,主要采用基于關鍵詞的布爾表達式作為輸入。因 此,搜索引擎很難準確理解隱含在這些關鍵詞之后的用戶真實信息需求。 更重要的是,現有的搜索引擎采用與用戶無關的通用搜索算法,不論用 戶是誰,不論用戶來自何方,只要輸入的查詢語句相同,返回的結果都 是相同的。而事實上,用戶的需求非常個性化。例如一個旅游者和一個 程序員在輸入“Java”時,前者想搜索與爪哇島相關的旅游資訊,而后者 想要找與Java編程語言相關的信息。但目前常見的搜索引擎都對這種情 況不加區分。因此,對于那些與用戶的個性化需求密切相關的信息需求, 目前的搜索引擎就不太適用了。此外,對于用戶的某個長期感興趣的話 題,如果要用搜索引擎來查找信息,那么就要反復地到搜索引擎上輸入 相同的關鍵詞,然后每次都從大量的網頁中去查找其中新出現的相關信 息,這顯然大大加重了用戶的使用負擔。此外,雖然用戶的個性化信息 需求在一段時間內是穩定的,但長期來看,這種信息需求還是會有所改 變的。顯然,采用上述方法無法捕捉這種變化。
自適應的個性化信息檢索研究,目標是滿足用戶個性化和持續關注 型的信息需求。該項研究根據用戶的興趣和關注點的不同,通過對無關 信息的過濾,向用戶提供最有價值的信息。它能夠滿足用戶的個性化信 息需求,通過長期觀察用戶的搜索行為,從中識別用戶的信息需求偏好, 并且能夠根據用戶對搜索結果的評價,自動調整搜索策略,使得對于同 一檢索請求,不同用戶能夠得到最貼近自己需求的信息。
在目前個性化信息檢索的研究中,比較流行的上下文檢索,相對于 傳統的信息檢索方法,能夠針對不同的用戶提供更加個性化的結果。總 體而言,這些方法的思想大多可以概括如下:要求用戶輸入比關鍵詞更 復雜的查詢語句,把每一個查詢輸入視為一個興趣,利用這些輸入構造 用戶興趣模型,基于查詢語句中的關鍵詞,使用傳統的信息檢索算法得 到初始網頁列表,然后利用用戶興趣模型對此列表進行過濾。如果用戶 對結果進行直接反饋,則根據這些反饋對用戶模興趣型進行調整,并基 于新的用戶興趣模型對網頁列表進行過濾。
例如,在非專利文獻1中,采用經典的向量空間模型來對上下文進 行建模,但這種方法基本上借用的都是文本信息,而其他非文本信息基 本上無法納入這個框架。
在非專利文獻2中,將上下文檢索任務看作一個決策問題,把用戶 查看的文檔、以往的查詢歷史等上下文信息與查詢和文檔綜合在一起來 優化對檢索結果的判定,但這項工作只考慮了幾種易于表示的特征,而 且把這些特征在分類算法的框架里固定了下來,難以擴展,也沒有提及 當用戶興趣發生改變時如何捕捉這種變化。
在非專利文獻3中,則采用基于Ontology的方法,將用戶上下文表 示成Ontology上的一個向量,并把上下文預測的結果與傳統的信息檢索 算法所得的結果用一個線性函數組合起來,從而得到最終的個性化的結 果,但Ontology的構造需要較為專業的知識,而且還需要大量人力物力, 即便如此,所能覆蓋的知識體系也是很有限的。
在專利文獻1中,提出了一種采用用戶模型根據與相應用戶特征相 關的信息來個性化一般查詢和/或搜索結果的系統和方法,該專利同樣列 舉了目前可能與個性化檢索相關的特征,這些特征是預先劃定的一個范 圍,而不是一個可以考慮任何特征的完全泛化的框架。
在專利文獻2中,提出了一種利用用戶概況排序搜索引擎返回的搜 索結果中的放置內容的系統和方法,但這種方法同樣設定了可能有作用 的個性化特征的范圍,而且沒有使用機器學習方法來確定各種特征對最 終結果的影響,此外,也沒有考慮用戶對結果的反饋的處理。
綜上,目前現有的個性化信息檢索技術存在以下不足之處:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810081556.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:進化驅動型產品創新設計方法和系統
- 下一篇:文本可理解性的度量方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





