[發明專利]自適應個性化信息檢索系統及方法有效
| 申請號: | 201210244519.5 | 申請日: | 2012-07-16 |
| 公開(公告)號: | CN102779193A | 公開(公告)日: | 2012-11-14 |
| 發明(設計)人: | 楊沐昀;王曉春;李生;齊浩亮;趙鐵軍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自適應 個性化 信息 檢索系統 方法 | ||
技術領域
本發明涉及計算機信息檢索技術。
背景技術
網絡信息的浩瀚和相關技術的飛速發展使得人們越來越頻繁的使用搜索引擎。根據中國互聯網網絡信息中心(CNNIC)的統計,搜索引擎(search?engine)成為最普遍的輔助人們檢索Web信息的工具。
近年來,為了提高信息檢索的精度,方便用戶進行檢索,改善用戶的搜索體驗,信息檢索領域涌現出了許多優秀的信息檢索模型并取得了良好的效果。其中一個主要改進就是建立用戶興趣模型,目的是在保證查詢和文檔的內容相關性的同時,同時保證文檔和用戶興趣的相關性。用戶興趣按照時間跨度區分為長期興趣和短期興趣。短期興趣來自于一個查詢會話(session)的搜索歷史。基于短期興趣的個性化檢索研究中,Cao等人(2008;2009)將查詢會話中的查詢和點擊看做有序數據,采用HMM模型和改良HMM模型(vlHMM)、以及CRF模型進行訓練,預測查詢意圖。Zhu和Mishne(2009)對用戶查詢會話過程(session,簡稱查詢會話)進行聚類,然后將全部查詢會話產生的重要性聚合作為全局的重要性,提出用于衡量網頁或者網站重要性的ClickRank模型。除了這些直接對查詢會話進行建模的研究方法之外,也有研究者將查詢會話作為排序模型中的特征。Xiang(2010)等人將多種查詢修改關系作為特征加到RankSVM中。此外,傳統檢索模型也可以應用于用戶短期興趣研究。Chen(2009)等人在傳統語言模型的基礎上結合了當前查詢和點擊文檔摘要的相似度。不同的是,包含長期興趣的個性化檢索模型絕大多數基于傳統信息檢索模型。Tan(2006)在語言模型的基礎上提出若干計算與當前查詢相關的歷史信息的方法,該檢索模型對新舊查詢都有積極作用。Dou(2007)等人分別在向量空間模型和語言模型上進行了類似實驗。Ahn(2008)等人根據Task把多個查詢會話串聯起來,基于BM25概率模型建立了體現用戶長期興趣的個性化檢索系統。
上述這些基于用戶興趣的個性化檢索模型存在一個顯著的缺點:模型一經訓練完成后,模型內部參數都是固定值,相對固定不變。實際上,不同的檢索情況下信息需求各有差異,采用統一的方式來處理各種用戶檢索,難免缺少靈活性。以基于查詢擴展的個性化檢索模型為例,用戶模型結合與當前查詢模型結合,以往研究中通常設定兩部分的權重為不變的常數。但是,如果當前查詢的長度很短,用戶的查詢意圖表達不夠清楚或者不夠完整,那么此時應該加強用戶模型的作用,降低當前查詢模型的重要性。反之,如果當前查詢長度較長,查詢意圖表達清晰,那么用戶模型起到的作用反而不重要了。因此,一種具有自適應的動態檢索模型理論上可以進一步改善用戶的個性化檢索體驗,是當前檢索系統所缺乏的關鍵特性。
一個理想的動態個性化檢索模型應該以客觀檢索應用為依據,在設計和實現檢索模型時考慮如下幾個方面:
1.用戶分布
客觀世界中用戶是隨機分布的,而以往研究往往對用戶分布提出假設。Radlinski(2007)假設用戶是從來自一個數目固定的人群的隨機選擇。第二年,認為用戶總是在一個確定的固定人群里。已有研究證實用戶的行為是不規律的(Agichtein?et?al.,2006),應盡量避免對用戶分布做任何假設。
2.用戶興趣
用戶興趣也是多變的。Belkin(1997)很早就發現在用戶查找信息的時候,用戶檢索需求會發生變化,Sofia?Stamou(2009)也認為用戶興趣會隨著時間變化。
3.查詢能力
用戶與搜索引擎交互的過程也是一個學習使用搜索引擎的過程(Shen?et?al.,2005)。用戶根據返回結果的質量和滿意程度,重新提交新的查詢。也就是說,用戶在與搜索引擎的交互過程會影響到用戶下一次提交的查詢。隨著用戶搜索經驗的豐富,用戶構建查詢的能力也在增強。因此各個歷史查詢的重要性是隨著時間變化的,越新的查詢重要性越高(BinTan?et?al.,2006;Dou?et?al.,2007)。
發明內容
為了對于分布不規律的用戶的動態檢索需求及時進行捕捉,伴隨用戶與搜索引擎的交互而及時更新檢索模型的目的,本發明設計了一種自適應個性化信息檢索系統及方法。
本發明所述的自適應個性化信息檢索系統包括:
用于根據當前查詢信息、結合歷史查詢信息和歷史點擊信息構成特征矩陣,還用于根據特征矩陣獲得訓練參數預測模型的數據輸入子系統;
用于根據特征矩陣訓練并應用參數預測模型、獲得預測參數的參數訓練和預測子系統;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210244519.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種脫硫噴槍及其脫硫方法
- 下一篇:肟菌酯水分散粒劑及其制備方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





