[發明專利]一種信息檢索自適應數據融合方法有效
| 申請號: | 201310034799.1 | 申請日: | 2013-01-29 |
| 公開(公告)號: | CN103116623B | 公開(公告)日: | 2017-11-03 |
| 發明(設計)人: | 吳勝利 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所32207 | 代理人: | 盧亞麗 |
| 地址: | 212013 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 檢索 自適應 數據 融合 方法 | ||
技術領域
本發明涉及一種信息檢索方法,尤其是一種自適應數據融合方法。
背景技術
關于自適應數據融合方法,假設有一組系統ir1,ir2,...,irt,對于每一個查詢,每個成員系統都會提供相應的文件排名列表作為檢索結果。通過一些數據融合方法將這些排名清單進行融合。同時,假設針對每個查詢,任何成員系統的檢索結果都會立即被評估,從而可以直接知曉這些系統的檢索效果。對于交互式系統,這是一種合理的假設。而對于其他類型的系統,仍可以使用某種形式的反饋信息,如可由用戶通過點擊提供,然后大致估計信息檢索系統的性能。這類信息可能對平等對待所有系統的數據融合方法沒有用,但是肯定能用于那些有偏向的數據融合方法,比如線性組合法。自適應數據融合方法的工作方式如下:在開始階段,由于沒有任何成員系統或者結果的相關知識,只能對所有成員系統進行同樣的處理。當處理完第一個查詢,就知道了少量的有關這個查詢的結果(比如,系統的效果)。由此,就能為線性組合方法更新權重。當進行第二個,第三個,...,查詢處理時,就能獲取越來越多的相關知識,并且有著不同的更新權重的方式。
現有的研究適用于在動態檢索環境下能自動調整,適應的融合方法不多。文獻[1]中所介紹的兩種方法均是通過線形組合的方法來進行結果的融合。文獻[1]中公開的第一種方法是簡單的性能平方更新法(PSU)。PSU方法和性能指標的平方加權有關,使用公式(1)為每個成員系統更新權重:
w′i=(1-c)*wi+c*/p2 (1)
其中,wi和wi'分別是檢索系統i更新之前和更新之后的權重,p是當前查詢下系統i的有效性,c是一個參數,表示更新的頻率,它的值在0-1范圍內。兩種極端的情況是c=1或c=0。若c=1,則wi'僅由當前查詢下系統性能p2決定。若c=0,則wi'僅由wi確定,也就是不允許進行自適應更新。
PSU方法存在的缺陷是:在更新權重時,它只考慮了各檢索系統的有效性,未考慮各系統之間的相似性(或差異性),從而導致融合結果的有效性降低。
文獻[1]中公開的第二種方法是多元線性回歸方法,即通過線性回歸分析進行更新來獲取權重,簡稱為LRU方法。對于返回的當前查詢結果采用多元線性回歸方法找出每個系統的最佳權重。假設一個查詢q,m個成員系統均檢索n個文件d1,d2,...,dn。其中每個成員系統i給文件dj指定一個評分sij。使用公式(2)將q最小化:
其中,yi表示文件dj所應得標準評分。如果使用二元相關性判斷,對于相關文件則為1,對于不相關文件則為0。當yi(1≤j≤n)和sij(1≤i≤m,1≤j≤n)已知時,則可計算出β1,β2,...,βm。系數(β)可以利用公式(3)歸范化為:
其中,m是所涉及的系統個數。完成歸范化之后,所有的β'的平均值為1。β'可作為各個系統的權重。回歸方法能應用最小二乘法求得最佳權重。該方法同時考慮了各檢索系統的性能和各系統之間的相似性。
LRU方法存在的缺陷是:如只是用單個或少量數個查詢的數據,有時不能建立有效的模型,這時就不能得到各系統的更新權值,導致融合性能降低。
對比文獻
[1]Shengli Wu,Yuping Xing,Jieyu Li and Yaxin Bi.Adaptive data fusion methods for dynamic search environments.Proceedings of the 8th Asia Information Retrieval Societies Conference,AIRS 2012(LNCS 7675),336-345,Tianjin,China,December 2012.
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310034799.1/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





