[發(fā)明專利]一種支持信息檢索結(jié)果多元化的數(shù)據(jù)融合方法在審
| 申請(qǐng)?zhí)枺?/td> | 201410642955.7 | 申請(qǐng)日: | 2014-11-13 |
| 公開(公告)號(hào): | CN104408089A | 公開(公告)日: | 2015-03-11 |
| 發(fā)明(設(shè)計(jì))人: | 李潔玉;黃春蘭;吳勝利 | 申請(qǐng)(專利權(quán))人: | 江蘇大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 江蘇縱聯(lián)律師事務(wù)所 32253 | 代理人: | 蔡棟 |
| 地址: | 212013 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 支持 信息 檢索 結(jié)果 多元化 數(shù)據(jù) 融合 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索領(lǐng)域,具體涉及數(shù)據(jù)融合技術(shù)中線性組合法的權(quán)重分配策略。
背景技術(shù)
在信息檢索任務(wù)中,相關(guān)性一直是人們對(duì)檢索結(jié)果質(zhì)量進(jìn)行評(píng)價(jià)的一個(gè)重要指標(biāo)。一個(gè)好的結(jié)果排名絕不會(huì)給出大量不相關(guān)的檢索結(jié)果。傳統(tǒng)的信息檢索系統(tǒng)往往根據(jù)文檔和給定查詢之間的相關(guān)性程度進(jìn)行排名,這在相關(guān)文檔比較少的情況下是很合理的。然而對(duì)于有較多相關(guān)文檔的情況,檢索結(jié)果中就可能有較多的重復(fù)的相關(guān)文檔。現(xiàn)在很多信息檢索系統(tǒng),特別是web檢索,在計(jì)算文檔與查詢的相關(guān)程度過程中不僅考慮相關(guān)性特征,還考慮其間的多樣性或者是新穎性特征。
本發(fā)明嘗試從數(shù)據(jù)融合角度找到解決檢索多元化問題的方法。以往的研究[1,2]表明了數(shù)據(jù)融合技術(shù)是有可能提高檢索性能的,但是它們更多的僅僅關(guān)注了相關(guān)性,因此針對(duì)信息檢索結(jié)果多元化,一些數(shù)據(jù)融合方法應(yīng)該做一些調(diào)整。
線性組合法是數(shù)據(jù)融合方法中一種比較典型的方法。該方法特別靈活,其獲得較好融合效果的關(guān)鍵在于權(quán)重分配,不同的權(quán)重分配方法會(huì)給融合帶來不同的效果。目前,已有的一些分配權(quán)重策略考慮了兩個(gè)因素。一個(gè)是成員信息檢索系統(tǒng)的性能(或有效性)。具有相對(duì)良好檢索性能的信息檢索系統(tǒng),應(yīng)該給予一個(gè)較大的權(quán)重,而對(duì)于性能較差的,則應(yīng)該給它分配較小的權(quán)重。另一個(gè)因素是成員信息檢索系統(tǒng)之間的差異性。如果一個(gè)信息檢索系統(tǒng)的檢索結(jié)果與其他信息檢索系統(tǒng)的結(jié)果的差異性越大,或者說和其他信息檢索系統(tǒng)相比越不相似,那么它應(yīng)當(dāng)獲得較大的權(quán)重,反之則應(yīng)該被分配一個(gè)較小的權(quán)重。文獻(xiàn)[3]了一種僅考慮性能權(quán)重分配方法,考察了使用不同性能函數(shù)作為權(quán)重的融合效果。采用信息檢索系統(tǒng)在某一衡量指標(biāo)下(如MAP)的評(píng)價(jià)值p,可選的權(quán)重計(jì)算方案有p0.5,p,p2,p3等等。文獻(xiàn)[4,5]介紹了僅考慮相似性的方法,通過計(jì)算兩個(gè)信息檢索系統(tǒng)結(jié)果中相同文檔的覆蓋率來衡量?jī)蓚€(gè)結(jié)果間的相似程度。文獻(xiàn)[6]則是將這兩種特征結(jié)合。
但是,上述的兩個(gè)因素都是從相關(guān)性的角度上考慮的。文獻(xiàn)[7]中結(jié)合了相關(guān)性和多樣性,同樣考慮了信息檢索系統(tǒng)的有效性權(quán)重和差異性權(quán)重。對(duì)于有效性權(quán)重,選擇了針對(duì)多樣性的評(píng)價(jià)指標(biāo)(如ERR-IA@20)來確定有效性權(quán)重;對(duì)于相似性(或差異性)權(quán)重,則提出了兩種不同的計(jì)算方法。一種是計(jì)算集合覆蓋率的方法。考慮t個(gè)成員結(jié)果中排在前n個(gè)位置的文檔,假設(shè)結(jié)果ri中的某個(gè)文檔dij在其他t-1個(gè)結(jié)果中出現(xiàn)的次數(shù)為cij,定義結(jié)果ri和其他結(jié)果的差異性值如下:
另一種則是通過比較檢索結(jié)果文檔的排名位置來確定差異性權(quán)重。假定一對(duì)都含有n個(gè)文檔的檢索結(jié)果rA,rB中,有m個(gè)文檔在rA,rB中都出現(xiàn)了,另外分別有n-m個(gè)文檔僅出現(xiàn)在一個(gè)結(jié)果中。首先計(jì)算這兩個(gè)結(jié)果之間的差異值(pA(d),pB(d)分別表示文檔d在rA,rB中的位置):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇大學(xué),未經(jīng)江蘇大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410642955.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種可調(diào)節(jié)式化妝品展示模組
- 下一篇:三輪式幼兒抱抱車
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





