[發明專利]基于標引關聯關系的信息檢索排序方法無效
| 申請號: | 201110083624.0 | 申請日: | 2011-04-02 |
| 公開(公告)號: | CN102163222A | 公開(公告)日: | 2011-08-24 |
| 發明(設計)人: | 池慧;高東平;方安;洪娜 | 申請(專利權)人: | 中國醫學科學院醫學信息研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標引 關聯 關系 信息 檢索 排序 方法 | ||
1.一種基于標引關聯關系的信息檢索排序方法,其特征在于,包括如下步驟:
步驟1:根據檢索詞的規范名稱補充與這些基本檢索詞具有上下位、同位等關聯關系的詞匯,將基本檢索詞和補充的詞匯作為標引庫的構成元素,并建立和保存標引庫中每兩個標引之間的關聯關系;
步驟2:將每篇文獻相關的檢索詞作為該文獻的標引,以每篇文獻所具有的標引的集合構成該文獻的文獻模型α=(a1,a2,…,ak,…,am),其中m為該文獻具有的標引的個數;將各文獻模型作為文獻庫的構成元素;
步驟3:把每個文獻模型構建為一個文獻向量,構建方法為:
以該文獻模型包含的所有標引的權值構成文獻向量其中是該文獻模型中標引ak的權值,其取值表示標引ak與該文獻A之間的關聯程度,權值越大則關聯程度越高;
步驟4:在進行檢索之前,將用戶提供的所有檢索詞即標引的集合構成一個檢索模型B;即檢索模型B為β=(b1,b2,…,bj,…,bn),共包含n個標引;
步驟5:將當前檢索模型B構建為一個檢索向量;構建方法為:
以當前檢索模型B中包含的所有標引的權值構成檢索向量其中表示檢索模型B中的標引bj的權值,對其賦值采用如下兩種方法之一:
(1)根據用戶輸入該標引的順序或用戶主觀認為其與檢索結果的主要程度進行賦值,標引越主要或輸入順序越靠前則權值越大;
(2)檢索模型B中的各標引均采取相同的權值,即不區分標引順序和主要程度;
步驟6:計算當前檢索模型B與各文獻的文獻模型之間的相似度,相似度越大則認為該文獻與用戶需要的檢索結果之間相關程度越大,文獻模型A和檢索模型B的相似度Sim(A,B)采用如下公式來計算:
其中,是該文獻模型中標引ak的權值,Tki表示檢索模型B中的標引bj與待比對的文獻模型A中的標引ak之間的距離,該距離依據步驟1建立的標引庫所規定的標引之間的關聯關系獲得;
表示文獻模型A中標引ak和aj之間的距離,表示檢索模型B中標引bj和bk之間的距離;這兩個距離也依據步驟1建立的標引庫所規定的標引之間的關聯關系獲得;
步驟7:根據步驟6給出的當前檢索模型B與文獻庫中各文獻模型之間的相似度,從高到底進行排序,將排序后的文獻作為最終的檢索結果提供給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國醫學科學院醫學信息研究所,未經中國醫學科學院醫學信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110083624.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于以太網的電腦橫機在線測控系統
- 下一篇:處理木質纖維素原料的方法





