[發明專利]基于敘詞表的信息檢索方法及裝置有效
| 申請號: | 201410080938.9 | 申請日: | 2014-03-06 |
| 公開(公告)號: | CN103778262B | 公開(公告)日: | 2017-07-21 |
| 發明(設計)人: | 李冬梅;韓其琛;方博;檀穩;張琪 | 申請(專利權)人: | 北京林業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京成創同維知識產權代理有限公司11449 | 代理人: | 蔡純,馮麗欣 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞表 信息 檢索 方法 裝置 | ||
技術領域
本申請涉及一種信息檢索方法和裝置,具體地,涉及一種利用敘詞表的相似度計算得到查詢擴展詞集從而對檢索結果進行相似度加權排序的信息檢索方法和裝置。
背景技術
隨著Internet的迅速發展,網絡上的信息已經變得非常龐大,面對海量級的數據,如何進行高效、準確的信息檢索是值得研究的課題。現有技術中,搜索引擎憑借其符合大眾信息檢索習慣的優勢成為了目前獲取網絡信息的主要工具。但是,由于目前的搜索引擎采用的都是基于關鍵詞的字面匹配模式,即僅以孤立的關鍵詞對信息內容進行標引和檢索,并不能表達出詞語的語義內涵,更不能勝任獲取文本中潛在的豐富的語義知識。因此,人們依然很難從海量信息中獲取到自己最需要的信息,在多樣化的網絡信息環境下,現有搜索技術存在著明顯的不足之處。
為解決以上問題,提出了一些新穎的網絡信息組織和檢索理念。例如,概念檢索和語義檢索等。本體是實現語義檢索的一種較為有效的工具,但本體的構建和維護需要大量的工作。
目前很多行業領域都有自己較成熟的敘詞表。敘詞表是一個相對完善并且發展成熟的概念知識體系,自其從20世紀50年代誕生以來,經過不斷發展和完善,已成為主題法中重要的信息組織工具,并曾在傳統文獻標引和檢索中發揮過重要作用。與普通的網絡信息擴展檢索方法相比,基于敘詞表詞間關系的信息檢索方法更注重利用敘詞表這一語義邏輯提高檢索結果的檢準率和檢全率。基于敘詞表的信息檢索方法在某些領域已有相關研究,文獻1(Chen C,Zhu Q,Lin L,et al.Web media semantic concept retrieval via tag removal and model fusion[J].ACM Transactions on Intelligent Systems and Technology(TIST),2013,4(4):61)利用美國國立醫學圖書館(The National Library of Medicine)設計的元敘詞表(Metathesaurus)對用戶所輸入的檢索信息進行語法分析,并根據分析結果進行查詢擴展。但是該文獻沒有對敘詞之間的關系類型進行量化分析。文獻2(XiongXia.Domain information retrieval based on term relationships of thesaurus.Beijing:Chinese Academy of Agricultural Sciences Dissertation,2011)給出一種基于農業敘詞表的信息檢索方法,但該方法在查詢擴展時只考慮了與核心檢索詞直接相關的單級擴展,沒有考慮其他敘詞的影響。
因此,如何能夠將敘詞表利用到信息檢索中,并綜合考慮敘詞間多種關系的相似度,進行檢索結果的加權分析,成為現有技術亟需解決的技術問題。
發明內容
本發明的目的在于基于敘詞表的信息檢索方法和裝置,使得能夠利用敘詞表的相似度計算得到查詢擴展詞集從而對檢索結果進行相似度加權排序。
為達到此目的,本發明采用了如下方案:
一種基于敘詞表的信息檢索方法,包括如下步驟:
敘詞規范化步驟:根據敘詞表,對用戶輸入的檢索詞進行規范化,獲得規范化檢索詞K;
網頁抓取步驟:利用通用搜索引擎以規范化檢索詞K為檢索詞進行檢索,對前若干個結果的網址進行分析,提取出網頁中的要素信息,所述要素信息包括網頁中的URL、標題、正文、摘要、關鍵詞;
查詢擴展集合建立步驟:利用相似度計算的方法求出敘詞表中K的相關詞的相似度,將相似度大于所設置的閾值的相關詞加入所述查詢擴展集合N;
加權排序步驟:將與K的相似度作為所述查詢擴展集合N中相關詞的權值,利用所述相關詞對每個網頁中的所述要素信息進行加權求和計算,得到每個網頁的權值,將所述網頁按照所述權值由從大到小排序,并返回給用戶。
優選地,所述加權排序步驟包括:
頻率計算步驟,計算所述查詢擴展集合中的每一個相關詞在網頁的標題中出現的頻率X以及在網頁正文中出現的頻率P;
權值計算步驟,求和計算每個網頁的權值,其公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京林業大學,未經北京林業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410080938.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:環狀二聚對苯二甲酸丁二醇酯的制備
- 下一篇:一種半自動的電動車車庫
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





