[發(fā)明專利]一種基于標簽的圖書搜索方法有效
| 申請?zhí)枺?/td> | 201510035855.2 | 申請日: | 2015-01-23 |
| 公開(公告)號: | CN104537116B | 公開(公告)日: | 2017-10-31 |
| 發(fā)明(設(shè)計)人: | 張寅;張鵬 | 申請(專利權(quán))人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 標簽 圖書 搜索 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字圖書館的數(shù)字資源搜索領(lǐng)域,尤其涉及一種基于標簽的圖書搜索方法。
背景技術(shù)
近年來互聯(lián)網(wǎng)上涌入了海量的信息內(nèi)容,為了方便管理和檢索信息,業(yè)界提出了許多高效的基于文本的信息檢索技術(shù)。
與此同時,隨著數(shù)字圖書館的興起,它在數(shù)字資源檢索領(lǐng)域呈現(xiàn)出與文本檢索不同的特點,例如搜索限制條件更加嚴格、元數(shù)據(jù)文本信息少等。
在圖書搜索這一場景中,用戶在搜索圖書時,往往處于以下幾種狀態(tài)之一:
(1)知道自己需要的書是哪一類書,但是不知道這個類別的書下面具體有哪些圖書,也不知道哪一本所述能容更適合自己;
(2)知道自己想要某一本書,但是記不清完整的書名、出版社等信息;
(3)明確知道自己需要的圖書書名、出版社、版次等信息。
傳統(tǒng)的圖書搜索系統(tǒng)往往更關(guān)注場景2和3,提供了完整的搜索限制條件,包括書名、作者、出版社、出版時間、館藏位置等多維度條件。但是這種搜索方式在面對場景1時,無法對用戶提供有效的搜索指引,并且由于過多的查詢限制條件,使得人機交互界面趨于復雜,因此難以使用,用戶體驗較差。
而在傳統(tǒng)的文本搜索領(lǐng)域,則更關(guān)注場景1和2。因為在全文搜索領(lǐng)域,文本沒有統(tǒng)一的結(jié)構(gòu),因此搜索的維度只限于關(guān)鍵詞匹配、限制條件較少,導致搜素結(jié)果往往很寬泛,難以支持場景3。
為了提高對數(shù)字資源的檢索、管理能力,我們需要在通用文本檢索技術(shù)上做出改進,提出一種新的圖書搜索模式,能夠有效支持數(shù)字資源的特點,并支持上述圖書搜索場景下的3種需求。
發(fā)明內(nèi)容
本發(fā)明的目的是為了在通用文本檢索技術(shù)上做出改進,提出一種適用于數(shù)字圖書檢索特點的搜索方法,該方法具有更友好的人機交互方式,提供更完善的搜索功能,能夠滿足數(shù)字資源搜索限制條件更加嚴格、元數(shù)據(jù)文本信息少等特點。
基于標簽的圖書搜索方法包括以下步驟:
1)獲取圖書的元數(shù)據(jù)文本信息,包括由都柏林核心規(guī)范(Dublin Core Metadata)指定的15項數(shù)字資源元數(shù)據(jù)條目以及圖書的章節(jié)目錄,采用關(guān)鍵詞提取算法生成圖書的標簽;
2)將圖書的元數(shù)據(jù)和標簽一起寫入搜索系統(tǒng)的索引文件系統(tǒng)中,其中索引文件的生成和檢索功能采用Lucene全文檢索引擎工具包實現(xiàn),索引文件的具體結(jié)構(gòu)包括5個域:圖書名稱、圖書作者、圖書主題、出版社名稱、圖書標簽,用戶在進行圖書檢索時,會在上述五個域中進行文本匹配以獲取搜索結(jié)果;
3)構(gòu)建圖書搜索的前端系統(tǒng),提供用戶使用本系統(tǒng)的圖形界面。本系統(tǒng)采用B/S模式構(gòu)建,前臺系統(tǒng)采用基于WEB瀏覽器的圖形用戶界面,主要功能是提供圖書搜索的界面以及搜索結(jié)果展示界面;為了支撐數(shù)字圖書搜索場景的需求,前端系統(tǒng)的用戶交互途徑分為2個部分:第一步是統(tǒng)一搜索,通過鍵入關(guān)鍵詞進行搜索,獲得相對廣泛的搜索結(jié)果;第二步是添加標簽、類型、出版社等約束條件進行更精確的查詢。
4)構(gòu)建圖書搜索的后臺系統(tǒng),并以Web Service的形式對外暴露服務接口。后臺系統(tǒng)的核心功能是提供圖書搜索服務,圖書搜索功能采用Lucene全文檢索引擎工具包實現(xiàn),并且采用RestLet框架以REST的方式暴露服務接口,前端系統(tǒng)的搜索請求會調(diào)用圖書搜索接口。
5)進行搜索意圖推薦,利用圖書和搜索語句的關(guān)聯(lián)度、標簽與圖書的關(guān)聯(lián)度信息計算出標簽與搜索語句的關(guān)聯(lián)度,獲得關(guān)聯(lián)度排名較高的標簽,并隨著搜索結(jié)果一起返回給用戶;
本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果:
1.該系統(tǒng)針對圖書搜索的特點進行了人機交互方式優(yōu)化,提供更友好的用戶使用方式;
2.該系統(tǒng)除了能夠支持關(guān)鍵詞搜索功能,還提供基于標簽形式的搜索意圖推薦功能;
3.該系統(tǒng)支持多維度、多限制條件、搜索語句精確/模糊匹配等功能,更滿足圖書搜索的特點;
4.在搜索系統(tǒng)中引入了標簽,以標簽來描述數(shù)字資源的主題內(nèi)容,能夠更好的向用戶展示數(shù)字資源,幫助用戶更好的了解搜索結(jié)果。
附圖說明
圖1是基于標簽的搜索系統(tǒng)中前端系統(tǒng)的統(tǒng)一搜索界面;
圖2是基于標簽的搜索系統(tǒng)中前端系統(tǒng)的基于標簽的二次搜索界面;
圖3是基于標簽的多維度限制條件搜索;
圖4是基于標簽的搜索系統(tǒng)整體架構(gòu)圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510035855.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





