[發(fā)明專利]基于用戶點(diǎn)擊行為的數(shù)字圖書搜索方法無效
| 申請(qǐng)?zhí)枺?/td> | 200810063010.4 | 申請(qǐng)日: | 2008-07-04 |
| 公開(公告)號(hào): | CN101320375A | 公開(公告)日: | 2008-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 吳江琴;莊越挺;袁川;張寅 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 | 代理人: | 張法高 |
| 地址: | 310027*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 用戶 點(diǎn)擊 行為 數(shù)字 圖書 搜索 方法 | ||
1.一種基于用戶點(diǎn)擊行為的數(shù)字圖書搜索方法,其特征在于包括以下步驟:
(1)提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計(jì)算圖書的相關(guān)性排序得分;
(2)提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類;
(3)抓取互聯(lián)網(wǎng)上的圖書評(píng)分?jǐn)?shù)據(jù),整合形成圖書評(píng)分排序得分;
(4)在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評(píng)分以及文本相似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序;
所述的提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計(jì)算圖書的相關(guān)性排序得分步驟:分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用日志數(shù)據(jù)中的讀者圖書閱讀記錄,構(gòu)建共同閱讀過圖書i和圖書j的讀者的數(shù)量矩陣用U={ui:0≤i<m}表示讀者的集合,B={bj:0≤j<n}表示圖書的集合,然后對(duì)進(jìn)行歸一化處理:
得到圖書關(guān)聯(lián)矩陣Ci,j,使用向量BR=[br0,br1,br2,...,br|B|-1]T表示圖書的相關(guān)性排序得分,向量d=[d0,d1,d2,...,d|B|-1]T表示圖書的已知質(zhì)量信息,最后使用下面的迭代方法來計(jì)算最終的圖書相關(guān)性排序得分:
其中,α為隨機(jī)跳轉(zhuǎn)概率,取值范圍在0到1之間;
所述的提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類步驟:分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用日志數(shù)據(jù)中的圖書檢索閱讀記錄,得到與每個(gè)查詢?cè)~相關(guān)的數(shù)字圖書,使用Q={qi:0≤i<m}表示查詢?cè)~的集合,集合
構(gòu)建表示與查詢?cè)~qi和qj都相關(guān)的圖書的數(shù)量的矩陣,定義為:
歸一化后即得到查詢?cè)~相似性矩陣:
然后使用類似上述的圖書相關(guān)性排序的迭代計(jì)算方式來對(duì)查詢?cè)~進(jìn)行聚類;
所述的抓取互聯(lián)網(wǎng)上的圖書評(píng)分?jǐn)?shù)據(jù),整合形成圖書評(píng)分排序得分步驟:設(shè)計(jì)爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評(píng)分頁面,分析提取圖書的元數(shù)據(jù)和圖書評(píng)分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不同網(wǎng)站上的相同圖書的評(píng)分?jǐn)?shù)據(jù),設(shè)整合的站點(diǎn)為Si其中:0≤i<N,圖書bk在站點(diǎn)Si上的歸一化后的評(píng)分?jǐn)?shù)據(jù)為vki,評(píng)分人數(shù)為pki,若該圖書該站點(diǎn)上不存在或存在但是沒有評(píng)分記錄,那么vki或pki為零,使用如下公式來整合圖書評(píng)分:
所述的在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評(píng)分以及文本相似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序步驟:將基于數(shù)字圖書訪問關(guān)聯(lián)圖的圖書排序值表示為R=[r0,r1,r2,...,r|B|-1]T,將從互聯(lián)網(wǎng)上整合得到的圖書排序值表示為S=[s0,s1,s2,...,s|B|-1]T,將基于元數(shù)據(jù)文本相似度的檢索得分表示為T=[t0,t1,t2,...,tn-1]T,其中B為圖書的集合,三個(gè)排序值都是介于0到1之間的浮點(diǎn)值,得分最高的圖書的分值為1,對(duì)于一次圖書搜索,使用基于文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表B=[b0,b1,b2,...,bn-1]T,bk,0≤k<n為圖書的編號(hào),圖書列表文本相似度得分為T=[t0,t1,t2,...,tn-1]T,n為匹配當(dāng)前搜索關(guān)鍵詞的圖書數(shù)目,然后使用如下公式來計(jì)算最終的圖書得分fk:
其中α,β,γ為實(shí)待估參數(shù),按照如下方式確定:從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系列的有序?qū)?lt;key,book>,進(jìn)而將有序?qū)?lt;key,book>轉(zhuǎn)化為<key,score>,score表示讀者對(duì)圖書的評(píng)分,得到的一系列有序?qū)?lt;key,score>,按照查詢?cè)~的聚類結(jié)果來將前面得到的有序?qū)Ψ譃閙個(gè)組,第i組中的所有有序?qū)M足key∈Qi,Qi表示查詢?cè)~的集合,對(duì)于第i組中的每一個(gè)有序?qū)?lt;keyj,scorej>,計(jì)算出以它的keyj值作為查詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書的三個(gè)排序分值,以有序?qū)?lt;keyj,scorej>的scorej作為最終的圖書得分fij,這樣第i組中的所有有序?qū)?gòu)成一個(gè)多元線性回歸分析模型:
使用每一組中的所有有序?qū)磉M(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)查詢?cè)~類的αi,βi,γi。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810063010.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





