[發明專利]圖書交叉閱讀方法有效
| 申請號: | 201310601627.8 | 申請日: | 2013-11-22 |
| 公開(公告)號: | CN103714118A | 公開(公告)日: | 2014-04-09 |
| 發明(設計)人: | 魯偉明;楊善松;魏寶剛;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖書 交叉 閱讀 方法 | ||
技術領域
本發明涉及圖書內容檢索方法,尤其涉及一種圖書交叉閱讀方法。
背景技術
隨著數字圖書館的日益發展,用戶在閱讀圖書時,希望能夠閱讀與當前內容相關的其他圖書章節,迫切希望數字圖書館中能夠提供一種圖書交叉閱讀推薦服務。
圖書交叉閱讀本質上是一種基于文檔的查詢(query?by?document),即將一個文檔作為查詢(query),去檢索內容相似的其他文檔。傳統的文本檢索系統一般設計為基于關鍵詞的檢索,也就是查詢詞一般較短。如果直接采用傳統的文本檢索方法,則性能會下降。比如,如果采用倒排索引的方法,那么由于查詢文檔中含有較多的詞匯,于是合并每個詞匯的檢索結果需要耗費較長的時間。
文檔也可以表達成高維向量,于是query?by?document可以轉化為高維向量的檢索問題。哈希方法已在高維向量的檢索中被廣泛使用。比如,相似度哈希算法可以將相似的文檔投影為相似的指紋(即,壓縮的二進制碼),可用于文檔相似檢測和檢索。然而,在相似度哈希算法中,所有的單詞被同等看待,而不考慮單詞的語義信息。然而,文檔的單詞可以被分為文檔相關單詞、主題相關單詞以及背景單詞。一般而言,越能反映文檔語義的單詞越重要,所以需要把這些信息也融入到文檔指紋中,使得文檔指紋更加能反映主題。
此外,即使把圖書章節都轉化為了二進制碼形式的文檔指紋,從海量的文檔指紋中查找相似的文檔也是個極大的挑戰。假設每本書有50個章節(以小節為單位),則100萬冊圖書可形成5000萬個指紋,傳統采用線性掃描的文檔指紋檢索方式將不再適用。另外,除了文檔內容外,圖書的元數據信息、章節標題、用戶的點擊等信息在文檔相似檢索中也非常有用。但是很難將這些異構的信息融入到同一個索引中進行統一檢索。
在圖書交叉閱讀中,不僅需要將圖書章節投影到語義相關的指紋中,還需要將文檔指紋、元數據信息、章節標題、用戶點擊等信息融入到了同一個索引中。
發明內容
本發明的目的是為克服上述現有方法未能考慮文檔單詞的語義性,不能有效檢索海量哈希編碼等缺點,提供一種圖書交叉閱讀方法。
本發明解決其技術問題采用的技術方案如下:
圖書交叉閱讀方法的步驟如下:
(1)構建圖書章節指紋:融合圖書章節特征向量和圖書類別特征向量,為圖書的每個章節構建主題敏感向量,然后再用相似度哈希算法構建圖書章節指紋;
(2)構建統一索引:將圖書章節指紋轉變為語義單詞集合,并用全文檢索方法為語義單詞集合、圖書章節名稱、圖書分類信息建立統一索引;
(3)圖書章節推薦:依據圖書章節間的距離,為用戶推薦相關圖書章節,并基于用戶的訪問行為,利用流形排序算法進行重排序。
所述的步驟(1)包括:
2.1對于所有的圖書,根據目錄將一本圖書拆分為章節集合,每個章節作為一個文檔進行保存,同時將章節的名稱、圖書的名稱、圖書的分類信息作為章節的元數據保存;
2.2對所有的章節進行自然語言處理,通過分詞、詞性標注、停用詞去除和詞組檢測步驟提取章節包含的名詞和名詞短語,將章節轉變為單詞的集合;
2.3根據章節所在圖書的分類,構建每個分類的章節集合,分別計算每個章節中所有單詞的tfidf(t,d)值和每個分類中所有單詞的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310601627.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種剎車片噴碼裝置
- 下一篇:印版滾筒的周向拉版機構





