[發明專利]基于海量數字圖書的知識脈絡自動構建方法有效
| 申請號: | 201710945019.7 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN107908650B | 公開(公告)日: | 2019-11-05 |
| 發明(設計)人: | 魯偉明;馬朋坤;魏寶剛;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/22;G06N5/02;G06N20/00 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜;邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 海量 數字 圖書 知識 脈絡 自動 構建 方法 | ||
本發明公開了一種基于海量數字圖書的知識脈絡自動構建方法;將數字圖書的元數據信息存儲到Lucene索引文件中,如果用戶檢索主題q,則可獲得q相關的圖書集合;通過加權的word2vec方法計算目錄標題之間的相似度,通過自底向上的凝聚型層次聚類算法對q相關教科書的一級目錄進行聚類得到知識單元集合;根據圖書中章節之間的偏序關系構建知識單元之間的連接關系,最終構建完整的知識圖;從知識圖中挖掘出TOP K條重要、有序且冗余小的學習路徑,將學習路徑構成的知識脈絡仿照地鐵圖的形式進行可視化展示。本發明首次提出了一個基于海量數字圖書的摘要提取框架,該框架提取出的知識脈絡能夠綜合考慮信息度、流暢度和覆蓋度,能夠方便用戶快速高效地進行知識學習。
技術領域
本發明涉及基于海量數字圖書的知識挖掘方法,尤其涉及一種基于海量數字圖書的知識脈絡自動構建方法。
背景技術
圖書是老師和學生之間傳遞知識的重要媒介。最近十年間,一些項目,例如“谷歌圖書”和“百萬圖書”項目,開始進行大規模的圖書數字化工作。這為用戶尋找并閱讀圖書提供了極大的幫助。但是,圖書數量的豐富也造成了一定的干擾,當學習一個主題時,我們往往會陷入到成千上萬本圖書中。因此,把這成千上萬本圖書綜合進一個簡潔但又全面的圖片中將會極大地方便知識的學習。
目前有一些研究者開始研究如何進行新聞、科學文獻、用戶生成內容和專利領域的摘要抽取和可視化來避免信息過載。但是,還沒有相關工作對有相同主題的書籍進行合成,形成全面的知識脈絡圖來幫助用戶有效地學習。而且,上述領域的摘要提取技術也不適用于大量圖書的合成摘要處理,原因有以下幾點:首先,文本相似度計算可以方便進行文章的鏈接,從而生成具有故事情節的文章摘要。但是,圖書往往具有非常豐富且冗長的文本信息,依靠文本相似度來進行圖書之間的相似度計算是不可取的。其次,圖書缺少時態信息和引用信息,這導致用來對新聞、科學文獻和專利的摘要技術在圖書領域不適用。
因此,我們考慮仿照地鐵圖的樣式來構造具有相同主題的書籍的知識脈絡圖,這個知識脈絡圖包含了該主題相關的幾條具有豐富知識點、流暢度高、覆蓋度高的學習路徑,從而幫助用戶高效地進行知識學習。
發明內容
本發明為了解決用戶學習某個主題的知識時陷入大量相似圖書而無法高效學習的問題,提出了一種基于海量數字圖書的知識脈絡自動構建方法,能夠極大地方便用戶進行高效的知識學習。
本發明解決其技術問題采用的技術方案如下:一種基于海量數字圖書的知識脈絡自動構建方法,包括以下步驟:
1)圖書預處理:將數字圖書的元數據信息(包括標題、作者、出版社、目錄等)存儲到Lucene索引文件中;用XML解析器將目錄(目錄按照XML結構存儲)的結構解析出來,并清洗目錄標題中的冗余信息;
2)知識單元構建:對于用戶檢索主題q,從步驟1)中構建的Lucene索引中查詢出相關圖書集合,將相關圖書的所有一級目錄標題進行分詞處理,通過word2vec方法得到詞語的向量表示,對目錄標題中的主題詞和描述詞分別賦予不同的權重,最終用加權的方式計算目錄標題之間的相似度;通過自底向上的凝聚型層次聚類算法對q相關圖書的目錄進行聚類得到知識單元集合;
3)知識圖構建:用步驟2)中構建的知識單元作為結點,用圖書中章節之間的偏序關系構建結點之間的鄰接關系構成有向圖,即知識圖;
4)學習路徑選擇:使用動態規劃算法遍歷步驟3)得到的知識圖,得到所有的學習路徑,引入信息度和流暢度計算公式,信息度衡量路徑中是否包含重要的結點和重要的結點對,知識單元對{oi,oi+1}的信息度w(oi,oi+1)計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710945019.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本分類的控制方法
- 下一篇:一種分布式集群的審計方法





