[發明專利]基于領域知識地圖社區結構的文檔主題劃分方法有效
| 申請號: | 201310299047.8 | 申請日: | 2013-07-16 |
| 公開(公告)號: | CN103412878A | 公開(公告)日: | 2013-11-27 |
| 發明(設計)人: | 鄭慶華;董博;劉均;徐海鵬;李冰;賀歡;馬天 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 知識 地圖 社區 結構 文檔 主題 劃分 方法 | ||
技術領域
本發明涉及在領域知識地圖社區結構的基礎上進行文檔主題劃分,主要解決與學科或領域知識相關的文檔資源的劃分問題,以便于將主題相關的文檔存儲在相近的邏輯位置,提高存儲和訪問效率。
背景技術
隨著網絡課程平臺的擴展,網絡課程各個學科文檔規模不斷擴大,將主題相近的文檔存儲在相近的邏輯位置,當學習者學習某個資源時,可以對與其主題相關聯的其他資源進行預取,減小讀取文件的時間開銷,提高存儲和訪問效率。
針對文檔的主題劃分方法,以下3篇專利文獻提供了不同的技術方案:
1.基于領域知識的文本分類特征選擇及權重計算方法(CN101290626)
2.基于修正的K近鄰文本分類方法(CN102033949A)
3.一種新的面向文本分類的特征向量權重的方法及裝置(CN1719436A)
文獻1的方法包括:(1)收集領域文本和非領域文本作為訓練語料和測試語料;(2)文本的預處理,包括分詞處理及統計詞頻和文檔頻;(3)選取分類特征空間并用改進的TF-IDF方法計算特征權值;(4)在步驟(3)的基礎上選取特征空間并擴展領域術語到特征空間;(5)選取分類特征空間,利用改進的TF-IDF算法對特征權重進行計算和調整;(6)用SVM機器學習方法,訓練文本劃分器,構建領域文本劃分模型,并對領域文本進行實驗驗證。
文獻2的方法包括(1)文本預處理:首先對訓練文本集合中的每個文檔進行分詞,去除停用詞,將文本進行項目化表示;(2)文本特征選擇:然后對文本向量降維,構造特征函數對特征詞進行打分,選擇盡可能少且與文檔主題概念密切相關的文檔特征;(3)文本分類:最后利用基于偏差的K近鄰文本分類算法構建分類器進行分類,得到分類結果。
文獻3的方法包括:(1)按領域收集訓練語料和測試語料;(2)去除網頁文本的“垃圾”、分詞、詞性標注;(3)從訓練語料中提取每個領域的詞表,并提取總詞表;(4)根據總詞表和領域詞表建立用于分類的具有不同關鍵詞數目的信息詞表;(5)使用TF-IWF-DBV算法對測試文本進行分類,優化得到最優閾值;(6)根據分類結果確定最優關鍵詞數目。由于TF-IDF和TF-IWF方法都過分倚重詞頻,同時又無法表示出向量元素在類別之間分布的不均衡性,所以文獻3提出一種新的權重計算方法(TF-IWF-DBV),在TF-IWF方法中引入了DBV和TF的n次方根彌補了方法的不足。
以上文獻所述方法主要集中在文本分類的特征提取方法的優化上,然而仍是基于傳統分詞方式選取術語為特征項,并未充分考慮到特征項的主題特性,導致分類準確率欠佳。
發明內容
本發明為了解決現有大規模網絡課程中各個學科文檔的主題劃分問題,提供了一種將領域知識地圖社區結構和文檔主題劃分相結合的劃分方法,以劃分出主題相近的文檔。
為達到以上目的,本發明是采取如下技術方案予以實現的:
一種基于領域知識地圖社區結構的文檔主題劃分方法,其特征在于,包括下述步驟:
一、領域知識地圖社區結構樹構建:
(1)領域知識地圖預處理過程,將領域知識地圖轉換為簡單無向圖,并將轉換后的領域知識地圖作為社區結構樹的根社區節點,將其加入到待分析節點隊列CAQ中;社區節點的形式化表示如下:
CNode(VC,Children,Parent)????(1)
其中,VC表示社區節點包含的知識單元集合,Children表示社區節點的子節點集合,Parent表示社區節點的父節點;
(2)領域知識地圖層次社區劃分過程,從CAQ中取出隊首節點CH,分別使用Fast?Greedy和GN算法對CH對應的領域知識地圖或其子圖進行社區劃分,并引入模塊度閾值若上述兩種算法得到的社區劃分結果對應的模塊度值均小于則劃分無效,執行步驟(3);否則,對比上述兩種算法劃分結果對應模塊度值,選取其中較大的模塊度值對應的社區劃分結果,創建其中每個社區對應的社區節點,作為CH的子社區節點,并將其加入CAQ隊列;
(3)對CAQ中的所有節點進行步驟(2),直到CAQ隊列為空,從而得到領域知識地圖對應的社區結構樹C-Tree,其形式化表示如下:
C-Tree(CNodeSet,croot,n)????(2)
其中,CNodeSet表示社區結構樹的社區節點集合,croot表示社區結構樹的根社區節點,n表示社區節點數,即網絡中存在的社區個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310299047.8/2.html,轉載請聲明來源鉆瓜專利網。





