[發明專利]基于領域知識地圖社區結構的文檔主題劃分方法有效
| 申請號: | 201310299047.8 | 申請日: | 2013-07-16 |
| 公開(公告)號: | CN103412878A | 公開(公告)日: | 2013-11-27 |
| 發明(設計)人: | 鄭慶華;董博;劉均;徐海鵬;李冰;賀歡;馬天 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 知識 地圖 社區 結構 文檔 主題 劃分 方法 | ||
1.一種基于領域知識地圖社區結構的文檔主題劃分方法,其特征在于,包括下述步驟:
一、領域知識地圖社區結構樹構建:
(1)領域知識地圖預處理過程,將領域知識地圖轉換為簡單無向圖,并將轉換后的領域知識地圖作為社區結構樹的根社區節點,將其加入到待分析節點隊列CAQ中;社區節點的形式化表示如下:
CNode(VC,Children,Parent)???(1)
其中,VC表示社區節點包含的知識單元集合,Children表示社區節點的子節點集合,Parent表示社區節點的父節點;
(2)領域知識地圖層次社區劃分過程,從CAQ中取出隊首節點CH,分別使用Fast?Greedy和GN算法對CH對應的領域知識地圖或其子圖進行社區劃分,并引入模塊度閾值若上述兩種算法得到的社區劃分結果對應的模塊度值均小于則劃分無效,執行步驟(3);否則,對比上述兩種算法劃分結果對應模塊度值,選取其中較大的模塊度值對應的社區劃分結果,創建其中每個社區對應的社區節點,作為CH的子社區節點,并將其加入CAQ隊列;
(3)對CAQ中的所有節點進行步驟(2),直到CAQ隊列為空,從而得到領域知識地圖對應的社區結構樹C-Tree,其形式化表示如下:
C-Tree(CNodeSet,croot,n)???(2)
其中,CNodeSet表示社區結構樹的社區節點集合,croot表示社區結構樹的根社區節點,n表示社區節點數,即網絡中存在的社區個數;
二、通過對步驟一所得的領域知識地圖對應的社區結構樹進行社區主題辨識,構建領域主題結構樹,實現社區結構到主題結構的映射;
三、文檔特征向量提取:
(1)構造特征空間,將領域知識地圖中的所有知識單元作為特征項,構成多維度的特征空間;
(2)文檔的預處理過程,將文檔轉換為純文本形式,提取每個文檔的文本段,使用基于向量空間模型的TF-IDF算法將文檔的文本段與領域知識地圖庫的知識單元ku對應的文本段內容進行相似度匹配,若相似度達到閾值μ,則認為文檔包含ku,據此提取出文檔包含的所有知識單元;
(3)利用公式(3)計算特征空間中知識單元在領域知識地圖中的度中心度,結合文檔中知識單元的出現頻次,將文檔抽象為如下形式:
Xj={W1,W2,...,Wi,...,Wn},其中n表示特征向量的維度,Wi表示第i個特征項的權重,其形式化表示如下:
Wi=Cdeg(kui)*kuf(kui,d)???????(7)
其中,kuf(kui,d)表示知識單元在文檔d中出現的頻次,Cdeg(kui)表示知識單元kui的度中心度;
四、文檔主題劃分模型構建:
(1)構造訓練數據集,對于給定的訓練數據集D中的每一個文檔,使用步驟三所述方法提取其特征向量,結合步驟一中的領域知識地圖社區結構樹C-Tree和步驟二中領域主題結構樹T-Tree,將訓練數據集抽象為如下形式:
D={(X1,Y1),(X2,Y2),...,(Xj,Yj),...,(Xm,Ym)}??????(8)
其中,Xj(j=1,2,...,m)表示第j個文檔的特征向量,Yj(j=1,2,...,m)表示第j個文檔的主題標簽集合,其形式化表示如下:
Yj={L1,L2,...,Li...,Lk}???????(9)
其中,m為訓練集文檔個數,k為社區主題個數;
(2)訓練過程選擇BR-SVM算法,采用交叉驗證方式,基于訓練文檔集D,訓練得到文檔主題劃分模型M;
五、文檔主題劃分:對待劃分的文檔,提取文檔包含的知識單元,使用步驟三方法得到文檔特征向量表示,使用步驟四得到的文檔主題劃分模型實現文檔主題劃分。
2.如權利要求1所述的基于領域知識地圖社區結構的文檔主題劃分方法,其特征在于,所述的構建領域主題結構樹具體步驟為:
(1)社區中心點分析,計算C-Tree中的每個社區節點所包含知識單元在社區對應的領域知識地圖子圖中的度中心度,選取中心度較大的節點集作為社區中心節點組CCNS;知識單元在社區對應的領域知識地圖子圖中的度中心度計算方法如下:
其中,deg(kui)表示知識單元kui社區內的度,KU表示領域知識地圖或其子圖包含的知識單元集合;
(2)對CCNS中的知識單元,查找領域知識地圖庫,得到CCNS包含的核心術語集,結合知識單元的度中心度和核心術語在CCNS中知識單元出現的頻次,計算核心術語的中心性權重WCentral,其形式化表示如下:
其中,C(ku)表示CCNS中知識單元的中心度,δ(term,ku)表示term在ku中出現的頻次,選取中心性權重最大的核心術語作為社區的主題;
(3)對于C-Tree每個社區節點進行步驟(2),從而構建領域主題結構樹T-Tree,實現社區結構到主題結構的映射,T-Tree形式化表示如下:
T-Tree(CTopicSet,troot,n)????(5)
其中,CTopicSet表示社區主題節點集合,troot表示主題結構樹的根節點,n表示主題個數;社區主題節點形式化表示如下:
CTopic(YC,SubTopics,PTopic)??????(6)
其中,YC表示社區主題標號,SubTopics表示主題節點的子節點集合,PTopic表示主題節點的父節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310299047.8/1.html,轉載請聲明來源鉆瓜專利網。





