[發明專利]一種基于馬爾科夫動力學社區檢測技術的共詞分析方法有效
| 申請號: | 202010065116.9 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111309902B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 牛奉高;邰志琴 | 申請(專利權)人: | 山西大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/30 |
| 代理公司: | 太原申立德知識產權代理事務所(特殊普通合伙) 14115 | 代理人: | 程園園 |
| 地址: | 030006*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 馬爾科夫 動力學 社區 檢測 技術 分析 方法 | ||
1.一種基于馬爾科夫動力學社區檢測技術的共詞分析方法,其特征在于:包括以下步驟:
步驟1,文本數據的預處理:數據清洗,標記文獻,提取每篇文獻的關鍵詞,并保留關鍵詞與相應文獻的對應關系;
步驟2,構建關鍵詞空間并對所提取的關鍵詞進行詞頻統計,關鍵詞按詞頻降序排列,以備后續建立共現矩陣使用;
步驟3,以關鍵詞在文獻中是否出現為權重,構建文獻表示的向量空間模型;
步驟4,計算關鍵詞之間的共詞矩陣;
步驟5,計算關鍵詞之間的等價系數;
步驟6,計算關鍵詞初始轉移矩陣;
步驟7,計算關鍵詞網絡的度:d=diag(d1,d2,...,dm);
步驟8,計算基于退火網絡的共詞強度矩陣;
步驟9,計算基于退火網絡的轉移矩陣Q;
步驟10,基于退火網絡對關鍵詞初始轉移矩陣進行約束;
步驟11,平衡步數的影響得轉移向量;
步驟12,計算度最大的關鍵詞s的l步轉移概率向量,按關聯概率降序排列,生成節點表L;
步驟13,計算切割位置的導電率;
步驟14,提取最小導電率對應的社區,作為共詞分析的一類,重復此過程,直到關鍵詞網絡中所有關鍵詞都被歸類。
2.根據權利要求1所述的一種基于馬爾科夫動力學社區檢測技術的共詞分析方法,其特征在于:所述步驟3,以關鍵詞在文獻中是否出現為權重,構建文獻表示的向量空間模型如下:
Di=(ai1,ai2,...,aim),i=1,2,...,n
其中:Di是n篇文獻中第i篇文獻在歐式空間Rm中的表示向量,aij(j=1,2,…,m)為第j個關鍵詞在第i篇文獻中的權重,當第j個關鍵詞是文獻Di的關鍵詞時aij等于1,否則為0;i為文獻序號,n為文獻總篇數,m為關鍵詞集中總關鍵詞的個數,Rm為歐式空間,T表示轉置運算,文獻集的“篇-詞”矩陣A=(aij)n×m。
3.根據權利要求1所述的一種基于馬爾科夫動力學社區檢測技術的共詞分析方法,其特征在于:所述步驟4計算關鍵詞之間的共詞矩陣,具體操作為:
關鍵詞之間的共詞矩陣C=ATA,其中,當i≠j時,cij為第i個關鍵詞與第j個關鍵詞的共現頻次,當i=j時,cii為第i個關鍵詞的總頻次;其中i=1,2,...,m,m為關鍵詞集中總關鍵詞的個數;A表示文獻集的“篇-詞”矩陣。
4.根據權利要求1所述的一種基于馬爾科夫動力學社區檢測技術的共詞分析方法,其特征在于:所述步驟5計算關鍵詞之間的等價系數,具體操作為:
關鍵詞之間的等價系數其中,Eij是處于0到1之間的數值,令E=(Eij)m*m,則E為關鍵詞等價系數矩陣,cij為第i個關鍵詞與第j個關鍵詞的共現頻次。
5.根據權利要求1所述的一種基于馬爾科夫動力學社區檢測技術的共詞分析方法,其特征在于:所述步驟6計算關鍵詞初始轉移矩陣,具體操作為:
使得pij≥0,滿足轉移矩陣的必要條件,m為關鍵詞集中總關鍵詞的個數;。
6.根據權利要求1所述的一種基于馬爾科夫動力學社區檢測技術的共詞分析方法,其特征在于:所述步驟8計算基于退火網絡的共詞強度矩陣,具體操作為:
其中dr為步驟7計算所得關鍵詞網絡的度;其中r=1,2,...,m。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010065116.9/1.html,轉載請聲明來源鉆瓜專利網。





