[發明專利]基于聚類圖譜的技術文本挖掘方法和系統在審
| 申請號: | 202110917999.6 | 申請日: | 2021-08-11 |
| 公開(公告)號: | CN113849656A | 公開(公告)日: | 2021-12-28 |
| 發明(設計)人: | 焦建玲;陳楚曦;白羽;楊冉冉 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F16/35 |
| 代理公司: | 北京久誠知識產權代理事務所(特殊普通合伙) 11542 | 代理人: | 余罡 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖譜 技術 文本 挖掘 方法 系統 | ||
1.一種基于聚類圖譜的技術文本挖掘方法,其特征在于,包括:
S1、獲取技術文獻耦合數據;
S2、基于所述技術文獻耦合數據構建技術文獻聚類圖譜;
S3、基于所述聚類圖譜識別出技術的研究前沿,所述研究前沿包括所述聚類圖譜上聚類數量最大的文獻簇中技術文獻研究的技術內容;
S4、獲取所述研究前沿的引用信息,構建引用網絡,基于所述研究前沿、所述引用網絡和動態前向引用全路徑模型獲取技術的關鍵發展路徑圖。
2.如權利要求1所述的基于聚類圖譜的技術文本挖掘方法,其特征在于,所述S2包括:
S201、對所述文獻耦合數據進行預處理;
S202、基于預處理后的文獻耦合數據建立綠色技術的文獻引用耦合矩陣;
S203、使用譜系聚類方法對文獻引用耦合矩陣進行聚類分析,得到技術文獻的聚類圖譜。
3.如權利要求2所述的基于聚類圖譜的技術文本挖掘方法,其特征在于,所述S201包括:
基于所述文獻耦合數據建立引文索引;去除引文索引中耦合強度未達到預設閾值的文獻耦合數據。
4.如權利要求1~3任一所述的基于聚類圖譜的技術文本挖掘方法,其特征在于,所述S4包括:
S401、獲取所述研究前沿的引用信息,構建引用網絡;
S402、將所述引用網絡表示為有向矩陣;
S403、計算所述有向矩陣中每個有向邊的權重;
S404、基于每個有向邊的權重確定引用網絡中的所有關鍵發展路徑圖。
5.如權利要求4所述的基于聚類圖譜的技術文本挖掘方法,其特征在于,所述S402包括:
根據引用網絡中n個引用文獻的引用關系,建立n×n有向矩陣P,有向矩陣P中的節點代表文獻;pij是方陣P的元素,是一個代表一個定向關系的“0-1”變量;當pij的值等于1時,表示文獻j引用文獻i,即從節點i到節點j有一個有向邊;當pij的值等于0時,表示兩個文獻之間沒有引用。
6.如權利要求4所述的基于聚類圖譜的技術文本挖掘方法,其特征在于,所述S403包括:
在有向矩陣中,引用文獻v的文獻的數量為文獻v的出度,表示為d+(v),d+(v)大于等于0;文獻v引用的文獻數量為入度,用d-(v)表示;eij表示文獻i指向節點j的有向邊,其權重見公式(2):
W(eij)=[d+(i)+1]*[d+(j)+1] (2)
其中,d+(i)表示節點i的出度;d+(j)節點j的出度。
7.如權利要求4所述的基于聚類圖譜的技術文本挖掘方法,其特征在于,所述S404包括:
假設從起點s到終點t有n條路徑,每條路徑的權重為該路徑上所有邊的權重之和,記為正向引用路徑權重FCPW,從點s到點t的n條路徑的權重的集合表示為FCPWs,其中最大權重表示為MFCPW,見公式(3):
MFCPW(p)=max{W(epci)+MFCPW(ci)}(i=1,2…m) (3)
其中:MFCPW(p)表示從文獻p到其所有終端的路徑的最大權重;ci(i=1,2…m)表示引用文獻p的文獻,即引用網絡中節點p的子節點;同樣,MFCPW(ci)是從文獻ci開始的路徑的最大權重的集合;W(epci)是從節點p到節點ci的有向邊的權重;
采用R軟件動態編程公式(3),計算從引用網絡中每個起點開始的所有路徑的MFCPW,并將相應路徑上的所有節點以路徑演進圖形式記錄下來,進行分析并繪制技術關鍵發展路徑圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110917999.6/1.html,轉載請聲明來源鉆瓜專利網。





