[發(fā)明專利]一種文獻(xiàn)完成者研究興趣圖聚類方法、裝置、設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202310638200.9 | 申請(qǐng)日: | 2023-06-01 |
| 公開(kāi)(公告)號(hào): | CN116561605B | 公開(kāi)(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 周朝;林天宇;褚曉泉;段毅成;仇瑜;劉德兵 | 申請(qǐng)(專利權(quán))人: | 北京智譜華章科技有限公司 |
| 主分類號(hào): | G06F18/23 | 分類號(hào): | G06F18/23;G06F18/214;G06F18/22;G06F17/16;G06F17/18 |
| 代理公司: | 北京佳信天和知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11939 | 代理人: | 田英楠 |
| 地址: | 100086 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文獻(xiàn) 完成 研究 興趣 圖聚類 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種文獻(xiàn)完成者研究興趣圖聚類方法,其特征在于,包括以下步驟:
獲取目標(biāo)完成者的信息,根據(jù)所述信息獲取所述目標(biāo)完成者的文獻(xiàn)數(shù)據(jù)集;
根據(jù)所述文獻(xiàn)數(shù)據(jù)集構(gòu)建文獻(xiàn)網(wǎng)絡(luò)圖,所述文獻(xiàn)網(wǎng)絡(luò)圖的包括所述文獻(xiàn)數(shù)據(jù)集中,由各文獻(xiàn)之間的文本相似度和文獻(xiàn)引用數(shù)據(jù)融合得到的文獻(xiàn)關(guān)系指標(biāo);
對(duì)所述文獻(xiàn)網(wǎng)絡(luò)圖進(jìn)行圖聚類分析,以獲得若干研究興趣簇;
依據(jù)各所述研究興趣簇各自的文獻(xiàn)對(duì)各所述研究興趣簇進(jìn)行主題短語(yǔ)提取,以獲得所述目標(biāo)完成者的研究興趣畫像。
2.根據(jù)權(quán)利要求1所述的文獻(xiàn)完成者研究興趣圖聚類方法,其特征在于:所述目標(biāo)完成者的信息包括常用名、常用郵箱或者所在機(jī)構(gòu);
所述根據(jù)所述信息獲取所述目標(biāo)完成者的文獻(xiàn)數(shù)據(jù)集,包括:
根據(jù)所述常用名在文獻(xiàn)數(shù)據(jù)庫(kù)中進(jìn)行檢索以獲得文獻(xiàn)集S1;
根據(jù)所述常用郵箱或者所述所在機(jī)構(gòu)對(duì)所述文獻(xiàn)集S1進(jìn)行篩選以獲得所述文獻(xiàn)數(shù)據(jù)集,所述文獻(xiàn)數(shù)據(jù)集包括文獻(xiàn)的基本屬性,所述基本屬性包括文獻(xiàn)標(biāo)題、摘要、發(fā)表地、關(guān)鍵詞、引文關(guān)系以及合作者姓名與所屬單位中的一種或多種的組合。
3.根據(jù)權(quán)利要求2所述的文獻(xiàn)完成者研究興趣圖聚類方法,其特征在于:所述根據(jù)所述文獻(xiàn)數(shù)據(jù)集構(gòu)建文獻(xiàn)網(wǎng)絡(luò)圖包括:
采用OAG-BERT學(xué)術(shù)語(yǔ)言大模型基于所述基本屬性生成各所述文獻(xiàn)的特征向量;
根據(jù)所述特征向量采用余弦相似度算法構(gòu)建各所述文獻(xiàn)間的相似度指標(biāo)矩陣,所述相似度指標(biāo)矩陣表示為:
,其中TS-index表示相似度指標(biāo)矩陣,表示文獻(xiàn)i與文獻(xiàn)j之間的文本相似度,表示文獻(xiàn)i的特征向量,表示文獻(xiàn)j的特征向量;
根據(jù)所述引文關(guān)系構(gòu)建各所述文獻(xiàn)間的引用指標(biāo)矩陣,所述引用指標(biāo)矩陣表示為:
,其中CR-index表示引用指標(biāo)矩陣,表示文獻(xiàn)i對(duì)文獻(xiàn)j的引用指標(biāo),表示文獻(xiàn)i的參考文獻(xiàn)總數(shù);
將所述相似度指標(biāo)矩陣和所述引用指標(biāo)矩陣融合為文獻(xiàn)關(guān)系指標(biāo)矩陣,基于所述文獻(xiàn)關(guān)系指標(biāo)矩陣構(gòu)建所述文獻(xiàn)網(wǎng)絡(luò)圖,所述文獻(xiàn)網(wǎng)絡(luò)圖表示為:
為所述目標(biāo)完成者的文獻(xiàn)j,,PR-value表示所述文獻(xiàn)關(guān)系指標(biāo)矩陣,表示文獻(xiàn)i與文獻(xiàn)j的文獻(xiàn)關(guān)系指數(shù)。
4.根據(jù)權(quán)利要求3所述的文獻(xiàn)完成者研究興趣圖聚類方法,其特征在于:所述通過(guò)熵權(quán)法將所述相似度指標(biāo)矩陣和所述引用指標(biāo)矩陣融合為文獻(xiàn)關(guān)系指標(biāo)矩陣,包括:
通過(guò)熵權(quán)法計(jì)算相似度指標(biāo)和引用指標(biāo)各自的權(quán)重;
根據(jù)所述權(quán)重融合所述相似度指標(biāo)矩陣和所述引用指標(biāo)矩陣以生成所述文獻(xiàn)關(guān)系指標(biāo)矩陣,計(jì)算公式表示為:
,其中PR-value表示所述文獻(xiàn)關(guān)系指標(biāo)矩陣,TS-index表示相似度指標(biāo)矩陣,表示相似度指標(biāo)的權(quán)重,CR-index表示引用指標(biāo)矩陣,表示引用指標(biāo)的權(quán)重。
5.根據(jù)權(quán)利要求4所述的文獻(xiàn)完成者研究興趣圖聚類方法,其特征在于:所述通過(guò)熵權(quán)法計(jì)算相似度指標(biāo)和引用指標(biāo)各自的權(quán)重,包括:
根據(jù)每一指標(biāo)中的若干文獻(xiàn)數(shù)據(jù)樣本,計(jì)算在每一指標(biāo)下每一所述文獻(xiàn)數(shù)據(jù)樣本的比重,所述指標(biāo)包括相似度指標(biāo)和引用指標(biāo),計(jì)算公式表示為:
,其中表示第j項(xiàng)指標(biāo)下第i個(gè)文獻(xiàn)數(shù)據(jù)樣本所占的比重,表示第j項(xiàng)指標(biāo)下第i個(gè)文獻(xiàn)數(shù)據(jù)樣本,i/n表示i整除n的結(jié)果,i?mod?n表示i對(duì)n取余數(shù);
根據(jù)所述比重計(jì)算每一所述指標(biāo)的信息熵,計(jì)算公式表示為:
,其中表示第j個(gè)指標(biāo)的信息熵,;
根據(jù)所述信息熵計(jì)算所述指標(biāo)的權(quán)重,計(jì)算公式表示為:
,其中表示指標(biāo)j的權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智譜華章科技有限公司,未經(jīng)北京智譜華章科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310638200.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置
- 文獻(xiàn)價(jià)值評(píng)估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語(yǔ)種文獻(xiàn)分類方法、裝置及存儲(chǔ)介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識(shí)別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲(chǔ)存系統(tǒng)
- 興趣點(diǎn)系統(tǒng)、興趣點(diǎn)信息系統(tǒng)以及下載多個(gè)興趣點(diǎn)的方法
- 用戶興趣點(diǎn)的確定方法、裝置及終端
- 一種全局興趣探索推薦方法和裝置
- 信息中心聯(lián)網(wǎng)中的跟蹤排隊(duì)延遲和執(zhí)行相關(guān)的擁塞控制的方法、裝置及介質(zhì)
- 興趣點(diǎn)重要度測(cè)量方法和裝置
- 一種導(dǎo)航方法及系統(tǒng)
- 興趣偏好預(yù)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種興趣點(diǎn)的質(zhì)量評(píng)分獲取方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 聚合興趣點(diǎn)的方法、裝置、設(shè)備和介質(zhì)
- 用于優(yōu)化興趣點(diǎn)標(biāo)簽的方法和裝置





