[發(fā)明專利]一種科技文檔的聚類方法有效
| 申請?zhí)枺?/td> | 202010237966.2 | 申請日: | 2020-03-30 |
| 公開(公告)號: | CN111460154B | 公開(公告)日: | 2022-07-08 |
| 發(fā)明(設(shè)計(jì))人: | 趙曉平;胡昌斌;蘇文偉;羅芳;陳達(dá);張勁松 | 申請(專利權(quán))人: | 云南電網(wǎng)有限責(zé)任公司信息中心 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33 |
| 代理公司: | 北京弘權(quán)知識產(chǎn)權(quán)代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 650011*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 科技 文檔 方法 | ||
1.一種科技文檔的聚類方法,用于對n篇科技文檔進(jìn)行分類,其中,n為正整數(shù),其特征在于,包括:
獲取每篇科技文檔的聚類對象,其中,所述聚類對象包括該篇科技文檔的題目、摘要、結(jié)論、研究內(nèi)容以及驗(yàn)收意見;
利用每篇科技文檔的聚類對象,獲取該篇科技文檔對應(yīng)的主題因子以及每個(gè)主題因子對應(yīng)的權(quán)重,其中,第i篇科技文檔的主題因子為gi1,gi2,…,gim,對應(yīng)的權(quán)重為Q(sgi1),Q(sgi2),…Q(sgim),i=1,2,…,n,m為正整數(shù),具體包括:
對每篇科技文檔的聚類對象的進(jìn)行分詞處理,獲得多個(gè)分詞詞語;
對獲取的分詞詞語進(jìn)行停用詞過濾以及TF-IDF統(tǒng)計(jì)處理;
將取TF-IDF最高的前m個(gè)分詞詞語作為該篇科技文檔的種子詞;
將種子詞進(jìn)行聚類成多個(gè)關(guān)鍵詞組,關(guān)鍵字詞組包括獨(dú)立關(guān)鍵詞與元素詞,并計(jì)算每個(gè)獨(dú)立關(guān)鍵詞對應(yīng)的權(quán)重,其中,第i篇科技文檔的獨(dú)立關(guān)鍵詞為w1,w2,…,wh,每個(gè)獨(dú)立關(guān)鍵詞對應(yīng)的權(quán)重為Q(swi1),Q(swi2),…,Q(swim),其中,計(jì)算每個(gè)獨(dú)立關(guān)鍵詞對應(yīng)的權(quán)重的計(jì)算公式為其中Q(swi)表示獨(dú)立關(guān)鍵詞swi的權(quán)重,p(wij)表示獨(dú)立關(guān)鍵詞swi的第j個(gè)元素詞的概率分布;
將具有相同元素詞的獨(dú)立關(guān)鍵詞進(jìn)行合并,得到組合關(guān)鍵詞h1,h2,…,并計(jì)算每個(gè)組合關(guān)鍵詞的權(quán)重,每個(gè)組合關(guān)鍵詞的權(quán)重為該組合關(guān)鍵詞組成的各個(gè)獨(dú)立關(guān)鍵詞的權(quán)重之和;
一一判斷每個(gè)組合關(guān)鍵詞與其他組合關(guān)鍵詞是否存在關(guān)聯(lián)性,若不存在關(guān)聯(lián)系,則將該組合關(guān)鍵詞設(shè)為該篇科技文檔的主題因子,并計(jì)算其對應(yīng)的權(quán)重,其中,主題因子SGi的權(quán)重的計(jì)算公式為:其中,Q(SGi)為主題因子SGi的權(quán)重,H(wi)為主題因子SGi對應(yīng)詞類的權(quán)重,H(wij)為生成主題因子SGi的第j個(gè)特征詞的權(quán)重,k為生成主題因子SGi的特征數(shù);
將N篇科技文檔集合,形成一個(gè)數(shù)據(jù)矩陣其中,n代表第n篇科技文檔,m代表該篇科技文檔中第m個(gè)主題因子對應(yīng)的權(quán)重;
利用數(shù)據(jù)矩陣計(jì)算每兩篇科技文檔的相異度,得到n×n維的相異矩陣其中,d(i,j)表示第i篇科技文檔與第j篇科技文檔之間的相異度,d(i,j)的計(jì)算公式為
利用K-means算法,對相異矩陣進(jìn)行計(jì)算,將n篇科技文檔聚類成K個(gè)聚族。
2.根據(jù)權(quán)利要求1所述的科技文檔的聚類方法,其特征在于,TF-IDF統(tǒng)計(jì)處理包括:
計(jì)算詞頻TF,其計(jì)算公式為:TF=某分詞語在科技文檔中的出現(xiàn)次數(shù)/科技文檔的分詞語總數(shù);
計(jì)算逆文檔頻率IDF,其計(jì)算公式為:IDF=log(語料庫的文檔總數(shù)/包含該詞的文檔數(shù)+1);
計(jì)算詞頻-逆文檔頻率TF-IDF,其計(jì)算公式為:TF-IDF=詞頻*逆文檔頻率=TF*IDF。
3.根據(jù)權(quán)利要求1所述的科技文檔的聚類方法,其特征在于,所述科技文檔的聚類方法還包括對聚類結(jié)果進(jìn)行評估分析,包括,
計(jì)算聚族i中的成員屬于聚族j的概率pij,其計(jì)算公式為pij=mij/mi,其中,mi是在聚族i中所有成員的個(gè)數(shù),mij是聚族i中的成員屬于聚族j的個(gè)數(shù),i、j=1,2,…,K;
計(jì)算聚族i的熵ei,其計(jì)算公式為其中,L是聚族i的個(gè)數(shù);
計(jì)算整個(gè)聚族劃分的熵e,其計(jì)算公式為其中,K是聚族的數(shù)量,m是整個(gè)聚族劃分所涉及到的成員個(gè)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南電網(wǎng)有限責(zé)任公司信息中心,未經(jīng)云南電網(wǎng)有限責(zé)任公司信息中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010237966.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于PageRank和時(shí)間衰減的科技文獻(xiàn)重要度評價(jià)方法
- 基于手機(jī)APP的科技信息服務(wù)查詢系統(tǒng)
- 一種科技情報(bào)信息管理系統(tǒng)
- 一種高??萍汲晒占椒?/a>
- 一種表征科技專家成果能力的科技詞條抽取方法
- 一種科技成果轉(zhuǎn)化信息服務(wù)方法及系統(tǒng)
- 一種基于語義分析的科技成果入庫方法及系統(tǒng)
- 一種科技項(xiàng)目申報(bào)咨詢服務(wù)平臺
- 面向科技服務(wù)的知識圖譜構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 一種科技金融評估系統(tǒng)的構(gòu)建方法





