[發(fā)明專利]一種專利技術(shù)領(lǐng)域的創(chuàng)新主題挖掘方法在審
申請?zhí)枺?/td> | 202110233670.8 | 申請日: | 2021-03-03 |
公開(公告)號: | CN113297839A | 公開(公告)日: | 2021-08-24 |
發(fā)明(設(shè)計)人: | 玄洪升;李明明;潘心冰;顧英健;郭保榮 | 申請(專利權(quán))人: | 浪潮云信息技術(shù)股份公司 |
主分類號: | G06F40/216 | 分類號: | G06F40/216 |
代理公司: | 濟南信達專利事務(wù)所有限公司 37100 | 代理人: | 馮春連 |
地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 專利技術(shù) 領(lǐng)域 創(chuàng)新 主題 挖掘 方法 | ||
1.一種專利技術(shù)領(lǐng)域的創(chuàng)新主題挖掘方法,其特征在于,其實現(xiàn)包括:
步驟S1、數(shù)據(jù)準(zhǔn)備階段:獲取專利技術(shù)領(lǐng)域A的專利文獻,對獲取的專利文獻進行預(yù)處理,構(gòu)建向量空間模型,其中,所述“專利技術(shù)領(lǐng)域A”中“A”為國際專利分類表8個部類中的任一技術(shù)領(lǐng)域;
步驟S2、數(shù)據(jù)處理階段:
步驟S2.1、基于困惑度的方法確定最優(yōu)主題數(shù),構(gòu)建LDA主題模型,并生成文檔-主題矩陣和主題-特征詞矩陣,其中,構(gòu)建LDA主題模型的具體操作包括:
步驟S2.1.1、將獲取的專利文獻存儲于數(shù)據(jù)集,將數(shù)據(jù)集隨機劃分為訓(xùn)練集與測試集,
步驟S2.1.2、針對獲取的專利文獻,使用基于困惑度的方法確定最優(yōu)主題數(shù),
步驟S2.1.3、使用向量空間模型對訓(xùn)練集、測試集進行加權(quán)處理,并利用加權(quán)后的訓(xùn)練集構(gòu)建LDA模型,
步驟S2.1.4、將測試集作為語料,計算LDA模型在不同主題下的困惑度,并選取困惑度最小的主題數(shù)作為LDA模型的最優(yōu)主題數(shù),
步驟S2.1.5、以加權(quán)測試集和最優(yōu)主題數(shù)作為構(gòu)建元素,基于LDA模型,構(gòu)建LDA主題模型,
步驟S2.2、針對主題-特征詞矩陣,利用四分位數(shù)法將每個主題下的特征詞按照概率值降序排列,并選擇前四分之一的特征詞,得到四分化主題-特征詞概率分布矩陣;
步驟S3、鄰接矩陣二值化階段:
步驟S3.1、對四分化主題-特征詞概率分布矩陣進行關(guān)聯(lián)統(tǒng)計,得到主題間相同特征詞,具體操作為:
步驟S3.1.1、按行遍歷四分化主題-特征詞概率分布矩陣,
步驟S3.1.2、關(guān)聯(lián)統(tǒng)計第一行與第二行數(shù)據(jù)擁有相同特征詞的數(shù)目,繼續(xù)統(tǒng)計第一行與第三行直至最后一行數(shù)據(jù)具有相同特征詞的數(shù)目,
步驟S3.1.3、關(guān)聯(lián)統(tǒng)計第二行與第三行數(shù)據(jù)擁有相同特征詞的數(shù)目,繼續(xù)統(tǒng)計第二行與第四行直至最后一行數(shù)據(jù)具有相同特征詞的數(shù)目,
步驟S3.1.4、由步驟S3.1.3類推,直到關(guān)聯(lián)統(tǒng)計倒數(shù)第二行與倒數(shù)第一行數(shù)據(jù)擁有相同特征詞的數(shù)目,關(guān)聯(lián)統(tǒng)計結(jié)束完成對主題間相同特征詞的統(tǒng)計,
步驟S3.2、根據(jù)得到的主題間相同特征詞構(gòu)建鄰接矩陣,通過定義鄰接矩陣的二值化規(guī)則,完成鄰接矩陣的二值化處理,其中,定義的二值化規(guī)則為:
y(i,j)=1if?x(i,j)>=1,and?0otherwise.(1)
規(guī)則(1)中x(i,j)表示鄰接矩陣中i行與j列的關(guān)聯(lián)值,y(i,j)表示二值化后的值,
規(guī)則(1)表示當(dāng)鄰接矩陣中行與列的關(guān)聯(lián)值滿足大于等于1時,二值化后的值為1,否則,二值化后的值為0;
步驟S4、創(chuàng)新主題挖掘階段:
步驟S4.1、基于二值化處理后的鄰接矩陣,繪制專利主題網(wǎng)絡(luò)圖,
步驟S4.2、利用結(jié)構(gòu)洞度量算法,根據(jù)不同主題占據(jù)專利主題網(wǎng)絡(luò)圖的結(jié)構(gòu)洞數(shù)量,挖掘?qū)@夹g(shù)領(lǐng)域A的創(chuàng)新主題,這一過程具體包括:
首先,使用Burt提出的結(jié)構(gòu)洞度量算法進行結(jié)構(gòu)洞度量,分析得出的度量結(jié)果,
隨后,使用Freeman提出的中介中心度算法度量節(jié)點的結(jié)構(gòu)洞數(shù)量,分析得出的結(jié)果,
再隨后,使用皮爾遜積矩相關(guān)系數(shù),對結(jié)構(gòu)洞度量算法得出的結(jié)果與中介中心度算法得出的結(jié)果進行相關(guān)性判別,
最后,根據(jù)判別結(jié)果,得到不同主題占據(jù)專利主題網(wǎng)絡(luò)圖的結(jié)構(gòu)洞數(shù)量,進而挖掘?qū)@夹g(shù)領(lǐng)域A的創(chuàng)新主題。
2.根據(jù)權(quán)利要求1所述的一種專利技術(shù)領(lǐng)域的創(chuàng)新主題挖掘方法,其特征在于,專利文獻來自于專利數(shù)據(jù)庫Total?Patent,每個專利文獻包括標(biāo)題、摘要、IPC分類號、權(quán)利要求四部分信息。
3.根據(jù)權(quán)利要求2所述的一種專利技術(shù)領(lǐng)域的創(chuàng)新主題挖掘方法,其特征在于,執(zhí)行步驟S1時,對獲取的專利文獻進行預(yù)處理的具體操作為:
基于獲取的專利文獻,首先對其語料進行分詞,然后去除停用詞、詞干還原,最后去除標(biāo)點符號、特殊符號和數(shù)字。
4.根據(jù)權(quán)利要求3所述的一種專利技術(shù)領(lǐng)域的創(chuàng)新主題挖掘方法,其特征在于,執(zhí)行步驟S1時,構(gòu)建向量空間模型的具體操作為:
基于預(yù)處理完成的專利文獻,確定特征詞數(shù)量;
將預(yù)處理后的語料轉(zhuǎn)換為詞頻TF矩陣;
將詞頻TF矩陣轉(zhuǎn)換成逆文本詞頻IDF矩陣;
將詞頻TF矩陣與逆文本詞頻IDF矩陣相乘,生成TF-IDF矩陣,該TF-IDF矩陣即為向量空間模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮云信息技術(shù)股份公司,未經(jīng)浪潮云信息技術(shù)股份公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110233670.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。