[發明專利]一種專利技術領域的創新主題挖掘方法在審
申請號: | 202110233670.8 | 申請日: | 2021-03-03 |
公開(公告)號: | CN113297839A | 公開(公告)日: | 2021-08-24 |
發明(設計)人: | 玄洪升;李明明;潘心冰;顧英健;郭保榮 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
主分類號: | G06F40/216 | 分類號: | G06F40/216 |
代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 馮春連 |
地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 專利技術 領域 創新 主題 挖掘 方法 | ||
本發明公開一種專利技術領域的創新主題挖掘方法,涉及數據挖掘技術領域,包括:獲取并預處理專利技術領域的專利文獻,構建向量空間模型;基于困惑度的方法確定最優主題數,構建LDA主題模型,并生成文檔?主題矩陣和主題?特征詞矩陣;針對主題?特征詞矩陣,利用四分位數法得到四分化主題?特征詞概率分布矩陣;對四分化主題?特征詞概率分布矩陣進行關聯統計,得到主題間相同特征詞來構建鄰接矩陣,定義鄰接矩陣的二值化規則,完成鄰接矩陣的二值化處理;基于二值化的鄰接矩陣,繪制專利主題網絡圖,利用結構洞度量算法,根據不同主題占據專利主題網絡圖的結構洞數量,挖掘專利技術領域的創新主題。本發明可以挖掘專利技術領域的新主題。
技術領域
本發明涉及數據挖掘技術領域,具體的說是一種專利技術領域的創新主題挖掘方法。
背景技術
專利技術主題發現對于快速整體掌握領域技術研究熱點、技術創新發展決策和行業投資規劃有重要借鑒意義。國內外研究人員將結構洞理論應用于專利數據的研究并取得很多有效的科研成果,其中重要的研究成果多表現在利用結構洞理論對專利情報網絡圖進行分析,從網絡中發掘有價值的情報信息及其所在位置。非均衡演進特征是結構洞在創新網路中的主要表現,具體表現兩種重要的態勢,態勢一為小型結構洞的特征出現在創新網絡的早期;態勢二為極少數大型結構洞與大量小型結構洞并存在創新網絡的中后期。調整分析的研究結果表明一種正向作用,這種正向作用分為兩種情況,情況一是提高結構洞的非均衡化水平將會提高技術創造性程度更高的技術創新的產出;情況二是提高結構洞的平均水平將會提高技術創造性程度較低的技術創新的產出。
既有的研究表明,結構洞的理論和方法對專利情報分析領域有重要的應用價值,可以發現網絡結構中隱藏的知識等。
發明內容
本發明針對目前技術發展的需求和不足之處,提供一種專利技術領域的創新主題挖掘方法,通過將LDA(Latent?Dirichlet?Allocation)主題模型與結構洞理論相結合,為挖掘專利技術領域的創新方向提供新思路。
本發明的一種專利技術領域的創新主題挖掘方法,解決上述技術問題采用的技術方案如下:
一種專利技術領域的創新主題挖掘方法,其實現包括:
步驟S1、數據準備階段:獲取專利技術領域A的專利文獻,對獲取的專利文獻進行預處理,構建向量空間模型;
步驟S2、數據處理階段:首先,基于困惑度的方法確定最優主題數,構建LDA主題模型,并生成文檔-主題矩陣和主題-特征詞矩陣;隨后,針對主題-特征詞矩陣,利用四分位數法將每個主題下的特征詞按照概率值降序排列,并選擇前四分之一的特征詞,得到四分化主題-特征詞概率分布矩陣;
步驟S3、鄰接矩陣二值化階段:對四分化主題-特征詞概率分布矩陣進行關聯統計,得到主題間相同特征詞來構建鄰接矩陣,并通過定義鄰接矩陣的二值化規則,完成鄰接矩陣的二值化處理;
步驟S4、創新主題挖掘階段:基于二值化處理后的鄰接矩陣,繪制專利主題網絡圖,利用結構洞度量算法,根據不同主題占據專利主題網絡圖的結構洞數量,挖掘專利技術領域A的創新主題。
可選的,所涉及專利文獻來自于專利數據庫Total?Patent,每個專利文獻包括標題、摘要、IPC分類號、權利要求四部分信息。
可選的,執行步驟S1時,對獲取的專利文獻進行預處理的具體操作為:
基于獲取的專利文獻,首先對其語料進行分詞,然后去除停用詞、詞干還原,最后去除標點符號、特殊符號和數字。
進一步可選的,執行步驟S1時,構建向量空間模型的具體操作為:
基于預處理完成的專利文獻,確定特征詞數量;
將預處理后的語料轉換為詞頻TF矩陣;
將詞頻TF矩陣轉換成逆文本詞頻IDF矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110233670.8/2.html,轉載請聲明來源鉆瓜專利網。