[發明專利]一種基于知識發現的技術競爭及專利預警分析方法在審
| 申請號: | 201710064192.6 | 申請日: | 2017-02-04 |
| 公開(公告)號: | CN106897392A | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 柳先輝;陳宇飛;王新梅;洪晶;趙衛東 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/18 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙)31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 發現 技術 競爭 專利 預警 分析 方法 | ||
1.一種基于知識發現的技術競爭及專利預警分析方法,其特征在于,具體步驟包括:
步驟1數據提取階段,建立專題數據庫,對知識產權數據庫和產業領域知識進行抽取分析,得到專利專題數據庫。
步驟2數據預處理階段,其步驟包括:
采用向量空間模型(VSM),基本思想是將特征詞從專利文件中抽取出來,不考慮專利文件結構和詞序語義。首先提取專利的標題和摘要,再進行中文分詞、詞性標注、合并同義詞、去停用詞。專利文件由特征詞組成的一個特征向量表示,記作Vi=(di1,di2,...,dim),其中di1表示第一個特征詞在專利文件i中的權重。對于n個專利文件,形成一個m×n專利特征矩陣D,D=[dij]m×n。由于專利文本和特征詞數量大,而在某個確定的專利文件中出現的特征詞有限,所以這里dij的計算采用TF-IDF方法,其中fij表示第i個特征詞出現在第j個專利文件中的頻度,pi表示含有第i個特征詞的專利文件數量。
步驟3數據挖掘階段:對形成的專利特征矩陣,應用SOM神經網絡方法和GMM混合高斯模型相結合的方法進行聚類,得到聚類結果,聚類得到的專利集合對應著不同主題的專利文件。
步驟3.1對專利向量文本進行SOM自組織學習訓練,得到輸出結點向量集Y。SOM神經網絡,將高維向量映射為低維向量時保持向量內部拓撲結構不變的特性,將高維的專利文本數據映射到二維平面空間。
SOM神經網絡模型由輸入層和輸出層組成,輸出層即競爭層。輸入層神經元個數對應專利文件的維度即特征詞數量m,輸出層神經元個數這里定義為a,這里將競爭層神經元排列成二維陣列形式。輸入與輸出層為全連接,輸出層之間為側向交互連接以相互作用。SOM模型實現步驟為五步:初始化,競爭層神經元相互競爭,競爭層神經元相互合作,神經元權值自適應,迭代直至收斂。
(1)初始化:輸入與輸出層為全連接,需要對每個突觸賦初始權值,通常選擇[0,1]內的小隨機數,以實現無監督映射,得到權值矩陣W=[wij]m×a。
(2)競爭層神經元相互競爭:對于輸入向量Vi,競爭層神經元根據判別函數產生獲勝神經元。這里設置判別函數為余弦相似度度量函數,對于競爭層神經元b,相似度Sb為:
計算得S=[s1,...,sa],選取S中最小值,其對應的即為獲勝神經元。
(3)競爭層神經元相互合作:獲勝神經元鄰近的神經元容易被激活,所以需要定義激活的領域范圍,μ表示被激活的神經元,i表示獲勝神經元,σ表示鄰域寬度(隨時間增加而減小),τ1是時間常數,t是離散時間變量(0,1,2,...)。鄰域公式定義如下:
(4)神經元權值自適應:η(t)表示學習率參數(隨時間t增加而減小),η0為初始值,τ2是時間常數。權值向量W的更新公式定義如下:
wj(t+1)=wj(t)+η(t)δμ,i(x(t)-wj(t)),
(5)迭代直至收斂:不斷選取新的專利特征向量重復以上步驟,迭代訓練直至達到指定迭代次數或者輸出的二維映射趨于穩定。最后得到輸出層為保持高維內部拓撲結構的二維平面上的n個點X(xi,yi),具有低維可視化性能。
步驟3.2用GMM混合高斯模型對X進行直接聚類,將其劃分為K類。GMM模型實現步驟為四步:初始化GMM模型,E步求數據點由各個高斯成分生成的概率,M步更新GMM模型參數,迭代直至收斂。
(1)初始化GMM模型:有n個樣本點,劃分為K類。則GMM模型由K個高斯分布組成,每一個高斯分布稱為一個高斯成分,由他們線性組合成GMM混合模型,這里μk為均值向量初始化零,∑k為協方差向量初始化為一個任意大的正數乘以單位矩陣,πk初始化為1/n,概率密度函數和最大似然函數公式如下:
(2)E步已知μk,∑k,πk,求樣本點由各個高斯成分生成的概率:
(3)M步已知γ(i,k),更新GMM模型參數:
(4)迭代(2)(3)步驟,至最大似然函數收斂或者達到最大收斂次數。GMM最終得到每個樣本點被分到所有類別的概率,選取概率最大的作為其分類k。
步驟4結果解釋分析階段,對聚類之后的專利進行分析,每一類專利代表著不同的主題,專利主題內部相似度高。具體包括:專利預警、專利主題戰略坐標分析、專利主題生命周期分析。專利預警:用戶設定參數,具體有檢索式、待預警的文件、接收預警的聯系方式、預警閾值。待預警的文件:是企業的研發或者產品技術特征說明書;被檢專利即通過檢索式在對知識產權數據庫和產業領域知識庫中檢索到的已公開專利和文獻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710064192.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文件存儲方法及裝置
- 下一篇:圖書管理方法及用戶終端





