[發明專利]一種基于說明書的專利分類方法有效
| 申請號: | 201710082677.8 | 申請日: | 2017-02-16 |
| 公開(公告)號: | CN107122382B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 朱玉全;金健;佘遠程;石亮 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 說明書 專利 分類 方法 | ||
1.一種基于說明書的專利分類方法,其特征在于,包括以下步驟:
步驟1,獲取專利文本的數據,對專利說明書進行文本預處理;
步驟2,統計出每個詞的詞頻、位置信息、詞性權重以及類間分布信息,利用這些統計值以及專利說明書的文本信息,構建倒排索引文件;
步驟3,利用信息增益和詞頻相結合的特征選擇方法來計算詞語的特征值,對特征值排序,選擇一定數量的特征詞來表征專利說明書的文本;
所述步驟3中特征值的計算過程為:
設Aij為包含特征詞ti并且屬于cj的文檔數量,Bij為包含特征詞ti并且類別不屬于cj的文檔數量,Cij為不包含特征詞ti并且類別屬于cj的文檔數量,Dij為不包含特征詞ti并且類別屬于不cj的文檔數量,則特征值的計算如式(1)所示:
其中,TF代表專利中詞頻對于專利特征選擇的影響程度;設m為訓練專利中類別總數,Nj表示cj類中的專利總數,TFjk表示特征詞ti在cj類中專利Pk中的詞頻,則TF的計算如式(2)所示:
式(1)中的IC代表特征詞在類別間的分散程度,越分散說明該詞越沒有代表性,值也就越??;設TFj(ti)表示特征詞ti在類cj中的頻數,TF(ti)表示特征詞ti的總頻數,表示特征詞ti在所有類中出現的頻數平均值,則計算如式(3)所示:
步驟4,利用倒排索引文件,計算每個專利特征詞的權重,然后利用的改進過的TF-IDF公式計算特征詞權重,最后構建專利特征向量;
所述步驟4的具體過程為:
步驟4.1,權重計算,計算如式(4)所示:
其中,表示特征詞t在文本中出現的頻率,N表示全部專利樣本集中所有專利的個數,n表示全部專利樣本集中出現特征詞t的專利個數,Ct表示特征詞詞性所對應的詞性權重系數,Pt表示特征詞的位置權重系數;
步驟4.2,排序,根據權重降序排序,構造專利說明書的文本的空間模型向量Vi(wi1,wi2,...,win),以此來表示每個專利說明書的文本的內容;
步驟5,生成IPC各層次類別特征向量,在步驟1基礎上,從小類開始逐層向上,計算每個詞匯在對應層次的類別權重,權重的計算使用TF-IDF,將一個類別描述看作一個文本,然后構建各層次的類別特征向量;
所述步驟5的具體過程為:
步驟5.1,將各子組的類別描述并入所屬主組的類別描述,進行分詞、去停用詞處理;
步驟5.2,將每個主組的描述合并后進行特征選擇,構造IPC小類層次的類別特征向量,向量表示為{VA01B1/00,VA01B3/00,...,VH99Z99/00};其中,A01B1/00為IPC中第一個主組,H99Z99/00為IPC中最后一個主組;
步驟5.3,將同一個小類下的所有基本描述合并后進行特征選擇,構造IPC大類層次的類別特征向量,向量表示為{VA01B,VA01C,...,VH99Z};其中,A01B為IPC中第一個小類,H99Z是IPC中最后一個小類;
步驟5.4,將同一大類下的所有基本描述合并后進行特征選擇,構造IPC部層次的類別特征向量,向量表示為{VA01,VA21,...,VH99};其中,A01為IPC中第一個大類,H99Z是IPC中最后一個大類;
步驟6,構建專利樣本鄰域,利用步驟4中的專利特征向量,計算每個專利與其他專利之間相似度,對這些專利相似度進行排序,選擇其中相似度最大的K個專利,組成該專利的鄰域集合;
所述步驟6的具體過程為:
步驟6.1,計算專利訓練集中各專利之間的相似度;相似度可以通過計算向量間的夾角余弦得到;設sim(di,dj)表示專利說明書的文本di與dj的相似度,則計算公式如式(5)所示:
其中,Wik和Wjk表示專利向量中對應特證詞的權重,n表示向量的維數;
步驟6.2,將di與其他所有專利樣本dj的相似度按降序排序,選擇前K個專利樣本形成集合Di,Di稱作為專利di的鄰域,K的值視具體情況而定;
步驟7,計算待分類專利向量與IPC類別特征向量以及與訓練集專利之間的余弦相似度值,同樣計算出待分專利的鄰域集合;
步驟8,首先計算待分類專利與訓練集中專利之間共享領域的大小,即計算鄰域集合中相同專利的個數;然后計算待分專利與專利類別間的相似度加權和,對加權和排序后,將待分專利劃分為值最大的那個類中;
所述步驟8的具體過程為:
步驟8.1,計算待分類專利Bj與樣本專利di之間的共享領域大小L(Bj,di),即兩個領域集合中相同專利的個數;
步驟8.2,計算待分類專利與各個IPC類別間的最終加權相似度,計算公式如式(6)所示:
其中,I表示類別,p,k,α,β為可調參數,系統默認情況下,p為0.8,k為0.95,α為0.6,β為5;
步驟8.3,將待分類專利歸入相似度S(i)最大的類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710082677.8/1.html,轉載請聲明來源鉆瓜專利網。





