[發明專利]一種科技項目相似度計算方法有效
| 申請號: | 201310508199.4 | 申請日: | 2013-10-24 |
| 公開(公告)號: | CN103631858B | 公開(公告)日: | 2017-07-21 |
| 發明(設計)人: | 徐小良;林建海;楊文顯;陳秋 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙)33240 | 代理人: | 杜軍 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 科技 項目 相似 計算方法 | ||
1.一種科技項目相似度計算方法,其特征在于包括如下步驟:
步驟1.針對待查重的項目申請書的規范簡潔的特點,提出一種規則模型進行識別未登錄詞;
所述的未登錄詞的識別是基于碎片的,將分詞后產生的碎片與碎片兩端的多字詞定義為未登錄詞候選片段,表示為WsC1C2…CnWe,其中Ws是與碎片左端相鄰的多字詞,C1C2…Cn為產生的碎片,We是與碎片右端相鄰的多字詞;規則模型如下:
規則一:確定字詞的第一詞性;所述的第一詞性指詞性標注的第一個字詞;
規則二:設置未登錄詞排除字集;碎片中會存在詞性為介詞、助詞、代詞、副詞的單字,這些詞的構詞能力很弱,不與其它字串構成未登錄詞的概率大于90%;
規則三:設置切分規則;未登錄詞候選片段對于未登錄詞片段WsC1C2…CnWe中的Ci根據規則二,確定為排除字,那么未登錄詞片段被切分為WsC1…Ci-1與Ci+1…CnWe兩個未登錄詞片段,其中,1<i<n,n為自然數;
規則四:設置前綴字集;對于未登錄詞片段WsC1C2…CnWe中的Cn進行前綴字判斷;
規則五:設置后綴字集;對于未登錄詞片段WsC1C2…CnWe中的Cn進行后綴字判斷;規則六:設置詞性配搭規則,具體如下:
(1).若未登錄詞候選片段如WsC1We,C1的第一詞性為形容詞,若We為名詞,則優先與We結合;若未登錄詞候選片段如WsC1,Ws為名詞,WsC1不成詞,否則成詞;若未登錄詞候選片段如C1We,We為動詞,C1We不成詞,否則,成詞;
(2).若未登錄詞候選片段如WsC1We,C1的第一詞性為動詞,若We為動詞或名詞,那么C1優先與Ws結合;若未登錄詞候選片段為C1We,We為形容詞,則C1We不成詞,否則成詞;若未登錄詞候選片段如WsC1,Ws為名詞,WsC1不成詞,否則成詞;
(3).若未登錄詞候選片段如WsC1We,C1的第一詞性為名詞,若Ws,We都為名詞,則C1優先與Ws結合,若只有Ws或We為名詞,則優先與Ws或We結合;若未登錄詞候選片段如WsC1或C1We,則結合成WsC1或C1We;
(4).若未登錄詞候選片段如WsC1We,C1的第一詞性為其它詞性,C1優先與Ws結合;
對未登錄詞候選片段WsC1C2…CnWe進行未登錄詞識別的規則模型,其描述如下:
1)若n=1,根據規則二,若C1是排除字或者數詞,則識別結束;否則轉3);
2)若n>=2,根據規則二,若C1是排除字,則未登錄詞候選片段變成C2…CnWe,轉6);根據規則五,若C1是后綴字,則取出未登錄詞WsC1,未登錄詞候選片段變成C2…CnWe,轉6);根據規則六,若C1是數詞,則轉7);否則轉8);
3)根據規則四,若C1是前綴字,則取出未登錄詞C1We,識別結束;否則轉4);
4)根據規則五,若C1是后綴字,則取出未登錄詞WsC1,識別結束;否則轉5);
5)根據規則六詞性配搭,識別出未登錄詞;
6)取下一個Ci,若i=n,根據規則二,若Ci是排除字或數詞,識別結束;根據規則四,若Ci是前綴字,則取出未登錄詞CnWe,識別結束;否則,識別結束;若i<n,根據規則二,若Ci是排除字,則未登錄詞候選片段變成Ci+1…CnWe,轉6);根據規則六,若Ci是數詞,轉7);否則轉8);
7)取下一個Ci,若i=n,根據規則六,若Ci是數詞或量詞前綴字,取出Cn-1Cn,作為數詞,識別結束;根據規則四,若Ci是前綴字,則取出未登錄詞CnWe,識別結束;否則識別結束;若i<n,根據規則六,若Ci是數詞,量詞前綴字,量詞,轉7);否則,轉8)
8)取下一個Ci,若i=n,根據規則二,Ci是排除字或數詞,則取出Cn前面的單字作為未登錄詞,識別結束;根據規則四,若Ci是前綴字,則取出Cn前面的單字為未登錄詞,CnWe也作為未登錄詞,識別結束;否則,識別出We前面的單字作為未登錄詞,識別結束;若i<n,根據規則二,若Ci是排除字,取出Ci前面的單字,根據規則三,若為一個,不作為未登錄詞,否則作為未登錄詞,未登錄詞候選片段變成Ci+1…CnWe,轉6);否則轉8);
步驟2.根據詞在申請書中的詞性、出現的位置、詞長、詞頻及語義信息獲得關鍵詞,與步驟1得到的未登錄詞組成項目的特征詞;
所述的關鍵詞獲得過程如下:
首先獲得詞語的統計信息值statsi,然后再構建詞語網絡并計算得到詞語的節點綜合特征值CFi,最后計算得到所有詞語的權重值weighti并按大小排序得到權重值大于γ的詞語為項目的關鍵詞,其中γ為閾值,0<γ<1;詞語的權重值計算公式如下:
weighti=α×statsi+β×CFi,其中α+β=1,α=0.4,β=0.6;i表示詞語的序列號;
所述的詞語是項目申請書分詞中識別未登錄詞之后剩下的詞語;
所述的詞語的統計信息值計算過程如下:
首先計算詞語在申請書文本中的詞頻權重frei:
其中fi為詞語在申請書出現的次數;
其次計算詞語在申請書文本中的詞長權重leni:
其中L為詞語的長度;
然后計算詞語在申請書文本中的詞性權重posi:
最后計算詞語在申請書文本中的位置權重loci:
對于項目申請書中的每個詞,其統計信息值為:
statsi=α×frei+β×leni+λ×posi+η×loci
其中α+β+λ+η=1,α=0.2,β=0.1,λ=0.2,η=0.5;
所述的語義信息就是詞語網絡中的節點綜合特征值,其計算過程如下:
首先計算詞的語義關系和詞的共現關系;詞的語義關系是利用知網計算詞語間相似度的方法得到,所有的詞的語義關系表示為語義相似度矩陣:
其中,sim(ci,cj)為詞Ci與詞Cj的語義相似度,sim(ci,ci)為1,sim(ci,cj)=sim(cj,ci);
詞的共現關系是利用滑動窗口對申請書的詞語進行詞語共現度計算得到,其中滑動窗口長度為3,所有的詞的共現關系表示為詞語共現度矩陣:
其中Coo(Ci,Cj)為詞Ci與詞Cj的詞語共現度;
然后構建帶權詞語網絡:
CW為輸入的詞語集合,Wm為權值矩陣,則其對應的帶權詞語網絡定義為:G={V,E,W};其中,G為無向加權圖;V={Vi|i=1,2,…,m}為G中的頂點集;E={(vi,vj)|vi,vj∈V}表示G中的邊集;W={Wij|(vi,vj)∈E}表示邊的權值的集合;
其中權值矩陣Wm為:
其中,α為0.3,β為0.7,W(Ci,Cj)為詞Ci與詞Cj之間邊的權值;
最后計算帶權詞語網絡中的每個節點綜合特征值CFi:
其中α為調節參數,α取0.2;CJi、CJj為節點的聚集系數,WDi為節點的加權度;
節點的聚集系數計算如下:
在帶權詞語網絡中,節點Vi的度為Di=|{(vi,vj):(vi,vj)∈E,vi,vj∈V}|,節點Vi的聚集度為Ki=|{(vj,vk):(vi,vj)∈E,(vi,vk)∈E,vi,vj,vk∈V}|,節點的聚集系數為
頂點Vi的加權度WDi為
其中wij為頂點Vi所有的邊;
步驟3.對兩個申請書名稱中的特征詞進行語義與字面相似度計算;如果求和歸一化后的值低于γ,則項目不相似,結束檢測;否則轉步驟4;
所述的語義相似度是基于知網的相似度計算獲得的,它應用于特征詞中的關鍵詞部分,計算得到兩個申請書名稱中的關鍵詞部分相似度:
其中p,r分別為兩個申請書A,B名稱中的關鍵詞個數,w(tkw1i)為關鍵詞的權重,simimi為關鍵詞tkw1i和tkw2中與之最相似的詞的相似度,w(tkw2mi)為tkw2中與之最相似的詞的權重;
所述的字面相似度通過字詞匹配來計算,它應用于特征詞中的未登錄詞部分;計算公式如下:
其中v為未登錄詞的權重,m、n分別為兩個申請書名稱中的未登錄詞個數,tuw1i,tuw2j分別為申請書A、B項目名稱中的未登錄詞,
最后計算申請書名稱的相似度,它的值為申請書項目名稱的關鍵詞部分相似度值與未登錄詞部分相似度值的求和,歸一化得到;公式如下:
其中a,b分別為兩個申請書A,B項目名稱中的關鍵詞與未登錄詞的個數和,w1i、w2i分別為申請書A,B項目名稱中詞語的權重;
步驟4.對申請書主要內容中的相關詞權重進行加權計算;
所述的相關詞為:項目申請書主要研究內容中的詞語,若與題目中的詞語的語義相似度超過設定的閾值a,那么這些詞語就稱為相關詞;其中詞語的語義相似度是利用知網來計算;
所述的相關詞權重加權過程如下:
1).得到申請書名稱中的關鍵詞集合tkw和申請書主要內容中的關鍵詞集合ckw;
2).依次遍歷ckw中的詞,計算它與tkw中的詞的語義相似度;若它的值大于a,ckw中的詞權重相應作出改變,權重改進公式如下:
其中q為名稱中的關鍵詞集合詞的個數,
步驟5.對主要內容中的特征詞進行語義與字面相似度計算,得到兩個項目主要內容的相似度值;
所述的語義相似度是基于知網的相似度計算獲得的,它應用于特征詞中的關鍵詞部分,計算得到兩個申請書主要內容中的關鍵詞部分相似度:
其中p,r分別為兩個申請書A,B主要內容中的關鍵詞個數,w(ckw1i)為關鍵詞的權重,simimi為關鍵詞ckw1i和ckw2中與之最相似的詞的相似度,w(ckw2mi)為ckw2中與之最相似的詞的權重;
所述的字面相似度通過字詞匹配來計算,它應用于主要內容中的特征詞的未登錄詞部分;計算公式如下:
其中v為未登錄詞的權重,m、n分別為兩個申請書主要內容中的未登錄詞個數,cuw1i,cuw2j分別為兩個申請書主要內容中的未登錄詞,
最后計算申請書主要內容的相似度,它的值為申請書項目主要內容中的關鍵詞部分相似度值與未登錄詞部分相似度值的求和,歸一化得到;公式如下:
其中a,b分別為兩個申請書A,B項目主要內容中的關鍵詞與未登錄詞的個數和,w1i、w2i分別為申請書A,B主要內容中詞語的權重;
步驟6.對步驟3和步驟5的相似值加權求和得到兩個項目的相似度值;所述的項目的相似度計算如下:Sim(A,B)=α*Sim1(A,B)+β*Sim2(A,B)
其中a,β分別為權重參數,且a+β=1,a=0.35,β=0.65;
如果Sim(A,B)大于閾值χ,則兩個項目相似;否則不相似。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310508199.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種直插式模塊的安裝結構
- 下一篇:一種新型選煤廠用煤介混合桶





