[發明專利]一種語義關系密切度的計算方法有效
| 申請號: | 201410472805.6 | 申請日: | 2014-09-16 |
| 公開(公告)號: | CN104317783B | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 張輝;陳勇;劉瑞 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京汲智翼成知識產權代理事務所(普通合伙)11381 | 代理人: | 陳曦,符浩 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 關系 密切 計算方法 | ||
1.一種語義關系密切度的計算方法,其特征在于包括如下步驟:
S1,對文檔進行分詞處理,并對處理后獲得的詞語集合進行過濾,過濾掉非名詞以及無實意的常用名詞;
S2,將過濾后的詞集根據在文本中的位置信息進行加權處理,計算其共現頻度權值;
S3,根據兩個詞語之間的平均權值,計算兩個詞語之間的語義關系密切度;所述兩個詞語之間的語義關系密切度值,通過公式求得;
其中,Count(K)為在文檔集合中出現特征詞K的次數,left為限定共現詞的左邊作用范圍;right為限定共現詞的右邊作用范圍;CoCount(K,W)為特征詞K和目標詞W的共現頻度權值。
2.如權利要求1所述的語義關系密切度的計算方法,其特征在于:
文本中的位置信息包含詞語之間相隔的詞數和分隔符組成的懲罰距離。
3.如權利要求1所述的語義關系密切度的計算方法,其特征在于:
在S2中,所述共現頻度權值通過公式CoCount(K,W)=e-μ*wdd(dis,flag)求得;
其中,K是特征詞,W是目標詞,e為自然常數,μ為正常數,用于調節曲線的平滑度,wdd(dis,flag)表示兩個詞語之間的距離權值函數;
其中,dis表示K和W之間相距離的詞數;flag表示詞語K和W之間因段落及標點符號形成的懲罰值之和。
4.如權利要求3所述的語義關系密切度的計算方法,其特征在于:
所述兩個詞語之間的距離權值函數wdd(dis,flag)通過公式求得;
其中,left,right是特征詞的作用范圍,L是調節權值遞減速度的參數。
5.如權利要求1或3所述的語義關系密切度的計算方法,其特征在于:
在S2中,根據詞語間標點符號的不同設置不同的懲罰值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410472805.6/1.html,轉載請聲明來源鉆瓜專利網。





