[發明專利]基于點互信息的文本語義相似性度量方法有效
| 申請號: | 201910081764.0 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109840325B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 牛奉高;趙霞 | 申請(專利權)人: | 山西大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/194;G06F16/33;G06F16/35 |
| 代理公司: | 太原申立德知識產權代理事務所(特殊普通合伙) 14115 | 代理人: | 程園園 |
| 地址: | 030006 山*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 互信 文本 語義 相似性 度量 方法 | ||
1.基于點互信息的文本語義相似性度量方法,其特征在于:包括以下步驟:
步驟1:根據收集到的文獻數據,提取文獻所含關鍵詞;
步驟2:統計關鍵詞詞頻,并以關鍵詞詞頻為主要關鍵字進行降序排列;
步驟3:由詞頻統計表生成文獻-關鍵詞矩陣A=(aij)n×m,即篇詞矩陣,用來表現文獻和關鍵詞之間的關系;矩陣的行向量表示文獻,共有n篇,列向量表示關鍵詞,共有m個,矩陣中元素aij的取值表示關鍵詞j是否在第i篇文獻中出現,出現值為1,否則為0,即篇詞矩陣中的元素非0即1,為布爾權重;
步驟4:由篇詞矩陣生成關鍵詞-關鍵詞矩陣D=ATA,即共現矩陣,用來表現兩兩關鍵詞共同出現的情況;其中,當i≠j時,dij為第i個關鍵詞與第j個關鍵詞的共現頻次,當i=j時,dii為第i個關鍵詞的總頻次;
步驟5:由點互信息的定義式和共現矩陣中關鍵詞間的共現頻次數據來度量任意兩個關鍵詞間的點互信息PMI;設有關鍵詞x和y,則兩關鍵詞間的點互息PMI(x,y)為:
式中P(x,y)表示關鍵詞x和y共同出現的概率,p(x),p(y)分別表示關鍵詞x和y單獨出現的概率,n表示兩關鍵詞共同出現的頻次,N表示所收集文獻中關鍵詞的總個數,X和Y分別表示關鍵詞x和y單獨出現的頻次;
步驟6:在計算出關鍵詞間點互信息PMI(x,y)之后,構建一個與這兩個關鍵詞共同共現的關鍵詞共現向量C;
步驟7:利用關鍵詞共現向量,計算兩個關鍵詞間的潛在語義相似度:
其中向量C為上述構建的關鍵詞共現向量,w為關鍵詞共現向量中的元素,即與關鍵詞x和y共同共現的關鍵詞;
步驟8:構建語義增強的共現潛在語義向量空間模型:
其中,新模型各維的權重值為:
式中,ait表示第i篇文獻中第t個關鍵詞的布爾權重,Reljt表示第j,t個關鍵詞間的語義相似度;
至此完成了點互信息的文本語義相似度處理。
2.根據權利要求1所述的基于點互信息的文本語義相似性度量方法,其特征在于:所述步驟1中根據收集到的文獻數據,提取文獻所含關鍵詞,具體為:將收集到的文獻數據為經過預處理,去除文獻中的非關鍵詞,提取含關鍵詞的文獻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910081764.0/1.html,轉載請聲明來源鉆瓜專利網。





