[發明專利]基于點互信息的文本語義相似性度量方法有效
| 申請號: | 201910081764.0 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109840325B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 牛奉高;趙霞 | 申請(專利權)人: | 山西大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/194;G06F16/33;G06F16/35 |
| 代理公司: | 太原申立德知識產權代理事務所(特殊普通合伙) 14115 | 代理人: | 程園園 |
| 地址: | 030006 山*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 互信 文本 語義 相似性 度量 方法 | ||
本發明屬文本主題聚類技術領域,具體涉及一種基于點互信息的文本語義相似性度量方法,本發明基于共現潛在語義向量空間模型,利用點互信息對關鍵詞間的潛在語義相似關系進一步提取,使原本沒有共現關系的兩個關鍵詞,通過構建關鍵詞共現向量,進一步提取挖掘了關鍵詞間的潛在語義相似關系,使語義提取更加充分,建立基于點互信息的文本語義相似性度量方法,該方法的應用將有效提高文本聚類、信息檢索的精度,降低檢索成本。
技術領域
本發明屬文本主題聚類技術領域,本發明是利用點互信息對關鍵詞間的潛在語義相似關系進一步提取,建立了基于點互信息的文本語義相似性度量方法,該方法的應用將有效提高文本聚類、信息檢索的精度,降低檢索成本。
背景技術
隨著計算機網絡技術的快速發展和普及,大量以書面形式存在的文本信息被轉換成電子文本的形式儲存及傳遞。當信息產生和傳遞的效率加速提升時,就產生了信息爆炸,人類社會進入大數據時代。在大數據信息爆炸的時代,文獻資源得到了極大的豐富,資源檢索精度下降,檢索成本增加,而人們迫切希望從海量的信息中獲取與自身需要和興趣吻合度高的內容。為了滿足此需求,出現了多種應用,如搜索引擎、自動問答系統、文檔分類與聚類、文獻精準推送等,而這些應用場景的關鍵技術就是語義相似度計算。在文本分類和聚類領域,語義相似度的計算起著重要的作用,只有充分、準確的提取挖掘文本中詞與詞之間的語義信息,才能使詞之間相似度的度量達到精準,進而更好的對文本進行分類、聚類,以達到理想的效果。
向量空間模型(VSM)于1997年由Salton G提出,該模型的提出使文本分類、聚類領域有了新的突破。作為文本表示向量的經典模型,它將文獻映射成文本空間中的一個高維稀疏的向量,通過度量向量之間的相似性來衡量文獻間的相似性。但是該模型忽略了關鍵詞間的語義關系,認為關鍵詞間不存在語義上的聯系,造成文本聚類精度的不高。之后,牛奉高等提出共現潛在語義向量空間模型(CLSVSM),該模型通過提取特征詞之間的潛在共現信息來實現對布爾模型的補充,最終得出CLSVSM相比于VSM有更好的聚類效果。進一步說明文本聚類中提取語義的必要性。
發明內容
本發明針對文本聚類、信息檢索精度不高和檢索成本高的技術問題,提供了一種基于點互信息的文本語義相似度處理方法,
為解決上述技術問題,本發明采用的技術方案為:基于點互信息的文本語義相似度處理方法,包括以下步驟:
步驟1:根據收集到的文獻數據,提取文獻所含關鍵詞;
步驟2:統計關鍵詞詞頻,并以關鍵詞詞頻為主要關鍵字進行降序排列;
步驟3:由詞頻統計表生成文獻-關鍵詞矩陣A=(aij)n×m,即篇詞矩陣,用來表現文獻和關鍵詞之間的關系;矩陣的行向量表示文獻,共有n篇,列向量表示關鍵詞,共有m個,矩陣中元素aij的取值表示關鍵詞j是否在第i篇文獻中出現,出現值為1,否則為0,即篇詞矩陣中的元素非0即1,為布爾權重;
步驟4:由篇詞矩陣生成關鍵詞-關鍵詞矩陣D=ATA,即共現矩陣,用來表現兩兩關鍵詞共同出現的情況;其中,當i≠j時,dij為第i個關鍵詞與第j個關鍵詞的共現頻次,當i=j時,dii為第i個關鍵詞的總頻次;
步驟5:由點互信息的定義式和共現矩陣中關鍵詞間的共現頻次數據來度量任意兩個關鍵詞間的點互信息PMI;設有關鍵詞x和y,則兩關鍵詞間的點互息PMI(x,y)為:
式中P(x,y)表示關鍵詞x和y共同出現的概率,p(x),p(y)分別表示關鍵詞x和y單獨出現的概率,n表示兩關鍵詞共同出現的頻次,N表示所收集文獻中關鍵詞的總個數,X和Y分別表示關鍵詞x和y單獨出現的頻次;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910081764.0/2.html,轉載請聲明來源鉆瓜專利網。





