[發(fā)明專利]改進的基于語義分析的文本相似度求解算法在審
| 申請?zhí)枺?/td> | 201610864853.9 | 申請日: | 2016-09-29 |
| 公開(公告)號: | CN106610951A | 公開(公告)日: | 2017-05-03 |
| 發(fā)明(設計)人: | 金平艷 | 申請(專利權)人: | 四川用聯(lián)信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 改進 基于 語義 分析 文本 相似 求解 算法 | ||
1.改進的基于語義分析的文本相似度求解算法,本發(fā)明涉及語義網(wǎng)絡技術領域,具體涉及一種改進的基于語義分析的文本相似度求解算法,其特征是,包括如下步驟:
步驟1:初始化文本語料庫模塊,對待比較文本的進行預處理,其具體處理過程如下:
綜合分詞和刪除停用詞技術,中文文本預處理過程流程圖如圖2
這里分詞方法利用一種基于信息論中文自動分詞算法,其具體分詞和去停用詞處理步驟如下:
步驟1.1:利用停用表分別對文本進行去停用詞處理
步驟1.2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,其具體描述如下:
把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進行查找匹配,遇到字典里有的詞就標識出來;如果詞典中不存在相關匹配,就簡單地分割出單字作為詞;直到漢字串為空
步驟1.3:依據(jù)概率統(tǒng)計學,將待分詞句子拆分為網(wǎng)狀結構,即得n個可能組合的句子結構,把此結構每條順序節(jié)點依次規(guī)定為,其結構圖如圖3所示
步驟1.4:基于信息論方法,給上述網(wǎng)狀結構每條邊賦予一定的權值,其具體計算過程如下:
根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數(shù)為,即n條路徑詞的個數(shù)集合為
得
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權重大小
在統(tǒng)計語料庫中,計算每個詞的信息量,再求解路徑相鄰詞的共現(xiàn)信息量,既有下式:
上式為文本語料庫中詞的信息量,為含詞的文本信息量
上式為在文本語料庫中的概率,n為含詞的文本語料庫的個數(shù)
上式為含詞的文本數(shù)概率值,N為統(tǒng)計語料庫中文本總數(shù)
同理
為在文本語料庫中詞的共現(xiàn)信息量,為相鄰詞共現(xiàn)的文本信息量
同理
上式為在文本語料庫中詞的共現(xiàn)概率,m為在文本庫中詞共現(xiàn)的文本數(shù)量
為文本庫中相鄰詞共現(xiàn)的文本數(shù)概率
綜上可得每條相鄰路徑的權值為
步驟1.5:找到權值最大的一條路徑,即為待分詞句子的分詞結果,其具體計算過程如下:
有n條路徑,每條路徑長度不一樣,假設路徑長度集合為
假設經(jīng)過取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n,即剩下(n-m)路徑,設其路徑長度集合為
則每條路徑權重為:
上式分別為第1,2到路徑邊的權重值,根據(jù)步驟1.4可以一一計算得出,為剩下(n-m)路徑中第條路徑的長度
權值最大的一條路徑:
步驟2:基于信息論方法,計算詞匯在文本中權重值,其具體計算過程如下:
基于信息論詞頻的計算公式有:
上式為詞匯關于詞頻在文檔中所具有的信息量,分別為詞、在文本中的概率值
基于信息論文檔頻率的計算公式有:
為詞匯關于文檔頻率在文檔庫中所具有的信息量,為分別含有、的文檔數(shù),N為文檔庫中文檔的總個數(shù)
綜上所述,有基于信息論計算詞匯權重的函數(shù),歸一化后,如下式:
步驟3:根據(jù)詞匯位置信息和詞性,計算詞匯在文本中的權重值
步驟4:綜合考慮上述三因子,構造提取文本中的特征值目標函數(shù),分別提取文本中的特征值
步驟5:利用詞匯語義相似度對上述得到的特征詞匯集合進行降維處理
步驟6:根據(jù)皮爾森相關系數(shù)求解待比較文本間的文本相似度,其具體計算過程如下:
根據(jù)步驟4計算得出的特征詞匯權重值,相關領域專家選取前m位關鍵詞,這里m<20,既分別有文本對應的特征詞向量
文本對應的特征詞的平均權重函數(shù)為:
同理,文本對應特征詞的平均權重函數(shù)為:
根據(jù)皮爾森相關系數(shù),即可得文本間的文本相似度,有下式:
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯(lián)信息技術有限公司,未經(jīng)四川用聯(lián)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610864853.9/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種改進的文本相似度求解方法
- 下一篇:一種混合的文本特征詞匯提取方法





