[發明專利]基于全局優化關鍵詞質量的文本相似度求解算法在審
| 申請號: | 201610939853.0 | 申請日: | 2016-11-01 |
| 公開(公告)號: | CN106598940A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 金平艷 | 申請(專利權)人: | 四川用聯信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 全局 優化 關鍵詞 質量 文本 相似 求解 算法 | ||
1.基于全局優化關鍵詞質量的文本相似度求解算法,本發明涉及語義網絡技術領域,具體涉及基于全局優化關鍵詞質量的文本相似度求解算法,其特征是,包括如下步驟:
步驟1:利用中文分詞技術對兩文本進行分詞處理,其具體分詞技術過程如下:
步驟1.1:根據《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統的詞典里進行查找匹配,遇到字典里有的詞就標識出來;如果詞典中不存在相關匹配,就簡單地分割出單字作為詞;直到漢字串為空
步驟1.2:依據概率統計學,將待分詞句子拆分為網狀結構,即得n個可能組合的句子結構,把此結構每條順序節點依次規定為,其結構圖如圖2所示
步驟1.3:基于信息論方法,給上述網狀結構每條邊賦予一定的權值,其具體計算過程如下:
根據《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數為,即n條路徑詞的個數集合為
得
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權重大小,
在統計語料庫中,計算每個詞的信息量,再求解路徑相鄰詞的共現信息量,既有下式:
上式為文本語料庫中詞的信息量,為含詞的文本信息量
上式為在文本語料庫中的概率,n為含詞的文本語料庫的個數
上式為含詞的文本數概率值,N為統計語料庫中文本總數
同理
為在文本語料庫中詞的共現信息量,為相鄰詞共現的文本信息量
同理
上式為在文本語料庫中詞的共現概率,m為在文本庫中詞共現的文本數量
為文本庫中相鄰詞共現的文本數概率
綜上可得每條相鄰路徑的權值為
步驟1.4:找到權值最大的一條路徑,即為待分詞句子的分詞結果,其具體計算過程如下:
有n條路徑,每條路徑長度不一樣,假設路徑長度集合為
假設經過取路徑中詞的數量最少操作,排除了m條路徑,m<n,即剩下(n-m)路徑,設其路徑長度集合為
則每條路徑權重為:
上式分別為第1,2到 路徑邊的權重值,根據步驟1.4可以一一計算得出,為剩下(n-m)路徑中第條路徑的長度
權值最大的一條路徑:
步驟2:根據停用表對文本詞匯進行去停用詞處理,其具體描述如下:
停用詞是指在文本中出現頻率高,但對于文本標識卻沒有太大作用的單詞,去停用詞的過程就是將特征項與停用詞表中的詞進行比較,如果匹配就將該特
征項刪除
綜合分詞和刪除停用詞技術,中文文本預處理過程流程圖如圖3
步驟3:去停用詞操作后的文本關鍵詞集合為,每個關鍵詞在文本中的貢獻值看成一個多維向量,即,其具體計算過程如下:
目標向量:
上述為關鍵詞在文本庫中的權重函數:
上式為關鍵詞在文本中出現的次數,為文本的總長度,為文本庫中文本的總個數,為關鍵詞在庫中第j文本的信息量,為關鍵詞在庫中的平均信息量
目標向量中的為關鍵詞對應本體概念在本體網絡結構中的最大深度;
目標向量中的為關鍵詞對應本體概念在本體網絡結構中的最大密度;
目標向量中的為關鍵詞的詞性權重,根據經驗名詞、動詞、形容詞、副詞的權重值依次為、、和,且
目標向量中的為關鍵詞在文本中第一次出現的位置權重,這個可以根據統計調查得出一系列的位置權重值,在主題中的權重最大,第一段次之
目標向量中的為關鍵詞在文本第1次出現的段落中的次數
目標向量中的為關鍵詞與最大權重詞匯在文本中共現的概率
步驟4:利用約束條件,在多維空間進行關鍵詞特征集合降維處理,最后提取到最優化的文本關鍵詞集合、,其具體計算過程如下:
上述關鍵詞匯映射到多維空間中,從大到小依次合并同時滿足下式約束條件的關鍵詞;
兩點間的距離值d:
兩點間的相似度:
、為專家設定的閾值,這個可以由實驗測試得出合適的值
合并后的關鍵詞和權重分別為在空間中最大的那個點向量對應的關鍵詞匯,權重也為該關鍵詞匯的權重
根據上述約束條件對合并后的關鍵詞進行從大到小排序,利用下述約束條件提取高質量的關鍵詞匯特征集合
上式為提取詞匯的個數,k為設定好提取詞匯個數的閾值,提取前k個高質量關鍵詞,避免了冗余,最終得到權重從大到小排列的高質量關鍵詞匯特征集合分別為
、
步驟5:計算兩關鍵詞集合、中權重最大的兩詞間的相似性;
步驟6:兩關鍵詞集合、中求解兩兩詞匯間的相似度,設定一個詞匯間相似度的閾值,根據滿足條件的詞匯個數,來計算兩文本間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯信息技術有限公司,未經四川用聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610939853.0/1.html,轉載請聲明來源鉆瓜專利網。





