[發明專利]一種文本相似度計算方法及系統在審
| 申請號: | 202010530241.2 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111767724A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 余祥;李強;陳立哲;朱峰;李騰飛;顧正海 | 申請(專利權)人: | 安徽旅賁科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06F40/30;G06N3/04 |
| 代理公司: | 合肥天明專利事務所(普通合伙) 34115 | 代理人: | 閆客 |
| 地址: | 230000 安徽省合肥市高新區*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 計算方法 系統 | ||
本發明公開了一種文本相似度計算方法及系統,屬于信息檢索技術領域,包括:對兩待比較文本分別進行分詞處理,得到兩待比較文本對應的分詞結果,分別為第一分詞結果和第二分詞結果;對于第一分詞結果中的單詞和第二分詞結果中的單詞,分別形成單詞所在整個文本的句意表示向量,得到兩待比較文本對應的句意表示向量;基于向量空間模型計算兩待比較文本對應的句意表示向量之間的相似度。本發明中相似度計算是基于當前文本,依賴少,在保證較高準確的同時能夠保持較快的速度。
技術領域
本發明涉及信息檢索技術領域,特別涉及一種基于相似度計算的文本匹配方法。
背景技術
文本相似度計算是信息檢索處理中一項很重要的研究工作,電子文件密級甄別準確性很大程度上取決于語句相似度計算的準確性。
傳統的文本相似度計算有編輯距離計算、簡單單詞匹配(比較文本出現相同單詞個數),基于語料庫和知識庫的語義相似度計算等方法。編輯距離或簡單單詞匹配以及其改進方法在比較結果準確性上并不高,基于語料庫和知識庫的文本相似度計算方法主要依賴語料庫和知識庫,預處理要求較高,且訓練時間長,時間復雜度高。
發明內容
本發明的目的在于克服上述背景技術中的不足,提供一種準確的文本相似度計算方案。
為實現以上目的,本發明采用一種文本相似度計算方法,包括如下步驟:
對兩待比較文本分別進行分詞處理,得到兩待比較文本對應的分詞結果,分別為第一分詞結果和第二分詞結果;
對于第一分詞結果中的單詞和第二分詞結果中的單詞,分別形成單詞所在整個文本的句意表示向量,得到兩待比較文本對應的句意表示向量;
基于向量空間模型計算兩待比較文本對應的句意表示向量之間的相似度。
進一步地,所述對于第一分詞結果中的單詞和第二分詞結果中的單詞,分別形成單詞所在整個文本的句意表示向量,得到兩待比較文本對應的句意表示向量,包括:
結合所述分詞結果中的單詞在局部和全局的上下文信息,學習第一分詞結果中的單詞在語境中的詞義表示特征和第二分詞結果中的單詞在語境中的詞義表示特征;
基于組合語義模型進行詞義的組合,形成所述第一分詞結果中單詞對應的整個文本的句意表示向量以及所述第二分詞結果中單詞對應的整個文本的句意表示向量。
進一步地,所述結合所述分詞結果中的單詞在局部和全局的上下文信息,學習第一分詞結果中的單詞在語境中的詞義表示特征和第二分詞結果中的單詞在語境中的詞義表示特征,包括:
分別根據所述分詞結果中單詞在所處的詞序列計算第一分詞結果中單詞的局部上下文特征向量和第二分詞結果中單詞的局部上下文特征向量;
將每個語句作為語句序列中的一個元素,計算第一分詞結果中單詞的全局上下文特征向量和第二分詞結果中單詞的全局上下文特征向量;
利用同一單詞的局部上下文特征向量和全局上下文特征向量,得到該單詞在語境中的詞義表示特征。
進一步地,所述基于組合語義模型進行詞義的組合,形成所述第一分詞結果中單詞對應的整個文本的句意表示向量以及所述第二分詞結果中單詞對應的整個文本的句意表示向量,包括:
基于組合語義模型將句子分析成一棵依存句法樹,并使用句法分析工具進行句法分析;
將句法分析結果按照分析器定義的依存關系次序進行變換得到整個句子的組合關系樹狀層級圖;
從葉子節點開始,按照樹所表示的節點層次關系,從底層葉子節點開始逐層向上進行有序的組合,得到所述單詞對應的整個文本的句意表示向量。
進一步地,所述基于向量空間模型計算兩待比較文本對應的句意表示向量之間的相似度,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽旅賁科技有限公司,未經安徽旅賁科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010530241.2/2.html,轉載請聲明來源鉆瓜專利網。





