[發明專利]文本相似度檢測方法、裝置和電子設備有效
| 申請號: | 201811575171.1 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109657213B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 汪慶輝 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 檢測 方法 裝置 電子設備 | ||
1.一種文本相似度檢測方法,其特征在于,包括以下步驟:
獲取待檢測的原始文本中的多個原始語句;
在預設的文本信息庫中獲取與每個所述原始語句對應的相關語句;
對獲取到的相關語句進一步進行篩選,計算所述每個所述原始語句與各所述相關語句之間的相似度,篩選出所述相似度滿足預設條件的候選語句;
根據各所述候選語句所對應的文本標識,從所有的候選語句中篩選歸屬同一目標文本的所有目標語句;
根據各所述目標語句與對應的所述原始語句之間的相似度,計算所述原始文本與所述目標文本之間的相似度;
所述計算所述每個所述原始語句與各所述相關語句之間的相似度,包括:
對所述原始語句進行單詞字符轉換得到原始字符序列,并對所述相關語句進行單詞字符轉換得到相關字符序列;
統計所述原始字符序列和所述相關字符序列之間的公共字符個數,通過第一預設算法獲取所述原始字符序列和所述相關字符序列之間的編輯距離,通過第二預設算法獲取所述原始字符序列和所述相關字符序列之間的最長公共子串的長度;
根據所述公共字符個數、所述編輯距離和所述最長公共子串的長度計算所述原始語句和與各所述相關語句的相似度。
2.如權利要求1所述的方法,其特征在于,所述獲取與每個所述原始語句對應的相關語句,包括:
對所述原始語句進行切詞,獲取所述原始語句中的多個原始分詞;
根據所述多個原始分詞查詢所述預設的文本信息庫獲取包括至少一個或者多個所述原始分詞的匹配語句;
通過原始分詞對所述匹配語句進行投票,并根據投票結果將所述匹配語句進行排序,將排序結果中排序在前的預設數量的所述匹配語句確定為與所述原始語句對應的相關語句。
3.如權利要求2所述的方法,其特征在于,所述通過原始分詞對所述匹配語句進行投票,包括:
獲取所述原始分詞在所述匹配語句中的出現次數;
根據所述出現次數對所述匹配語句進行投票。
4.如權利要求2所述的方法,其特征在于,在所述根據投票結果將所述匹配語句進行排序之前,還包括:
獲取所述原始語句與各所述匹配語句的語句長度比;
根據所述語句長度比調整所述投票結果。
5.如權利要求4所述的方法,其特征在于,獲取所述原始語句與所述匹配語句的語句長度比,包括:
獲取第一常數和第二常數;
獲取所述原始語句的原始語句長度和所述匹配語句的匹配語句長度;
計算所述原始語句長度和所述第一常數的第一語句長度和,并計算所述匹配語句長度和所述第二常數的第二語句長度和;
將所述第一語句長度和與所述第二語句長度和的比值作為所述語句長度比。
6.如權利要求1所述的方法,其特征在于,所述根據各所述目標語句與對應的所述原始語句之間的相似度,計算所述原始文本與所述目標文本之間的相似度,包括:
獲取各所述目標語句與對應的所述原始語句之間的相似度的平均值;
將所述平均值作為所述原始文本與所述目標文本之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811575171.1/1.html,轉載請聲明來源鉆瓜專利網。





