[發明專利]文本相似度檢測方法、裝置和電子設備有效
| 申請號: | 201811575171.1 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109657213B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 汪慶輝 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 檢測 方法 裝置 電子設備 | ||
本申請提出一種文本相似度檢測方法、裝置和電子設備,其中,方法包括:獲取待檢測的原始文本中的多個原始語句;在預設的文本信息庫中獲取與每個原始語句對應的相關語句;計算每個原始語句與各相關語句之間的相似度,篩選相似度滿足預設條件的候選語句;根據各候選語句所對應的文本標識,從所有的候選語句中篩選歸屬同一目標文本的所有目標語句;根據各目標語句與對應的原始語句之間的相似度,計算原始文本與目標文本之間的相似度。由此,通過語句相似度來計算原始文本和目標文本之間的相似度,在提高文本相似度效率的同時提高文本相似度檢測的準確性。
技術領域
本申請涉及計算機技術領域,尤其涉及一種文本相似度檢測方法、裝置和電子設備。
背景技術
具體地,白皮書是項目方發布的一份權威的報告或指南,它介紹了項目存在的價值,項目解決的問題,解決問題的途徑,項目的團隊構成和項目的進展情況等等。項目方希望通過白皮書,幫助用戶了解項目,理解問題,解決問題和做出決定。
因此,需要一種文本相似度檢測方法能夠快速準確判斷白皮書是否存在剽竊的現象。
發明內容
本申請旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本申請提出一種文本相似度檢測方法,通過語句相似度來計算原始文本和目標文本之間的相似度,在提高文本相似度效率的同時提高文本相似度檢測的準確性。
本申請提出一種文本相似度檢測裝置。
本申請提出一種電子設備。
本申請提出一種計算機可讀存儲介質。
本申請第一方面實施例提出了一種文本相似度檢測方法,包括:
獲取待檢測的原始文本中的多個原始語句;
在預設的文本信息庫中獲取與每個所述原始語句對應的相關語句;
計算所述每個所述原始語句與各所述相關語句之間的相似度,篩選所述相似度滿足預設條件的候選語句;
根據各所述候選語句所對應的文本標識,從所有的候選語句中篩選歸屬同一目標文本的所有目標語句;
根據各所述目標語句與對應的所述原始語句之間的相似度,計算所述原始文本與所述目標文本之間的相似度。
可選地,作為本申請第一方面的第一種可能的實現方式,所述獲取與每個所述原始語句對應的相關語句,包括:
對所述原始語句進行切詞,獲取所述原始語句中的多個原始分詞;
根據所述多個原始分詞查詢所述預設的文本信息庫獲取包括至少一個或者多個所述原始分詞的匹配語句;
通過原始分詞對所述匹配語句進行投票,并根據投票結果將所述匹配語句進行排序,將排序結果中排序在前的預設數量的所述潛在語確定為與所述原始語句對應的相關語句;
可選地,作為本申請第一方面的第二種可能的實現方式,所述通過原始分詞對所述匹配語句進行投票,包括:獲取所述原始分詞在所述匹配語句中的出現次數;根據所述出現次數對所述匹配語句進行投票。
可選地,作為本申請第一方面的第三種可能的實現方式,在所述根據投票結果將所述匹配語句進行排序之前,還包括:
獲取所述原始語句與各所述匹配語句的語句長度比;
根據所述語句長度比調整所述投票結果。
可選地,作為本申請第一方面的第四種可能的實現方式,獲取所述原始語句與所述匹配語句的語句長度比,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811575171.1/2.html,轉載請聲明來源鉆瓜專利網。





