[發明專利]文本溯源方法、設備及存儲介質有效

申請號：	201811577909.8	申請日：	2018-12-20
公開（公告）號：	CN109783778B	公開（公告）日：	2020-10-23
發明（設計）人：	孔慶超;白潔;王磊;曹家;彭鑫;汪小東;羅引;趙菲菲;張西娜	申請（專利權）人：	北京中科聞歌科技股份有限公司
主分類號：	G06F40/194	分類號：	G06F40/194;G06F40/289
代理公司：	北京華夏泰和知識產權代理有限公司 11662	代理人：	陳英
地址：	100028 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本溯源方法設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本溯源方法，其特征在于，包括：

根據待判定文本和源文本生成詞袋模型，所述源文本包括多個文本；

利用多種預設的相似度算法，分別對所述詞袋模型進行相似度計算，確定在不同相似度算法的情況下，所述源文本中多個文本與所述待判定文本的多個第一相似度排序；

基于第一公式和所述多個第一相似度排序確定所述源文本中多個文本與所述待判定文本的第二相似度排序；

基于所述第二相似度排序從所述源文本中選擇符合同源條件的文本作為所述待判定文本的同源文本；

所述第一公式為：

其中，S為所述源文本，T為所述待判定文本，K為常數，為所述源文本的第j個排序，sc(S,T)為第二相似度排序；

所述多種預設的相似度算法至少包括以下之一：

Common Words算法、Jaccard相似度算法、Cosine相似度算法或SimHash相似度算法。

2.根據權利要求1所述的方法，其特征在于，所述方法，還包括：

對源數據集進行預處理，生成目標數據集；

其中，所述預處理至少包括以下之一：

分詞、文本整合或停用詞過濾。

3.根據權利要求1所述的方法，其特征在于，所述利用多種預設的相似度算法，分別對所述詞袋模型進行相似度計算，確定在不同相似度算法的情況下，所述源文本中多個文本與所述待判定文本的多個第一相似度排序，包括：

基于所述詞袋模型采用Common Words算法，確定共有詞數量，根據所述共有詞數量以及設定的閾值確定所述源文本中多個文本的第一相似度排序R1。

4.根據權利要求1所述的方法，其特征在于，所述利用多種預設的相似度算法，分別對所述詞袋模型進行相似度計算，確定在不同相似度算法的情況下，所述源文本中多個文本與所述待判定文本的多個第一相似度排序，還包括：

基于所述詞袋模型采用Jaccard相似度算法，確定共有詞數量，根據所述共有詞數量和總詞數的Jaccard系數確定所述源文本中多個文本的第一相似度排序R2。

5.根據權利要求1所述的方法，其特征在于，所述利用多種預設的相似度算法，分別對所述詞袋模型進行相似度計算，確定在不同相似度算法的情況下，所述源文本中多個文本與所述待判定文本的多個第一相似度排序，還包括：

基于所述詞袋模型采用Cosine相似度算法，確定TF-IDF向量，根據所述TF-IDF向量確定所述源文本中多個文本的第一相似度排序R3。

6.根據權利要求1所述的方法，其特征在于，所述利用多種預設的相似度算法，分別對所述詞袋模型進行相似度計算，確定在不同相似度算法的情況下，所述源文本中多個文本與所述待判定文本的多個第一相似度排序，還包括：

基于所述詞袋模型采用SimHash相似度算法，確定簽名值，根據所述簽名值之間的差值確定所述源文本中多個文本的第一相似度排序R4。

7.一種文本溯源設備，其特征在于，所述文本溯源設備包括：處理器和存儲器；所述處理器用于執行所述存儲器中存儲的文本溯源程序，以實現權利要求1～6中任一所述的文本溯源方法。

8.一種存儲介質，其特征在于，所述存儲介質存儲有一個或者多個程序，所述一個或者多個程序可被一個或者多個處理器執行，以實現權利要求1～6中任一所述的文本溯源方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京中科聞歌科技股份有限公司，未經北京中科聞歌科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811577909.8/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】