[發明專利]文本溯源方法、設備及存儲介質有效
| 申請號: | 201811577909.8 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109783778B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 孔慶超;白潔;王磊;曹家;彭鑫;汪小東;羅引;趙菲菲;張西娜 | 申請(專利權)人: | 北京中科聞歌科技股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/289 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 陳英 |
| 地址: | 100028 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 溯源 方法 設備 存儲 介質 | ||
1.一種文本溯源方法,其特征在于,包括:
根據待判定文本和源文本生成詞袋模型,所述源文本包括多個文本;
利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序;
基于第一公式和所述多個第一相似度排序確定所述源文本中多個文本與所述待判定文本的第二相似度排序;
基于所述第二相似度排序從所述源文本中選擇符合同源條件的文本作為所述待判定文本的同源文本;
所述第一公式為:
其中,S為所述源文本,T為所述待判定文本,K為常數,為所述源文本的第j個排序,sc(S,T)為第二相似度排序;
所述多種預設的相似度算法至少包括以下之一:
Common Words算法、Jaccard相似度算法、Cosine相似度算法或SimHash相似度算法。
2.根據權利要求1所述的方法,其特征在于,所述方法,還包括:
對源數據集進行預處理,生成目標數據集;
其中,所述預處理至少包括以下之一:
分詞、文本整合或停用詞過濾。
3.根據權利要求1所述的方法,其特征在于,所述利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序,包括:
基于所述詞袋模型采用Common Words算法,確定共有詞數量,根據所述共有詞數量以及設定的閾值確定所述源文本中多個文本的第一相似度排序R1。
4.根據權利要求1所述的方法,其特征在于,所述利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序,還包括:
基于所述詞袋模型采用Jaccard相似度算法,確定共有詞數量,根據所述共有詞數量和總詞數的Jaccard系數確定所述源文本中多個文本的第一相似度排序R2。
5.根據權利要求1所述的方法,其特征在于,所述利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序,還包括:
基于所述詞袋模型采用Cosine相似度算法,確定TF-IDF向量,根據所述TF-IDF向量確定所述源文本中多個文本的第一相似度排序R3。
6.根據權利要求1所述的方法,其特征在于,所述利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序,還包括:
基于所述詞袋模型采用SimHash相似度算法,確定簽名值,根據所述簽名值之間的差值確定所述源文本中多個文本的第一相似度排序R4。
7.一種文本溯源設備,其特征在于,所述文本溯源設備包括:處理器和存儲器;所述處理器用于執行所述存儲器中存儲的文本溯源程序,以實現權利要求1~6中任一所述的文本溯源方法。
8.一種存儲介質,其特征在于,所述存儲介質存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執行,以實現權利要求1~6中任一所述的文本溯源方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科聞歌科技股份有限公司,未經北京中科聞歌科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811577909.8/1.html,轉載請聲明來源鉆瓜專利網。





