[發明專利]文本溯源方法、設備及存儲介質有效
| 申請號: | 201811577909.8 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109783778B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 孔慶超;白潔;王磊;曹家;彭鑫;汪小東;羅引;趙菲菲;張西娜 | 申請(專利權)人: | 北京中科聞歌科技股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/289 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 陳英 |
| 地址: | 100028 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 溯源 方法 設備 存儲 介質 | ||
本發明實施例涉及一種文本溯源方法、設備及存儲介質,所述方法包括:根據待判定文本和源文本生成詞袋模型,所述源文本包括多個文本;利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序;基于第一公式和所述第一相似度排序確定所述源文本源文本中多個文本與所述待判定文本的第二相似度排序;基于所述第二相似度排序從所述源文本中選擇符合同源條件的文本作為所述待判定文本的同源文本,采用多種相似度的算法,可以彌補單一算法的不足,減少因計算方式不同帶來的偶然性,提升計算結果的全面性和準確性。
技術領域
本發明實施例涉及文本數據處理領域,尤其涉及一種文本溯源方法、設備及存儲介質。
背景技術
文本溯源主要應用于學術誠信檢測、搜索引擎優化等領域,目的在于判斷一個文本的內容是否復制或改編于另一個或多個文本,是指將溯源文本與已有的多個文本進行比較,從而獲得同源文本,其原理主要利用文本相似度的比對進行判斷。
現有方案中,通常采用Jaccard相似度或余弦相似度比對方式進行文本溯源,Jaccard相似度是一種衡量有限樣本集之間的相似性和差異性的方法,Jaccard系數定義為相比較兩者的交集與并集的比值,值越大證明其相似度越高;余弦相似度通過計算向量空間中兩個向量夾角的余弦值來衡量兩者差異,余弦值越大,兩者的相似度越高。
然而,Jaccard相似度在對同一相似詞的詞頻反應不敏感,余弦相似度對向量方向上能做出敏感判斷,但其對于數字數據無法做出敏感判斷。
因此,現有文本相似度的比對方法功能相對單一,只能在某一方面做出精準判斷,而無法對文本進行全方面的比對,導致最終的結果不夠精準。
發明內容
本發明實施例提供了一種文本溯源方法、設備及存儲介質,可以對文本進行全方面篩查,更精準地從多個文本中確定同源文本。
第一方面,本發明實施例提供一種文本溯源方法,包括:
根據待判定文本和源文本生成詞袋模型,所述源文本包括多個文本;
利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序;
基于第一公式和所述第一相似度排序確定所述源文本源文本中多個文本與所述待判定文本的第二相似度排序;
基于所述第二相似度排序從所述源文本中選擇符合同源條件的文本作為所述待判定文本的同源文本。
在一個可能的實施方式中,所述方法,還包括:
對所述源數據集進行預處理,生成目標數據集;
其中,所述預處理至少包括以下之一:
分詞、文本整合或停用詞過濾。
在一個可能的實施方式中,所述多種預設的相似度算法至少包括以下之一:
Common Words算法、Jaccard相似度算法、Cosine相似度算法或SimHash相似度算法。
在一個可能的實施方式中,所述利用多種預設的相似度算法,分別對所述詞袋模型進行相似度計算,確定在不同相似度算法的情況下,所述源文本中多個文本與所述待判定文本的多個第一相似度排序,包括:
基于所述詞袋模型采用Common Words算法,確定共有詞數量,根據所述共有詞數量以及設定的閾值確定所述源文本中多個文本的第一相似度排序R1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科聞歌科技股份有限公司,未經北京中科聞歌科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811577909.8/2.html,轉載請聲明來源鉆瓜專利網。





