[發(fā)明專利]用于大批量文字的相似程度判斷方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710873305.7 | 申請(qǐng)日: | 2017-09-25 |
| 公開(公告)號(hào): | CN107608969A | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 曾傳德 | 申請(qǐng)(專利權(quán))人: | 曾傳德 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 大批量 文字 相似 程度 判斷 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體涉及用于大批量文字的相似程度判斷方法。
背景技術(shù)
學(xué)術(shù)不端是指學(xué)術(shù)界的一些弄虛作假、行為不良或失范的風(fēng)氣,或指某些人在學(xué)術(shù)方面剽竊他人研究成果,敗壞學(xué)術(shù)風(fēng)氣,阻礙學(xué)術(shù)進(jìn)步,違背科學(xué)精神和道德,拋棄科學(xué)實(shí)驗(yàn)數(shù)據(jù)的真實(shí)誠(chéng)信原則,給科學(xué)和教育事業(yè)帶來嚴(yán)重的負(fù)面影響,極大損害學(xué)術(shù)形象的丑惡現(xiàn)象。
目前為了預(yù)防學(xué)術(shù)不端的行為出現(xiàn),需要對(duì)文獻(xiàn)進(jìn)行文獻(xiàn)查重,然而現(xiàn)有的文獻(xiàn)查重手段,往往只能對(duì)單句進(jìn)行查重,在對(duì)整個(gè)文本進(jìn)行查重的時(shí)候,通過單句檢查會(huì)大大的增大運(yùn)算量,并且由于沒有將文本當(dāng)作一個(gè)整體看待,會(huì)降低查重的準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的查重技術(shù)往往只能對(duì)單句進(jìn)行查重,在對(duì)整個(gè)文本進(jìn)行查重的時(shí)候,通過單句檢查會(huì)大大的增大運(yùn)算量,并且由于沒有將文本當(dāng)作一個(gè)整體看待,會(huì)降低查重的準(zhǔn)確度,目的在于提供用于大批量文字的相似程度判斷方法,解決上述問題。
本發(fā)明通過下述技術(shù)方案實(shí)現(xiàn):
用于大批量文字的相似程度判斷方法,包括以下步驟:S1:提取文本的特征量和特征量對(duì)應(yīng)的權(quán)重值;S2:將文本的特征量根據(jù)權(quán)重值構(gòu)成特征量向量;S3:對(duì)所有的文本特征量提取哈希值,并對(duì)文本特征量的哈希值進(jìn)行疊加形成文本的哈希值;S4:如果兩個(gè)文本的哈希值相同,則認(rèn)為兩個(gè)文本相似。
現(xiàn)有技術(shù)中,文獻(xiàn)查重手段往往只能對(duì)單句進(jìn)行查重,在對(duì)整個(gè)文本進(jìn)行查重的時(shí)候,通過單句檢查會(huì)大大的增大運(yùn)算量,并且由于沒有將文本當(dāng)作一個(gè)整體看待,會(huì)降低查重的準(zhǔn)確度。本發(fā)明應(yīng)用時(shí),先提取文本的特征量和特征量對(duì)應(yīng)的權(quán)重值,特征量可以是關(guān)鍵詞,也可以是短句,特征量可以采用詞或句出現(xiàn)的頻率,然后將文本的特征量根據(jù)權(quán)重值構(gòu)成特征量向量,再對(duì)所有的文本特征量提取哈希值,并對(duì)文本特征量的哈希值進(jìn)行疊加形成文本的哈希值,如果兩個(gè)文本的哈希值相同,則認(rèn)為兩個(gè)文本相似,由于將文本當(dāng)成整體進(jìn)行看待,并且淡化了單句在整體文本中的左右,即可以節(jié)省運(yùn)算量,也可以提高查重的準(zhǔn)確度。
進(jìn)一步的,步驟S3包括以下子步驟:S31:設(shè)置運(yùn)算矩陣,所述運(yùn)算矩陣的行數(shù)與特征量向量的維度相同,所述運(yùn)算矩陣的列數(shù)與文本特征量的哈希值位數(shù)相同,運(yùn)算矩陣所有的元素初始值為0;S32:根據(jù)文本特征量的哈希值和權(quán)重值得出運(yùn)算矩陣的每一個(gè)元素值,每一個(gè)元素值一一對(duì)應(yīng)文本特征量的哈希值的位;S33:將運(yùn)算矩陣同一列的元素相加得到運(yùn)算向量;S34:根據(jù)運(yùn)算向量得到文本的哈希值。
本發(fā)明應(yīng)用時(shí),根據(jù)文本特征量的哈希值和權(quán)重值得出運(yùn)算矩陣的每一個(gè)元素值,通過運(yùn)算矩陣的方式進(jìn)行運(yùn)算,比起將文本化為單句的評(píng)估,可以大幅的節(jié)省運(yùn)算量,一般一篇文字在五萬字的文本,本發(fā)明可以節(jié)省運(yùn)算量90%以上。
再進(jìn)一步的,步驟S32包括以下子步驟:每一個(gè)文本特征量的哈希值的任意位為1時(shí),將與該文本特征量的哈希值的位對(duì)應(yīng)的運(yùn)算矩陣元素賦值為該文本特征量的權(quán)重值;每一個(gè)文本特征量的哈希值的任意位為0時(shí),將與該文本特征量的哈希值的位對(duì)應(yīng)的運(yùn)算矩陣元素賦值為該文本特征量的權(quán)重值的負(fù)數(shù)。
本發(fā)明應(yīng)用時(shí),通過上述的步驟,可以穩(wěn)定的得出運(yùn)算矩陣的每一個(gè)元素值,為下一步的運(yùn)算通過良好的數(shù)據(jù)基礎(chǔ)。
再進(jìn)一步的,步驟S34包括以下子步驟:S341:如果運(yùn)算向量的任意維度為正,則將該維度值替換為1;S342:如果運(yùn)算向量的任意維度為負(fù),則將該維度值替換為0;S343:將運(yùn)算向量所有的維度排列形成文本的哈希值。
本發(fā)明應(yīng)用時(shí),對(duì)運(yùn)算向量進(jìn)行逆向生成哈希值,從而完成文本的哈希值,本發(fā)明通過以哈希值和運(yùn)算矩陣的方式完成整個(gè)運(yùn)算,節(jié)省了運(yùn)算成本,提高了查重的精度。
進(jìn)一步的,哈希值為二進(jìn)制數(shù)。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
本發(fā)明用于大批量文字的相似程度判斷方法,將文本當(dāng)成整體進(jìn)行看待,并且淡化了單句在整體文本中的左右,即可以節(jié)省運(yùn)算量,也可以提高查重的準(zhǔn)確度。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明,本發(fā)明的示意性實(shí)施方式及其說明僅用于解釋本發(fā)明,并不作為對(duì)本發(fā)明的限定。
實(shí)施例1
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于曾傳德,未經(jīng)曾傳德許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710873305.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





