[發(fā)明專利]一種基于圖文識(shí)別的論文重查系統(tǒng)及其方法在審
| 申請(qǐng)?zhí)枺?/td> | 201611075137.9 | 申請(qǐng)日: | 2016-11-22 |
| 公開(kāi)(公告)號(hào): | CN106776880A | 公開(kāi)(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 雷方元;趙慧民;戴青云;蔡君;魏文國(guó);羅建楨 | 申請(qǐng)(專利權(quán))人: | 廣東技術(shù)師范學(xué)院 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 510665 廣東省*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖文 識(shí)別 論文 系統(tǒng) 及其 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于圖文識(shí)別的論文重查系統(tǒng)及其方法。
背景技術(shù)
目前,大學(xué)畢業(yè)生的畢業(yè)論文只有通過(guò)了論文查重才能提交答辯。有許多網(wǎng)站提供查重功能,要求將論文通過(guò)拷貝文字段落的方式或者上傳word文檔的形式來(lái)提交待查重的論文。這些網(wǎng)站的查重只關(guān)注文字信息的查重,而對(duì)圖像、圖片的重復(fù)是不處理的。這種查文不查圖的方式存在一個(gè)明顯的缺陷,即可以通過(guò)將文字信息轉(zhuǎn)化為圖片格式來(lái)規(guī)避查重。為此,提出了一種基于圖文識(shí)別的論文重查系統(tǒng)及其方法。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于圖文識(shí)別的論文重查系統(tǒng)及其方法;其能將論文的圖像信息進(jìn)行特征提取并進(jìn)行特征匹配識(shí)別,從而提高了論文查重的準(zhǔn)確率。
為了達(dá)到上述目的,本發(fā)明一種基于圖文識(shí)別的論文重查系統(tǒng),主要包括:
論文結(jié)構(gòu)識(shí)別模塊,所述論文結(jié)構(gòu)識(shí)別模塊主要用于將論文的信息識(shí)別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來(lái);
文本查重模塊,所述文本查重模塊主要用于將論文結(jié)構(gòu)識(shí)別模塊識(shí)別并保存的文本信息與文本信息數(shù)據(jù)庫(kù)中的文本信息進(jìn)行匹配分析;
圖像重查模塊,所述圖像重查模塊主要用于將論文結(jié)構(gòu)識(shí)別模塊識(shí)別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息,并將提取出的圖像特征信息與圖庫(kù)中的圖像特征進(jìn)行匹配分析;
查重報(bào)告模塊,所述查重報(bào)告模塊主要用于將文本重查模塊和圖像重查模塊匹配分析出的結(jié)果生成查重報(bào)告,以反饋給用戶;
所述論文結(jié)構(gòu)查重模塊、文本查重模塊、圖像重查模塊和查重報(bào)告模塊相互通信連接。
所述文本信息數(shù)據(jù)庫(kù)包括本地文本信息數(shù)據(jù)庫(kù),Google、百度等搜索引擎中的數(shù)據(jù)庫(kù),以及CNKI、萬(wàn)方等數(shù)據(jù)庫(kù)。
一種基于圖文識(shí)別的論文重查方法,主要包括以下步驟:
第一步,論文結(jié)構(gòu)識(shí)別模塊將論文的信息識(shí)別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來(lái);
第二步,圖像重查模塊將論文結(jié)構(gòu)識(shí)別模塊識(shí)別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息;
第三步,圖像重查模塊將圖像信息進(jìn)行分析提取出的文字信息發(fā)送給文本查重模塊;
第四步,圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫(kù)中的圖像特征進(jìn)行匹配分析;
第五步,文本查重模塊將論文結(jié)構(gòu)識(shí)別模塊識(shí)別并保存的文本信息以及來(lái)自于圖像重查模塊提取的文字信息分別與文本信息數(shù)據(jù)庫(kù)中的文本信息進(jìn)行匹配分析;
第六步,查重報(bào)告模塊將文本重查模塊和圖像重查模塊匹配分析出的結(jié)果生成查重報(bào)告反饋給用戶。值得說(shuō)明一下,這一種簡(jiǎn)單的查重報(bào)告方式是:該查重報(bào)告可以以文本信息、圖像重查模塊提取的文字信息和圖像特征信息這三方面的重復(fù)率的方式生成反饋給用戶。
優(yōu)選地,所述圖像重查模塊是采用OCR分析方式將圖像信息中的文字信息提取出來(lái)。
優(yōu)選地,所述圖像特征信息是指顏色特征信息、紋理特征信息和形狀特征信息進(jìn)行綜合加權(quán)形成的圖形綜合信息。
作為較佳方案,所述顏色特征信息、紋理特征信息和形狀特征信息權(quán)重之和為1。上述綜合加權(quán)為分別對(duì)顏色特征信息、紋理特征信息和形狀特征信息賦予不同的權(quán)重,權(quán)重之和為1。
作為較佳方案,所述顏色特征信息為采用RGB顏色空間的顏色直方圖特征信息。
作為較佳方案,所述紋理特征信息為采用Gabor濾波器提取出來(lái)的圖像紋理特征信息。
作為較佳方案,所述形狀特征信息為采用Fourier描述出來(lái)提取的形狀特征信息。
優(yōu)選地,所述圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫(kù)中的圖像特征進(jìn)行匹配分析的方式為采用基于歐幾里得距離進(jìn)行比較的方式。
本發(fā)明不但能匹配識(shí)別出論文的文本信息,而且能將論文的圖像信息進(jìn)行特征提取并進(jìn)行特征匹配識(shí)別并生成查重報(bào)告;從而提高了論文查重的準(zhǔn)確率,其簡(jiǎn)單方便,實(shí)用性強(qiáng),易于推廣普及。
附圖說(shuō)明
圖1為本發(fā)明的系統(tǒng)示意圖。
其中,1為論文結(jié)構(gòu)識(shí)別模塊,2為文本查重模塊,3為圖像重查模塊,4為查重報(bào)告模塊。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)闡述,以使本發(fā)明的優(yōu)點(diǎn)和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東技術(shù)師范學(xué)院,未經(jīng)廣東技術(shù)師范學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611075137.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





