[發明專利]基于文本和圖像相似度防止項目重復申報的方法有效
| 申請號: | 202011047496.X | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112131348B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 羅益軍;李建軍;李代俊;羅艾;劉瀾;李鋼 | 申請(專利權)人: | 四川財經職業學院;成都金稅電子技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/583;G06F40/289;G06Q10/10;G06Q50/26 |
| 代理公司: | 成都正煜知識產權代理事務所(普通合伙) 51312 | 代理人: | 李龍 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 圖像 相似 防止 項目 重復 申報 方法 | ||
1.一種基于文本和圖片相似度防止項目重復申報的方法,其特征在于,如下步驟:
S1、基于計算機檢索項目文檔中的所有圖片,并抽取每個圖片中的所有文本元素,根據各文本元素的坐標位置,將文本元素字符串按順序拼接起來,同時統計各文本元素間的間隔總數,形成各圖片對應的文本序列和文本序列中各文本元素間的間隔總數,并將文本序列對應項目文檔的申報編號存儲在數據庫中;
S2、基于項目文檔中各文本序列和文本序列中各文本元素間的間隔總數,與數據庫中原已保存的各項目文檔中的各文本序列和文本序列中各文本元素間的間隔總數進行相似度計算,并判斷最大相似度值是否達到給定的閾值,若是,則找到相似圖片,若否,則未找到相似的圖片;
S3、基于TextTank算法提取項目文檔的文本摘要,并將文本摘要對應項目文檔的申報編號存儲在數據庫中,再基于Doc2Vec算法將提取的文本摘要與數據庫中原已保存的各項目文檔中的文本摘要進行相似度計算,并判斷最大相似度值是否達到給定的閾值,若是,則找到相似文本摘要,若否,則未找到相似的文本摘要;
S4、若項目文檔中至少有一幅圖片的相似度達到給定的閾值,且提取的文本摘要達到給定的閾值,將達到閾值的圖片和文本摘要的相似度分別乘以給定的權重,得到項目文檔的總相似度值,若總相似度值達到給定的閾值,則項目文檔是重復申報的文檔,否則,不是;
所述S1的具體步驟為:
S1.1、項目申報系統前端界面的項目內容申報的組件是文本輸入框,進行圖片申報時,文本輸入框中獲取的是圖片的鏈接地址,基于圖片的鏈接地址,用正則表達式檢索項目文檔中的所有圖片;
S1.2、基于Opencv抽取每個圖片中的所有文本元素,并根據抽取出的各文本元素的坐標位置,將文本元素字符串按順序拼接起來形成各圖片對應的文本序列;
S1.3、基于文本序列的間隔特征,統計文本序列中各文本元素的步數間隔,將得到的步數間隔相加得到文本序列中各文本元素間的間隔總數,即流程步驟數,并將文本序列對應項目文檔的申報編號存儲在數據庫中,其中,間隔特征為各文本元素之間連續的空格、連接線段或連接箭頭線,連續的空格、連接線段和連接箭頭線分別代表一個步數間隔。
2.根據權利要求1所述的一種基于文本和圖片相似度防止項目重復申報的方法,其特征在于,所述S2的具體步驟為:
S2.1、基于結巴分詞原理,將待比較的兩文本序列進行分詞;
S2.2、將分詞后的兩文本序列分別轉化成N維空間向量,即用詞頻作為各分詞的權重,圖片中的流程步驟數放在向量的最后一維,形成N維空間向量;
S2.3、利用余弦相似度計算出待比較的兩個文本序列的向量的相似度大小,若相似度達到設定的閾值則找到相似圖片,并停止比較,否則,繼續比較,直到與數據庫中的數據全部比較完;
通過余弦相似度計算余弦值,即相似度值,即兩個向量間的余弦值通過歐幾里得點積公示求出,具體如下:
Cos(θ))
其中,A是項目文檔中各文本序列和文本序列中各文本元素間的間隔總數轉換的空間向量,B是數據庫中原已保存的項目文檔中的各文本序列和文本序列中各文本元素間的間隔總數轉換的空間向量;,分別代表空間向量A和B的各分量,Cos(θ)的值就可以用來判斷A,B兩個空間向量的相似度的大小,即相似度值,取值在[0,1]之間,值越大表示相似度越高。
3.根據權利要求1所述的一種基于文本和圖片相似度防止項目重復申報的方法,其特征在于,所述S4中,將達到閾值的圖片和文本摘要的相似度分別乘以給定的權重,得到項目文檔的總相似度的具體步驟為:
S4.1、若達到閾值的圖片為一幅時,將圖片對應的相似度值乘以0.4再加上文本摘要對應的相似度值乘以0.6,得到總相似度值;
S4.2、若達到閾值的圖片為兩幅以上時,將各圖片對應的相似度值乘以0.1再相加,得到所有圖片的相似度值,將所有圖片的相似度值乘以0.4再加上文本摘要對應的相似度值乘以0.6,得到總相似度值。
4.根據權利要求3所述的一種基于文本和圖片相似度防止項目重復申報的方法,其特征在于,所述S4.2中,達到閾值的圖片超過十幅時,取相似度最大的十幅圖片。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川財經職業學院;成都金稅電子技術有限公司,未經四川財經職業學院;成都金稅電子技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011047496.X/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





