[發明專利]一種基于圖像分區進行大數據匹配計算的科技項目查重方法在審
| 申請號: | 201910972656.2 | 申請日: | 2019-10-14 |
| 公開(公告)號: | CN110929069A | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 謝積鑒;陳旭紅;粟月萍;鐘雪梅;胡婷婷;玉泉;陳金平;李榮;陳怡玲;盧琳玲 | 申請(專利權)人: | 廣西壯族自治區科學技術情報研究所 |
| 主分類號: | G06F16/535 | 分類號: | G06F16/535;G06F16/538;G06F16/583;G06F16/335;G06F16/338 |
| 代理公司: | 南寧曙華知識產權代理事務所(特殊普通合伙) 45121 | 代理人: | 鄭進城 |
| 地址: | 530022 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖像 分區 進行 數據 匹配 計算 科技 項目 方法 | ||
本發明公開了一種基于圖像分區進行大數據匹配計算的科技項目查重方法,包括以下步驟:第一步,將現有科技項目資料進行解析,分別建立相應的圖片庫和文本庫;第二步,對圖片庫中的圖片進行分割,依據分割算法將圖片劃分為不同區域;第三步,獲取圖片及區域內部特征信息;第四步,將預立項的科研項目資料進行解析,抽取其中的圖片,并對其進行圖片分割;第五步,將現有科技項目的特征信息與預立項的科研項目進行比對,按圖片特征信息相似度和特征信息的權重得到現有科技項目與預立項的科研項目的重合值,按重合值的大小進行排序得到第一查重結果。本發明可以提高科技項目的查重率,有效避免漏檢或者錯檢。
技術領域
本發明涉及圖像處理技術領域,特別是一種基于圖像分區進行大數據匹配計算的科技項目查重方法。
背景技術
據統計,我國科研項目重復率達40%,,另外60%中與國外重復的約占30%以上。重復立項不僅造成科技資源的大量浪費,也導致科研活動的無序發展和大量低水平重復,嚴重損害開拓創新的科研精神,阻礙國家科技發展的步伐。
目前,已有學者研究了一些項目查重的方法和機制問題,取得了一定的進展。常用的項目查重方法主要有以下4類:基于非分詞技術的科技項目查重方法、基于TF-IDF值算法的科技項目查重方法、基于層次聚類的科技項目分類與查重方法、基于科技項目申報與審批流程進行的項目查重方法。
基于非分詞技術解決科技項目查重問題的方法,該方法不需要對文本進行分詞處理,而是利用頻繁閉項集構造向量空間模型對項目申請書進行建模并計算相似度。這種方法通過計算科技項目申請書之間的相似度,從而達到項目查重的目的。
基于TF-IDF值算法的科技項目查重方法,該方法是通過使用特征向量模型的方法對科技項目申報文本進行分詞及權重計算,對特征進行排序選取。
基于層次聚類的科技項目分類與查重方法,該方法是在計算科技項目相似性時綜合考慮了應用領域、研究內容和技術來源等因素,從而利用了項目本體相似度來計算模型和層次聚類的結果,以此提高查重的高效性與科學性。
基于科技項目申報與審批流程進行的項目查重方法,該方法通過對科研項目的申報與審批流程進行分析,提出避免重復立項的具體措施。
上述現有技術存在以下問題:都是通過文本相似度來進行科技項目查重,但現有科技項目成果表現形式如論文、專著或者專利都是各種語言進行撰寫,對于同一主題的語言表達方式差異巨大,過分依賴查重人員的語言水平,很難避免漏檢或者錯檢。而論文、專著或者專利中的附圖,卻有著固定的格式。但是,現有的科技項目查重中,尚未有將圖片相似度作為科技項目查重手段的報道。
CN104915955A
發明內容
本發明的目的是解決上述現有技術的問題,提出了一種基于圖像分區進行大數據匹配計算的科技項目查重方法,可以輔助文本相似度的查重方式,提高科技項目的查重率,有效避免漏檢或者錯檢。
為達到上述發明目的,本發明所述的一種基于圖像分區進行大數據匹配計算的科技項目查重方法,本發明是以如下技術方案實現的:
第一步,將現有科技項目資料進行解析,分別建立相應的圖片庫和文本庫;
第二步,對圖片庫中的圖片進行分割,依據分割算法將圖片劃分為不同區域;
第三步,獲取圖片及區域內部特征信息,特征信息包括:區域中的HSV的H值方圖、線條信息;
第四步,將預立項的科研項目資料進行解析,抽取其中的圖片,并對其進行圖片分割,獲取圖片及區域內部特征信息。
第五步,將現有科技項目按第二步和第三步獲取的特征信息與預立項的科研項目按第四步獲取的分割區域進行比對,按圖片特征信息相似度和特征信息的權重得到現有科技項目與預立項的科研項目的第一重合值,按第一重合值的大小進行排序得到第一查重結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西壯族自治區科學技術情報研究所,未經廣西壯族自治區科學技術情報研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910972656.2/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





