[發明專利]一種面向科技大數據的項目查重方法有效
| 申請號: | 201510797445.1 | 申請日: | 2015-11-18 |
| 公開(公告)號: | CN105446954B | 公開(公告)日: | 2018-11-30 |
| 發明(設計)人: | 羅亮;林珠;徐迪威;李海威;蔡建新 | 申請(專利權)人: | 廣東省科技基礎條件平臺中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510033 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域本體 關鍵特征 項目信息 大數據 特征詞 詞序相似度 概念相似度 相似度比較 相似度計算 相似度評價 語義相似度 時序 公共序列 科技項目 信息構建 中文分詞 中文文本 停用詞 相似度 構建 詞匯 文本 申報 引入 | ||
本發明是一種面向科技大數據的項目查重方法,該方法根據歷年的科技項目立項信息構建領域本體,然后對新申報的項目信息跟已有的項目信息進行相似度比較,進行中文分詞、去停用詞等一系列操作后,提取出關鍵特征詞匯,對每個文本的關鍵特征詞分別構建最長公共序列并計算特征詞的詞序因子,將詞序因子引入領域本體的概念相似度計算,可得出每個特征詞的相似度值進而進行相似度評價從而得出查重結論,本發明方法在現有的中文文本詞序相似度計算方法上結合了領域本體處理即語義相似度和時序因子相結合,相似度計算效果將更佳。
技術領域
本發明涉及科技項目申請管理方法領域,更具體地,涉及一種面向科技大數據的項目查重方法。
背景技術
科技大數據是指在科技活動中產生的一系列數據,包括科技項目申報數據、科技資源描述數據、科技創新數據等。科技大數據具有數據類型非結構化、數據量龐大等大數據特征,數據來源往往是通過多年積累的跨區域數據,科技項目信息包括申報文本信息、立項合同信息、驗收文檔信息等,其具有跨領域、強邏輯的特征,面對龐大的數據資源,如果采用傳統的中文文本相似度計算方法,將無法提取出貼切的各領域的項目信息,也無法保障進度。同時,科技項目文本信息具有很強的邏輯性,特別是關鍵技術和研究路線的表達,詞與詞之間的順序不同往往代表的研究方法完全不同,所以面對科技項目查重,如果單純地采用傳統的基于統計或者語義的方法將無法達到很好的相似度計算效果。因此,無論是單純采用專家評估方式,或者采用現階段的項目查重模型,都無法滿足科技大數據的項目查重要求。
發明內容
本發明提供一種面向科技大數據的項目查重方法,該方法基于領域本體和詞序特征,通過提取科技項目立項信息數據的特征詞匯后得出每個特征詞的詞序因子引入領域本體中概念相似度計算,根據詞序因子和各特征詞的相似度值進行統計后將得出文本相似值,從而達到項目查重的目的。
為了達到上述技術效果,本發明的技術方案如下:
一種面向科技大數據的項目查重方法,包括以下步驟:
S1:利用歷年的科技項目立項信息數據構建領域本體;
S2:對歷年的科技項目立項信息數據進行中文分詞后再進行去停用操作,提取出歷年的科技項目立項信息數據的特征詞,對每一年的科技項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;
S3:對待查重的新申請項目進行中文分詞后再進行去停用操作,提取出該項目立項信息數據的特征詞,對該項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;
S4:將待查重的新申請項目的詞序因子和每一年的科技項目立項信息數據的詞序因子引入領域本體中概念相似度計算得出查重結論。
本發明中,根據歷年的科技項目立項信息構建領域本體,然后對新申報的項目信息跟已有的項目信息進行相似度比較,進行中文分詞、去停用詞等一系列操作后,提取出關鍵特征詞匯,對每個文本的關鍵特征詞分別構建最長公共序列并計算特征詞的詞序因子,將詞序因子引入領域本體的概念相似度計算,可得出每個特征詞的相似度值進而進行相似度評價從而得出查重結論。
進一步地,所述步驟S2的具體過程如下:
S21:將歷年的科技項目立項信息數據組成數據源C={C1,C2……Ci…},讀取其中任一數據文本Ci,對數據文本Ci進行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1,A2,……,An);
S22:用領域本體對向量A進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量A’=(A’1,A’2,……,A’m) ,其中m<n;
S23:通過隱馬爾可夫模型,計算特征詞向量A’的詞序因子序列i=(i1,i2,……, jm);
S24:重復步驟S22-S23得到每一年的科技項目立項信息數據的詞序因子序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東省科技基礎條件平臺中心,未經廣東省科技基礎條件平臺中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510797445.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種變電站五防控制系統
- 下一篇:一種陣列基板及其制作方法、顯示裝置





