[發明專利]一種面向科技大數據的項目查重方法有效
| 申請號: | 201510797445.1 | 申請日: | 2015-11-18 |
| 公開(公告)號: | CN105446954B | 公開(公告)日: | 2018-11-30 |
| 發明(設計)人: | 羅亮;林珠;徐迪威;李海威;蔡建新 | 申請(專利權)人: | 廣東省科技基礎條件平臺中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510033 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域本體 關鍵特征 項目信息 大數據 特征詞 詞序相似度 概念相似度 相似度比較 相似度計算 相似度評價 語義相似度 時序 公共序列 科技項目 信息構建 中文分詞 中文文本 停用詞 相似度 構建 詞匯 文本 申報 引入 | ||
1.一種面向科技大數據的項目查重方法,其特征在于,包括以下步驟:
S1:利用歷年的科技項目立項信息數據構建領域本體;
S2:對歷年的科技項目立項信息數據進行中文分詞后再進行去停用操作,提取出歷年的科技項目立項信息數據的特征詞,對每一年的科技項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;
S3:對待查重的新申請項目進行中文分詞后再進行去停用操作,提取出該項目立項信息數據的特征詞,對該項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;
S4:將待查重的新申請項目的詞序因子和每一年的科技項目立項信息數據的詞序因子引入領域本體中概念相似度計算得出查重結論;
所述步驟S2的具體過程如下:
S21:將歷年的科技項目立項信息數據組成數據源C={C1,C2……Ci…},讀取其中任一數據文本Ci,對數據文本Ci進行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1,A2,……,An);
S22:用領域本體對向量A進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量A’=(A’1,A’2,……,A’m),其中m<n;
S23:通過隱馬爾可夫模型,計算特征詞向量A’的詞序因子序列αi=(αi1,αi2,……,αim);
S24:重復步驟S22-S23得到每一年的科技項目立項信息數據的詞序因子序列。
2.根據權利要求1所述的面向科技大數據的項目查重方法,其特征在于,所述步驟S3的具體過程如下:
S31:將待查重的新申請項目數據進行中文分詞,將得到的分詞去停用詞,得到特征詞向量B=(B1,B2,……,Bn);
S32:用領域本體對特征詞向量B進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量B’=(B’1,B’2,……,B’m),其中m<n;
S33:通過隱馬爾可夫模型,計算特征詞向量B’的詞序因子序列βj=(βj1,βj2,……,βjm)。
3.根據權利要求2所述的面向科技大數據的項目查重方法,其特征在于,所述步驟S4的具體過程如下:
將詞序因子序列βj=(βj1,βj2,……,βjm)和每一年的科技項目立項信息數據的詞序因子序列引入領域本體中概念相似度Kl計算,其中l表示年份:
其中,Xα為任一年份的科技項目立項信息數據降維后的特征詞向量,Xβ為待查重的新申請項目數據降維后的特征詞向量,aα為Xα的詞序因子序列,bβ為Xβ詞序因子序列,aα、bβ是可調節參數,通過兩個詞序因子的差值計算作為調節參數,dist(Xα,Xβ)為語義相似度,語義相似度指領域本體樹中連接兩個節點的最短路徑所跨的邊數。
4.根據權利要求3所述的面向科技大數據的項目查重方法,其特征在于,所述步驟S4還包括:
采用hadoop框架對相似度Kl的計算式進行分布式改進,之后設置相似度閥值,將計算出的相似度與閾值進行一一對比,得出查重結論。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東省科技基礎條件平臺中心,未經廣東省科技基礎條件平臺中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510797445.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種變電站五防控制系統
- 下一篇:一種陣列基板及其制作方法、顯示裝置





