[發(fā)明專利]一種基于同義詞分析的科技項(xiàng)目申報(bào)書的相似度檢測方法有效
| 申請?zhí)枺?/td> | 201710202607.1 | 申請日: | 2017-03-30 |
| 公開(公告)號: | CN107122340B | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 嚴(yán)偉;呂躍華;沈凱;楊威;楊朔 | 申請(專利權(quán))人: | 浙江省科技信息研究院 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 杜軍 |
| 地址: | 310006 *** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 同義詞 分析 科技 項(xiàng)目 申報(bào) 相似 檢測 方法 | ||
1.一種基于同義詞分析的科技項(xiàng)目申報(bào)書的相似度檢測方法,其特征在于包括如下步驟:
步驟一:輸入中文基礎(chǔ)詞典和中文停用詞典;
步驟二:構(gòu)建一個(gè)BP神經(jīng)網(wǎng)絡(luò)模型,將中文基礎(chǔ)詞典作為神經(jīng)網(wǎng)絡(luò)模型的輸入層進(jìn)行訓(xùn)練分析,挖掘出其中的同義詞,將屬于某個(gè)詞的所有同義詞放置在同一行,從而組成同義詞詞林T;以中文基礎(chǔ)詞典為基礎(chǔ)建立起字典樹; 該字典樹是一種樹形結(jié)構(gòu),其根節(jié)點(diǎn)為空,每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)字,通過從根節(jié)點(diǎn)出發(fā)向下依次遍歷各個(gè)節(jié)點(diǎn)直至葉子節(jié)點(diǎn)或者標(biāo)注有結(jié)束符號的中間節(jié)點(diǎn)均可組成為中文基礎(chǔ)詞典中的某個(gè)詞;對中文基礎(chǔ)詞典進(jìn)行同義詞分析;
其中同義詞分析方法,具體步驟如下:
步驟1:遍歷中文基礎(chǔ)詞典,任取其中一個(gè)詞條wk;
步驟2:從字典樹根結(jié)點(diǎn)出發(fā)向下遍歷搜索得到要查找的詞條wk的第一個(gè)字對應(yīng)的節(jié)點(diǎn);然后繼續(xù)在以該節(jié)點(diǎn)為根的子樹中搜索詞條wk的下一個(gè)字對應(yīng)的節(jié)點(diǎn);重復(fù)以上步驟,直至找到詞條wk在字典樹中的完整遍歷路徑,為該路徑的最后一個(gè)節(jié)點(diǎn)分配一個(gè)唯一的同義詞編號;
步驟3:在同義詞林T中找到該詞條wk的所有同義詞,按步驟2所示方法在字典樹中找到所有這些同義詞的完整遍歷路徑,將這些完整遍歷路徑的最后一個(gè)節(jié)點(diǎn)標(biāo)注為與詞條wk的同義詞編號相同的同義詞編號;
步驟4:重復(fù)步驟1、步驟2、步驟3,直至中文基礎(chǔ)詞典的所有詞條都在字典樹中找到完整遍歷路徑并且最后一個(gè)節(jié)點(diǎn)都被分配了同義詞編號;
步驟三:提取出某篇科技項(xiàng)目申報(bào)書Di中的文本內(nèi)容并且剔除無意義的格式和符號;然后根據(jù)模板將科技項(xiàng)目申報(bào)書按照文本塊類型劃分為不同的文本塊,根據(jù)各個(gè)文本塊的重要性為每個(gè)文本塊賦予不同權(quán)值;對科技項(xiàng)目申報(bào)書Di進(jìn)行文本塊劃分處理后得到的文本塊集,表示如下:
其中,表示科技項(xiàng)目申報(bào)書Di的文本塊數(shù)量; 按此方法對所有科技項(xiàng)目申報(bào)書進(jìn)行預(yù)處理;
步驟四:根據(jù)字典樹對每篇科技項(xiàng)目申報(bào)書Di的文本塊進(jìn)行分詞處理,去除包含在停用詞典中的停用詞條,最后得到的每個(gè)詞條都用其同義詞編號表示;
步驟五:通過公式:
計(jì)算每篇科技項(xiàng)目申報(bào)書Di中每個(gè)詞條wk的IDF值;其中:|D|表示所有科技項(xiàng)目申報(bào)書數(shù)量,|{t:wk∈Dt}|表示包含詞條wk的科技項(xiàng)目申報(bào)書的數(shù)量;如果IDF值小于某個(gè)預(yù)先設(shè)定的閾值,則視wk為新的停用詞條,將其加入停用詞詞典組成新的停用詞詞典,并在由步驟四獲得的分詞結(jié)果去除新的停用詞條;
步驟六:為每篇科技項(xiàng)目申報(bào)書Di的每一個(gè)文本塊構(gòu)建特征權(quán)值向量其中m表示特征權(quán)值向量的元素?cái)?shù)量,特征權(quán)值向量的每個(gè)元素為詞條wk的詞頻與其IDF值的乘積,即:
其中,F(xiàn)requency(wk)為wk在中出現(xiàn)的次數(shù);
步驟七:任取兩篇科技項(xiàng)目申報(bào)書Di1,Di2,按下式計(jì)算屬于同一個(gè)文本塊類型j的兩個(gè)文本塊之間的相似度,即:
其中和為文本塊對應(yīng)的詞條wk的特征權(quán)值向量元素;該公式中的m表示特征權(quán)值向量的元素?cái)?shù)量;然后對兩篇科技項(xiàng)目申報(bào)書之間的所有屬于同一文本塊類型的兩個(gè)文本塊之間的相似度進(jìn)行加權(quán)處理,得到兩篇科技項(xiàng)目申報(bào)書之間的整體相似度,公式如下:
其中Weight(Pj)表示文本塊Pj的權(quán)值;該公式中的n表示文本塊的總數(shù)量;
步驟八:對于任一科技項(xiàng)目申報(bào)書Di,選擇與其整體相似度最大的科技項(xiàng)目申報(bào)書,作為科技項(xiàng)目申報(bào)書Di的查重結(jié)果輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江省科技信息研究院,未經(jīng)浙江省科技信息研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710202607.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于PageRank和時(shí)間衰減的科技文獻(xiàn)重要度評價(jià)方法
- 基于手機(jī)APP的科技信息服務(wù)查詢系統(tǒng)
- 一種科技情報(bào)信息管理系統(tǒng)
- 一種高??萍汲晒占椒?/a>
- 一種表征科技專家成果能力的科技詞條抽取方法
- 一種科技成果轉(zhuǎn)化信息服務(wù)方法及系統(tǒng)
- 一種基于語義分析的科技成果入庫方法及系統(tǒng)
- 一種科技項(xiàng)目申報(bào)咨詢服務(wù)平臺
- 面向科技服務(wù)的知識圖譜構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 一種科技金融評估系統(tǒng)的構(gòu)建方法





