[發明專利]一種基于同義詞分析的科技項目申報書的相似度檢測方法有效
| 申請號: | 201710202607.1 | 申請日: | 2017-03-30 |
| 公開(公告)號: | CN107122340B | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 嚴偉;呂躍華;沈凱;楊威;楊朔 | 申請(專利權)人: | 浙江省科技信息研究院 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 杜軍 |
| 地址: | 310006 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 同義詞 分析 科技 項目 申報 相似 檢測 方法 | ||
1.一種基于同義詞分析的科技項目申報書的相似度檢測方法,其特征在于包括如下步驟:
步驟一:輸入中文基礎詞典和中文停用詞典;
步驟二:構建一個BP神經網絡模型,將中文基礎詞典作為神經網絡模型的輸入層進行訓練分析,挖掘出其中的同義詞,將屬于某個詞的所有同義詞放置在同一行,從而組成同義詞詞林T;以中文基礎詞典為基礎建立起字典樹; 該字典樹是一種樹形結構,其根節點為空,每個節點對應一個字,通過從根節點出發向下依次遍歷各個節點直至葉子節點或者標注有結束符號的中間節點均可組成為中文基礎詞典中的某個詞;對中文基礎詞典進行同義詞分析;
其中同義詞分析方法,具體步驟如下:
步驟1:遍歷中文基礎詞典,任取其中一個詞條wk;
步驟2:從字典樹根結點出發向下遍歷搜索得到要查找的詞條wk的第一個字對應的節點;然后繼續在以該節點為根的子樹中搜索詞條wk的下一個字對應的節點;重復以上步驟,直至找到詞條wk在字典樹中的完整遍歷路徑,為該路徑的最后一個節點分配一個唯一的同義詞編號;
步驟3:在同義詞林T中找到該詞條wk的所有同義詞,按步驟2所示方法在字典樹中找到所有這些同義詞的完整遍歷路徑,將這些完整遍歷路徑的最后一個節點標注為與詞條wk的同義詞編號相同的同義詞編號;
步驟4:重復步驟1、步驟2、步驟3,直至中文基礎詞典的所有詞條都在字典樹中找到完整遍歷路徑并且最后一個節點都被分配了同義詞編號;
步驟三:提取出某篇科技項目申報書Di中的文本內容并且剔除無意義的格式和符號;然后根據模板將科技項目申報書按照文本塊類型劃分為不同的文本塊,根據各個文本塊的重要性為每個文本塊賦予不同權值;對科技項目申報書Di進行文本塊劃分處理后得到的文本塊集,表示如下:
其中,表示科技項目申報書Di的文本塊數量; 按此方法對所有科技項目申報書進行預處理;
步驟四:根據字典樹對每篇科技項目申報書Di的文本塊進行分詞處理,去除包含在停用詞典中的停用詞條,最后得到的每個詞條都用其同義詞編號表示;
步驟五:通過公式:
計算每篇科技項目申報書Di中每個詞條wk的IDF值;其中:|D|表示所有科技項目申報書數量,|{t:wk∈Dt}|表示包含詞條wk的科技項目申報書的數量;如果IDF值小于某個預先設定的閾值,則視wk為新的停用詞條,將其加入停用詞詞典組成新的停用詞詞典,并在由步驟四獲得的分詞結果去除新的停用詞條;
步驟六:為每篇科技項目申報書Di的每一個文本塊構建特征權值向量其中m表示特征權值向量的元素數量,特征權值向量的每個元素為詞條wk的詞頻與其IDF值的乘積,即:
其中,Frequency(wk)為wk在中出現的次數;
步驟七:任取兩篇科技項目申報書Di1,Di2,按下式計算屬于同一個文本塊類型j的兩個文本塊之間的相似度,即:
其中和為文本塊對應的詞條wk的特征權值向量元素;該公式中的m表示特征權值向量的元素數量;然后對兩篇科技項目申報書之間的所有屬于同一文本塊類型的兩個文本塊之間的相似度進行加權處理,得到兩篇科技項目申報書之間的整體相似度,公式如下:
其中Weight(Pj)表示文本塊Pj的權值;該公式中的n表示文本塊的總數量;
步驟八:對于任一科技項目申報書Di,選擇與其整體相似度最大的科技項目申報書,作為科技項目申報書Di的查重結果輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江省科技信息研究院,未經浙江省科技信息研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710202607.1/1.html,轉載請聲明來源鉆瓜專利網。





