[發明專利]用于電力領域的基于知識圖譜的文檔查重方法在審
| 申請號: | 202110253322.7 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112988968A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 黃鑫;陳毅波;黃巍;向行;蔣破荒;張祖平;田建偉;陳遠揚;何智強;祝視 | 申請(專利權)人: | 國網湖南省電力有限公司;國網湖南省電力有限公司信息通信分公司;國家電網有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/194;G06N3/04;G06N3/08 |
| 代理公司: | 長沙永星專利商標事務所(普通合伙) 43001 | 代理人: | 周詠;米中業 |
| 地址: | 410004 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 電力 領域 基于 知識 圖譜 文檔 方法 | ||
本發明公開了一種用于電力領域的基于知識圖譜的文檔查重方法,包括構建訓練集;抽取文檔中的實體構建實體共現圖;對實體共現圖進行概念檢測;按照概念對句子進行分組,計算概念之間邊的權重并構建概念交互圖;對句子進行編碼并合并編碼后的向量;匹配與每個概念相關的兩個文檔之間的句子集并將局部匹配結果聚合為最終的匹配分數;根據匹配分數對文檔進行查重判定。本發明先提出概念交互圖,以概念交互圖的形式表示文檔;然后,通過一系列編碼技術比較包含相同概念頂點的句子來匹配一對文檔,并通過圖卷積層匯總局部匹配結果,從而進行文檔的匹配;因此本發明方法的可靠性高、準確性好且效率較高。
技術領域
本發明屬于文字圖像處理領域,具體涉及一種用于電力領域的基于知識圖譜的文檔查重方法。
背景技術
隨著經濟技術的發展和人們生活水平的提高,電力領域對于科技項目和科研經費的投入也越來越高。而隨著科研項目的越來越多,電力系統對于科技項目的審計和審批流程也越來越嚴格。
目前,隨著電力系統科技項目的快速增長,針對科技項目文檔的審計和審批流程也越來越困難。目前,電力系統一般采用人工檢測、人工審計和人工審批的方式,對電力系統的科技項目的文檔進行審計和審批。但是,采用人工進行審計和審批的方式,明顯存在可靠性不高和效率低下的問題。
隨著自然語言處理技術的不斷發展與應用,電力系統在科技項目申報文本相似性檢測方面的研究工作己經取得了一定的積極成果,也為項目申報項目的查新與查重工作提供了重要的技術支持。然而,盡管目前的文本相似性檢測方法在一定程度上改善了科技申報項目的查新與查重機制,但在其發展與應用過程中依舊存在一些問題,如科學技術名詞難以有效識別、語義關聯特征提取能力有限、半結構化文檔的文本相似度計算效果不佳等。
發明內容
本發明的目的在于提供一種可靠性高、準確性好且效率較高的用于電力領域的基于知識圖譜的文檔查重方法。
本發明提供的這種用于電力領域的基于知識圖譜的文檔查重方法,包括如下步驟:
S1.構建訓練集;
S2.抽取文檔中的實體,從而構建實體共現圖;
S3.對步驟S2構建的實體共現圖進行概念檢測;
S4.按照概念,對句子進行分組,計算概念之間邊的權重,從而構建概念交互圖;
S5.對句子進行編碼,并合并編碼后的向量;
S6.匹配與每個概念相關的兩個文檔之間的句子集,并將局部匹配結果聚合為最終的匹配分數;
S7.根據步驟S6得到的匹配分數,對兩個文檔進行查重判定。
步驟S1所述的構建訓練集,具體為采用回譯和人工修正的方式構建正樣本集,并采用剔除低于設定閾值的樣本從而構建負樣本集。
所述的回譯,具體為采用TextBolb方法進行回譯。
所述的剔除,具體為采用TF-IDF法進行剔除。
步驟S2所述的抽取文檔中的實體,從而構建實體共現圖,具體為對于目標文檔,首先基于電力知識領域圖譜,通過TextRank方式,抽取目標文檔的關鍵字;然后根據找到的關鍵字集合,構建關鍵字共現圖(KeyGraph),在關鍵字共現圖中,每個關鍵字都是關鍵字共現圖中的一個頂點,同時若兩個關鍵字同時在同一個句子中,則將該兩個關鍵字通過邊進行連接;最后,通過執行共同引用解析和同義詞分析,合并具有相同含義的關鍵字;最終得到實體共現圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網湖南省電力有限公司;國網湖南省電力有限公司信息通信分公司;國家電網有限公司,未經國網湖南省電力有限公司;國網湖南省電力有限公司信息通信分公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110253322.7/2.html,轉載請聲明來源鉆瓜專利網。





