[發明專利]文獻去重方法及裝置有效

申請號：	201810893169.2	申請日：	2018-08-07
公開（公告）號：	CN109241008B	公開（公告）日：	2020-10-27
發明（設計）人：	趙榮生;宋再偉;黃振城;周旻	申請（專利權）人：	北京大學第三醫院;北京諾道認知醫學科技有限公司
主分類號：	G06F16/174	分類號：	G06F16/174;G06F16/33;G06F16/335
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	王瑩;李相雨
地址：	100191 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文獻方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例提供的一種文獻去重方法及裝置，通過獲取第一目標文獻和第二目標文獻各自對應的屬性標簽和屬性內容，從所述屬性標簽中篩選出目標屬性標簽，以及所述目標屬性標簽對應的屬性內容，根據所述目標屬性標簽對應的屬性內容獲得對應的屬性標簽重復率；根據所述屬性標簽重復率獲得所述第一目標文獻與所述第二目標文獻的去重結果，加快查重速度，節省人力和時間。

技術領域

本發明涉及信息處理技術領域，尤其涉及一種文獻去重方法及裝置。

背景技術

重復文獻篩選是一項相當重要且占用時間的工作，若能夠利用機篩的方式代替人工篩選，則可以在很大程度上降低科研工作的工作量。在這個過程中，收錄冗余是當前面臨的主要問題。

收錄冗余是指由于數據庫收錄期刊重疊而導致跨庫檢索結果的冗余。區別于一般網頁信息上傳的自由性與轉載的隨意性，文獻信息因其通常涉及版權問題而與特定的刊物所綁定，所以文獻信息的出處是唯一的，且上傳與轉載的自由性不大。然而，特定的刊物卻總是被一個或多個網絡數據庫所收錄，不同的數據庫收錄的刊物經常存在交集，在獲取個人/單位發文信息時，通常是借助于對多個數據庫跨庫檢索來完成的，因此，數據庫收錄刊的重疊是導致文獻跨庫檢索冗余的最根本的原因。對于收錄冗余，最常使用的方法人為采用ISBN查重，但這種方式效率低下。

發明內容

本發明提供一種文獻去重方法及裝置，用于解決現有技術中對文獻查重效率低的問題。

第一方面，本發明實施例提供一種文獻去重方法，包括：

獲取第一目標文獻和第二目標文獻各自對應的屬性標簽和屬性內容，所述第一目標文獻和所述第二目標文獻為屬性內容相互存在重復的文獻；

從所述屬性標簽中篩選出目標屬性標簽，以及所述目標屬性標簽對應的屬性內容；

根據所述目標屬性標簽對應的屬性內容獲得對應的屬性標簽重復率；

根據所述屬性標簽重復率獲得所述第一目標文獻與所述第二目標文獻的去重結果。

可選地，當所述目標屬性標簽包括文獻作者和文獻題目時，所述根據所述目標屬性標簽對應的屬性內容獲得對應的屬性標簽重復率，包括：

根據所述文獻題目標簽對應的屬性內容獲得所述第一目標文獻的文獻題目的字符串長度、所述第二目標文獻的文獻題目的字符串長度、以及所述第一目標文獻和所述第二目標文獻在文獻題目下的重復內容的字符串總長度；

根據所述第一目標文獻和所述第二目標文獻各自的文獻題目的字符串長度和所述重復內容的字符串總長度采用第一計算公式獲得文獻題目重復率；

根據所述文獻作者標簽對應的屬性內容獲得所述第一目標文獻和所述第二目標文獻對應的作者數目、以及所述第一目標文獻的各個作者名與所述第二目標文獻的各個作者名相互重復的字符串長度；

根據所述第一目標文獻和所述第二目標文獻對應的作者數目和所述第一目標文獻的各個作者名與所述第二目標文獻的各個作者名相互重復的字符串長采用第二計算公式獲得文獻作者重復率。