[發明專利]一種自動提取論文引用內容及對應文后參考文獻的方法和系統在審
| 申請號: | 201610124658.2 | 申請日: | 2016-03-04 |
| 公開(公告)號: | CN107153635A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 王駿;熊海濤 | 申請(專利權)人: | 《中國學術期刊(光盤版)》電子雜志社有限公司;同方知網(北京)技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙)11369 | 代理人: | 史霞 |
| 地址: | 100084 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 提取 論文 引用 內容 對應 參考文獻 方法 系統 | ||
技術領域
本發明涉及自動提取論文引用內容及對應文后參考文獻的方法和系統技術領域,具體為一種自動提取論文引用內容及對應文后參考文獻的方法和系統。
背景技術
論文引用內容抽取指從論文中抽取出引用了其他參考文獻的內容,其屬于信息抽取技術范疇,隨著科學技術的發展,作為科學研究成果代表的論文數量也在不斷增長,對海量論文進行碎片化,知識化處理,從中發掘出深層次內容信息成為文獻計量學領域的迫切需求,碎片化處理指根據需求從論文中抽取出相應內容,如研究對象,研究背景,引用內容等等,由于論文的引用關系反映了科學技術發展傳承的過程,同時為評價論文提供了真實可靠的客觀標準,因此在碎片化的整體需求中,提取引用內容顯得尤為重要,另一方面,傳統的文獻計量學對于引用關系的研究局限于被引頻次,題錄信息等淺層信息,也需要進一步深入到引用內容層次進行分析,可見,對論文引用內容的抽取具有重要意義,論文相對于其他語料,具有行文格式較為規范的特點,特別是對于參考文獻的引用,更是需要遵循一定規則,如GB/T7714-2005《文后參考文獻著錄規則》以國標的形式規定了引用文后參考文獻的著錄方法,因此目前有關引用內容抽取的研究一般使用基于規則的方法,中科院聲學所韋向峰等人提出根據標志符”[]”,”()”以及其中連接符號”,”,”-”判斷論文中是否存在引用,并抽取出引用內容的方法,在基于規則的抽取方法中,根據抽取對象特點,設計合理抽取規則是算法核心所在,韋向峰的方法利用了引用內容最明顯的標志,然而并沒有全面分析引用存在的不同形式,設計的抽取規則并不完善,也沒有通過大規模語料驗證算法,因此不能保證抽取的全面完整,在算法中,也沒有提到如何對引用內容 和其所引用的參考文獻進行對應,除了自動抽取外,目前也有一些研究者采用手工方法進行引用內容抽取,手工方法通過人工閱讀論文,判斷文中的引用標志,抽取出引用內容,并將其與文后所引用的參考文獻對應,如何榮立等人對于引用內容的研究采用人工方法,手工提取了300篇不同類型論文中包含的引用內容,很明顯,這樣的方法雖然簡單明了,然而費時費力,不能實現大規模的抽取目前文獻計量學領域研究引用關系只利用論文的引用次數,文獻題錄等信息,沒有從論文中提取出引用內容信息以及進行更深層的分析利用,也沒有一套完整全面從論文中提取出引用內容的系統方法。
發明內容
本發明的目的在于提供一種自動提取論文引用內容及對應文后參考文獻的方法和系統,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種自動提取論文引用內容及對應文后參考文獻的方法和系統,包括以下步驟:
步驟一:從REC文本中提取論文正文內容,提取部分為‘<正文>=’標簽后至下一個標簽‘<>=’之間內容,提取正則表達式如,‘<全文>=(,*?)</D*>’;
步驟二:正文分句,對步驟一中提取出的正文內容進行分句,分句符號為中文句號‘。’和英文句號‘,’,由于英文句號與數學小數點,e,g等特殊符號相同,故設計如下分步處理方法,依次通過三個正則表達式來判斷是否應當分句,‘(?!/D/,/))(?!/D/,/])(?!l/,,)(?!e/,g)(?![A-Z]/,/D)(/D/,(?!@)/D)’,‘(?!e/,/d)(?!g/,/d)(/D/,(?!@)/d)’,‘。’;
步驟三:抽取引用內容,在步驟二分句的基礎上,從其中抽取出含有順序編碼制引用方式的句子,通過對大量數據分析,論文中順序編碼制可能包括如下幾種格式(1)純數字[1],(2)連接號分隔[1-3],(3)其他符號分隔[1~3][1~3],(4)逗號及混合方式[1,2][1,2-4],[1,2~4],對于以上格式,分別設計正則表達式規則抽取,(1)‘/[(/d+)/]',(2)‘/[(/d+-/d+)/]’,(3) ‘/[(/d+~/d+)/]’‘/[(/d+~/d+)/]’,(4)‘/[(/d+,,*?/d+)/]’,符合以上正則表達式的句子被抽取出作為引用內容;
步驟四:獲取引用內容中參考文獻標號,在步驟三中四種格式的基礎上,解析所對應的參考文獻標號,如[1]對應1,[1,2-4]對應1,2,3,4;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于《中國學術期刊(光盤版)》電子雜志社有限公司;同方知網(北京)技術有限公司,未經《中國學術期刊(光盤版)》電子雜志社有限公司;同方知網(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610124658.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在線文檔文件的切分方法和在線文檔文件的切分系統
- 下一篇:智能問答方法及系統





