[發明專利]一種自動提取論文引用內容及對應文后參考文獻的方法和系統在審
| 申請號: | 201610124658.2 | 申請日: | 2016-03-04 |
| 公開(公告)號: | CN107153635A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 王駿;熊海濤 | 申請(專利權)人: | 《中國學術期刊(光盤版)》電子雜志社有限公司;同方知網(北京)技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙)11369 | 代理人: | 史霞 |
| 地址: | 100084 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 提取 論文 引用 內容 對應 參考文獻 方法 系統 | ||
1.一種自動提取論文引用內容及對應文后參考文獻的方法和系統,其特征在于:包括以下步驟:
步驟一:從REC文本中提取論文正文內容,提取部分為‘<正文>=’標簽后至下一個標簽‘<>=’之間內容,提取正則表達式如,‘<全文>=(,*?)</D*>’;
步驟二:正文分句,對步驟一中提取出的正文內容進行分句,分句符號為中文句號‘?!陀⑽木涮枴?,’,由于英文句號與數學小數點,e,g等特殊符號相同,故設計如下分步處理方法,依次通過三個正則表達式來判斷是否應當分句,‘(?!/D/,/))(?!/D/,/])(?!l/,,)(?!e/,g)(?![A-Z]/,/D)(/D/,(?!@)/D)’,‘(?!e/,/d)(?!g/,/d)(/D/,(?!@)/d)’,‘。’;
步驟三:抽取引用內容,在步驟二分句的基礎上,從其中抽取出含有順序編碼制引用方式的句子,通過對大量數據分析,論文中順序編碼制可能包括如下幾種格式(1)純數字[1],(2)連接號分隔[1-3],(3)其他符號分隔[1~3][1~3],(4)逗號及混合方式[1,2][1,2-4],[1,2~4],對于以上格式,分別設計正則表達式規則抽取,(1)‘/[(/d+)/]',(2)‘/[(/d+-/d+)/]’,(3)‘/[(/d+~/d+)/]’‘/[(/d+~/d+)/]’,(4)‘/[(/d+,,*?/d+)/]’,符合以上正則表達式的句子被抽取出作為引用內容;
步驟四:獲取引用內容中參考文獻標號,在步驟三中四種格式的基礎上,解析所對應的參考文獻標號,如[1]對應1,[1,2-4]對應1,2,3,4;
步驟五:對應文后參考文獻,通過步驟四中獲取的引用內容中參考文獻標號,與文后參考文獻序號對應,由于文后參考文獻可能存在如下三種形式,(1)方括號[1],(2)圓括號(1),(3)只有數字無括號1,故根據以上三種形式設計對應正則表達式如,'/['+‘num’+'/]'‘num’'/('+‘num’+'/)',按上述正則表達式首先在引文字段搜索參考文獻序號,如果沒有,則在正文末尾部分搜索參考文獻序號,完成引文內容與文后參考文獻的對應。
2.根據權利要求1所述的一種自動提取論文引用內容及對應文后參考文 獻的方法和系統,其特征在于:步驟一中,REC文本是本方法研究處理的論文格式,REC格式文本在每篇論文開頭標志<REC>,此后論文中相關字段以‘<標簽>=’形式標出,如,<REC><標題>=乒乓球教育的反思<全文>=乒乓球是我國全民普及率非常高的運動項目,在我國有著非常廣的群眾基礎,就運動項目本身來說,乒乓球運動…,<引文>=[1]王玉蘋,對乒乓球運動國際化發展的對策研究[J],運動,2014(19),[2]王曉斐,全民健身環境下乒乓球運動的發展[J],青少年體育,2015(05)。
3.根據權利要求1所述的一種自動提取論文引用內容及對應文后參考文獻的方法和系統,其特征在于:在步驟四中,引用內容指論文正文中包含有順序編碼制參考文獻引用方式的句子,句子的分隔符號為中英文句號,參考文獻是論文正文后以順序編碼方式列出的被引用文獻及相關信息,不包括尾注,腳注等其他形式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于《中國學術期刊(光盤版)》電子雜志社有限公司;同方知網(北京)技術有限公司,未經《中國學術期刊(光盤版)》電子雜志社有限公司;同方知網(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610124658.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在線文檔文件的切分方法和在線文檔文件的切分系統
- 下一篇:智能問答方法及系統





