[發明專利]中文學術圖書參考文獻數據采集方法在審
| 申請號: | 201710841238.0 | 申請日: | 2017-09-18 |
| 公開(公告)號: | CN107562932A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 程路;劉文君;呂先競;彭國莉 | 申請(專利權)人: | 西華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/32 |
| 代理公司: | 成都虹橋專利事務所(普通合伙)51124 | 代理人: | 吳中偉 |
| 地址: | 610039 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 學術 圖書 參考文獻 數據 采集 方法 | ||
技術領域
本發明涉及數據采集和處理技術,具體涉及一種中文學術圖書參考文獻數據采集方法。
背景技術
學術圖書參考文獻,是關于作者創作學術圖書所引用的有關信息資源的著錄數據,這些著錄數據通常出現在圖書末或章節末的參考文獻表中,有時也會出現在圖書腳注或正文內注處(GB/T 7714—2015《信息與文獻 參考文獻著錄規則》)。
對學術圖書參考文獻進行著錄,直接體現了學者的科研與治學態度,反映了該圖書的學術研究的起點、深度與廣度,有利于讀者檢索、獲取與該學術成果有關的各種文獻信息資源,有利于編輯出版者、科研管理者及讀者甄別該圖書的學術成果內容,有利于圖書情報研究者對學術圖書進行文獻計量分析,是構建中文學術圖書引文數據庫的關鍵。
目前,采集中文學術圖書參考文獻數據的方法多為人工錄入法,該方法的缺陷是費時費力,在面對大規模圖書參考文獻數據錄入時效率更加低下,且容易出錯。
發明內容
本發明所要解決的技術問題是:提出一種中文學術圖書參考文獻數據采集方法,解決傳統技術中采用人工錄入參考文獻數據存在的效率低,容易出錯的問題。
本發明解決其技術問題所采用的技術方案是:
中文學術圖書參考文獻數據采集方法,包括以下步驟:
a.判斷待處理圖書的類型,若為電子圖書,則進入步驟c,若為紙質圖書則進入步驟b;
b.根據參考文獻在圖書中的位置采用相應措施采集參考文獻數據,進入步驟d;
c.對圖書中的參考文獻數據進行OCR識別,然后進行校對;
d.將參考文獻數據存入未結構化數據庫中;
e.對未結構化數據庫中的參考文獻數據進行結構化處理,將處理后的數據存入結構化數據庫中;
f.基于結構化數據庫中的參考文獻數據設置檢索詞,然后查找本地文獻庫,并以網絡文獻庫作為輔助進行參考文獻匹配;
g.對匹配出來的參考文獻放入臨時庫中以備審查;
h.將審查通過的參考文獻放入規范參考文獻庫中。
作為進一步優化,步驟b中,所述根據參考文獻在圖書中的位置采用相應措施采集參考文獻數據,具體包括:
若參考文獻位于圖書末或者章節末,則采用平板掃描儀對參考文獻位置進行掃描;
若參考文獻位于正文內注或者腳注,則采用掃描筆進行人工掃描,或者人工采用錄音筆進行錄音后進行語音識別。
作為進一步優化,在采用平板掃描儀對參考文獻位置進行掃描前,將平板掃描儀的分辨率設置為600dpi。
作為進一步優化,對于采用平板掃描儀掃描獲取的圖片,對應圖書中的頁碼順序并按照PDF-A的格式進行保存,并以統一的規范命名:
前4位為數字代碼,后面接來源圖書的題名,中間用“_”連接,其中數字代碼為編目機構設置的來源圖書編碼的后4位。
作為進一步優化,步驟c中,在對識別數據進行校對時,優先校對參考文獻的題名。
作為進一步優化,步驟e中,所述對參考文獻數據進行結構化處理,具體包括:
針對每本圖書的參考文獻的字段數量和排列情況制定字段格式,然后對字段進行分割,在分割時,采用腳本或程序對字段間的分隔符進行檢測以區分字段。
作為進一步優化,步驟f中,在設置檢索詞時,根據參考文獻類型確定:
若參考文獻為期刊,則以參考文獻的題名為檢索詞,若參考文獻為圖書,則以參考文獻的題名和出版者為檢索詞。
作為進一步優化,步驟f中具體包括:
f1.基于結構化數據庫中的參考文獻數據設置檢索詞,然后查找本地文獻庫;
f2.在通過檢索詞查找本地文獻庫后,若返回的查找結果為0,則進入步驟f3,若查找結果不為0,則進入步驟f4;
f3.從網絡文獻庫中根據參考文獻的字段進行數據抓取,若抓取結果為0,則調整檢索的參考文獻字段,返回步驟f3,重新進行數據抓取;若抓取結果不為0,則進入步驟f5;
f4.根據查找結果與原參考文獻數據進行相似性比對,將相似性大于一定閾值的反饋文獻數據作為匹配出來的參考文獻;若沒有相似性大于一定閾值的反饋文獻數據,則返回步驟f3;
f5.根據抓取結果與原參考文獻數據進行相似性比對,將相似性大于一定閾值的反饋文獻數據作為匹配出來的參考文獻。
作為進一步優化,步驟g中,還包括:
對匹配出來的參考文獻根據相似度大小進行降序排列;
選取至多5條排序靠前的匹配出來的參考文獻存入臨時庫中以備審查。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西華大學,未經西華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710841238.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據抽取系統和數據抽取方法
- 下一篇:查看學生學習情況的家校聯系系統





