[發明專利]中文學術圖書參考文獻數據采集方法在審
| 申請號: | 201710841238.0 | 申請日: | 2017-09-18 |
| 公開(公告)號: | CN107562932A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 程路;劉文君;呂先競;彭國莉 | 申請(專利權)人: | 西華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/32 |
| 代理公司: | 成都虹橋專利事務所(普通合伙)51124 | 代理人: | 吳中偉 |
| 地址: | 610039 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 學術 圖書 參考文獻 數據 采集 方法 | ||
1.中文學術圖書參考文獻數據采集方法,其特征在于,包括以下步驟:
a.判斷待處理圖書的類型,若為電子圖書,則進入步驟c,若為紙質圖書則進入步驟b;
b.根據參考文獻在圖書中的位置采用相應措施采集參考文獻數據,進入步驟d;
c.對圖書中的參考文獻數據進行OCR識別,然后進行校對;
d.將參考文獻數據存入未結構化數據庫中;
e.對未結構化數據庫中的參考文獻數據進行結構化處理,將處理后的數據存入結構化數據庫中;
f.基于結構化數據庫中的參考文獻數據設置檢索詞,然后查找本地文獻庫,并以網絡文獻庫作為輔助進行參考文獻匹配;
g.對匹配出來的參考文獻放入臨時庫中以備審查;
h.將審查通過的參考文獻放入規范參考文獻庫中。
2.如權利要求1所述的中文學術圖書參考文獻數據采集方法,其特征在于,步驟b中,所述根據參考文獻在圖書中的位置采用相應措施采集參考文獻數據,具體包括:
若參考文獻位于圖書末或者章節末,則采用平板掃描儀對參考文獻位置進行掃描;
若參考文獻位于正文內注或者腳注,則采用掃描筆進行人工掃描,或者人工采用錄音筆進行錄音后進行語音識別。
3.如權利要求2所述的中文學術圖書參考文獻數據采集方法,其特征在于,在采用平板掃描儀對參考文獻位置進行掃描前,將平板掃描儀的分辨率設置為600dpi。
4.如權利要求3所述的中文學術圖書參考文獻數據采集方法,其特征在于,對于采用平板掃描儀掃描獲取的圖片,對應圖書中的頁碼順序并按照PDF-A的格式進行保存,并以統一的規范命名:
前4位為數字代碼,后面接來源圖書的題名,中間用“_”連接,其中數字代碼為編目機構設置的來源圖書編碼的后4位。
5.如權利要求1所述的中文學術圖書參考文獻數據采集方法,其特征在于,在對識別數據進行校對時,優先校對參考文獻的題名。
6.如權利要求1所述的中文學術圖書參考文獻數據采集方法,其特征在于,步驟e中,所述對參考文獻數據進行結構化處理,具體包括:
針對每本圖書的參考文獻的字段數量和排列情況制定字段格式,然后對字段進行分割,在分割時,采用腳本或程序對字段間的分隔符進行檢測以區分字段。
7.如權利要求1所述的中文學術圖書參考文獻數據采集方法,其特征在于,步驟f中,在設置檢索詞時,根據參考文獻類型確定:
若參考文獻為期刊,則以參考文獻的題名為檢索詞,若參考文獻為圖書,則以參考文獻的題名和出版者為檢索詞。
8.如權利要求7所述的中文學術圖書參考文獻數據采集方法,其特征在于,步驟f中具體包括:
f1.基于結構化數據庫中的參考文獻數據設置檢索詞,然后查找本地文獻庫;
f2.在通過檢索詞查找本地文獻庫后,若返回的查找結果為0,則進入步驟f3,若查找結果不為0,則進入步驟f4;
f3.從網絡文獻庫中根據參考文獻的字段進行數據抓取,若抓取結果為0,則調整檢索的參考文獻字段,返回步驟f3,重新進行數據抓取;若抓取結果不為0,則進入步驟f5;
f4.根據查找結果與原參考文獻數據進行相似性比對,將相似性大于一定閾值的反饋文獻數據作為匹配出來的參考文獻;若沒有相似性大于一定閾值的反饋文獻數據,則返回步驟f3;
f5.根據抓取結果與原參考文獻數據進行相似性比對,將相似性大于一定閾值的反饋文獻數據作為匹配出來的參考文獻。
9.如權利要求8所述的中文學術圖書參考文獻數據采集方法,其特征在于,步驟g中,還包括:
對匹配出來的參考文獻根據相似度大小進行降序排列;
選取至多5條排序靠前的匹配出來的參考文獻存入臨時庫中以備審查。
10.如權利要求1-9任意一項所述的中文學術圖書參考文獻數據采集方法,其特征在于,步驟h中,還包括:若審查未通過,則調整檢索的參考文獻字段,再次從網絡文獻庫中進行數據抓取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西華大學,未經西華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710841238.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據抽取系統和數據抽取方法
- 下一篇:查看學生學習情況的家校聯系系統





