[發(fā)明專利]一種針對圖書檢索信息進行斷點續(xù)采的方法和系統(tǒng)無效
| 申請?zhí)枺?/td> | 201310562445.4 | 申請日: | 2013-11-12 |
| 公開(公告)號: | CN103559297A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設計)人: | 肖波;趙琳;藺志青;陸月明 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 圖書 檢索 信息 進行 斷點 方法 系統(tǒng) | ||
1.一種針對圖書檢索信息進行斷點續(xù)采的方法,其特征在于,包括以下步驟:?
(1)斷點信息加載步驟;?
(2)跳轉到相應爬取位置步驟;?
(3)斷點信息保存步驟;?
(4)圖書信息下載處理步驟,重復執(zhí)行步驟(2)。?
2.如權利要求1所述的方法,其特征在于,步驟(1)進一步包括:?
(11)讀取斷點信息文件步驟,斷點信息文件中保存了中斷點的索書號、頁碼和頁碼內(nèi)第幾項;?
(12)獲取斷點信息步驟,處理讀入的信息,得到斷點處索書號S,頁碼P和頁內(nèi)第幾項N。?
3.如權利要求1所述的方法,其特征在于,步驟(2)進一步包括:?
(21)跳轉到檢索結果頁步驟,即根據(jù)索書號S和前一次爬取狀態(tài),確定本次檢索號Sn,跳轉到對應檢索結果頁;?
(22)下載解析結果頁步驟,下載結果頁并通過正則表達式匹配獲取查詢結果信息;?
(23)判斷是否限制顯示數(shù)量步驟,若無數(shù)量限制,則執(zhí)行步驟(24);若有數(shù)量限制,判斷當前檢索結果是否超過最大顯示數(shù)目,如果超過,則縮小索書號的范圍,即把當前索書號作為首位不變,在其后添加子位以遍歷所有的情況,子位應包含索書號中可能出現(xiàn)的所有字符,跳轉回步驟(21),重新檢索;如果沒有超過,則執(zhí)行步驟(24);?
(24)跳轉到列表頁步驟,根據(jù)頁碼P和前一次爬取狀態(tài),確定本次采集頁碼Page,通過Sn、Page等信息拼裝待爬取列表頁url;?
(25)下載解析列表頁步驟,即爬取列表頁,通過正則表達式匹配出列表頁內(nèi)的書目鏈接;?
(26)跳轉到爬取位置步驟,根據(jù)頁內(nèi)第幾項N,跳過已爬取書目,并確定本次爬取位置。?
4.如權利要求1所述的方法,其特征在于,在步驟(3)中,將斷點信息寫入斷點信息文件中,斷點信息包括索書號、頁碼和頁碼內(nèi)第幾項。?
5.如權利要求1所述的方法,其特征在于,步驟(4)進一步包括:?
(41)下載圖書信息步驟,即爬取圖書頁面;?
(42)獲取圖書信息步驟,如果系統(tǒng)提供圖書的MARC信息,則通過正則表達式匹配出MARC信息,如果不提供,則通過正則表達式匹配出圖書的基本信息;?
(43)圖書信息存儲步驟,將獲取的圖書信息保存。?
6.一種針對圖書檢索信息進行斷點續(xù)采的系統(tǒng),其特征在于,包括以下模塊:?
(1)斷點信息加載模塊;?
(2)跳轉到相應爬取位置模塊;?
(3)斷點信息保存模塊;?
(4)圖書信息下載處理模塊。?
7.如權利要求6所述的系統(tǒng),其特征在于,模塊(1)進一步包括:?
(11)讀取斷點信息文件模塊,斷點信息文件中保存了中斷點的索書號、頁碼和頁碼內(nèi)第幾項;?
(12)獲取斷點信息模塊,完成獲取斷點信息索書號S,頁碼P,頁內(nèi)第幾項N。?
8.如權利要求6所述的系統(tǒng),其特征在于,模塊(2)進一步包括:?
(21)跳轉到檢索結果頁模塊,即根據(jù)索書號S和前一次爬取狀態(tài),確定本次檢索號Sn,跳轉到對應檢索結果頁;?
(22)下載解析結果頁模塊,下載結果頁并通過正則表達式獲取查詢結果信息;?
(23)判斷是否限制顯示數(shù)量模塊,若無數(shù)量限制,則執(zhí)行模塊(24);若有數(shù)量限制,判斷當前檢索結果是否超過最大顯示數(shù)目,如果超過,則縮小索書號的范圍,即把當前索書號作為首位不變,在其后添加子位遍歷所有的情況,子位應包含索書號中可能出現(xiàn)的所有字符,跳轉回模塊(21),重新檢索;如?果沒有超過,則執(zhí)行模塊(24);?
(24)跳轉到列表頁模塊,根據(jù)頁碼P和前一次爬取狀態(tài),確定本次采集頁碼Page,通過Sn、Page等信息拼裝待爬取列表頁url;?
(25)下載解析列表頁模塊,即爬取列表頁,通過正則表達式匹配出列表頁內(nèi)的書目鏈接;?
(26)跳轉到爬取位置模塊,根據(jù)頁內(nèi)第幾項N,跳過已爬取書目,并確定本次爬取位置。?
9.如權利要求6所述的方法,模塊(3)中,保存斷點信息,包括索書號、頁碼和頁碼內(nèi)第幾項。?
10.如權利要求6所述的系統(tǒng),其特征在于,模塊(4)進一步包括:?
(41)下載圖書頁面模塊,即爬取圖書頁面;?
(42)獲取圖書信息模塊,如果系統(tǒng)提供圖書的MARC信息,則通過正則表達式匹配出MARC信息,如果不提供MARC信息,則通過正則表達式匹配出圖書的基本信息;?
(43)圖書信息存儲模塊,將獲取的圖書信息保存。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經(jīng)北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310562445.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





