[發(fā)明專利]確定從文檔提取數(shù)據(jù)期間的錯誤無效
| 申請?zhí)枺?/td> | 201380078975.X | 申請日: | 2013-08-29 |
| 公開(公告)號: | CN105474202A | 公開(公告)日: | 2016-04-06 |
| 發(fā)明(設計)人: | 菲利普·格林伍德;肖恩·布蘭什弗勞爾 | 申請(專利權)人: | 隆沙有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/07 |
| 代理公司: | 北京德琦知識產(chǎn)權代理有限公司 11018 | 代理人: | 柴德海;康泉 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 文檔 提取 數(shù)據(jù) 期間 錯誤 | ||
背景技術
隨著互聯(lián)網(wǎng)上的用戶和設備的數(shù)量增加,與那些用戶和設備有關的數(shù)據(jù)量也增加。 此外,用戶越來越依賴數(shù)字文檔和其它數(shù)據(jù),用戶可以通過文檔檢索系統(tǒng)或文檔管理 系統(tǒng)來訪問這些數(shù)字文檔和其它數(shù)據(jù)。這些文檔檢索系統(tǒng)使用戶能夠從各種源快速地 獲取需要的信息。例如,文檔檢索系統(tǒng)可以允許用戶基于文檔的內(nèi)容、基于與文檔關 聯(lián)的元數(shù)據(jù)、或者既基于文檔的內(nèi)容又基于與文檔關聯(lián)的元數(shù)據(jù)來檢索該文檔。
附圖說明
下面的詳細描述參照附圖,其中:
圖1圖示根據(jù)本公開的示例的用于確定數(shù)據(jù)提取期間的錯誤的計算設備的框 圖;
圖2圖示根據(jù)本公開的示例的用于確定數(shù)據(jù)提取期間的錯誤的計算設備的框 圖;
圖3圖示根據(jù)本公開的示例的用于確定數(shù)據(jù)提取期間的錯誤的方法的流程圖; 以及
圖4圖示根據(jù)本公開的示例的用于確定數(shù)據(jù)提取期間的錯誤的方法的流程圖。
具體實施方式
文檔檢索系統(tǒng)將文檔存儲和索引在文檔數(shù)據(jù)庫中。許多時候,這可以包括存 儲和索引成百上千或甚至數(shù)百萬個各種文檔。可以檢索文檔數(shù)據(jù)庫以獲得特定文 檔或包含在這些文檔中的信息,如這些文檔的內(nèi)容或通過與這些文檔關聯(lián)的元數(shù) 據(jù)。但是,在該檢索可以發(fā)生之前,這些文檔必須被攝取到文檔數(shù)據(jù)庫中。
攝取(ingestion)通常是由采集過程和提取過程組成的兩部分過程。該攝取從 采集過程開始,在采集過程期間,文檔檢索系統(tǒng)從文檔庫、文件系統(tǒng)、網(wǎng)絡服務 器或服務、和/或其它合適的源獲取原始文件格式的文檔(或一組文檔)。在采集 文檔之后,可以從采集到的文檔中提取數(shù)據(jù),如文檔信息。但是,在提取過程期 間可能發(fā)生錯誤。
以前,當在提取過程期間發(fā)生錯誤時,文檔檢索系統(tǒng)可以簡單地刪除文檔, 而不管錯誤如何。或者,文檔檢索系統(tǒng)可能已經(jīng)將具有錯誤的文檔存儲到文檔檢 索系統(tǒng)的主數(shù)據(jù)庫中,由此破壞文檔檢索系統(tǒng)的主數(shù)據(jù)庫的完整性。可選地,文 檔檢索系統(tǒng)可能已終止該攝取過程,未完成任何文檔攝取或僅完成文檔攝取的一 部分。這些之前的系統(tǒng)是不可靠的,并且可能引起由于諸如缺少操作系統(tǒng)源、配 置錯誤或其它類似類型故障之類的因素而可能發(fā)生的零星故障。這樣的錯誤可能 導致整個攝取過程失敗。
下面將通過參照確定數(shù)據(jù)提取期間的錯誤的幾個示例來描述各個實施例。在 一個示例中,在采集和索引文檔的攝取過程的數(shù)據(jù)提取過程期間可能發(fā)生錯誤。 當檢測到該錯誤時,正從其中提取數(shù)據(jù)的一個或多個文檔可以存儲在專用數(shù)據(jù)庫 中,如在錯誤數(shù)據(jù)儲存庫中。在一個示例中,用戶可以查看在該錯誤數(shù)據(jù)儲存庫 中存儲的一個或多個文檔,或者文檔檢索系統(tǒng)可以自動地查看在該錯誤數(shù)據(jù)儲存 庫中存儲的一個或多個文檔。在查看以后,可以向文檔檢索系統(tǒng)的主文檔數(shù)據(jù)庫 移動文檔,可以由文檔檢索系統(tǒng)將文檔標記為重新攝取,或者可以從錯誤數(shù)據(jù)儲 存庫中移除文檔。
在一些實現(xiàn)方式中,由于通過對引起提取期間的錯誤的文檔進行隔離而允許 攝取過程繼續(xù),增量的攝取不被攝取過程期間的故障連累,這允許攝取繼續(xù)不間 斷。此外,在攝取過程期間可以維持文檔檢索系統(tǒng)的主數(shù)據(jù)庫的完整性。根據(jù)下 面的描述,這些和其它優(yōu)點將顯而易見。
圖1圖示根據(jù)本公開的示例的用于確定數(shù)據(jù)提取期間的錯誤的計算設備100 的框圖。應理解,計算設備100可以包括任何合適類型的計算設備,包括例如智 能電話、平板、臺式機、便攜式計算機、工作站、服務器、智能顯示器、智能電 視、數(shù)字標牌、科學儀器、銷售設備零售點、視頻墻、成像設備、外圍設備等等。
計算設備100可以包括處理器102,處理器102可以被配置為處理指令。指令 可以存儲在非暫時性有形計算機可讀存儲介質(如存儲器設備104)上,或存儲在 單獨的設備上(未示出),或存儲在任意其它類型的易失性或非易失性存儲器上, 該任意其它類型的易失性或非易失性存儲器存儲用于使可編程的處理器實施本文 描述的技術的指令。可選地或此外,計算設備100可以包括用于實施本文描述的 技術的專用硬件,如一個或多個集成電路、專用集成電路(ASIC)、專用特殊處 理器(ASSP)、現(xiàn)場可編程門陣列(FPGA)、或專用硬件的前述示例的任意組合。 在一些實現(xiàn)方式中,可以在適當時使用多個處理器以及多個存儲器和/或多種存儲 器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于隆沙有限公司,未經(jīng)隆沙有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380078975.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





