[發(fā)明專利]一種智能提取內(nèi)容對(duì)象的方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 200910242830.4 | 申請(qǐng)日: | 2009-12-17 |
| 公開(公告)號(hào): | CN102122280A | 公開(公告)日: | 2011-07-13 |
| 發(fā)明(設(shè)計(jì))人: | 余忠華;曹學(xué)軍;閆國(guó)龍;繆萍;曾建英 | 申請(qǐng)(專利權(quán))人: | 北大方正集團(tuán)有限公司;北京北大方正電子有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06F17/30 |
| 代理公司: | 北京天昊聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 11112 | 代理人: | 陳源;羅建民 |
| 地址: | 100871 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能 提取 內(nèi)容 對(duì)象 方法 系統(tǒng) | ||
1.一種智能提取內(nèi)容對(duì)象的方法,包括以下步驟:
(1)根據(jù)文檔小樣形成文檔的待提取內(nèi)容對(duì)象的結(jié)構(gòu);
(2)為所述內(nèi)容對(duì)象結(jié)構(gòu)的每一項(xiàng)建立對(duì)應(yīng)的提取規(guī)則;
(3)按照提取規(guī)則將待提取文檔形成為按照所述內(nèi)容對(duì)象結(jié)構(gòu)表達(dá)的內(nèi)容對(duì)象列表。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容對(duì)象可以是單層結(jié)構(gòu),也可以具有嵌套結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取規(guī)則的層次結(jié)構(gòu)與內(nèi)容對(duì)象結(jié)構(gòu)的層次結(jié)構(gòu)一致。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述按照提取規(guī)則形成內(nèi)容對(duì)象列表的步驟包括以下步驟:
遍歷文檔,利用提取規(guī)則進(jìn)行匹配,將完全匹配的內(nèi)容形成按照所述內(nèi)容對(duì)象結(jié)構(gòu)表達(dá)的內(nèi)容對(duì)象列表。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(1)包括以下步驟:
根據(jù)文檔小樣生成包含該小樣的各部分內(nèi)容及其關(guān)鍵屬性的邏輯樹,依據(jù)該邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性形成待提取內(nèi)容對(duì)象的結(jié)構(gòu)及其對(duì)應(yīng)的提取規(guī)則,
在這種情況下,所述步驟(3)包括以下步驟:
根據(jù)文檔生成包含文檔內(nèi)容及其關(guān)鍵屬性的邏輯樹,遍歷該邏輯樹,按照提取規(guī)則將該邏輯樹形成為按照所述內(nèi)容對(duì)象結(jié)構(gòu)表達(dá)的內(nèi)容對(duì)象列表。
6.根據(jù)權(quán)利要求1或5所述的方法,其特征在于,向用戶提供文檔小樣或根據(jù)文檔小樣生成的邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性,用戶根據(jù)所提供的信息設(shè)置內(nèi)容對(duì)象結(jié)構(gòu)及其提取規(guī)則。
7.一種智能提取內(nèi)容對(duì)象的系統(tǒng),包括:
文檔輸入單元,輸入文檔小樣或文檔,并將文檔小樣發(fā)送給結(jié)構(gòu)提取單元,將文檔發(fā)送給對(duì)象列表形成單元;
結(jié)構(gòu)提取單元,根據(jù)從文檔輸入單元接收的文檔小樣形成文檔的待提取內(nèi)容對(duì)象的結(jié)構(gòu),并為該內(nèi)容對(duì)象結(jié)構(gòu)的每一項(xiàng)建立對(duì)應(yīng)的提取規(guī)則,并將內(nèi)容對(duì)象結(jié)構(gòu)和提取規(guī)則發(fā)送給對(duì)象列表形成單元;
對(duì)象列表形成單元,按照從結(jié)構(gòu)提取單元接收的提取規(guī)則將從文檔輸入單元接收的文檔形成為按照從結(jié)構(gòu)提取單元接收的內(nèi)容對(duì)象結(jié)構(gòu)表達(dá)的內(nèi)容對(duì)象列表,并將所形成的內(nèi)容對(duì)象列表發(fā)送給文檔輸出單元;
文檔輸出單元,輸出從對(duì)象列表形成單元接收的內(nèi)容對(duì)象列表。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述結(jié)構(gòu)提取單元執(zhí)行以下操作:
根據(jù)文檔小樣生成包含該小樣的各部分內(nèi)容及其關(guān)鍵屬性的邏輯樹,依據(jù)該邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性形成待提取內(nèi)容對(duì)象的結(jié)構(gòu)及其對(duì)應(yīng)的提取規(guī)則,
在這種情況下,所述對(duì)象列表形成單元執(zhí)行以下操作:
根據(jù)文檔生成包含文檔內(nèi)容及其關(guān)鍵屬性的邏輯樹,遍歷該邏輯樹,按照提取規(guī)則將該邏輯樹形成為按照所述內(nèi)容對(duì)象結(jié)構(gòu)表達(dá)的內(nèi)容對(duì)象列表。
9.根據(jù)權(quán)利要求7或8所述的系統(tǒng),其特征在于,還包括用戶設(shè)置界面,結(jié)構(gòu)提取單元通過用戶設(shè)置界面向用戶提供文檔小樣或根據(jù)文檔小樣生成的邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性,用戶根據(jù)所提供的信息設(shè)置內(nèi)容對(duì)象結(jié)構(gòu)及其提取規(guī)則。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團(tuán)有限公司;北京北大方正電子有限公司,未經(jīng)北大方正集團(tuán)有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910242830.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 對(duì)象選擇裝置、對(duì)象選擇程序及對(duì)象選擇方法
- 對(duì)象顯示裝置、對(duì)象顯示系統(tǒng)以及對(duì)象顯示方法
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象分析方法、對(duì)象分析設(shè)備及對(duì)象分析系統(tǒng)
- 對(duì)象索引方法、對(duì)象搜索方法及對(duì)象索引系統(tǒng)
- 對(duì)象分類方法和對(duì)象分類設(shè)備
- 對(duì)象庫中的對(duì)象簽名
- 對(duì)象追蹤方法、對(duì)象追蹤系統(tǒng)以及對(duì)象追蹤程序





