[發(fā)明專利]一種數(shù)字出版資源語義增強(qiáng)描述系統(tǒng)及其方法有效
| 申請?zhí)枺?/td> | 201210566713.5 | 申請日: | 2012-12-24 |
| 公開(公告)號: | CN102999487A | 公開(公告)日: | 2013-03-27 |
| 發(fā)明(設(shè)計(jì))人: | 陳琳;謝冰;盧朋;高一波;武利娟;代文;宋江龍;溫偉娜 | 申請(專利權(quán))人: | 中國科學(xué)院自動(dòng)化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)字 出版 資源 語義 增強(qiáng) 描述 系統(tǒng) 及其 方法 | ||
1.一種數(shù)字出版資源的語義增強(qiáng)描述系統(tǒng),其包括:
輸入接口層模塊,用于接收需要處理的數(shù)字出版資源;
數(shù)據(jù)層模塊,為服務(wù)層模塊提供支持?jǐn)?shù)據(jù),所述支持?jǐn)?shù)據(jù)包括數(shù)字出版元數(shù)據(jù)集和數(shù)字出版領(lǐng)域知識庫;
服務(wù)層模塊,用于對輸入的數(shù)字出版資源進(jìn)行加工處理;
輸出接口層模塊,用于輸出數(shù)字出版資源的語義增強(qiáng)描述。
2.根據(jù)權(quán)利要求1所述的數(shù)字出版資源語義增強(qiáng)描述系統(tǒng),其特征在于:所述的數(shù)據(jù)層模塊包括:
數(shù)字出版元數(shù)據(jù)提取系統(tǒng),用于構(gòu)建數(shù)字出版元數(shù)據(jù)集;
數(shù)字出版領(lǐng)域知識編輯系統(tǒng),用于構(gòu)建數(shù)字出版領(lǐng)域知識庫。
3.根據(jù)權(quán)利要求1所述的數(shù)字出版資源語義增強(qiáng)描述系統(tǒng),其特征在于:所述服務(wù)層模塊包括:
語義單元?jiǎng)澐窒到y(tǒng):基于數(shù)據(jù)層模塊提供的支持?jǐn)?shù)據(jù),將待處理的數(shù)字出版資源依據(jù)類型的不同劃分為通用概念語義單元和特殊語義單元,得到數(shù)字出版資源的語義單元表述;
語義單元組合系統(tǒng):采用文本直觀形式的七層文件層次模型對所述數(shù)字出版資源的語義單元表述中的語義單元進(jìn)行組合,得到數(shù)字出版資源的語義增強(qiáng)描述。
4.如權(quán)利要求3所述的數(shù)字出版資源語義增強(qiáng)描述系統(tǒng),其特征在于:所述七層文件層次模型包括標(biāo)識元素、行、段、節(jié)、章、數(shù)據(jù)集和數(shù)據(jù)集群從底層到高層的七級,其中標(biāo)識元素為語義單元,低層語義根據(jù)資源原本文本組織方式組合表達(dá)高層語義。
5.如權(quán)利要求3所述的數(shù)字出版資源語義增強(qiáng)描述系統(tǒng),其特征在于:所述特殊語義單元包括基礎(chǔ)教學(xué)教材中的術(shù)語、概念、公式或百科字典中的術(shù)語條;通用概念語義單元?jiǎng)t包括通俗讀物等其他資源中的語義單元。
6.一種數(shù)字出版資源的語義增強(qiáng)描述方法,包括:
步驟1、以數(shù)字出版元數(shù)據(jù)集和數(shù)字出版領(lǐng)域知識庫為基礎(chǔ),根據(jù)數(shù)字出版資源的類型,對輸入的數(shù)字出版資源內(nèi)容劃分為通用概念語義單元和特殊語義單元,得到數(shù)字出版資源的語義單元表述;
步驟2、采用文本直觀形式的七層文件層次模型對數(shù)字出版資源的語義單元表述中的語義單元進(jìn)行組合,得到數(shù)字出版資源的語義增強(qiáng)描述,并將其輸出。
7.如權(quán)利要求6所述的方法,其特征在于:所述數(shù)字出版資源元數(shù)據(jù)集,是由數(shù)字出版資源元數(shù)據(jù)以及元素模型構(gòu)成;其中,元素是元數(shù)據(jù)中用于定義和描述數(shù)字出版數(shù)據(jù)的內(nèi)涵特征;元數(shù)據(jù)包括數(shù)字出版資源中描述數(shù)字出版參與方、出版物產(chǎn)品以及出版過程和服務(wù)的數(shù)據(jù)元素。
8.如權(quán)利要求6所述的方法,其特征在于:所述數(shù)字出版的領(lǐng)域知識庫包括數(shù)字出版資源概念庫和數(shù)字出版領(lǐng)域知識樹;其中,所述數(shù)字出版資源概念庫是由對元數(shù)據(jù)集中元數(shù)據(jù)進(jìn)行概念化抽象所得到的;所述數(shù)字出版領(lǐng)域知識樹是以所述數(shù)字出版資源概念庫內(nèi)的概念為表達(dá)基礎(chǔ),從所述數(shù)字出版資源概念庫中抽取具有層次關(guān)系的概念,按照層次關(guān)系組成。
9.如權(quán)利要求6所述的方法,其特征在于:所述步驟1中對所述數(shù)字出版資源內(nèi)容進(jìn)行劃分包括:
1)、通用概念語義單元的劃分:經(jīng)過停用詞和去除干擾處理之后,在數(shù)字出版資源概念庫基礎(chǔ)上采用雙向最大匹配方法切割分詞,并根據(jù)所述數(shù)字出版概念庫和所述數(shù)字出版領(lǐng)域知識樹關(guān)聯(lián)完成詞語的上下文語境消歧,同時(shí)將語義標(biāo)注到所述數(shù)字出版領(lǐng)域知識樹上,注明語義單元類別屬性,完成通用概念語義單元的劃分;
2)、數(shù)字出版特殊語義單元的劃分:
a)公式的劃分:根據(jù)公式的特殊語義單元的語言結(jié)構(gòu)特征設(shè)定識別算法,標(biāo)識出數(shù)字出版資源中出現(xiàn)公式結(jié)構(gòu)特征的文本內(nèi)容,也即公式出現(xiàn)的上下文,并根據(jù)語言結(jié)構(gòu)特征的上下提示作用在其對應(yīng)位置的上或下范圍內(nèi)識別包含一定長度的字母數(shù)字文字,確立公式頭和公式尾的位置,劃分出公式,并將提示說明文字中的基本語義單元作為公式的語義描述標(biāo)注其上,完成公式的語義單元的劃分;
b)術(shù)語的劃分:術(shù)語收錄于領(lǐng)域?qū)W科辭典中,在所述領(lǐng)域?qū)W科辭典的基礎(chǔ)上,采用雙向最大匹配方法切割分詞,同時(shí)將語義標(biāo)注到所述數(shù)字出版領(lǐng)域知識樹上,完成術(shù)語的劃分。
10.如權(quán)利要求6所述的方法,其特征在于:所述數(shù)字出版資源的語義增強(qiáng)描述采用文本直觀結(jié)構(gòu)形式的七層文件層次模型,包括標(biāo)識元素、行、段、節(jié)、章、數(shù)據(jù)集和數(shù)據(jù)集群從底層到高層的七級,其中標(biāo)識元素為語義單元,低層語義根據(jù)資源原本文本組織方式組合表達(dá)高層語義。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動(dòng)化研究所,未經(jīng)中國科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210566713.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級語義表征和語義計(jì)算的信號語義識別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





