[發(fā)明專利]一種數(shù)字出版資源語(yǔ)義增強(qiáng)描述系統(tǒng)及其方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210566713.5 | 申請(qǐng)日: | 2012-12-24 |
| 公開(kāi)(公告)號(hào): | CN102999487A | 公開(kāi)(公告)日: | 2013-03-27 |
| 發(fā)明(設(shè)計(jì))人: | 陳琳;謝冰;盧朋;高一波;武利娟;代文;宋江龍;溫偉娜 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)字 出版 資源 語(yǔ)義 增強(qiáng) 描述 系統(tǒng) 及其 方法 | ||
1.一種數(shù)字出版資源的語(yǔ)義增強(qiáng)描述系統(tǒng),其包括:
輸入接口層模塊,用于接收需要處理的數(shù)字出版資源;
數(shù)據(jù)層模塊,為服務(wù)層模塊提供支持?jǐn)?shù)據(jù),所述支持?jǐn)?shù)據(jù)包括數(shù)字出版元數(shù)據(jù)集和數(shù)字出版領(lǐng)域知識(shí)庫(kù);
服務(wù)層模塊,用于對(duì)輸入的數(shù)字出版資源進(jìn)行加工處理;
輸出接口層模塊,用于輸出數(shù)字出版資源的語(yǔ)義增強(qiáng)描述。
2.根據(jù)權(quán)利要求1所述的數(shù)字出版資源語(yǔ)義增強(qiáng)描述系統(tǒng),其特征在于:所述的數(shù)據(jù)層模塊包括:
數(shù)字出版元數(shù)據(jù)提取系統(tǒng),用于構(gòu)建數(shù)字出版元數(shù)據(jù)集;
數(shù)字出版領(lǐng)域知識(shí)編輯系統(tǒng),用于構(gòu)建數(shù)字出版領(lǐng)域知識(shí)庫(kù)。
3.根據(jù)權(quán)利要求1所述的數(shù)字出版資源語(yǔ)義增強(qiáng)描述系統(tǒng),其特征在于:所述服務(wù)層模塊包括:
語(yǔ)義單元?jiǎng)澐窒到y(tǒng):基于數(shù)據(jù)層模塊提供的支持?jǐn)?shù)據(jù),將待處理的數(shù)字出版資源依據(jù)類型的不同劃分為通用概念語(yǔ)義單元和特殊語(yǔ)義單元,得到數(shù)字出版資源的語(yǔ)義單元表述;
語(yǔ)義單元組合系統(tǒng):采用文本直觀形式的七層文件層次模型對(duì)所述數(shù)字出版資源的語(yǔ)義單元表述中的語(yǔ)義單元進(jìn)行組合,得到數(shù)字出版資源的語(yǔ)義增強(qiáng)描述。
4.如權(quán)利要求3所述的數(shù)字出版資源語(yǔ)義增強(qiáng)描述系統(tǒng),其特征在于:所述七層文件層次模型包括標(biāo)識(shí)元素、行、段、節(jié)、章、數(shù)據(jù)集和數(shù)據(jù)集群從底層到高層的七級(jí),其中標(biāo)識(shí)元素為語(yǔ)義單元,低層語(yǔ)義根據(jù)資源原本文本組織方式組合表達(dá)高層語(yǔ)義。
5.如權(quán)利要求3所述的數(shù)字出版資源語(yǔ)義增強(qiáng)描述系統(tǒng),其特征在于:所述特殊語(yǔ)義單元包括基礎(chǔ)教學(xué)教材中的術(shù)語(yǔ)、概念、公式或百科字典中的術(shù)語(yǔ)條;通用概念語(yǔ)義單元?jiǎng)t包括通俗讀物等其他資源中的語(yǔ)義單元。
6.一種數(shù)字出版資源的語(yǔ)義增強(qiáng)描述方法,包括:
步驟1、以數(shù)字出版元數(shù)據(jù)集和數(shù)字出版領(lǐng)域知識(shí)庫(kù)為基礎(chǔ),根據(jù)數(shù)字出版資源的類型,對(duì)輸入的數(shù)字出版資源內(nèi)容劃分為通用概念語(yǔ)義單元和特殊語(yǔ)義單元,得到數(shù)字出版資源的語(yǔ)義單元表述;
步驟2、采用文本直觀形式的七層文件層次模型對(duì)數(shù)字出版資源的語(yǔ)義單元表述中的語(yǔ)義單元進(jìn)行組合,得到數(shù)字出版資源的語(yǔ)義增強(qiáng)描述,并將其輸出。
7.如權(quán)利要求6所述的方法,其特征在于:所述數(shù)字出版資源元數(shù)據(jù)集,是由數(shù)字出版資源元數(shù)據(jù)以及元素模型構(gòu)成;其中,元素是元數(shù)據(jù)中用于定義和描述數(shù)字出版數(shù)據(jù)的內(nèi)涵特征;元數(shù)據(jù)包括數(shù)字出版資源中描述數(shù)字出版參與方、出版物產(chǎn)品以及出版過(guò)程和服務(wù)的數(shù)據(jù)元素。
8.如權(quán)利要求6所述的方法,其特征在于:所述數(shù)字出版的領(lǐng)域知識(shí)庫(kù)包括數(shù)字出版資源概念庫(kù)和數(shù)字出版領(lǐng)域知識(shí)樹(shù);其中,所述數(shù)字出版資源概念庫(kù)是由對(duì)元數(shù)據(jù)集中元數(shù)據(jù)進(jìn)行概念化抽象所得到的;所述數(shù)字出版領(lǐng)域知識(shí)樹(shù)是以所述數(shù)字出版資源概念庫(kù)內(nèi)的概念為表達(dá)基礎(chǔ),從所述數(shù)字出版資源概念庫(kù)中抽取具有層次關(guān)系的概念,按照層次關(guān)系組成。
9.如權(quán)利要求6所述的方法,其特征在于:所述步驟1中對(duì)所述數(shù)字出版資源內(nèi)容進(jìn)行劃分包括:
1)、通用概念語(yǔ)義單元的劃分:經(jīng)過(guò)停用詞和去除干擾處理之后,在數(shù)字出版資源概念庫(kù)基礎(chǔ)上采用雙向最大匹配方法切割分詞,并根據(jù)所述數(shù)字出版概念庫(kù)和所述數(shù)字出版領(lǐng)域知識(shí)樹(shù)關(guān)聯(lián)完成詞語(yǔ)的上下文語(yǔ)境消歧,同時(shí)將語(yǔ)義標(biāo)注到所述數(shù)字出版領(lǐng)域知識(shí)樹(shù)上,注明語(yǔ)義單元類別屬性,完成通用概念語(yǔ)義單元的劃分;
2)、數(shù)字出版特殊語(yǔ)義單元的劃分:
a)公式的劃分:根據(jù)公式的特殊語(yǔ)義單元的語(yǔ)言結(jié)構(gòu)特征設(shè)定識(shí)別算法,標(biāo)識(shí)出數(shù)字出版資源中出現(xiàn)公式結(jié)構(gòu)特征的文本內(nèi)容,也即公式出現(xiàn)的上下文,并根據(jù)語(yǔ)言結(jié)構(gòu)特征的上下提示作用在其對(duì)應(yīng)位置的上或下范圍內(nèi)識(shí)別包含一定長(zhǎng)度的字母數(shù)字文字,確立公式頭和公式尾的位置,劃分出公式,并將提示說(shuō)明文字中的基本語(yǔ)義單元作為公式的語(yǔ)義描述標(biāo)注其上,完成公式的語(yǔ)義單元的劃分;
b)術(shù)語(yǔ)的劃分:術(shù)語(yǔ)收錄于領(lǐng)域?qū)W科辭典中,在所述領(lǐng)域?qū)W科辭典的基礎(chǔ)上,采用雙向最大匹配方法切割分詞,同時(shí)將語(yǔ)義標(biāo)注到所述數(shù)字出版領(lǐng)域知識(shí)樹(shù)上,完成術(shù)語(yǔ)的劃分。
10.如權(quán)利要求6所述的方法,其特征在于:所述數(shù)字出版資源的語(yǔ)義增強(qiáng)描述采用文本直觀結(jié)構(gòu)形式的七層文件層次模型,包括標(biāo)識(shí)元素、行、段、節(jié)、章、數(shù)據(jù)集和數(shù)據(jù)集群從底層到高層的七級(jí),其中標(biāo)識(shí)元素為語(yǔ)義單元,低層語(yǔ)義根據(jù)資源原本文本組織方式組合表達(dá)高層語(yǔ)義。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210566713.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 使用逆空間濾波的數(shù)字圖像重建
- 數(shù)字版權(quán)管理交易系統(tǒng)
- 一種數(shù)字證書(shū)自動(dòng)申請(qǐng)方法和裝置及系統(tǒng)
- 用于數(shù)字記憶練習(xí)的數(shù)學(xué)教具
- 一種數(shù)字種類的確定方法及裝置
- 數(shù)字資產(chǎn)編碼方法
- 數(shù)字證書(shū)管理方法及設(shè)備
- 數(shù)字媒體水印處理方法、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)字亞克力標(biāo)牌
- 一種基于區(qū)塊鏈的數(shù)字資產(chǎn)交易方法、裝置及存儲(chǔ)介質(zhì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





