[發明專利]一種數字出版資源語義增強描述系統及其方法有效
| 申請號: | 201210566713.5 | 申請日: | 2012-12-24 |
| 公開(公告)號: | CN102999487A | 公開(公告)日: | 2013-03-27 |
| 發明(設計)人: | 陳琳;謝冰;盧朋;高一波;武利娟;代文;宋江龍;溫偉娜 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數字 出版 資源 語義 增強 描述 系統 及其 方法 | ||
技術領域
本發明涉及針對中文文本的自然語言處理的應用技術,尤其涉及一種基于元數據和領域知識的數字出版資源語義增強描述系統及其方法。
背景技術
隨著計算機技術的發展,數字出版運用了數字化和網絡化等新技術,使得數字出版的產出規模持續增長。與此同時,數字出版產業的發展造成了出版資源的爆炸式增長,這給讀者帶來了嚴重的信息過載壓力,但是讀者對于閱讀的本質仍未改變,理解數字出版資源內容仍是提高資源利用率的核心。
語義增強技術是提高資源語義分析和應用,進而提升資源利用率的方法和技術手段,隨著2001年伯納斯·李語義網概念的提出及迅猛發展,語義增強技術也隨著蓬勃興旺,它廣泛應用于解決文本、圖形圖像、視頻、數據庫等眾多類型資源在行業中的語義搜索、服務和資源管理的問題。數字出版資源語義增強是對數字出版內容信息的深度整合,是使計算機理解數字出版資源內容的基礎,而語義增強描述又是語義增強的基礎。
2009年,David?Shotton等人正式提出語義出版及出版資源的語義增強概念,開啟了該技術領域應用的系統性研究,并將其定義為任何能夠提高、豐富數字出版內容與知識的手段、技術和方法,它橫跨數字出版從出版平臺、出版物和閱讀終端的各個環節,涉及環節中的各種語義信息處理技術,處理對象囊括數字出版的各種類型資源,比如數字圖書、在線新聞、和學術期刊中的教學資源、政務信息等。它利用語義技術為讀者提供期望的信息質量和深度,是數字出版的未來發展之路,并受到學術界和企業界越來越多的關注。
國際上:在第五屆世界語義網大會期間還專門具備了首屆語義出版研討會,討論出版內容資源之間的互操作、學術交流的新方式、如何在EPUB和其他格式電子圖中嵌入和鏈接語義以及什么樣的本體來標識文檔結構和要素等多個主題。行業應用機構方面:國際晶體學聯盟出版的《結晶學報,A輯:結晶學基礎》支持文本語義標簽;公共科學圖書館和國際計算生物學協會(ISCB)共同發布計算生物學實體能夠自動來凝結至外部關聯數據庫;愛思維爾《歐洲生物化學會聯盟通訊》與分子間相互作用數據庫進行合作,對其上發表的論文采用結構化的數字摘要等等。
國內出版界和圖書館對數字出版的語義增強相關研究相對滯后,主要是在自身發展需求和技術推動下完成了特定的應用點研發,比如知網和萬方數據等少數學術數據庫服務商的基于資源標簽的相似相近文獻推介,高等教育出版社和中華書局等出版機構的資源語義標簽標注,中醫藥出版社的軍醫出版物內容的語義標注,大百科出版社的詞條及定義的語義分析,百度百科中的詞條關聯等等。
同時在以應用為導向關注于某類型的語義增強表現催生了一些語義增強工具,比如微軟實驗室針對編輯軟件word開發了一種本體識別插件用于在文檔中自動識別和添加語義信息,并將公共數據庫中的相關數據整合到文檔中;在現有閱讀器上借助第三方插件完成特定的語義增強分析,比如利用reflect在現有瀏覽器上自動識別資源中的術語,并以彈出窗口的形式展示來自多個科學數據庫的解釋性資料,Getutopia在現有PDF文檔閱讀器上附帶更多語義信息,Flipboard在大眾閱讀器上訂閱多個信息源的新聞,Zite在大眾閱讀器上記錄讀者瀏覽歷史分析讀者興趣愛好,自動選擇并推介讀者感興趣的文檔;抓取Scopus、Web?of?Science、CiteUlike、Delicious等網站上的統計信息幫助讀者評估所讀文章的價值和意義等等。
從以上技術應用現狀可見,由于缺乏對底層語義描述的基礎支撐,應用和研究缺少統一基石,目前多是針對某特定應用目標或特定資源類型而開展的研究,應用針對性太強,在數字出版資源的整體性、系統性的問題研究方面建樹較少。
發明內容
針對以上問題,本發明的目的在于對數字出版資源進行底層語義增強描述,標識出資源語義點和版權保護點,以對較高層資源的應用和研究,特別是統一編目、精確檢索等技術提供支撐,并可對數字出版資源的版權提供保護。
為了實現所述的目的,本發明提出了一種數字出版資源的語義增強描述系統,包括:
輸入接口層模塊,用于接收需要處理的數字出版資源;
數據層模塊,為服務層模塊提供支持數據,所述支持數據包括數字出版元數據集和數字出版領域知識庫;
服務層模塊,用于對輸入的數字出版資源進行加工處理;
輸出接口層模塊,用于輸出數字出版資源的語義增強描述。
所述的數據層模塊包括:
數字出版元數據提取系統,用于構建數字出版元數據集;
數字出版領域知識編輯系統,用于構建數字出版領域知識庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210566713.5/2.html,轉載請聲明來源鉆瓜專利網。





