[發明專利]一種數字化語法連續創建的方法無效
| 申請號: | 200910169827.4 | 申請日: | 2009-09-04 |
| 公開(公告)號: | CN101650707A | 公開(公告)日: | 2010-02-17 |
| 發明(設計)人: | 蔣賢春;鄭瓏;藍德康;謝術清;朱人杰 | 申請(專利權)人: | 北京中易中標電子信息技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100029北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數字化 語法 連續 創建 方法 | ||
技術領域
本發明屬于IT領域,它提供一種數字化語法連續創建的方法,使得數字化內容在語法上是連續的。
本發明特點:數字化加工單位通過本發明提供的文本語法連續標記方法、多行小字語法連續標記方法、著重詞語法連續標記方法,在加工一種文獻之前先分析文獻行與行之間、頁與頁之間、多行小字行與行之間、著重詞跨行跨頁語法連續規律,在加工完成后先通過語法連續生成模塊生成格式規范的含有語法連續知識的文件,再通過語法連續內容獲取模塊提取一種文獻連續的內容。
背景技術
隨著現代計算機通訊、網絡技術的迅猛發展,以內容革命為核心的第二次信息革命正在世界各國全面鋪開,信息資源數字化成為當代信息社會的必需。讀者可以通過網絡獲取大量的知識,但是對大量歷史文獻,因為版面格式復雜,數字化內容語法連續出現較大差錯,通常都是將不該連接的句子連在一起,用戶檢索時產生錯誤。海量數據檢索后,檢索出的數據量很大,其中又有一大部分是錯誤信息。
數字化內容正確分段、正確的文獻內容上下文語法連接對于內容研究人員尤其重要。
發明內容
本發明為一種數字化語法連續創建的方法,包括標記語法連續的方法、語法連續生成模塊、語法連續內容獲取模塊。
一、標記語法連續的方法
1.文本語法連續標記方法
(1)連續標識:連續標識為非負整數或一對非負整數,標識該文本與其它文本的語法連續關系。
連續標識=0:表示該文本與其它文本無語法連續關系;
連續標識=1:表示該文本與其它文本語法連續;
連續標識=2:表示該文本中的空格符是用于版式,空格前后的字在語法上是連續的;
(2)連續關系編號:連續關系編號為整數或一對整數,給文本編號,通過編號連接連續的文本。
連續關系編號=0:表示該文本與下一行的連續關系;
連續關系編號>1:表示該文本后與連續編號為負,絕對值相等的文本的語法連續;
連續關系編號<1:表示該文本前與連續編號為正,絕對值相等的文本的語法連續。
2.多行小字語法連續標記方法
連續標識:標識所有多行小字行與行之間語法連續關系。
連續標識=0:不連續;
連續標識=1:連續
3.著重詞語法連續標記方法
(1)連續標識:表示兩個著重詞之間的語法連續關系。
連續標識=0:表示該著重詞與其它著重詞無語法連續關系;
連續標識=1:表示該著重詞與其它著重詞語法連續;
(2)連續關系編號:連續關系編號為整數或一對整數,給著重詞編號,通過編號連接連續的著重詞。
連續關系編號>1:表示該著重詞后與連續編號為負,絕對值相等的著重詞的語法連續;
連續關系編號<1:表示該著重詞前與連續編號為正,絕對值相等的著重詞的語法連續。
二、語法連續生成模塊
不同數字化加工單位加工完成的原始數據是離散的,通常是存在數據庫和數據文件中,格式不統一,通過本發明提供的語法連續生成模塊,將原始數據格式化,便于生成語法連續的內容。
1.文本語法連續生成模塊:將文本語法連續原始數據生成規范格式數據。
2.多行小字語法連續生成模塊:將多行小字語法連續原始數據生成規范格式數據。
3.著重詞語法連續生成模塊:將著重詞語法連續原始數據生成規范格式數據。
三、語法連續內容獲取模塊
連續內容提取模塊:判斷格式規范的數據中的連續標記,提取一種文獻連續的內容。
附圖說明
圖1:標記語法連續的方法。
圖2:語法連續生成模塊。
圖3:語法連續內容獲取模塊。
具體實施方式
下面通過示例給出本發明的應用方法:
以生成XML規范格式為例,創建文本語法連續標記為text_unite,多行小字語法連續標記為multi_text_unite。
1.兩個連接著的文本(前后兩個含內容的文本)
(1)找出語法連續規律:若后一個文本縮進屬性值為0,則兩個文本語法連續;
若后一個文本縮進屬性值不為0,則兩個文本語法不連續。
(2)生成規范格式數據(生成XML格式為例):
例1:
<text_unite?id=”1”num=”0”><text?reverse=″reverse″>內容</text><text_unite/>
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中易中標電子信息技術有限公司,未經北京中易中標電子信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910169827.4/2.html,轉載請聲明來源鉆瓜專利網。





