[發(fā)明專利]一種支持四字節(jié)的典籍數(shù)據(jù)庫與歷史地理信息系統(tǒng)關聯(lián)的方法無效
| 申請?zhí)枺?/td> | 200610089165.6 | 申請日: | 2006-08-08 |
| 公開(公告)號: | CN101122905A | 公開(公告)日: | 2008-02-13 |
| 發(fā)明(設計)人: | 張向輝;馮健康;王宏源;趙鋒 | 申請(專利權(quán))人: | 王宏源 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 支持 字節(jié) 典籍 數(shù)據(jù)庫 歷史 地理信息系統(tǒng) 關聯(lián) 方法 | ||
技術(shù)領域
本發(fā)明屬于計算機技術(shù)領域,具體涉及一種實現(xiàn)支持四字節(jié)的典籍數(shù)據(jù)庫與歷史地理信息系統(tǒng)關聯(lián)的方法。
背景技術(shù)
統(tǒng)一碼(Unicode)的學名是″Universal?Multiple-Octet?Coded?CharacterSet″,簡稱為UCS。UCS規(guī)定了如何用多個字節(jié)表示各種文字的具體方法。目前在UCS中已經(jīng)被編碼的東亞表意字符大約有7萬多個,其中大部分是生僻漢字。UCS有兩種格式:UCS-2和UCS-4。顧名思義,UCS-2就是用兩個字節(jié)編碼,UCS-4是用4個字節(jié)編碼(實際上只用了31位,最高位必須為0)。這些編碼的傳輸依照UTF(UCS?Transformation?Format)設定的規(guī)范進行,常見的UTF規(guī)范包括UTF-7、UTF-8以及UTF-16。
典籍數(shù)據(jù)庫是將古籍文獻和出土文獻等內(nèi)容加以整理并錄入計算機的電子資源數(shù)據(jù)庫。目前北京時代瀚堂科技公司的古籍檢索系統(tǒng)(http://www.neohytung.com)及其在數(shù)據(jù)庫中的應用“龍語瀚堂典籍數(shù)據(jù)庫”(http://www.dragoninfo.cn)就是一個可以支持UCS-4標準的典籍數(shù)據(jù)庫,目前可以對于包括大量生僻漢字在內(nèi)的七萬多漢字實現(xiàn)查詢、顯示等各種功能。
地理信息系統(tǒng)(GIS,Geographic?Informat?ion?System)是一種基于計算機的工具,它可以對地球上存在的東西和發(fā)生的事件進行成圖和分析。GIS技術(shù)可以將具有獨特視覺化效果和地理分析功能的地圖與一般的數(shù)據(jù)庫操作(例如查詢和統(tǒng)計分析等)集成在一起。隨著科學技術(shù)的進步,GIS技術(shù)日漸成熟,將歷史數(shù)據(jù)輸入GIS已經(jīng)不存在技術(shù)上的障礙,通過因特網(wǎng)發(fā)布GIS的成果已經(jīng)完全可能。
歷史地理信息系統(tǒng)(HGIS)是各個歷史時期基礎地理信息系統(tǒng)數(shù)據(jù)庫,該系統(tǒng)依據(jù)GIS技術(shù),表達隨著時間變遷而改變的基礎地理信息空間分布,同時為用戶提供最簡潔的數(shù)據(jù)查詢、檢索、編繪數(shù)據(jù)地圖和連接用戶數(shù)據(jù)的功能。如輸入歷史年份、地名等關鍵詞,就可以查詢在特定時間,特定地點的歷史地理信息。
目前與中國相關的歷史地理信息系統(tǒng),如“中華文明之時空基礎架構(gòu)”(臺灣中央研究院http://ccts.sinica.edu.tw),其采用遵循BIG5標準的格式存儲和傳輸這些編碼;又如“中國歷史地理信息系統(tǒng)”(復旦大學歷史地理研究中心http://yugong.fudan.edu.cn/Ichg/Chgis_Intr.asp),其采用遵循GB2312標準的格式存儲和傳輸這些編碼。它們都只能處理雙字節(jié)字符的查詢和顯示,對于符合統(tǒng)一碼(Unicode)標準的所有含有四字節(jié)的文本內(nèi)容無法進行查詢。這些系統(tǒng)對于UCS-2以外的漢字采用圖片替代或自行造字的方式進行顯示,用自行設定的編碼進行存儲。
歷史地理信息和中文典籍數(shù)據(jù)之間有著緊密的聯(lián)系。一方面,中文典籍數(shù)據(jù)的整理和研究需要依靠歷史地理信息,如:對于著名詩人李白生平經(jīng)歷的研究,在歷史地理信息系統(tǒng)的協(xié)助下會更為有效準確,可將時間、地點、人物同時呈現(xiàn)給查詢者;另一方面,歷史地理信息需要中文典籍數(shù)據(jù)的豐富內(nèi)容來補充,如:對于黃河改道的研究中,將典籍數(shù)據(jù)中對黃河改道的描述與歷史地理信息對應和聯(lián)系起來就可以更加便捷準確地得出結(jié)論,典籍數(shù)據(jù)庫可為歷史地理信息研究提供史料支持。由于使用統(tǒng)一碼(Unicode)編碼的四字節(jié)生僻漢字主要出現(xiàn)在古代地名、人名等專有名詞中,因此在將歷史地理信息系統(tǒng)和中文典籍數(shù)據(jù)庫進行結(jié)合的過程中,需要考慮生僻漢字的問題。
現(xiàn)有的歷史信息系統(tǒng)對UCS-2以外的漢字通常使用自行造字或圖片替代的處理方法。圖片替代的方法僅能解決非UCS-2漢字在系統(tǒng)中的顯示問題;同時,現(xiàn)有歷史信息系統(tǒng)使用造字的方法雖可解決非UCS-2漢字的顯示問題,卻無法與其他系統(tǒng)相互兼容。由于現(xiàn)有的使用圖片或造字的方法不符合任何國際或者國內(nèi)標準,使得常規(guī)的歷史地理信息系統(tǒng)的內(nèi)容無法完全在系統(tǒng)外使用通用瀏覽器顯示和保存,也無法實現(xiàn)對包含四字節(jié)編碼的東亞表意文字進行搜索和查詢,所以目前的系統(tǒng)無法實現(xiàn)典籍數(shù)據(jù)庫與歷史地理信息系統(tǒng)之間正常、全面的關聯(lián)。
發(fā)明內(nèi)容
鑒于上述原因,本發(fā)明的主要目的是提供一種實現(xiàn)支持四字節(jié)的中文典籍數(shù)據(jù)庫與支持四字節(jié)的歷史地理信息系統(tǒng)相互之間關聯(lián)的方法。
為了能對含有四字節(jié)文字的文本內(nèi)容進行檢索,需要將歷史地理信息與典籍數(shù)據(jù)中的文本內(nèi)容建立相應的索引,并將它們中的所有的地名、人名等專有名詞信息抽取出來組成轉(zhuǎn)換對應表。
兩個系統(tǒng)的關聯(lián)方式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于王宏源,未經(jīng)王宏源許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610089165.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





