[發(fā)明專利]字頻分級統(tǒng)計方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310282492.3 | 申請日: | 2013-07-05 |
| 公開(公告)號: | CN104281603B | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計)人: | 高玉軍;劉昉 | 申請(專利權(quán))人: | 北大方正集團有限公司;方正信息產(chǎn)業(yè)控股有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司11204 | 代理人: | 王達佐 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字頻 分級 統(tǒng)計 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機信息處理技術(shù)領(lǐng)域,具體涉及一種字頻分級統(tǒng)計方法及系統(tǒng)。
背景技術(shù)
文字的發(fā)明是人類文明的重要標志,也是一個民族的傳統(tǒng)與文化得以延續(xù)的主要手段。
我國文字歷史悠久,形體變革多樣。數(shù)千年來,從文字圖畫到圖畫文字,再到甲骨文、金文、大篆、小篆、隸書、草書、行書、楷書,漢字的形體雖多有變異,但又一脈相承,忠實地記錄了中華文明的光輝歷程。
作為文字具體載體的古今字書資源數(shù)量龐大,從東漢《說文解字》到當代的《漢語大字典》,各類著錄了大批文字及其形音義屬性的字書、韻書,是進行文字研究平臺的基本資源,對這些浩瀚的文字資源進行數(shù)字化后,如何高效的進行各種統(tǒng)計范圍、統(tǒng)計級別的字頻統(tǒng)計,將會大大促進中華各族文字研究的進程,進而加快我國文字處理的國際化、標準化進程。
而現(xiàn)有的字頻統(tǒng)計方法通常是,首先針對待提取的古今字書原始資源,進行數(shù)字化處理,建立基礎(chǔ)字集數(shù)據(jù)庫進行處理。這些基礎(chǔ)數(shù)據(jù)庫包括古今字書資源庫、古文字屬性庫、現(xiàn)代漢字屬性庫、少數(shù)民族文字屬性庫等,然后以單個字本身為單位,在全體數(shù)字資源庫中逐個進行遍歷性質(zhì)的字頻統(tǒng)計,這種統(tǒng)計方式在大數(shù)據(jù)量的時候其統(tǒng)計效率較差,速度較慢。在上百萬、上千萬的數(shù)據(jù)統(tǒng)計中,通常需要較長的等待時間。這種方式即使在大型數(shù)據(jù)庫服務(wù)器端采取了優(yōu)化措施,其即時的統(tǒng)計速度仍不能讓人滿意。
發(fā)明內(nèi)容
本發(fā)明提供一種字頻分級統(tǒng)計方法及系統(tǒng),以提高統(tǒng)計速度和準確率。
為此,本發(fā)明提供如下技術(shù)方案:
一種字頻分級統(tǒng)計方法,包括:
提取每份原始文獻的屬性信息;
根據(jù)所述屬性信息對所述原始文獻進行分類,并建立不同類別的文檔屬性表;
逐一對各類別的原始文獻進行數(shù)字化,生成數(shù)字化文檔;
根據(jù)文字的屬性信息進行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字數(shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下;
按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
優(yōu)選地,所述屬性信息包括:文件信息和內(nèi)容信息;
所述文件信息的特征包括:文件時間信息,文件名;
所述內(nèi)容信息的特征包括:類別信息,分類號,作者,朝代信息,字型信息,出土信息,出版信息、樣本名稱。
優(yōu)選地,所述逐一對各類別的原始文獻進行數(shù)字化,生成數(shù)字化文檔包括:
逐一將各類別的原始文獻的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
優(yōu)選地,所述文字的屬性信息包括以下任意一項或多項屬性信息:文字的字型、Unicode編碼、筆順、筆畫、部首、字型結(jié)構(gòu)。
優(yōu)選地,所述根據(jù)文字的屬性信息進行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字數(shù)統(tǒng)計包括:
根據(jù)文字的屬性信息,以每份文檔為單位進行每個字符的字頻統(tǒng)計和字數(shù)統(tǒng)計。
優(yōu)選地,所述進行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計包括:
基于所述數(shù)字化文檔的內(nèi)容屬性信息,進行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或
基于文字的屬性信息,進行基于文字屬性信息的快速合并式字頻統(tǒng)計。
一種字頻分級統(tǒng)計系統(tǒng),包括:
提取單元,用于提取每份原始文獻的屬性信息;
分類單元,用于根據(jù)所述屬性信息對所述原始文獻進行分類,并建立不同類別的文檔屬性表;
數(shù)字化單元,用于逐一對各類別的原始文獻進行數(shù)字化,生成數(shù)字化文檔;
初始統(tǒng)計單元,用于根據(jù)文字的屬性信息進行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字數(shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下;
綜合統(tǒng)計單元,用于按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
優(yōu)選地,所述數(shù)字化單元,具體用于逐一將各類別的原始文獻的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
優(yōu)選地,所述初始統(tǒng)計單元,具體用于根據(jù)文字的屬性信息,以每份文檔為單位進行每個字符的字頻統(tǒng)計和字數(shù)統(tǒng)計。
優(yōu)選地,所述綜合統(tǒng)計單元包括:
第一統(tǒng)計子單元,用于基于所述數(shù)字化文檔的內(nèi)容屬性信息,進行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或
第二統(tǒng)計子單元,用于基于文字的屬性信息,進行基于文字屬性信息的快速合并式字頻統(tǒng)計。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團有限公司;方正信息產(chǎn)業(yè)控股有限公司;北京北大方正電子有限公司,未經(jīng)北大方正集團有限公司;方正信息產(chǎn)業(yè)控股有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310282492.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 統(tǒng)計系統(tǒng)、統(tǒng)計裝置和統(tǒng)計方法
- 人數(shù)統(tǒng)計方法和人數(shù)統(tǒng)計系統(tǒng)
- 統(tǒng)計物體數(shù)量的統(tǒng)計系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計計數(shù)方法
- 統(tǒng)計信息上報方法及裝置
- 稿件統(tǒng)計方法和稿件統(tǒng)計系統(tǒng)
- 數(shù)據(jù)統(tǒng)計方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計狀態(tài)的方法及裝置
- 信息統(tǒng)計方法和信息統(tǒng)計裝置
- 電量統(tǒng)計系統(tǒng)及電量統(tǒng)計方法





