[發明專利]文字校對方法和裝置有效
| 申請號: | 201010266100.0 | 申請日: | 2010-08-27 |
| 公開(公告)號: | CN102375807A | 公開(公告)日: | 2012-03-14 |
| 發明(設計)人: | 劉正珍;高書征 | 申請(專利權)人: | 漢王科技股份有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30;G06K9/20 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 校對 方法 裝置 | ||
技術領域
本發明涉及文字處理領域,尤其涉及一種對校對文字質量的控制方法和裝置。
背景技術
一個完整的文檔錄入系統分為以下部分:紙質資料的整理、掃描、圖像預處理、版面分析、識別、校對和保存,其中校對是保證錄入文檔內容準確性的重要一環。現有校對主要借助機器進行,主要方式有兩種:橫向校對和縱向校對。
橫向校對:直接將識別結果文本與圖像進行對比,系統自動調用文本所對應的圖像進行比對,同時,以顏色標記識別可信度不高的文字。
縱向校對:將文檔中識別結果為同一個字的文字圖像集中顯示,并以突出顏色標出可疑字,發現錯誤并修改。
在實現上述文字校對的過程中,現有技術中至少存在如下問題:無論是橫向校對還是縱向校對,校對后都會存在一些殘留的沒有校對出的錯誤,比如某字多處識別錯誤,只修改了一部分,對于這些殘留錯誤需要逐字核查,如果做大量這樣的工作的話,容易引起校對人員視覺疲勞,造成校對的準確率降低,而且需要消耗大量的時間和精力。
發明內容
本發明的實施例提供一種文字校對方法和裝置,能夠保證校對的準確率。
為達到上述目的,本發明的實施例采用如下技術方案:
一種文字校對方法,包括:
收集對文字進行校對的修改信息;
根據所述修改信息建立易錯詞表;
根據易錯詞表查找文字中的可疑字并進行提示。
一種文字校對裝置,包括:
修改統計模塊:用于收集對文字進行校對的修改信息;
易錯詞表建立模塊:用于根據所述修改信息建立易錯詞表;
易錯詞表報警模塊:用于根據易錯詞表查找文字中的可疑字并進行報警。
本發明實施例提供的文字校對方法和裝置,利用文字校對的修改信息建立易錯詞表,然后去全文中搜索殘留的可疑字并對殘留可疑字報警,方便核查,相對之前逐字核查找錯檢驗校對質量的方法,本發明大大減少了核查工作量,減輕了核查人員的疲勞程度,在低報警率下保證了文字校對的質量。
附圖說明
圖1為本發明文字校對方法的一個實施例的流程圖。
圖2為本發明文字校對方法的另一個實施例的流程圖。
圖2a為易錯詞表結構采用哈希表結構的結構示意圖。
圖2b為易錯詞表結構采用漢字內碼索引結構的結構示意圖。
圖2c為“比”字的形似字集合示意圖。
圖2d為分類圖像示意圖。
圖2e為圖像聚類中的個類示意圖。
圖3為本發明文字校對裝置的一個實施例的結構示意圖。
具體實施方式
下面結合附圖對本發明實施例校對方法和裝置進行詳細描述。
本發明文字校對方法的一個實施例,如圖1所示,包括:
S101、收集對文字進行校對的修改信息。
首先對電子化文檔進行或者其它機器輔助校對,所述文檔可以是中文、英文或其它語言寫成,校對可以借助現有校對方式進行,比如橫向校對和縱向校對。將所述校對后的文檔信息與校對前的文檔信息進行通篇逐字比較,得到校對過程中的修改信息,包括字符的識別候選,修改之后的字符編碼,該字符在數據包的位置信息和該字符圖像的位置信息等。
S102、根據所述修改信息建立易錯詞表。
本步驟中,根據校對文字的語種確定該語種文字表述的使用習慣,比如,校對的文檔主體是以中文構成的,中文是以單字結合成詞語的方式使用的,那么就先建立一個中文的語言模型,所述語言模型包括中文中不同文字組合成一個詞使用的概率。將概率量化成組合得分的形式,比如可以根據常用程度將不同字組合成一個詞的概率映射到0至255之間的組合得分,最生僻的詞為0,最常見的詞為255。
如果從修改信息中查找到一處孤立修改的字,結合語言模型,取該字與前后相鄰字組合成詞中得分最高的詞,用目標字符(也就是修改前的字)替換更新字符(也就是修改后的字)添加到易錯詞表。比如,修改信息顯示文檔中有一處將“期間發生”錯識成“期問發生”,又有修改成“間”的記錄,結合語言模型可以得到“期間”的得分高于“間發”的得分,因此將“期問”和對應的可疑字“問”添加到易錯詞表。
S103、根據易錯詞表查找文字中的可疑字并進行提示。
根據易錯詞表對校對后的文檔進行通篇查找,如果在校對后的文檔中出現易錯詞表中的詞,對該詞的可疑字(曾經出現在修改信息中的字)進行標識提示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于漢王科技股份有限公司,未經漢王科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010266100.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:輪胎模具橫向氣孔加工設備
- 下一篇:一種單張紙自動模切機的叼紙牙排的驅動機構





