[發明專利]古籍漢字繁簡轉換方法和裝置在審
| 申請號: | 202011257485.4 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112270201A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 程瑞雪 | 申請(專利權)人: | 古聯(北京)數字傳媒科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 北京悅成知識產權代理事務所(普通合伙) 11527 | 代理人: | 樊耀峰 |
| 地址: | 100071 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 古籍 漢字 繁簡 轉換 方法 裝置 | ||
本發明公開了一種古籍漢字繁簡轉換方法和裝置,其中所述古籍漢字繁簡轉換方法,包括:確定古籍漢字繁簡轉換數據庫;獲取待轉換數據,基于古籍漢字繁簡轉換數據庫并按照基于規則的轉換方法確定轉換結果和轉換標簽;以及,輸出轉換結果和轉換標簽。本發明通過結合待轉換的繁體字符串上下文確定轉換結果,提高了轉換結果的準確性。
技術領域
本發明涉及漢字繁簡轉換領域,特別涉及古籍漢字繁簡轉換方法和裝置。
背景技術
中華民族文化源遠流長,在漫長的歷史時期中,產生了大量古籍。古籍一般以繁體字書寫,在當代重新出版時需要轉換為中國大陸通行的簡體字版本。目前雖然市面上已經有不少漢字繁簡轉換系統或軟件,但這些系統還不能滿足古籍出版的應用需求?,F有的古籍漢字繁簡轉換方法僅對漢字逐個進行轉換存在轉換不準確的情況;而且轉換之后的古籍文本還需要人工校對,但現有的簡繁轉換方法并未提供人工校對的輔助信息,需要校對轉換后文本中的每個字,工作量大,對編輯人員的專業知識要求高。
CN108108337A公開了一種簡繁互轉方法及裝置。該方法包括:接收用戶輸入的命令;根據所述文字的第一字形,確定所述文字的第一編碼;根據所述文字的第一編碼查詢字庫,獲得所述文字的第二編碼;根據所述文字的第二編碼顯示所述文字的第二字形。其中,第一字形是簡體字形,第二字形是繁體字形,或者第一字形為繁體字形,第二字形為簡體字形。該專利文獻一般用于排版軟件或者在線網頁中。
CN1349184A公開了一種中文繁體字與簡體字的即時互換系統。包含有一辨讀機制,用來判別為繁體字或簡體字;一繁體字碼運算機制,利用一位置函數來計算出一個繁體字的索引值;一繁體字字型圖擋庫;一簡體字碼運算機制,利用一位置函數來計算出一個繁體字在字型圖庫檔的索引值;一簡體字字型圖擋庫,用來儲存簡體字的字型圖檔;以及一互換字型索引互換機制。該專利文獻主要用于網站資訊產品中繁簡互換。
因此,需要提供一種改進的古籍漢字繁簡轉換方法。
發明內容
本發明公開的示例性實施例的目的在于克服現有技術中的上述的和/或其他的問題。
本發明公開的示例性實施例的目的在于克服現有技術中的上述的和/或其他的問題。
因此,根據本發明公開的一個方面,提供了一種古籍漢字繁簡轉換方法,包括:
確定古籍漢字繁簡轉換數據庫;
獲取待轉換數據,基于古籍漢字繁簡轉換數據庫并按照基于規則的轉換方法確定轉換結果和轉換標簽;以及,
輸出轉換結果和轉換標簽。
根據本發明的古籍漢字繁簡轉換方法,優選地,所述確定古籍漢字繁簡轉換數據庫包括:
將漢字CJK基本集、CJK A字符集和從中華經典古籍庫中提出來的字符確定為古籍漢字繁簡轉換數據庫。
根據本發明的古籍漢字繁簡轉換方法,優選地,所述獲取待轉換數據,基于古籍漢字繁簡轉換數據庫并按照基于規則的轉換方法確定轉換結果和轉換標簽包括:
獲取待轉換的純文本格式的繁體字符串,并以JSON格式封裝;
基于古籍漢字繁簡轉換數據庫查找確定轉換結果和轉換標簽,當待轉換的繁體字符串中的繁體字符在古籍漢字繁簡轉換數據庫中對應多個簡體字時,按照雙數組字典樹查找方法以及選自基于詞語消歧轉換、缺省目標轉換和同形詞轉換中的一種方法確定轉換結果和轉換標簽。
根據本發明的古籍漢字繁簡轉換方法,優選地,所述輸出轉換結果和轉換標簽包括:
將轉換結果以JSON格式封裝,顯示轉換結果和轉換標簽。
根據本發明公開的另一個方面,提供了一種古籍標點填充裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于古聯(北京)數字傳媒科技有限公司,未經古聯(北京)數字傳媒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011257485.4/2.html,轉載請聲明來源鉆瓜專利網。





