[發明專利]一種自動更正部分文字的方法-由英文詞性判斷有效
| 申請號: | 201710963826.1 | 申請日: | 2017-10-17 |
| 公開(公告)號: | CN107590132B | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 王蓮 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/284;G06F40/289;G06F40/232;G06F40/47 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 更正 部分 文字 方法 英文 詞性 判斷 | ||
本發明避免了采用計算機判斷中文詞匯是否為定語/狀語/補語的難題,創造性的將翻譯文檔句子和原文句子對齊,利用原文句子中對應的語料詞匯的詞性來做出判斷。具體來說,原文為英文,翻譯文檔為中文時,由于英文單詞的詞匯可以通過語料庫/分詞工具/詞匯庫等其他第三方工具準確確定其詞性,例如,形容詞或者動詞,然后結合對應的語料詞匯的詞性連接屬性,即可得出相應的翻譯文檔中應當采用“的、地、得”的哪一種。
技術領域
本發明屬于文檔處理技術領域,尤其涉及一種自動更正部分文字的方法。
背景技術
在中文語法中,“的”、“得”、“地”用作虛詞時,是連接文章中詞與詞,字與字之間的重要橋梁,在各種書面表達中使用十分廣泛。然而,很多人并沒有清楚的知曉三者的區別,通常相互混用,甚至全部用“的”代替。
但是,在邏輯性很強的論述性、說明性語言中,如法律條款、學術論著、外文譯著、教科書等情形中,必須嚴格區分三者的使用情況,才能保證書面語言的精確。特別是將上述相關的外文材料,例如法律條款/新聞稿/公文,翻譯成中文時,為了保證原文的準確性,更是不能混淆。
但是,當前大多數翻譯人員在翻譯時并沒有注意到這一問題,經常出現翻譯錯誤,或者隨意的給出“的”、“得”、“地”的某一種翻譯,而沒有兼顧原文的準確含義;另外,在翻譯時如果一一準確推敲該采用哪一種表達,又會導致翻譯效率低下,因此,譯員也有可能選擇翻譯時不嚴格推敲,事后再校對的方法,但是這種方式并不能保證結果的準確性,同時也耗費譯員精力。
簡單來說,“的、地、得”在普通話里都讀輕聲“de”,但在書面語中有必要寫成三個不同的字:在定語后面寫作“的”,在狀語后面寫作“地”,在補語前寫作“得”。這樣做的好處,就是可使書面語言精確化。
雖然這一使用規則為語言學者所熟知,但是對于譯員來說,其需要再給出中文句子翻譯結果之后才能使用上述規則,在文檔翻譯量巨大的情形下,一一人工甄別是不現實的;另外,大部分翻譯工作者不是嚴格掌握語法規則的研究人員,其注重的可能更多是實質內容本身,而不會重視這三個字的重要性;更重要的是,“的、地、得”只有在做虛詞的時候才會出現上述情況,處于實詞構成部分的“的、地、得”是不需要考慮上述問題的,因此,簡單采用三字查找的方式,徒增工作量。
另外,即使知曉了上述“的、地、得”的使用規則,但是在中文語料中,對于所謂定語/狀語/補語的定義,由于計算機并不能嚴格定義其特征,因此,無法直接將上述判斷方法計算機流程化實現。
發明內容
為了解決文檔中有關“的、地、得”錯誤使用的問題,本發明提供了一種自動更正方法。該方法首先定位出翻譯文檔中所有作為虛詞使用的“的、地、得”,然后根據相應的規則,對其進行更正。所述方法以翻譯文檔原有的原文文檔為基礎進行詞性判斷,從而能夠在計算機上流程化實現。
該方法具體描述如下
一種自動更正部分文字的方法,用于更正翻譯文檔中的特定文字,所述方法包括如下步驟:
S1. 將所述翻譯文檔與原文文檔進行雙語語料對齊;
S2. 提取所述翻譯文檔中包含所述特定文字的句子,將其依序存儲到序列表中;
S3. 從所述序列表中依序讀取句子作為當前待更正句子,獲取當前待更正句子中的所述特定文字,以及該特定文字前的第一預定數量個文字和該特定文字后的第二預定數量個文字;
S4. 根據所述第一預定數量個文字和該特定文字的第一組合特性,和/或,所述第二預定數量個文字和該特定文字的第二組合特性,判斷所述特定文字是否需要進行更正;
S5. 如果需要進行更正,則查找當前待更正句子在原文文檔中對應的語料句子原文,并將二者進行語料對齊,然后按照預定策略對所述特定文字進行更正;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710963826.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種PCB板的線路形成方法
- 下一篇:一種線路板排線機構





