[發明專利]一種特定詞匯的識別方法有效
| 申請號: | 201711253593.2 | 申請日: | 2017-12-04 |
| 公開(公告)號: | CN107870905B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 鄭麗華;何征宇 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/211;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特定 詞匯 識別 方法 | ||
本發明公開了一種待譯文檔中的特定詞匯的識別方法、系統以及計算機可讀介質。采用本發明的方法和系統,能夠準確識別出翻譯過程中出現的大部分特定的非常規詞匯,并且所述方法可以采用計算機軟件和/或硬件系統實現自動識別輸出。在實際翻譯工作中采用本發明,可以避免相關特殊詞匯的翻譯錯誤,提高翻譯工作的準確性。此外,可以在翻譯過程中逐步建立非常規詞匯庫,并通過識別過程不斷豐富該庫的內容;從而通過不斷更新的非常規詞匯庫,最終實現包括非常規詞匯在內的所有待譯文本的全自動翻譯。
技術領域
本發明屬于詞匯識別領域,特別是涉及一種待譯文檔中的特定詞匯的識別方法。
背景技術
在翻譯工作中經常碰到一些特殊詞匯的翻譯問題。這些特殊詞匯既不是傳統的英文詞匯,也不是傳統的漢語拼音詞匯。對其進行翻譯時,如果遵照現有的傳統翻譯語料庫,這些詞匯都很難找到對應的符合原文意思的翻譯。因此,不管是機器翻譯,還是人工翻譯,由于語料庫的限制或者翻譯人員的水平所限,都難免出現偏差。
一個翻譯人員所熟知的例子就是對于“Chiang Kai-shek”的翻譯。著名歷史學教授王奇于2008年10月出版的《中俄國界東段學術史研究:中國、俄國、西方學者視野中的中俄國界東段問題》一書中,將蔣介石(采用韋氏拼音的原文為Chiang Kai-shek)翻譯為“常凱申”;無獨有偶,“Mencius”曾經也被其他著名學者翻譯成“門修斯” (原文意思應當為“孟子”)。可見,在翻譯工作中對于此類詞匯的處理,對于相關專家尚且是一個難題,更不用廣大的普通翻譯工作者和機器翻譯工具了。
因此,這類特殊詞匯的翻譯也需要特殊處理,不能采用英譯甚至硬譯的形式。由于這類特殊詞匯總量相對較少,一種可能的解決方案是,在翻譯時,先跳過這類詞匯,直接保留原文表達,得到一個初步的翻譯結果,然后再對其中的特殊詞匯進行識別以便后期處理;或者,在翻譯之前,就識別出其中的特殊詞匯,進行重點標注等處理,避免出現上述翻譯錯誤。這種專門的處理方式降低了文檔的翻譯速度和質量,而且專門為少量的特殊詞匯進行人工處理也費時費力。
發明內容
針對上述問題,本發明提出了一種特殊詞匯的識別方法,該方法可以準確識別出待譯文檔中的特殊詞匯,以避免翻譯錯誤。
這里所說的特殊詞匯,主要是指既不是傳統英文單詞,也不構成漢語拼音方案的詞匯。
這里所述的“傳統”英文單詞,是指常規語言學習中常見的單詞,例如,廣州的常規英文單詞為“Guangzhou”,或者說,還有相當部分人能夠知曉“Canton”,但是由于歷史原因,單詞 “Kwangchow”,“Kuang-chou”作為地名準確的翻譯也應當是“廣州”,但是,對于大部分人而言,這2個單詞都是“非傳統”的單詞。
同樣的,對于“Mao Tse-tung”“I Ching”“Chunghwa”均不是一個滿足漢語拼音方案的詞匯,也屬于特殊詞匯。
發明人通過大量的統計研究發現,大部分特殊詞匯都為名詞,包括地名,人名,機構名稱等。因此,將特殊詞匯的識別范圍首先限定在名詞上,符合實際工作需要。
因此,本發明所提出識別方法,首先包括如下步驟:
對所述待譯文件進行切分,識別出其中的名詞,將所述識別出的所有名詞按照其在所述待譯文件中的位置順序存儲在一個有序列表中。
關于對待譯文件進行切分并識別出其中的名詞,本領域存在多種常見的算法。例如,將文件首先切分為句子,再通過對句子進行語義分析,包括句子成分分析,識別出其中各個結構部分,例如主謂賓等,再從賓語部分尋找名詞;或者,識別出其中的介詞部分,在介詞之外的其他特定位置識別出名詞,例如主語等;再或者,通過分析不同字詞之間的連接度,通過連接度是否超過一定閾值來判斷連接字詞是否是名詞或者連接字詞前后的字詞是否是名詞,或者直接通過詞典、詞庫、語料庫查詢是否屬于名詞,等等。在此不再贅述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711253593.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:砼泵軟管生產線增強層纏繞系統
- 下一篇:反饋式3D打印機





