[發明專利]一種基于語義相似度的CAMEO字典翻譯方法在審
| 申請號: | 201911332353.0 | 申請日: | 2019-12-22 |
| 公開(公告)號: | CN111178096A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 杜慶峰;孫清志;倪奕瑋;徐錦程 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/30 |
| 代理公司: | 上??剖⒅R產權代理有限公司 31225 | 代理人: | 趙繼明 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 相似 cameo 字典 翻譯 方法 | ||
本發明涉及一種基于語義相似度的CAMEO字典翻譯方法,構建了一個基于語義相似度的CAMEO字典翻譯系統,CAMEO DICTIONARY TRANSLATE(CDT),其主要利用WordNet語義,從語義相似度的角度翻譯中英文專業詞匯。輔助利用百度翻譯\有道詞典等公開API接口進行翻譯補充,得到完整的詞匯翻譯單。翻譯人員根據專業領域詞匯解釋,對上述翻譯單中進行篩選,從而獲得中文專業領域詞匯字典。與現有技術相比,本發明綜合考慮中英文專業領域字典的各自特點,在語義相似度的角度提出中英文專業領域字典翻譯方案。
技術領域
本發明涉及計算機專業字典翻譯技術領域,尤其是涉及一種基于語義相似度 的CAMEO字典翻譯方法。
背景技術
目前存在的翻譯技術只能在通用領域獲得較好的結果,但在專業領域的翻譯 結果往往是不理想的。這是由于用于翻譯模型訓練的語料在專業領域通常比較缺乏, 語料比例不平衡導致。所以使用翻譯軟件翻譯專業詞匯時更容易獲得一個歧義的結 果。
WordNet是由心理學家,語言學家和計算機工程師聯合設計的一種基于認知 語言學的英文字典,其最大的特點是按照單詞的語義構成單詞的網絡。在此網絡中, 動詞,名詞和形容詞各自組成同義詞網路,每個子網絡內以語義為單位構成同義詞 集,并且同義詞集間存在上下位關系。目前WordNet對一詞多義,一義多詞問題 提供了解決方案。
CAMEO(Conflict and Mediation Event Observations)是用于全球范圍內在政治 領域分析沖突與調解事件的編碼框架。CAMEO已成為迄今為止最成功的事件數 據項目的基石。然而,CAMEO編碼框架只能依靠英文語言進行分析,這極大的限 制了CAMEO框架的實用價值。
目前國內常用的翻譯軟件如有道詞典\百度翻譯等,對于句子級翻譯往往可以 獲得理想的結果,但是對于專業領域詞匯或者詞組的翻譯卻達不到理想的結果,這 與語料不平衡以及待翻譯詞或詞組無法提供足夠的上下文信息有關。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于語義相 似度的CAMEO字典翻譯方法。
本發明的目的可以通過以下技術方案來實現:
一種基于語義相似度的CAMEO字典翻譯方法,該方法包括以下步驟:
步驟1:于計算機構建基于語義相似度的CAMEO字典翻譯系統CDT,加載 英文CAMEO動詞詞典并設定為主要輸入文件;
步驟2:CDT加載用于對CAMEO動詞詞典進行解釋的CAMEO編碼體系;
步驟3:于CDT中利用WordNet語義并結合CAMEO編碼體系對CAMEO動 詞詞典中每個詞識別詞的語義特征并提取相關的英文同義詞集;
步驟4:利用英文同義詞集,得到對應語義的中文同義詞集,并獲取中英文詞 之間的語義相似度,利用其他現有翻譯系統公開的API接口獲取相關詞匯翻譯結 果并進行補充;
步驟5:于CDT中設定語義相似度閾值,排除不一致的翻譯結果,并將剩余 的詞匯翻譯結果展示于計算機前端頁面;
步驟6:于CDT中根據CAMEO框架事件編碼定義,以驗證WordNet語義翻 譯結果準確性;
步驟7:于CDT中保存最終驗證后的詞匯翻譯結果,并將其輸出為中文動詞 字典格式。
進一步地,所述的步驟1、步驟2、步驟3和步驟4均通過后臺程序實現。
進一步地,所述的步驟6通過前端的專業人員進行標識,標識的內容包括正確、 錯誤和有歧義,若不存在正確翻譯結果,所述專業人員能夠添加人工翻譯內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911332353.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種商用爐灶快速去水除渣結構
- 下一篇:一種智能網聯汽車事故減少量計算方法





