[發明專利]計算機翻譯數據處理方法及裝置在審
| 申請號: | 201210285384.7 | 申請日: | 2012-08-10 |
| 公開(公告)號: | CN103577397A | 公開(公告)日: | 2014-02-12 |
| 發明(設計)人: | 吳克文;廖劍;張永剛;林鋒 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算機 翻譯 數據處理 方法 裝置 | ||
技術領域
本申請涉及計算機輔助翻譯技術領域,特別是涉及一種計算機翻譯數據處理方法及裝置。
背景技術
隨著科學技術和互聯網的快速發展,計算機和網絡技術己經深入我們工作、生活的方方面面。在翻譯領域,也出現了計算機輔助翻譯技術,例如常見的google翻譯、百度翻譯或有道翻譯等等。
計算機輔助翻譯常見的方法有根據語料庫實現記憶翻譯,即將待翻譯的句子分解為幾個詞語,然后借助于已經存儲的實例翻譯,對分解出來的詞語進行翻譯,最后再將翻譯后的結果組合起來。例如,需要翻譯的句子為“他買了一本書”,則可以分解為“他、買了、一本書”,然后在系統中進行查找對應的翻譯實例,例如,查找到“她正在看一本書:sheis?reading?a?book”以及“他買了一臺電腦:he?bought?a?computer”,那么就可以對分解出來的詞或短語進行翻譯得到“he、bought、a?book”,最后組合得到翻譯結果“he?bought?a?book”。
此種方式可以將句子細分到很小的顆粒,從而可以提高翻譯質量。但是因為需要精確的匹配操作,為了保證匹配率,需要在系統中或數據庫中維護大量的實例語句數據,這就會占用大量的數據存儲空間。同時,在大量的實例語句數據中查詢匹配完全相同的詞語也需要花費較多的查詢時間,從而導致系統的響應速度較慢。當待翻譯句子的并發量較大時,還可能會導致系統崩潰。另外,因為需要精確的匹配操作,需要待翻譯的句子具有標準的句式,但是在某些特殊的信息領域,其待翻譯的大量句子可能都不具有標準格式,那么就可能出現無法匹配的情況,此時往往需要人為的修改待翻譯的句子反復查詢,直到得到用戶期望的結果,這無疑會增加系統的負載。
發明內容
本申請提供一種計算機翻譯數據處理方法及裝置,能夠解決實例語句占用大量系統空間、翻譯查詢效率低,系統響應慢的問題。
為了解決上述問題,本申請公開了一種計算機翻譯數據處理方法,包括以下步驟:
接收待翻譯的源語句,對所述源語句進行切分;
將切分得到的詞語在分類詞典中進行查詢,確定各詞語的類別;
根據所述源語句各詞語的類別在語義模式數據庫中查找確定所述源語句的語義模式;
查找所述語義模式對應的翻譯規則,根據所述翻譯規則對源語句進行翻譯。
進一步地,所述根據所述源語句各詞語的類別在語義模式數據庫中查找確定所述源語句的語義模式包括:
確定源語句的類別組合;
將得到的類別組合分別代入語義模式數據庫中查找匹配的語義模式,若能夠找到,則獲取所述語義模式;
比較所述各匹配的語義模式所對應的類別組合中的類別數量,選取類別數量最多的類別組合所對應的語義模式為源語句的語義模式。
進一步地,所述選取類別數量最多的類別組合所對應的語義模式為源語句的語義模式包括:
判斷所述類別數量最多的類別組合是否為源語句的全部詞語類別,若是,則選取所述類別數量最多的類別組合所對應的語義模式為源語句的語義模式;
若否,則判斷源語句剩余的詞語類別組合是否有對應的語義模式,若是,則獲取其語義模式,并與所述類別數量最多的類別組合所對應的語義模式共同作為源語句的語義模式,若否,則將所述類別數量最多的類別組合所對應的語義模式作為源語句的語義模式。
進一步地,所述確定源語句的類別組合包括:
若類別數量N為2,則類別組合為一個;
若類別數量N>2,則類別組合一共有N-1個,包括從第一個類別開始的前兩個類別為第一類別組合;從第一個類別開始的前三個類別為第二類別組合,直到從第一個類別開始的N個類別為第N-1類別組合。
進一步地,若源語句的語義模式為至少兩個語義模式的組合,所述根據所述翻譯規則對源語句進行翻譯包括:
按照各語義模式所對應的翻譯規則對源語句中對應部分進行翻譯得到部分翻譯結果,將所述部分翻譯結果組合得到源語句的最終翻譯結果;或
按照各語義模式所對應的翻譯規則對源語句中對應部分進行翻譯得到部分翻譯結果,獲取各語義模式間的翻譯規則,根據所述翻譯規則對部分翻譯結果進行調整,得到源語句的最終翻譯結果。
本申請還公開了一種計算機翻譯數據處理裝置,包括:
數據獲取模塊,用于接收待翻譯的源語句,對所述源語句進行切分;
類別確定模塊,用于將切分得到的詞語在分類詞典中進行查詢,確定各詞語的類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210285384.7/2.html,轉載請聲明來源鉆瓜專利網。





