[發明專利]對大文本中術語自動翻譯的方法在審
| 申請號: | 201310407069.1 | 申請日: | 2013-09-09 |
| 公開(公告)號: | CN103488628A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 江潮 | 申請(專利權)人: | 武漢傳神信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 術語 自動 翻譯 方法 | ||
技術領域
本發明涉及一種計算機技術,具體而言,涉及對大文本中術語自動翻譯的方法。
背景技術
通常對于大量待翻譯的技術文檔和專業文檔中的術語要進行查找、標注并翻譯的方法,是用術語為模式串在待譯文本中進行字符串模式匹配。由于待譯文本或文本集合是一種未排序的散亂文本空間,用這種方式進行模式匹配,需要用術語為模式串同待譯文本或文本集合中的每個字符順序進行字符串模式匹配,整個匹配過程要對其中相同的字(或單詞)反復進行字符串匹配,計算大量重復,耗費了大量的時間和計算資源,整體時間復雜度非常巨大。
這種方法時間耗費大、速度很慢,無法滿足計算機輔助翻譯對于術語查找、標注和翻譯的要求。特別是對于在大文本或文本集合來說來說,要在其中對術語進行快速查找、標注和翻譯,目前仍然沒有一種快速有效的解決方法。
發明內容
本發明旨在提供對大文本中術語自動翻譯的方法,以解決上述現有技術中匹配的時間耗費大、速度慢的問題。
本發明公開了一種對文本中術語自動翻譯的方法,包括:
提取文本中不重復的語素,并記錄每個語素在所述文本中出現的位置;
在多種語言的術語庫中匹配所述提取的語素,將匹配成功的語素或語素的組合標注為術語;
在所述術語庫中找到相應的術語,按照預先確定的翻譯方向,找到并顯示該術語的目標語言。
優選地,還包括:
按照所述預先確定的翻譯方向,確定作為源語言的所述提取的語素的語種;
將所述術語庫中的術語,按照所述確定的語種的字符順序排序。
優選地,還包括:
根據所述提取的語素、及其出現的位置建立一個索引表;
該表中包括:所述提取的語素、語素所屬的文本編號和語素在每篇文本中出現的位置。
優選地,還包括:
按照所述索引表中的語素的順序,采用二分法與所述術語庫中的術語執行所述匹配操作。
優選地,所述在多種語言的術語庫中匹配所述提取的語素的過程包括:
將所述索引表中的每個語素與所述術語庫中的每個術語的首個語素進行字符串模式匹配,將匹配成功的語素定義為疑是術語字頭。
優選地,還包括:
判斷所述術語庫中與所述疑是術語字頭的匹配成功的術語的長度;
術語的長度為一個語素,將該疑是術語字頭標注為術語,并顯示該術語的目標語言;
術語的長度大于一個語素,進行二次匹配,將匹配成功的語素組合標注為術語,并顯示該術語的目標語言。
優選地,所述二次匹配的過程包括:
計算術語的長度,設定該術語的長度為TermLen[],且TermLen[]為大于1的整數;
根據所述索引表,取與該術語匹配成功的疑是術語字頭在相應文本中各個位置的后TermLen[]-1個語素,分別于所述術語中的后TermLen[]-1個語素進行逐個匹配;
匹配成功的,將從該疑是術語字頭至其后第TermLen[]-1個語素的所有語素的組合標注為術語,并顯示該術語的目標語言。
本發明中的對大文本中術語自動翻譯的方法,具有以下優點:
1、采用一種反向思路,以文本集合中的語素為模式串在術語庫中進行字符串匹配,極大的減少了相同字符重復進行匹配的次數,同時由于術語庫是個有序空間,在其中使用二分法進行查詢匹配可以大量減少查詢操作;
2、通過對文本集合的所有語素建立一個索引表,文本集合中的同一個語素在術語庫中只進行一次搜索匹配操作,節省了大量重復的字符串模式匹配操作;
3、通過索引表,可以查找到在文本集合中的每個語素的位置信息,及字與字的位置關系,可以方便實現術語庫中術語的每個語素和文本集合中的相關語素的匹配,而不用將術語和文本集合中不相關的語素進行匹配操作。
4、本方法特別適用于大文本或文本集合的術語查找、標注和翻譯,文本的容量越大本方法的效率值越高,與多語術語庫相結合,可以顯著的提高輔助翻譯效率。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
圖1示出了實施例1的流程圖;
圖2示出了實施例2的流程圖;
圖3示出了實施例3的流程圖。
具體實施方式
下面將參考附圖并結合實施例,來詳細說明本發明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢傳神信息技術有限公司,未經武漢傳神信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310407069.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:業務數據查詢裝置和業務數據查詢方法
- 下一篇:一種內嵌字體處理方法與裝置





