[發明專利]一種翻譯記憶庫模糊查詢方法及系統在審
| 申請號: | 202310257043.7 | 申請日: | 2023-03-16 |
| 公開(公告)號: | CN116303674A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 關祎寧 | 申請(專利權)人: | 沈陽創思佳業科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F40/49;G06F40/58;G06F40/166;G06F16/33 |
| 代理公司: | 北京東方盛凡知識產權代理有限公司 11562 | 代理人: | 程小芳 |
| 地址: | 110000 遼寧省沈陽市皇姑區昆山西*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 翻譯 記憶 模糊 查詢 方法 系統 | ||
本申請公開了一種翻譯記憶庫模糊查詢方法和系統,包括:將輸入文本中的每一個單詞進行數字化表達,并進行數字對比;基于數字對比的結果,進行編輯距離計算,得出輸入文本同當前翻譯記憶庫中的原文的編輯距離;當翻譯記憶庫中的全部原文都參與了編輯距離計算,并得到對應的編輯距離后,取編輯距離最小的一組翻譯記憶庫原文作為同輸入文本相似度最高的模糊查詢結果。本申請通過將輸入文本的原文和翻譯記憶庫中的原文的單詞內容進行數字化表達的處理方法,無論對于哪種匹配查詢算法都將是適用的,因為相比較于傳統的按字符串內容比較單詞是否相等的做法,數字之間的比較更能降低對操作系統的消耗,提升計算處理性能。
技術領域
本申請屬于機器翻譯技術領域,具體涉及一種翻譯記憶庫模糊查詢方法及系統。
背景技術
翻譯記憶庫是翻譯領域中比較常用到的翻譯輔助軟件,它的模糊查詢算法可以將記憶庫中的已存儲原文作為參考原文,對需要翻譯的輸入文本進行模糊匹配,所述輸入文本為需要翻譯原文中的某一段內容。算法最終返回翻譯記憶庫中同輸入文本相似度較高的一批原文以及對應的譯文。為譯員提供譯法參考。
隨著翻譯記憶庫里存儲的原文越來越多,原文內容的長度越來越大,算法的計算過程對系統的開銷也將逐漸加大,因此,查詢算法不僅關系到查詢結果的準確性,其性能直接決定了算法對返回結果的響應速度。因此查詢算法的設計與實現方式,是影響翻譯記憶庫模糊查詢功能的重要環節。
現有的查詢算法,是將輸入文本里的每一個單詞,同翻譯記憶庫中的原文中每一個單詞進行對比,得出是否相等的結論。當輸入文本中的全部單詞與翻譯記憶庫中的原文中的每一個單詞都進行了對比后,再通過某種編輯距離算法,對上述對比結果進行數學計算,得出翻譯記憶庫中每條原文對輸入文本的編輯距離,編輯距離最小的一組翻譯記憶庫中的原文即是與輸入文本相似度最高的一組原文。
上述將兩組單詞集合進行循環計算比對的方式,隨著句子長度(輸入文本或翻譯記憶庫中的存儲原文)增大,翻譯記憶庫中存儲的原文數量增多,由于操作系統對字符串的比較方式是逐個按字符的ASCII碼值為單位處理,所以會產生大量的字符級的比較運算,對于操作系統存在不小的開銷,直接影響查詢的性能和結果返回的速度。
發明內容
傳統查詢算法由于隨著翻譯記憶庫里的原文越來越多,原文內容越來越長,會產生大量的字符級比較的操作,加大系統開銷帶來性能問題。為解決這一問題,本申請研發一種新的模糊查詢方法,同時實現一種新的編輯距離計算方法,對數字化后的單詞進行運算,提升模糊查詢的計算性能。
為實現上述目的,本申請提供了如下方案:
一種翻譯記憶庫模糊查詢方法,包括如下步驟:
將輸入文本中的每一個單詞進行數字化表達,并進行數字對比;
基于數字對比的結果,進行編輯距離計算,得出所述輸入文本同當前翻譯記憶庫中的原文的編輯距離;
當所述翻譯記憶庫中的全部原文都參與了所述編輯距離計算,并得到對應的編輯距離后,取編輯距離最小的一組翻譯記憶庫原文作為同輸入文本相似度最高的模糊查詢結果。
優選的,所述單詞的數字表達方法為:
N=fw-n(w)
其中,N為單詞轉換后的數字內容,w為單詞轉換前的文本內容。
優選的,所述編輯距離使用虛擬X-Y直角坐標系進行計算,其中X軸刻度值用輸入文本的單詞順序表達,Y軸刻度值則用翻譯記憶庫原文單詞順序表達。
優選的,使用所述虛擬X-Y直角坐標系計算所述編輯距離的方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽創思佳業科技有限公司,未經沈陽創思佳業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310257043.7/2.html,轉載請聲明來源鉆瓜專利網。





