[發明專利]一種基于雙數組字典樹進行術語匹配的方法有效
| 申請號: | 201610897567.2 | 申請日: | 2016-10-15 |
| 公開(公告)號: | CN106649286B | 公開(公告)日: | 2019-07-02 |
| 發明(設計)人: | 馮澤康 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27;G06F16/33 |
| 代理公司: | 江蘇法德永衡律師事務所 32305 | 代理人: | 劉林 |
| 地址: | 430073 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙數 字典 進行 術語 匹配 方法 | ||
一種基于雙數組字典樹進行術語匹配的方法,其特征是包括建索引的步驟,及用索引進行術語查詢匹配的步驟;其中,所述建索引的步驟如下:生成雙數組字典樹的定位,計算內存緩存系統的二級索引的ID,對術語建索引,所述用索引進行術語查詢匹配的步驟如下:生成雙數組字典樹的定位,分詞,基于索引進行術語匹配。既可以滿足術語匹配的多種查詢需求,又提高了整體匹配的性能。
技術領域
本發明屬于計算機通信領域,尤其涉及一種基于雙數組字典樹進行術語匹配的方法。
背景技術
當前計算機輔助翻譯是提高翻譯一致性和效率的重要手段,它要求軟件能夠不斷地記憶最新的術語及語料,并且在后續的翻譯流程中能夠及時地調出滿足相應條件的術語或語料以供選擇。隨著術語和語料規模的不斷擴大,基于傳統的關系型數據庫或是目前較新的非關系型數據庫來直接根據原文或譯文檢索出完整的翻譯信息都是會有明顯的效率下降的,當處理比較大的待譯稿時,速度自然不能接受。以mongo數據庫為例,每一個文檔記錄都包含文檔ID,原文,譯文以及其他輔助信息,有些原文或譯文比較長,就不適合作為索引字段,而文檔ID是mongo的默認全局唯一16進制索引字段,基于文檔ID的查詢會非常快。基于此,我們可以實現一種外圍索引,將原文或譯文通過該索引與文檔ID對應起來,要求外圍索引支持可存儲的任意長度的原文或譯文,并且要足夠高效。
結合雙數組字典樹算法,輔以redis緩存和適當的數據結構設計,我們可以構建出這樣一套滿足需求的索引及匹配系統。傳統的直接基于數據庫查詢某個字段會比較慢,建了索引的情況下速度會快一些,但是有的字段比較長就不適合建索引,即使建了數據庫索引對于較長的字段來說,查詢速度可能依然偏慢。而不管任何數據,只要基于數據庫主鍵來查當前記錄,速度都是比較快的,因此實現一種對術語快速建索引的機制,并且將該索引與數據庫主鍵對應的字段相關聯,就可以獲得比較好的查詢性能。此外翻譯行業的術語匹配不僅僅是查出給定的術語,還需要支持前綴查詢,精確查詢,還有基于句子的分詞查詢,而雙數組字典樹可以實現這些功能。將一種高效的雙數組字典樹實現算法引入,再將數據庫主鍵的值與雙數組里每一個術語的位置信息對應起來作為輔助信息存放于緩存系統,既可以滿足術語匹配的多種查詢需求,又提高了整體匹配的性能,對于翻譯自動化來說可以帶來較好的用戶體驗。
發明內容
本發明所要解決的技術問題是目前基于數據庫的術語匹配引擎在查詞效率上速度偏慢,而改善這一問題的辦法就是對數據庫里的術語建一個快速索引,引入雙數組字典樹可以解決大量術語建索引慢以及查詢慢的問題。
為解決上述技術問題,本發明提供了一種基于雙數組字典樹進行術語匹配的方法,其特征是包括建索引的步驟,及用索引進行術語查詢匹配的步驟;
(1)生成雙數組字典樹的定位
根據指定的雙數組字典樹的數目,用哈希算法,對插入術語計算哈希值,然后對雙數組字典樹的數目取模,計算得出雙數組字典樹的位置編號,用以實現雙數組字典樹的定位;
(2)計算內存緩存系統的二級索引的ID
從mongo數據庫里讀出術語,將術語插入雙數組字典樹,返回術語在雙數組字典樹的pos值, 將所述雙數組字典樹的位置編號,乘以1000萬,加上所述pos值,再配合程序設定的前綴字串,得出內存緩存系統里的二級索引的ID;
(2)對術語建索引
根據二級索引的ID查詢出插入術語在數據庫里對應的數據記錄的術語庫ID和對象ID,用術語庫ID和對象ID構造鍵值,形成二級索引的ID和鍵值的映射關系,存放于內存緩沖系統;
所述基于雙數組字典樹索引進行術語匹配的步驟包括:
(1)生成雙數組字典樹的定位
(2)分詞
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610897567.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:椅子(MK?705)
- 下一篇:椅子(MK?701)





