[發明專利]一種基于雙語平行語料庫的相似語句去重系統在審
| 申請號: | 201711460777.6 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108197120A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 張宏磊 | 申請(專利權)人: | 中譯語通科技(青島)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266000 山東省青島市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 平行語料庫 存儲設備 去重 語句 預處理 存儲資源 翻譯系統 工作效率 計算系統 隨機抽取 網絡獲取 儲存器 去除 譯文 平行 原文 儲存 篩選 聯網 翻譯 | ||
1.一種基于雙語平行語料庫的相似語句去重系統,其特征在于,包括以下步驟:
(1)聯網,通過網絡獲取平行語料;
(2)系統將語料進行預處理;
(3)隨機抽取語料的原文和對應的譯文;
(4)去除文本內的特殊符號、運算符號、數字;
(5)通過系統的計算系統對Hash值進行計算;
(6)將該Hash值與語料存儲設備中的Hash值進行對比運算,如果Hash值與語料存儲設備中的Hash值相同,則不進行存儲,如果Hash值與語料存儲設備中的Hash值不同,則將語料與Hash值一并存入語料存儲設備中。
2.根據權利要求1所述的一種基于雙語平行語料庫的相似語句去重系統,其特征在于,所述步驟(2)是對語料去除標簽。
3.根據權利要求1所述的一種基于雙語平行語料庫的相似語句去重系統,其特征在于,所述語料存儲設備包括儲存器和比較器。
4.根據權利要求3所述的一種基于雙語平行語料庫的相似語句去重系統,其特征在于,所述比較器包含輸入端、比較端和輸出端,輸入端與計算系統相連。
5.根據權利要求1所述的一種基于雙語平行語料庫的相似語句去重系統,其特征在于,所述方法還包括對最終數據庫中的語料進行標記的步驟,對同一含義的語料按不同語種進行標記,對同一語種的語料按不同含義進行標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技(青島)有限公司,未經中譯語通科技(青島)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711460777.6/1.html,轉載請聲明來源鉆瓜專利網。





