[發明專利]一種基于雙語平行語料庫的相似語句去重系統在審
| 申請號: | 201711460777.6 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108197120A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 張宏磊 | 申請(專利權)人: | 中譯語通科技(青島)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266000 山東省青島市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 平行語料庫 存儲設備 去重 語句 預處理 存儲資源 翻譯系統 工作效率 計算系統 隨機抽取 網絡獲取 儲存器 去除 譯文 平行 原文 儲存 篩選 聯網 翻譯 | ||
一種基于雙語平行語料庫的相似語句去重系統,包括以下步驟:聯網,通過網絡獲取平行語料;系統將語料進行預處理;隨機抽取語料的原文和對應的譯文;通過系統的計算系統對Hash值進行計算;系統對該Hash值與語料存儲設備中的Hash值進行對比,進行篩選,將不符合要求的去除,符合要求的儲存到對應的儲存器內,通過本發明的方法極大的減少了語料存儲設備的存儲資源,提高了翻譯系統的工作效率和翻譯質量。
技術領域
本發明涉及一種基于雙語平行語料庫的相似語句去重系統。
背景技術
當前,語料庫語料的重要收集方法之一是通過網絡自動獲取,但是在網絡中存在著大量重復或相似的句子。基于平行語料庫的機器翻譯系統所需要的雙語句對一般在百萬級以上,如果把這些冗余的句子放入平行語料庫,不但會浪費存儲資源,而且還會影響翻譯系統的工作效率和翻譯質量。因此在構建語料庫的前期工作中,根據語句去掉大量重復或相似的句對是一項具有實際意義的工作。
發明內容
針對以上不足,本發明提供一種基于雙語平行語料庫的相似語句去重系統,所需采用的技術方案是,
一種基于雙語平行語料庫的相似語句去重系統,包括以下步驟:
(1)聯網,通過網絡獲取平行語料;
(2)系統將語料進行預處理;
(3)隨機抽取語料的原文和對應的譯文;
(4)去除文本內的特殊符號、運算符號、數字;
(5)通過系統的計算系統對Hash值進行計算;
(6)將該Hash值與語料存儲設備中的Hash值進行對比運算,如果Hash值與語料存儲設備中的Hash值相同,則不進行存儲,如果Hash值與語料存儲設備中的Hash值不同,則將語料與Hash值一并存入語料存儲設備中。
在采用以上技術方案的同時本發明還需采用進一步的技術方案,
所述步驟(2)是對語料去除標簽,在一些優選的方式中,先將通過網絡獲取的語料去除其他系統的標記,再將語料的標簽去掉。
所述語料存儲設備包括儲存器和比較器,在一些優選的方式中,儲存器可以按不同語種分類。
所述比較器包含輸入端、比較端和輸出端,輸入端與計算系統相連。
所述方法還包括對最終數據庫中的語料進行標記的步驟,對同一含義的語料按不同語種進行標記,對同一語種的語料按不同含義進行標記,在一些優選的方式中,將同一語種分配到該語種的儲存器中,將有同一含義的不同語種進行標記并存儲在平行的儲存器中。
本發明的有益效果是,本系統中語料中相似句對都不會進行存儲,減少了語料庫中的冗余語料,極大的減少了語料存儲設備的存儲資源,提高了翻譯系統的工作效率和翻譯質量。
附圖說明
圖1是本發明的流程圖。
具體實施方式
下面結合附圖對本發明進行進一步描述,
一種基于雙語平行語料庫的相似語句去重系統,包括以下步驟:
(1)聯網,通過網絡獲取平行語料;
(2)系統將語料進行預處理,先將通過網絡獲取的語料去除其他系統的標記,再將語料的標簽去掉。
(3)隨機抽取語料的原文和對應的譯文;
(4)去除文本內的特殊符號、運算符號、數字;
(5)通過系統的計算系統對該語料的Hash值進行計算,;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技(青島)有限公司,未經中譯語通科技(青島)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711460777.6/2.html,轉載請聲明來源鉆瓜專利網。





