[發明專利]一種基于雙語平行語料庫的相似語句去重系統在審

申請號：	201711460777.6	申請日：	2017-12-28
公開（公告）號：	CN108197120A	公開（公告）日：	2018-06-22
發明（設計）人：	張宏磊	申請（專利權）人：	中譯語通科技（青島）有限公司
主分類號：	G06F17/28	分類號：	G06F17/28;G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	266000 山東省青島市高新區***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語料平行語料庫存儲設備去重語句預處理存儲資源翻譯系統工作效率計算系統隨機抽取網絡獲取儲存器去除譯文平行原文儲存篩選聯網翻譯
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于雙語平行語料庫的相似語句去重系統，包括以下步驟：聯網，通過網絡獲取平行語料；系統將語料進行預處理；隨機抽取語料的原文和對應的譯文；通過系統的計算系統對Hash值進行計算；系統對該Hash值與語料存儲設備中的Hash值進行對比，進行篩選，將不符合要求的去除，符合要求的儲存到對應的儲存器內，通過本發明的方法極大的減少了語料存儲設備的存儲資源，提高了翻譯系統的工作效率和翻譯質量。

技術領域

本發明涉及一種基于雙語平行語料庫的相似語句去重系統。

背景技術

當前,語料庫語料的重要收集方法之一是通過網絡自動獲取,但是在網絡中存在著大量重復或相似的句子。基于平行語料庫的機器翻譯系統所需要的雙語句對一般在百萬級以上,如果把這些冗余的句子放入平行語料庫,不但會浪費存儲資源,而且還會影響翻譯系統的工作效率和翻譯質量。因此在構建語料庫的前期工作中,根據語句去掉大量重復或相似的句對是一項具有實際意義的工作。

發明內容

針對以上不足，本發明提供一種基于雙語平行語料庫的相似語句去重系統，所需采用的技術方案是，

一種基于雙語平行語料庫的相似語句去重系統，包括以下步驟：

（1）聯網，通過網絡獲取平行語料；

（2）系統將語料進行預處理；

（3）隨機抽取語料的原文和對應的譯文；

（4）去除文本內的特殊符號、運算符號、數字；

（5）通過系統的計算系統對Hash值進行計算；

（6）將該Hash值與語料存儲設備中的Hash值進行對比運算，如果Hash值與語料存儲設備中的Hash值相同，則不進行存儲，如果Hash值與語料存儲設備中的Hash值不同，則將語料與Hash值一并存入語料存儲設備中。

在采用以上技術方案的同時本發明還需采用進一步的技術方案，

所述步驟（2）是對語料去除標簽，在一些優選的方式中，先將通過網絡獲取的語料去除其他系統的標記，再將語料的標簽去掉。

所述語料存儲設備包括儲存器和比較器，在一些優選的方式中，儲存器可以按不同語種分類。