[發(fā)明專利]平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審

申請?zhí)枺?/td>	202011415780.8	申請日：	2020-12-07
公開（公告）號(hào)：	CN112446224A	公開（公告）日：	2021-03-05
發(fā)明（設(shè)計(jì)）人：	方愷齊;崔春來	申請（專利權(quán)）人：	北京彩云環(huán)太平洋科技有限公司;廣州彩徹區(qū)明科技有限公司
主分類號(hào)：	G06F40/58	分類號(hào)：	G06F40/58;G06F40/289
代理公司：	北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205	代理人：	張娜;劉芳
地址：	100089 北京市海淀***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	平行語料處理方法裝置設(shè)備計(jì)算機(jī) 可讀存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，該方法對(duì)目標(biāo)平行語料進(jìn)行分句操作，得到目標(biāo)平行語料中原文文檔的M句原文和譯文文檔的N句譯文；對(duì)M句原文和N句譯文進(jìn)行編碼，得到每句原文對(duì)應(yīng)的一個(gè)向量和每句譯文對(duì)應(yīng)的一個(gè)向量；根據(jù)得到的向量，對(duì)目標(biāo)平行語料進(jìn)行分段操作，得到多個(gè)雙語互譯段；對(duì)每個(gè)雙語互譯段，進(jìn)行對(duì)齊操作，得到目標(biāo)平行語料的對(duì)齊結(jié)果，降低了工作量，提高了準(zhǔn)確性和效率。

技術(shù)領(lǐng)域

本發(fā)明涉及翻譯技術(shù)領(lǐng)域，尤其涉及一種平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)

平行語料是由原文文本及其平行對(duì)應(yīng)的譯語文本構(gòu)成的雙語語料，平行語料是訓(xùn)練機(jī)器翻譯模型的重要資源，對(duì)于翻譯領(lǐng)域的翻譯轉(zhuǎn)換研究、研究翻譯風(fēng)格及填補(bǔ)雙語詞典的義項(xiàng)缺失都有著不可或缺的作用。

相關(guān)技術(shù)中，對(duì)長文檔進(jìn)行平行語料的處理，常用的手段為利用人工制定的規(guī)則來篩選構(gòu)建兩個(gè)句子中可以代表相似度的特征詞語、短語，利用這些詞語特征來計(jì)算兩個(gè)句子之間的相似度，通過相似度確定平行語料的對(duì)齊結(jié)果。

然而，上述方法只能單句對(duì)單句進(jìn)行對(duì)齊，無法準(zhǔn)確處理多句對(duì)多句的情況，且處理長文檔時(shí)準(zhǔn)確率低、工作量大、效率低。

發(fā)明內(nèi)容

本申請?zhí)峁┮环N平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，從而解決現(xiàn)有技術(shù)只能單句對(duì)單句進(jìn)行對(duì)齊，無法準(zhǔn)確處理多句對(duì)多句的情況，且處理長文檔時(shí)準(zhǔn)確率低、工作量大、效率低的技術(shù)問題。

第一方面，本申請?zhí)峁┮环N平行語料處理方法，包括：

對(duì)目標(biāo)平行語料進(jìn)行分句操作，得到所述目標(biāo)平行語料中原文文檔的M句原文和譯文文檔的N句譯文；

對(duì)所述M句原文和所述N句譯文進(jìn)行編碼，得到每句原文對(duì)應(yīng)的一個(gè)向量和每句譯文對(duì)應(yīng)的一個(gè)向量；

根據(jù)得到的向量，對(duì)所述目標(biāo)平行語料進(jìn)行分段操作，得到多個(gè)雙語互譯段；

對(duì)每個(gè)雙語互譯段，進(jìn)行對(duì)齊操作，得到所述目標(biāo)平行語料的對(duì)齊結(jié)果。

這里，本申請實(shí)施例首先對(duì)目標(biāo)平行語料進(jìn)行分句及編碼操作，從而可以針對(duì)每一個(gè)短句進(jìn)行準(zhǔn)確的相似度計(jì)算，找出能夠用于切分文檔的句對(duì)，對(duì)整篇文檔進(jìn)行分段切分得到多個(gè)短文檔，通過對(duì)短文檔的句子拼接及相似度的計(jì)算得到短文檔的對(duì)齊結(jié)果，由于本申請實(shí)施例可以將長文檔進(jìn)行切分成為短文檔，將復(fù)雜的長文檔的對(duì)齊轉(zhuǎn)化為短文檔的并拼接句子后對(duì)齊，解決了現(xiàn)有技術(shù)對(duì)齊長文檔準(zhǔn)確度不佳，以及無法準(zhǔn)確處理多句對(duì)多句的問題，提高了目標(biāo)平行語料對(duì)齊的準(zhǔn)確性和效率。

可選的，所述根據(jù)得到的向量，對(duì)所述目標(biāo)平行語料進(jìn)行分段操作，得到多個(gè)雙語互譯段，包括：

根據(jù)得到的向量，計(jì)算所述M句原文中任意一句原文和所述N句譯文中任意一句譯文組成的M*N個(gè)句對(duì)的第一相似度；

按照第一預(yù)設(shè)規(guī)則和所述第一相似度，確定用于切分文檔的句對(duì)；

根據(jù)所述切分文檔的句對(duì)，對(duì)所述目標(biāo)平行語料進(jìn)行分段操作，得到所述多個(gè)雙語互譯段。

本申請實(shí)施例通過計(jì)算所有原文和所有譯文的相似度，確定用于切分文檔的句對(duì)即分段點(diǎn)，根據(jù)切分文檔的句對(duì)目標(biāo)互譯文檔進(jìn)行分段，這里，可以通過計(jì)算所有原文和所有譯文的相似度，準(zhǔn)確地確定相似度最高的原文和譯文，從而對(duì)目標(biāo)互譯片段進(jìn)行準(zhǔn)確的劃分，進(jìn)一步地提高了目標(biāo)平行語料對(duì)齊的準(zhǔn)確度。

可選的，所述對(duì)每個(gè)雙語互譯段，進(jìn)行對(duì)齊操作，得到所述目標(biāo)平行語料的對(duì)齊結(jié)果，包括：

按照所述目標(biāo)平行語料的順序，將所述多個(gè)雙語互譯段拼接成多個(gè)句子組合；

對(duì)所述多個(gè)句子組合進(jìn)行編碼，得到每個(gè)組合對(duì)應(yīng)的一個(gè)向量；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京彩云環(huán)太平洋科技有限公司;廣州彩徹區(qū)明科技有限公司，未經(jīng)北京彩云環(huán)太平洋科技有限公司;廣州彩徹區(qū)明科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011415780.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】