[發(fā)明專利]平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202011415780.8 | 申請日: | 2020-12-07 |
| 公開(公告)號(hào): | CN112446224A | 公開(公告)日: | 2021-03-05 |
| 發(fā)明(設(shè)計(jì))人: | 方愷齊;崔春來 | 申請(專利權(quán))人: | 北京彩云環(huán)太平洋科技有限公司;廣州彩徹區(qū)明科技有限公司 |
| 主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06F40/289 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 張娜;劉芳 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 平行 語料 處理 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本申請?zhí)峁┮环N平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該方法對(duì)目標(biāo)平行語料進(jìn)行分句操作,得到目標(biāo)平行語料中原文文檔的M句原文和譯文文檔的N句譯文;對(duì)M句原文和N句譯文進(jìn)行編碼,得到每句原文對(duì)應(yīng)的一個(gè)向量和每句譯文對(duì)應(yīng)的一個(gè)向量;根據(jù)得到的向量,對(duì)目標(biāo)平行語料進(jìn)行分段操作,得到多個(gè)雙語互譯段;對(duì)每個(gè)雙語互譯段,進(jìn)行對(duì)齊操作,得到目標(biāo)平行語料的對(duì)齊結(jié)果,降低了工作量,提高了準(zhǔn)確性和效率。
技術(shù)領(lǐng)域
本發(fā)明涉及翻譯技術(shù)領(lǐng)域,尤其涉及一種平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
平行語料是由原文文本及其平行對(duì)應(yīng)的譯語文本構(gòu)成的雙語語料,平行語料是訓(xùn)練機(jī)器翻譯模型的重要資源,對(duì)于翻譯領(lǐng)域的翻譯轉(zhuǎn)換研究、研究翻譯風(fēng)格及填補(bǔ)雙語詞典的義項(xiàng)缺失都有著不可或缺的作用。
相關(guān)技術(shù)中,對(duì)長文檔進(jìn)行平行語料的處理,常用的手段為利用人工制定的規(guī)則來篩選構(gòu)建兩個(gè)句子中可以代表相似度的特征詞語、短語,利用這些詞語特征來計(jì)算兩個(gè)句子之間的相似度,通過相似度確定平行語料的對(duì)齊結(jié)果。
然而,上述方法只能單句對(duì)單句進(jìn)行對(duì)齊,無法準(zhǔn)確處理多句對(duì)多句的情況,且處理長文檔時(shí)準(zhǔn)確率低、工作量大、效率低。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N平行語料處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),從而解決現(xiàn)有技術(shù)只能單句對(duì)單句進(jìn)行對(duì)齊,無法準(zhǔn)確處理多句對(duì)多句的情況,且處理長文檔時(shí)準(zhǔn)確率低、工作量大、效率低的技術(shù)問題。
第一方面,本申請?zhí)峁┮环N平行語料處理方法,包括:
對(duì)目標(biāo)平行語料進(jìn)行分句操作,得到所述目標(biāo)平行語料中原文文檔的M句原文和譯文文檔的N句譯文;
對(duì)所述M句原文和所述N句譯文進(jìn)行編碼,得到每句原文對(duì)應(yīng)的一個(gè)向量和每句譯文對(duì)應(yīng)的一個(gè)向量;
根據(jù)得到的向量,對(duì)所述目標(biāo)平行語料進(jìn)行分段操作,得到多個(gè)雙語互譯段;
對(duì)每個(gè)雙語互譯段,進(jìn)行對(duì)齊操作,得到所述目標(biāo)平行語料的對(duì)齊結(jié)果。
這里,本申請實(shí)施例首先對(duì)目標(biāo)平行語料進(jìn)行分句及編碼操作,從而可以針對(duì)每一個(gè)短句進(jìn)行準(zhǔn)確的相似度計(jì)算,找出能夠用于切分文檔的句對(duì),對(duì)整篇文檔進(jìn)行分段切分得到多個(gè)短文檔,通過對(duì)短文檔的句子拼接及相似度的計(jì)算得到短文檔的對(duì)齊結(jié)果,由于本申請實(shí)施例可以將長文檔進(jìn)行切分成為短文檔,將復(fù)雜的長文檔的對(duì)齊轉(zhuǎn)化為短文檔的并拼接句子后對(duì)齊,解決了現(xiàn)有技術(shù)對(duì)齊長文檔準(zhǔn)確度不佳,以及無法準(zhǔn)確處理多句對(duì)多句的問題,提高了目標(biāo)平行語料對(duì)齊的準(zhǔn)確性和效率。
可選的,所述根據(jù)得到的向量,對(duì)所述目標(biāo)平行語料進(jìn)行分段操作,得到多個(gè)雙語互譯段,包括:
根據(jù)得到的向量,計(jì)算所述M句原文中任意一句原文和所述N句譯文中任意一句譯文組成的M*N個(gè)句對(duì)的第一相似度;
按照第一預(yù)設(shè)規(guī)則和所述第一相似度,確定用于切分文檔的句對(duì);
根據(jù)所述切分文檔的句對(duì),對(duì)所述目標(biāo)平行語料進(jìn)行分段操作,得到所述多個(gè)雙語互譯段。
本申請實(shí)施例通過計(jì)算所有原文和所有譯文的相似度,確定用于切分文檔的句對(duì)即分段點(diǎn),根據(jù)切分文檔的句對(duì)目標(biāo)互譯文檔進(jìn)行分段,這里,可以通過計(jì)算所有原文和所有譯文的相似度,準(zhǔn)確地確定相似度最高的原文和譯文,從而對(duì)目標(biāo)互譯片段進(jìn)行準(zhǔn)確的劃分,進(jìn)一步地提高了目標(biāo)平行語料對(duì)齊的準(zhǔn)確度。
可選的,所述對(duì)每個(gè)雙語互譯段,進(jìn)行對(duì)齊操作,得到所述目標(biāo)平行語料的對(duì)齊結(jié)果,包括:
按照所述目標(biāo)平行語料的順序,將所述多個(gè)雙語互譯段拼接成多個(gè)句子組合;
對(duì)所述多個(gè)句子組合進(jìn)行編碼,得到每個(gè)組合對(duì)應(yīng)的一個(gè)向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京彩云環(huán)太平洋科技有限公司;廣州彩徹區(qū)明科技有限公司,未經(jīng)北京彩云環(huán)太平洋科技有限公司;廣州彩徹區(qū)明科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011415780.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





