[發(fā)明專利]基于詞對(duì)和翻譯判斷句子是否對(duì)齊的方法、裝置及設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201811094517.6 | 申請(qǐng)日: | 2018-09-19 |
| 公開(公告)號(hào): | CN109325242B | 公開(公告)日: | 2023-06-13 |
| 發(fā)明(設(shè)計(jì))人: | 李軍輝;丁穎;張民;周國(guó)棟 | 申請(qǐng)(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06F40/289;G06F40/242;G06N3/0464;G06N3/044;G06N3/045 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 215104 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 翻譯 判斷 句子 是否 對(duì)齊 方法 裝置 設(shè)備 | ||
本發(fā)明公開了一種基于詞典和翻譯判斷句子是否對(duì)齊的方法,在對(duì)源文本句進(jìn)行分詞得到源文本詞之后,還確定了與源文本詞對(duì)應(yīng)的翻譯文本詞,并據(jù)此更新了源文本詞序列,最后根據(jù)源文本句以及目標(biāo)文本句對(duì)應(yīng)的隱藏狀態(tài)序列,判斷源文本句與目標(biāo)文本句是否對(duì)齊。可見,該方法不依賴于源文本句與目標(biāo)文本句本身去判斷二者是否對(duì)齊,而是結(jié)合源文本句中各個(gè)詞的翻譯,將該翻譯的信息融入到了源文本句的抽象表示中,進(jìn)而根據(jù)源文本句與目標(biāo)文本句的抽象表示來(lái)判斷二者是否對(duì)齊,極大的提高了判斷的精準(zhǔn)性。此外,本發(fā)明還提供了一種基于詞典和翻譯判斷句子是否對(duì)齊的裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其作用與上述方法相對(duì)應(yīng)。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域,特別涉及一種基于詞對(duì)和翻譯判斷句子是否對(duì)齊的方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著自然語(yǔ)言處理技術(shù)的發(fā)展,雙語(yǔ)語(yǔ)料庫(kù)引起了廣泛的關(guān)注和深入研究。雙語(yǔ)語(yǔ)料庫(kù)包含兩種不同語(yǔ)言的語(yǔ)料,且該語(yǔ)料以句子為單位互譯對(duì)照,它是多語(yǔ)言自然語(yǔ)言處理任務(wù)極其重要的資源,自然語(yǔ)言處理中的許多任務(wù),如機(jī)器翻譯、跨語(yǔ)言信息檢索和雙語(yǔ)詞典的構(gòu)建等都需要大規(guī)模雙語(yǔ)語(yǔ)料的支持。
雙語(yǔ)語(yǔ)料庫(kù)中的語(yǔ)料一般可以從雙語(yǔ)網(wǎng)站或者多語(yǔ)言版本的文獻(xiàn)資料中獲得,但是,從這些途徑獲得的文本一般不是以句子為單位對(duì)齊的,因此,需要對(duì)這些文本整理成句子對(duì)齊的格式。
句子對(duì)齊就是指從兩篇不同語(yǔ)言的文檔中提取出互為翻譯的平行句對(duì)的過(guò)程,句子對(duì)齊的主要思想是分別確定雙語(yǔ)句子(以下分別稱為源文本句與目標(biāo)文本句)的抽象表示,再通過(guò)計(jì)算兩個(gè)抽象表示之間的相似度,來(lái)判斷源文本句與目標(biāo)文本句是否對(duì)齊。
常用的句子對(duì)齊方法大致可以分為以下三種:
基于句子長(zhǎng)度的句子對(duì)齊方法,該方法主要關(guān)注的是雙語(yǔ)句子之間的表面信息,即根據(jù)兩個(gè)句子長(zhǎng)度的概率分布來(lái)判斷句子是否對(duì)齊,然而這種方法只適用于同語(yǔ)系的語(yǔ)言對(duì),如印歐語(yǔ)言上對(duì)齊效果較好,但是在不同語(yǔ)系的語(yǔ)言對(duì)上,如中英語(yǔ)言對(duì)上對(duì)齊性能急劇下降。
基于詞典的句子對(duì)齊方法,該方法通過(guò)句子中詞對(duì)分布和外部資源(如雙語(yǔ)詞典等)中的詞匯匹配信息來(lái)獲取句對(duì)的匹配程度信息。由于自然語(yǔ)言翻譯的靈活性,且雙語(yǔ)詞典的覆蓋率有限,僅根據(jù)詞對(duì)間淺層詞義信息進(jìn)行機(jī)械匹配不一定總能達(dá)到較好的效果。
基于句子長(zhǎng)度和詞典的句子對(duì)齊方法,該方法雖然中和了以上兩種方法的優(yōu)缺點(diǎn),但是,計(jì)算復(fù)雜度非常高,耗時(shí)較長(zhǎng),對(duì)齊效率較低。
可見,傳統(tǒng)的句子對(duì)齊方法,在判斷句子是否對(duì)齊的過(guò)程中,或不能適用于多種語(yǔ)言,或過(guò)度依賴于詞典的覆蓋范圍,導(dǎo)致判斷是否對(duì)齊的精準(zhǔn)性較低。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于詞對(duì)和翻譯判斷句子是否對(duì)齊的方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用以解決傳統(tǒng)的句子對(duì)齊方法,在判斷句子是否對(duì)齊的過(guò)程中,精準(zhǔn)性較低的問(wèn)題。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于詞對(duì)和翻譯判斷句子是否對(duì)齊的方法,包括:
確定待判斷的源文本句s與目標(biāo)文本句t;
對(duì)源文本句s進(jìn)行分詞,得到包括多個(gè)源文本詞的源文本詞序列?(s1,s2,…,sm),并對(duì)目標(biāo)文本句t進(jìn)行分詞,得到包括多個(gè)目標(biāo)文本詞的目標(biāo)文本詞序列(t1,t2,…,tn),其中,m為所述源文本句中所述源文本詞的數(shù)量,n為所述目標(biāo)文本句中所述目標(biāo)文本詞的數(shù)量;
分別確定與各個(gè)所述源文本詞對(duì)應(yīng)的翻譯文本詞,得到翻譯文本詞序列(d1,d2,…,dm),所述翻譯文本詞與所述目標(biāo)文本句為同一語(yǔ)種;
根據(jù)所述翻譯文本詞序列更新所述源文本詞序列,得到源文本詞序列(s1,d1,s2,d2,…,sm,dm);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811094517.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種構(gòu)建多語(yǔ)言網(wǎng)站實(shí)時(shí)翻譯的方法
- 一種待翻譯軟件的翻譯方法及裝置
- 一種待翻譯軟件的翻譯方法及裝置
- 一種CAT系統(tǒng)中翻譯記憶庫(kù)和MT結(jié)合的方法及系統(tǒng)
- 翻譯方法、系統(tǒng)、終端以及存儲(chǔ)介質(zhì)
- 一種文本展示方法及裝置
- 機(jī)器翻譯方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 翻譯系統(tǒng)、翻譯方法、翻譯機(jī)及存儲(chǔ)介質(zhì)
- 文字翻譯方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





