[發(fā)明專利]基于詞對和翻譯判斷句子是否對齊的方法、裝置及設備有效
| 申請?zhí)枺?/td> | 201811094517.6 | 申請日: | 2018-09-19 |
| 公開(公告)號: | CN109325242B | 公開(公告)日: | 2023-06-13 |
| 發(fā)明(設計)人: | 李軍輝;丁穎;張民;周國棟 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06F40/242;G06N3/0464;G06N3/044;G06N3/045 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 215104 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 翻譯 判斷 句子 是否 對齊 方法 裝置 設備 | ||
1.一種基于詞對和翻譯判斷句子是否對齊的方法,其特征在于,包括:
確定待判斷的源文本句s與目標文本句t;
對源文本句s進行分詞,得到包括多個源文本詞的源文本詞序列(s1,s2,…,sm),并對目標文本句t進行分詞,得到包括多個目標文本詞的目標文本詞序列(t1,t2,…,tn),其中,m為所述源文本句中所述源文本詞的數量,n為所述目標文本句中所述目標文本詞的數量;
分別確定與各個所述源文本詞對應的翻譯文本詞,得到翻譯文本詞序列(d1,d2,…,dm),所述翻譯文本詞與所述目標文本句為同一語種;
根據所述翻譯文本詞序列更新所述源文本詞序列,得到源文本詞序列(s1,d1,s2,d2,…,sm,dm);
計算所述源文本詞序列中各個源文本詞的隱藏狀態(tài),得到源隱藏狀態(tài)序列(hs1,hs2,…,hsm),并計算所述目標文本詞序列中各個目標文本詞的隱藏狀態(tài),得到目標隱藏狀態(tài)序列(ht1,ht2,…,htn);
根據所述源隱藏狀態(tài)序列與所述目標隱藏狀態(tài)序列,判斷所述源文本句與所述目標文本句是否對齊;
其中,所述根據所述源隱藏狀態(tài)序列與所述目標隱藏狀態(tài)序列,判斷所述源文本句與所述目標文本句是否對齊包括:根據所述源隱藏狀態(tài)序列與所述目標隱藏狀態(tài)序列,計算源文本詞si與目標文本詞tj之間的相關性,得到所述源文本句與所述目標文本句的相關性矩陣,其中,i為1到m之間的正整數,j為1到n之間的正整數;對所述相關性矩陣進行池化層計算,得到一維向量v;利用預設多層感知器,根據所述一維向量v,判斷所述源文本句與所述目標文本句是否對齊;
所述根據所述源隱藏狀態(tài)序列與所述目標隱藏狀態(tài)序列,計算源文本詞si與目標文本詞tj之間的相關性包括:從多個角度分別計算源文本詞si與目標文本詞tj之間的相關性;
所述對所述相關性矩陣進行池化層計算,得到一維向量v包括:分別對每種角度計算得到的所述源文本句與所述目標文本句的相關性矩陣執(zhí)行一次最大池化,得到相應的最具信息量的相關性矩陣;將所有所述最具信息量的相關性矩陣平鋪成一個二維矩陣,并執(zhí)行一次最大池化操作,得到一維向量v。
2.如權利要求1所述的方法,其特征在于,所述從多個角度分別計算源文本詞si與目標文本詞tj之間的相關性包括:
基于余弦相似度,計算源文本詞si與目標文本詞tj之間的夾角余弦值;
基于雙線性模型,計算源文本詞si與目標文本詞tj之間的強線性關系;
基于單層神經網絡,計算源文本詞si與目標文本詞tj之間的非線性關系。
3.如權利要求1所述的方法,其特征在于,所述計算所述源文本詞序列中各個源文本詞的隱藏狀態(tài),得到源隱藏狀態(tài)序列(hs1,hs2,…,hsm)包括:
利用前向循環(huán)神經網絡從左到右讀取所述源文本詞序列,計算所述源文本詞序列中各個源文本詞的前向隱藏狀態(tài),得到前向隱藏狀態(tài)序列;
利用后向卷積神經網絡從右到左讀取所述源文本詞序列,計算所述源文本詞序列中各個源文本詞的后向隱藏狀態(tài),得到后向隱藏狀態(tài)序列;
利用門控循環(huán)單元分別更新所述前向隱藏狀態(tài)序列和所述后向隱藏狀態(tài)序列;
根據更新后的所述前向隱藏狀態(tài)序列和所述后向隱藏狀態(tài)序列,確定源隱藏狀態(tài)序列(hs1,hs2,…,hsm)。
4.如權利要求1-3任意一項所述的方法,其特征在于,所述對源文本句s進行分詞,得到包括多個源文本詞的源文本詞序列(s1,s2,…,sm)包括:
根據預先訓練得到的詞庫,對所述源文本句進行分詞,得到多個源文本詞;
預先確定所述詞庫中各個詞的詞嵌入,確定詞嵌入庫;
根據所述詞嵌入庫,分別確定各個所述源文本詞的詞嵌入;
根據所述源文本詞的詞嵌入,確定所述源文本詞序列(s1,s2,…,sm)。
5.如權利要求4所述的方法,其特征在于,所述分別確定與各個所述源文本詞對應的翻譯文本詞包括:
預先利用Giza++確定所述詞庫中各個詞的翻譯,得到雙語詞典;
根據所述雙語詞典,分別確定與各個所述源文本詞對應的翻譯文本詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811094517.6/1.html,轉載請聲明來源鉆瓜專利網。





