日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于錨點的增長式實時雙語詞對齊的對齊方法及對齊系統在審

專利信息
申請號: 201611169586.X 申請日: 2016-12-16
公開(公告)號: CN106844332A 公開(公告)日: 2017-06-13
發明(設計)人: 張家俊;黃國平;周玉;宗成慶 申請(專利權)人: 中國科學院自動化研究所
主分類號: G06F17/27 分類號: G06F17/27;G06F17/28
代理公司: 北京瀚仁知識產權代理事務所(普通合伙)11482 代理人: 郭文浩,李飛
地址: 100080 *** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 增長 實時 雙語 對齊 方法 系統
【說明書】:

技術領域

發明涉及自然語言處理技術領域,更具體地,涉及一種基于錨點的增長式實時雙語詞對齊的對齊方法及對齊系統。

背景技術

機器翻譯是用計算機來實現不同語言之間的轉換。被翻譯的語言通常稱為源語言,翻譯成的結果語言稱為目標語言。機器翻譯就是實現從源語言到目標語言轉換的過程。詞對齊是統計機器翻譯的一項核心任務,它從雙語平行語料中發掘互為翻譯的語言片斷,是翻譯知識的主要來源。簡而言之,詞對齊就是源語言句子中某個詞是由目標語言中哪個詞翻譯而來的。如圖1所示,一個詞可以被翻譯為一個或多個詞,甚至不被翻譯。在實踐中,一部分錯誤的翻譯規則因詞對齊錯誤而觸發,因而進一步影響最終機器翻譯譯文質量。

在實踐中,經典的詞對齊方法包括IBM模型1到5和隱馬爾可夫詞對齊方法,可參見文獻(Brown,Peter F.,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.1993.The mathematics of statistical machine translation:Parameter estimation.Computational Linguistics,19(2):263–311.;Vogel,S.,Ney,H.,Tillmann,C..1996.HMM-based word alignment in statistical translation.In:Proceedings of the 16th conference on Computational linguistics.vol.2,pp.836–841)。經典的詞對齊方法在離線訓練場景中的性能比較優越,已得到很多工具的支持,如廣泛使用的GIZA++等。

在人工翻譯場景中,專業譯員不斷地產生新的雙語平行句對,而且要求統計機器翻譯系統能實時地學習新的翻譯知識,所以必然要求詞對齊模型也能盡快學習到新的詞語翻譯知識,從而不斷降低詞對齊錯誤率。由于傳統的詞對齊方法用于大規模語料的離線訓練周期較長,不利于統計機器翻譯系統實時學習翻譯知識。

然而,當前的增長式雙語詞對齊性能并沒有達到能直接用于統計機器翻譯實時學習新翻譯知識的水平。其主要原因為如下三點:(1)對新詞處理能力較弱;(2)長句子詞對齊錯誤率較高;(3)大規模語料的訓練周期仍然較長;(4)未充分利用置信度較高的先驗知識。如果直接將先驗知識作為詞對齊的約束,并不能帶來性能的提升,還需要改進現有增長式雙語詞對齊算法。因此,研究如何利用先驗知識,大幅減少增長式雙語詞對齊的訓練時間,同時明顯降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質量是迫切需要解決的一個難題。

發明內容

為了解決現有技術中的上述問題,即為了解決降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質量的問題,本發明提供了一種基于錨點的增長式實時雙語詞對齊的對齊方法。

實現上述目的,本發明提供了如下方案:

一種基于錨點的增長式實時雙語詞對齊的對齊方法,所述對齊方法包括:

對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;

根據所述源語言詞組和目標語言詞組確定探測錨點集合;

根據所述探測錨點集合,對源語言詞組和目標語言詞組進行雙語短語切分,得到雙語短語切分候選集合;

根據所述雙語短語切分候選集合和詞對齊模型,確定所述源語言詞組和目標語言詞組的對齊雙語詞;

將所述源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓練集中,判斷當前的批處理訓練集的大小是否超過設定閾值,如果是則根據當前的批處理訓練集更新詞對齊模型;否則重復上述步驟,直至完成全部源語言句子和目標語言句子的處理。

可選的,所述確定探測錨點集合的方法包括:

步驟S21:根據所述源語言詞組、目標語言詞組計算任意源語言詞與目標語言詞之間的互信息;

步驟S22:將最大互信息值對應的源語言詞和目標語言詞或者根據先驗知識確定的源語言詞和目標語言詞標為錨點,多個錨點形成對齊描點集合;

步驟S23:標記所述錨點對應的源語言句子詞的下標為橫坐標,將橫坐標所在行的所有互信息替換為最小互信息值;標記所述錨點對應的目標語言句子詞的下標為縱坐標,將縱坐標對應列的所有互信息替換為最小互信息值;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611169586.X/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 色乱码一区二区三区网站| 91精品一区二区中文字幕| 九色国产精品入口| 躁躁躁日日躁网站| 国产精品一区二区免费| 日韩av在线一区| 日本午夜一区二区| 国产999精品视频| 国产精品久久99| 久久精品二| 91精彩刺激对白露脸偷拍| 国产一区二区电影在线观看| 中文字幕另类日韩欧美亚洲嫩草| 99视频国产在线| 欧美一区二区三区性| 午夜欧美a级理论片915影院| 97一区二区国产好的精华液| 曰韩av在线| 久久99精品久久久久婷婷暖91| 精品国产一二区| 国产www亚洲а∨天堂| 精品国产乱码久久久久久免费| 性欧美一区二区三区| 日本道欧美一区二区aaaa| 精品无码久久久久国产| 国产精品剧情一区二区三区| 一区二区久久精品| 一区二区三区免费高清视频| 香蕉久久国产| 精品国产一区二区三区久久久久久| 人人澡超碰碰97碰碰碰| 国产韩国精品一区二区三区| 国产一区二区在| 亚洲一卡二卡在线| 色天天综合久久久久综合片| 午夜免费一级片| 日本精品99| 久久久精品a| 日韩一区高清| 国内久久久| 国产电影精品一区| 一区二区免费在线观看| 国产天堂第一区| 强制中出し~大桥未久4| 久久国产精品首页| 国产麻豆91欧美一区二区| 色妞妞www精品视频| 久久国产欧美视频| 91精品国产综合久久婷婷香| 神马久久av| 久久99国产精品久久99| 国产淫片免费看| 国产欧美亚洲一区二区| 亚洲日韩aⅴ在线视频| 亚洲国产一区二区精品| 久久久久久久久亚洲精品| 国产69精品久久久久久| 性色av色香蕉一区二区三区| 欧美老肥婆性猛交视频| 狠狠操很很干| 亚洲精品乱码久久久久久国产主播| 中文字幕在线视频一区二区| 538国产精品一区二区在线| 日韩精品1区2区3区| 国产suv精品一区二区4| 性欧美1819sex性高播放| 亚洲乱小说| 欧美一级久久精品| 欧美在线观看视频一区二区三区| 国产精品一区二区人人爽| 一本色道久久综合亚洲精品浪潮| 久久精品手机视频| 日韩午夜电影在线| 97人人模人人爽人人喊0| 精品视频久| 在线观看欧美一区二区三区| 99久久婷婷国产综合精品电影| 美女啪啪网站又黄又免费| 少妇高清精品毛片在线视频| 中文丰满岳乱妇在线观看| 亚洲午夜精品一区二区三区电影院| 国产三级欧美三级日产三级99|