日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種對雙語語料庫進行句子對齊的方法及裝置無效

專利信息
申請號: 201110192171.5 申請日: 2011-06-30
公開(公告)號: CN102855263A 公開(公告)日: 2013-01-02
發明(設計)人: 鄭仲光;孟遙;于浩 申請(專利權)人: 富士通株式會社
主分類號: G06F17/30 分類號: G06F17/30;G06F17/28
代理公司: 北京集佳知識產權代理有限公司 11227 代理人: 朱勝;李春暉
地址: 日本神*** 國省代碼: 日本;JP
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 雙語 語料庫 進行 句子 對齊 方法 裝置
【說明書】:

技術領域

發明一般地涉及數據處理技術領域,尤其是一種對雙語語料庫進行句子對齊的方法及裝置。?

背景技術

目前,統計的方法越來越多的應用在自然語言處理領域中,因此語料的作用也越來越重要。其中雙語平行語料(簡稱雙語語料)指的是由兩種語言(分別稱為源語言F和目標語言E)構成的語料,并且該語料以句子為單位互為譯文。在很多自然語言處理任務中,雙語語料是重要的知識源,例如:統計機器翻譯、跨語言檢索等領域。因此,雙語語料的數量與質量很大程度上影響甚至決定了相關任務的最終結果。?

很多情況下,大量的雙語語料容易獲得,例如從雙語網站或多個語言版本的文獻資料等,但是得到的文本通常并不是以句子為單位對齊的,例如有些是以段落為單位對齊的,有些甚至是按照整篇文本來對齊的。這種情況下,就需要將這些不是以句子為單位對齊的語料(也可以稱為原始語料)整理成需要的句對齊格式。?

現有技術中對雙語語料庫進行句子對齊的方法主要有以下幾種:基于句子長度分布的方法;該方法考慮源語言跟目標語言的句子長度信息,根據句子長度的分布來尋找對齊關系,但是這種方法的魯棒性不好,只能用于特定的一些語言之間;基于詞典的方法:但是詞典作為不可或缺的資源很多情況下不容易獲得,或者已有的詞典與雙語語料并不是同一領域的,因此基于詞典的方法局限性比較大,且不容易擴展。基于統計的方法可以將基于句子長度分布的方法和基于詞典的方法相結合,但是基于統計的方法復雜度高,在處理大規模數據時非常耗時,因此也無法滿足實際需求。?

總之,現有技術中對雙語語料進行句子對齊時,不僅在實現時復雜度高且非常耗時,而且也會因此而導致現有技術的效率非常低下。?

發明內容

有鑒于此,本發明實施例提供了一種對雙語語料庫進行句子對齊的方法及裝置,能夠簡化句子對齊時的流程,進而可以提高句子對齊的效率。?

根據本發明實施例的一個方面,提供一種對雙語語料庫進行句子對齊的方法,其中所述雙語語料庫中的源語言語料和目標語言語料是塊對齊的,所述方法包括:針對源語言和目標語言的每個對齊塊,利用從源塊和目標塊中提取出的源關鍵詞列表和目標關鍵詞列表生成候選翻譯對列表,所述候選翻譯對列表中的每個條目為包括源和目標關鍵詞對的翻譯對;根據所述候選翻譯對列表中的每個翻譯對的翻譯概率生成雙語詞典,所述雙語詞典中的每個條目包括源和目標關鍵詞對及其翻譯概率;以所述雙語詞典中的每個條目中的源和目標關鍵詞對為種子翻譯對,并參考所述種子翻譯對的上下文內容對所述雙語詞典進行擴展;基于擴展后的雙語詞典,將源塊中的源句子翻譯成目標語言,并計算翻譯結果與目標塊中的目標句子之間的相似度;以及依據所述相似度對源句子和目標句子進行對齊。?

根據本發明實施例的另一個方面,提供一種對雙語語料庫進行句子對齊的裝置,其中所述雙語語料庫中的源語言語料和目標語言語料是塊對齊的,包括:候選翻譯對列表生成模塊,用于針對源語言和目標語言的每個對齊塊,利用從源塊和目標塊中提取出的源關鍵詞列表和目標關鍵詞列表生成候選翻譯對列表,所述候選翻譯對列表中的每個條目為包括源和目標關鍵詞對的翻譯對;雙語詞典生成模塊,用于根據所述候選翻譯對列表中的每個翻譯對的翻譯概率生成雙語詞典,所述雙語詞典中的每個條目包括源和目標關鍵詞對及其翻譯概率;雙語詞典擴展模塊,用于以所述雙語詞典中的每個條目中的源和目標關鍵詞對為種子翻譯對,并參考所述種子翻譯對的上下文內容對所述雙語詞典進行擴展;目標語言翻譯模塊,用于基于擴展后的雙語詞典,將源塊中的源句子翻譯成目標語言;相似度計算模塊,用于計算翻譯結果與目標塊中的目標句子之間的相似度;以及對齊模塊,用于依據所述相似度對源句子和目標句子進行對齊。?

另外,根據本發明的另一方面,還提供了一種存儲介質。所述存儲介?質包括機器可讀的程序代碼,當在信息處理設備上執行所述程序代碼時,所述程序代碼使得所述信息處理設備執行根據本發明的上述一種對雙語語料庫進行句子對齊的方法。?

此外,根據本發明的再一方面,還提供了一種程序產品。所述程序產品包括機器可執行的指令,當在信息處理設備上執行所述指令時,所述指令使得所述信息處理設備執行根據本發明的上述一種對雙語語料庫進行句子對齊的方法。?

根據本發明實施例的上述一種方法,能夠通過雙語詞典的獲取以及擴充,快速的從雙語語料中確定出雙語詞典,進而能夠依據雙語詞典來計算源句子與目標句子之間的相似度,這樣就能夠在對齊過程中依據相似度來進行,將相似度較高或者符合一定條件的源句子和目標句子進行對齊,這樣既簡化了句子對齊的流程,提高了對齊效率,還能夠因為雙語詞典的選取以及句子相似度的計算而提高對齊的準確率。?

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110192171.5/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 亚洲区日韩| 亚洲精品中文字幕乱码三区91| 亚洲精品456在线播放| 亚洲欧美国产精品一区二区| 国产精品久久久久久久久久久久久久久久| 国产91一区| 亚洲精品丝袜| 扒丝袜网www午夜一区二区三区| 91精品系列| 97久久超碰国产精品红杏| 国产精品一区在线播放| 亚洲欧美一区二区精品久久久| 日韩久久精品一区二区| 国产日韩欧美自拍| 欧美日韩一区二区三区免费| 国产精品久久久久久久久久嫩草| 国产乱码精品一区二区三区中文| 久久中文一区二区| 日本免费电影一区二区| 在线国产91| 中文字幕天天躁日日躁狠狠躁免费| 免费看大黄毛片全集免费| 欧美日韩精品在线一区二区| 国产在线干| 激情久久久| 国产日产精品一区二区三区| 国产91丝袜在线熟| 狠狠色丁香久久婷婷综合_中| 午夜激情看片| 男女午夜爽爽| 狠狠色综合欧美激情| 国产精品一二三在线观看| 欧美性受xxxx狂喷水| 日韩精品中文字幕久久臀| 国产精品欧美一区乱破| 97久久精品人人做人人爽| 日本精品一区视频| 久久久久国产亚洲| 野花社区不卡一卡二| 久久99精品久久久野外直播内容| 91精品婷婷国产综合久久竹菊| 粉嫩久久久久久久极品| 国产欧美日韩一级| 欧美日韩亚洲国产一区| 午夜伦全在线观看| 亚州精品中文| 精品一区二区三区影院| 色噜噜狠狠色综合久| 日本一二区视频| 午夜精品一区二区三区在线播放| 午夜色大片| 日韩区欧美久久久无人区| 91中文字幕一区| 福利电影一区二区三区| 欧美日韩国产在线一区| 国产精品一区二区不卡| 狠狠操很很干| 亚洲国产一区二区久久久777| 国内揄拍国产精品| 夜夜躁日日躁狠狠躁| 欧美一区二区三区另类| 国产一二区在线| 午夜伦情电午夜伦情电影| 97欧美精品| 国产精品麻豆一区二区| 午夜wwwww| 国产亚洲精品久久777777| 国产精品香蕉在线的人| 一本大道久久a久久精品| 狠狠躁夜夜躁| 夜夜躁狠狠躁日日躁2024| 欧美午夜理伦三级在线观看偷窥| 一区二区三区国产精品视频 | 国产精品二区一区二区aⅴ| 特级免费黄色片| 国产亚洲精品久久久456| 四虎国产精品久久| 亚洲四区在线观看| 狠狠色噜噜狠狠狠狠黑人| 亚洲精品456在线播放| 国产精品国产一区二区三区四区| 久久99精品久久久野外直播内容| 国产97久久| 91看片淫黄大片91| 日韩久久精品一区二区| 免费精品一区二区三区视频日产| 91精品国产九九九久久久亚洲| 日韩国产不卡| 午夜亚洲影院| 欧美片一区二区| 午夜伦全在线观看| 午夜激情免费电影| 热re99久久精品国99热蜜月| 国产精品免费不卡| 久久久精品欧美一区二区| 欧美日韩一区二区三区在线播放| 久久激情网站| 国产精品欧美久久| 国产电影一区二区三区下载| 日韩午夜电影院| 欧美国产三区| 国产电影精品一区二区三区| 国偷自产一区二区三区在线观看 | 91热精品| 日韩亚洲精品在线| 91一区二区三区视频| 久久久精品a| 69xx国产| 国产乱色国产精品播放视频| 国产一区=区| 91久久国产视频| 国产乱码一区二区| 亚洲精品日本久久一区二区三区 | 狠狠色综合久久婷婷色天使| 国产日韩欧美另类| 夜夜躁狠狠躁日日躁2024| 国产精品久久免费视频| 91黄在线看| 亚洲一区2区三区| 91看片免费| 视频一区二区三区欧美| 国产精品视频99| 91一区二区三区视频| 亚洲精品久久久中文| 久久99精品国产99久久6男男| 久久精品综合| 黄毛片在线观看| freexxxx性| 少妇久久免费视频| 欧美一区二区在线不卡| 日本一区二区三区在线视频| 国产.高清,露脸,对白| 久久久久一区二区三区四区| 久久久中精品2020中文| 欧美一区二粉嫩精品国产一线天| 26uuu亚洲电影在线观看| 亚洲午夜精品一区二区三区电影院| 欧美日韩国产一区在线| 狠狠色综合久久婷婷色天使 | 午夜特片网| 最新国产精品久久精品| 国产一级片网站| 国产天堂第一区| ass韩国白嫩pics| 国产精品视频久久| 国产jizz18女人高潮| 狠狠操很很干| 日韩av在线网址| 香港三日本三级三级三级| 草逼视频网站| 狠狠色噜噜狠狠狠狠| 久久久精品欧美一区二区免费| 日韩欧美一区二区久久婷婷| 欧美精品一级二级| 色一情一乱一乱一区99av白浆| 国产精品1区二区| 中文字幕制服狠久久日韩二区| 午夜在线观看av| 免费精品99久久国产综合精品应用| 国内久久精品视频| 热久久国产| 日本护士hd高潮护士| 公乱妇hd在线播放bd| 国产一区在线免费| 国产99久久九九精品免费| 日本大码bbw肉感高潮| 少妇久久免费视频| 国产午夜精品一区二区三区视频 | 亚洲欧洲另类精品久久综合| 国产精品天堂网| 国产精品一区不卡| 国产91在| 麻豆精品国产入口| 亚洲欧美色图在线| 精品国产一区二区三区免费| freexxxx性| 国产一区二区三区四区五区七| 国产午夜亚洲精品羞羞网站| 亚洲精品20p| 国产日韩欧美91| 亚洲精品一品区二品区三品区| freexxxxxxx| 在线国产91| 国产69精品久久久久9999不卡免费| 精品特级毛片| 国产欧美日韩精品一区二区图片| 强制中出し~大桥未久4| 欧美日韩国产精品一区二区亚洲| 狠狠色噜噜狠狠狠狠米奇7777| 午夜影院试看五分钟| 精品在线观看一区二区| 麻豆视频免费播放| 国产精品v欧美精品v日韩| 日本一码二码三码视频| 国产精品视频免费一区二区| 国产日韩欧美自拍| 欧美精品日韩精品| 欧美日韩精品在线一区二区| 色综合久久精品| 欧美日韩一区二区三区不卡| 国产亚洲精品久久久久久久久动漫| 欧美3级在线| 日韩精品一区在线观看| 欧洲激情一区二区| 国产精品第56页| 欧美在线视频一二三区| aaaaa国产欧美一区二区| 香蕉视频在线观看一区二区 | 欧美乱妇高清无乱码一级特黄| 中文字幕欧美一区二区三区 | 片毛片免费看| 欧美国产在线看 | 国产偷亚洲偷欧美偷精品| 午夜老司机电影| 午夜一区二区视频| 国产精品理人伦一区二区三区| 国产亚洲精品久久久久久久久动漫| 一区二区不卡在线| 久热精品视频在线| 精品国产一区二| 久久精品国产综合| 日韩av中文字幕在线免费观看| 午夜影院黄色片| 麻豆9在线观看免费高清1| 国产乱xxxxx97国语对白| 日韩精品一区二区av| 欧美69精品久久久久久不卡| 国产一区免费在线观看| 亚洲精品乱码久久久久久高潮| 狠狠色综合久久婷婷色天使| 国产在线一二区| 毛片大全免费看| 欧美精品免费一区二区| 精品无码久久久久国产| 亚洲乱码一区二区| 久免费看少妇高潮a级特黄按摩| 国产免费第一区| 少妇厨房与子伦在线观看| 99国产精品永久免费视频| 午夜电影一区二区| 国产毛片精品一区二区| 黄色91在线观看| 精品国产一区二| 国产一区二区午夜| 欧美3级在线| 一区二区三区欧美在线|