[發明專利]一種基于分布式并行計算框架的機器翻譯方法無效
| 申請號: | 201110453278.0 | 申請日: | 2011-12-30 |
| 公開(公告)號: | CN102567312A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 翟巖龍;羅壯;黃河燕;劉培志 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F9/38 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布式 并行 計算 框架 機器翻譯 方法 | ||
1.一種基于分布式并行計算框架的機器翻譯方法,包括以下步驟:
第一步:在機群上部署Hadoop分布式計算環境,其中一臺為調度節點即名字節點,其余為計算節點即數據節點,然后在每個計算節點上都部署機器翻譯引擎;
第二步:設定HDFS分布式文件系統的數據分塊大小;
第三步:對于輸入的海量語言信息進行預處理,將待翻譯信息按照文檔、段落、句子進行編號;將預處理后的待翻譯文檔以Hadoop特有文件格式HAR進行文件聚合,將大量小文件聚合為大文件,然后提交給MapReduce集群計算系統中的調度節點;
第四步:調度節點根據設定的數據塊大小對聚合文件中的數據進行劃分,如果分割點位于一個句子中間,則將整個句子置于之前或之后的數據劃分中;將文檔、段落、句子的編號組合為Key,將待翻譯的文本內容作為Value進行保存;
第五步:調度節點為每一個數據劃分創建一個Map任務,動態的分配到各計算節點;
第六步:各Map任務在運行過程中,將相應的數據塊提交到部署在其所在計算節點上的機器翻譯系統中,并得到該部分數據的翻譯結果;
第七步:Reduce任務把各Map任務的翻譯結果從計算節點的本地磁盤拷貝到分布式文件系統中;
第八步:將Map任務運算之后的結果按照Key值進行整體排序;
第九步:所有的拷貝工作都結束后,Reduee任務即將所有的Map任務運算結果聚合為結果文件;
第十步:根據聚合時的標記以及運算結果的Key值,將翻譯后的聚合文件進行分解,生成相應文檔的翻譯結果。
2.根據權利要求1所述的一種基于分布式并行計算框架的機器翻譯方法,其特征在于,第二步中所述數據分塊大小設定在10KB至1MB之間。
3.根據權利要求2所述的一種基于分布式并行計算框架的機器翻譯方法,其特征在于,第二步中所述數據分塊大小為45KB。
4.根據權利要求1或2或3所述的一種基于分布式并行計算框架的機器翻譯方法,其特征在于,在一個節點可同時運行的Map任務數即Map任務槽數為8。
5.根據權利要求1或2或3所述的一種基于分布式并行計算框架的機器翻譯方法,其特征在于,第六步中Map任務向機器翻譯系統傳送翻譯數據的數據傳送率為1.5K/次。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110453278.0/1.html,轉載請聲明來源鉆瓜專利網。





