[發(fā)明專利]用BIRCH聚類算法對四川口音和英語進行翻譯的方法在審
| 申請?zhí)枺?/td> | 201710174084.4 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN108628848A | 公開(公告)日: | 2018-10-09 |
| 發(fā)明(設計)人: | 邱念 | 申請(專利權)人: | 湖南本來文化發(fā)展有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F9/50;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410000 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 大數(shù)據(jù)庫 聚類算法 英語 音頻輸出設備 音頻輸入設備 采集 規(guī)約 部首偏旁 基礎字母 平衡迭代 文字結構 文字排列 用戶提供 語法規(guī)律 聚類 釋義 語法 疲勞 漢語 英文 替代 | ||
本發(fā)明公開了一種用BIRCH聚類算法對四川口音和英語進行翻譯的方法,包括:1)音頻輸入設備;2)音頻輸出設備;3)采集的四川口音音頻大數(shù)據(jù)庫;4)采集的英語音頻大數(shù)據(jù)庫;5)由26個基礎字母構成的英文文字排列組合及其釋義與語法規(guī)律的大數(shù)據(jù)庫;6)由部首偏旁構成的漢語文字結構及文字構成語法的大數(shù)據(jù)庫;7)利用層次方法的平衡迭代規(guī)約和聚類即BIRCH聚類算法的翻譯模型,通過上述部件,本發(fā)明能夠替代高薪資的高級英漢同傳翻譯,為用戶提供價格低廉且可不懼疲勞能夠進行長時間高質量翻譯的可將四川話翻譯成英語或將英語翻譯成四川話的翻譯。
技術領域
本發(fā)明涉及BIRCH聚類算法用于翻譯的領域,特別是涉及用BIRCH聚類算法對四川口音和英語進行翻譯的方法。
背景技術
隨著國際化進程的加快,翻譯的需求日益增多,而現(xiàn)有的同傳翻譯是由人來完成,專業(yè)的同傳翻譯人員勞動強度大,翻譯準確度易受到個人身體因素的影響,在國際會議中,如果會議的持續(xù)時間長,翻譯人員的體力和精力不斷透支后,將會因疲勞使得翻譯的準確度下降;在個人出國旅游時,由于專業(yè)的同傳翻譯薪資水平高,一般普通群眾較難以接受攜帶翻譯人員出行;對于四川口音較重,且普通話發(fā)音不標準的人,在翻譯其語句時,若翻譯人員為國外不懂四川口音的人員,則極易產生錯誤從而造成損失。
發(fā)明內容
本發(fā)明主要解決的技術問題是提供一種用BIRCH聚類算法對四川口音和英語進行翻譯的方法,能夠替代高薪資的高級翻譯,為用戶提供不會因為翻譯時間長而因疲勞導致的翻譯錯誤,且能夠識別用戶的四川口音,避免用戶不會說普通話,翻譯人員又不懂四川口音的尷尬局面。
為解決上述技術問題,本發(fā)明采用的一個技術方案是:提供一種用BIRCH聚類算法對四川口音和英語進行翻譯的方法,其特征在于,包括:1)四川口音的音頻輸入設備、2)翻譯成英語的音頻輸出設備、3)采集的四川口音音頻大數(shù)據(jù)庫、4)采集的英語音頻大數(shù)據(jù)、5)由26個基礎字母構成的英文文字排列組合及其釋義與語法規(guī)律的大數(shù)據(jù)庫、6)由部首偏旁構成的漢語文字結構及文字構成語法的大數(shù)據(jù)庫、7)利用層次方法的平衡迭代規(guī)約和聚類即BIRCH聚類算法的翻譯模型,七個部件;通過上述七個部件,本發(fā)明能夠替代高薪資的高級英漢同傳翻譯,為用戶提供價格低廉且可不懼疲勞能夠進行長時間高質量翻譯的可將四川話翻譯成英語或將英語翻譯成四川話的翻譯。
用BIRCH聚類算法對四川口音和英語進行翻譯的方法,在構建BIRCH聚類樹時采用的方法為歐幾里得距離函數(shù)和曼哈頓距離函數(shù),具體公式如下:
CF tree的結構類似于一棵B-樹,它有兩個參數(shù):內部節(jié)點平衡因子B,葉節(jié)點平衡因子L,簇半徑閾值T。樹中每個節(jié)點最多包含B個孩子節(jié)點,記為(CFi,CHILDi),1<=i<=B,CFi是這個節(jié)點中的第i個聚類特征,CHILDi指向節(jié)點的第i個孩子節(jié)點,對應于這個節(jié)點的第i個聚類特征;需特別注意的是:構建CF樹的過程中,一個重要的參數(shù)是簇半徑閾值T,因為它決定了CF tree的規(guī)模,從而讓CF tree適應當前在云計算中心為BIRCH模型分配的內存的大小。如果T太小,那么簇的數(shù)量將會非常的大,從而導致樹節(jié)點數(shù)量也會增大,這樣可能會導致所有數(shù)據(jù)點還沒有掃描完之前內存就不夠用了,同時翻譯的準確率與T值和所分配的內存大小成正比關系,此處內存不得小于100TB。
具體實施方式
在一個實施例中,說四川口音的用戶A對著翻譯器音頻輸入設備說出一句四川話,通過網(wǎng)絡將該語音信息傳輸至云計算中心的BRICH聚類算法模型中,與深度學習后的大數(shù)據(jù)進行比對后,將翻譯成英語的音頻信息同步傳輸至翻譯器音頻輸出設備,用戶B使用該設備聽到了對用戶A說話內容的同傳翻譯的英語發(fā)音。
在另一個實施例中,說英語的用戶B對著翻譯器音頻輸入設備說出一句英語,通過網(wǎng)絡將該語音信息傳輸至云計算中心的BRICH聚類算法模型中,與深度學習后的大數(shù)據(jù)進行比對后,將翻譯成四川口音的音頻信息同步傳輸至翻譯器音頻輸出設備,用戶A使用該設備聽到了對用戶B說話內容的同傳翻譯的四川口音的翻譯音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南本來文化發(fā)展有限公司,未經(jīng)湖南本來文化發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710174084.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種大數(shù)據(jù)庫系統(tǒng)的安裝工具
- 一種基于大數(shù)據(jù)的智能推薦系統(tǒng)
- 一種基于大數(shù)據(jù)的字符類型轉換方法
- 一種采集數(shù)據(jù)的分布式存儲系統(tǒng)及方法
- 一種建筑平面設計數(shù)據(jù)庫收集整理大數(shù)據(jù)庫結構系統(tǒng)
- 訪問數(shù)據(jù)庫的方法、裝置、計算機設備和存儲介質
- 一種大數(shù)據(jù)人臉監(jiān)控裝置
- 一種基于大數(shù)據(jù)分析的智能網(wǎng)絡安全系統(tǒng)
- 大數(shù)據(jù)回歸驗證方法及大數(shù)據(jù)回歸驗證裝置
- 一種基于區(qū)塊鏈的遙感影像大數(shù)據(jù)處理方法及系統(tǒng)





