[發明專利]用BIRCH聚類算法對四川口音和英語進行翻譯的方法在審
| 申請號: | 201710174084.4 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN108628848A | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 邱念 | 申請(專利權)人: | 湖南本來文化發展有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F9/50;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410000 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 大數據庫 聚類算法 英語 音頻輸出設備 音頻輸入設備 采集 規約 部首偏旁 基礎字母 平衡迭代 文字結構 文字排列 用戶提供 語法規律 聚類 釋義 語法 疲勞 漢語 英文 替代 | ||
1.用BIRCH聚類算法對四川口音和英語進行翻譯的方法,其特征在于,包括:1)音頻輸入設備;2)音頻輸出設備;3)采集的四川口音音頻大數據庫;4)采集的英語音頻大數據庫;5)由26個基礎字母構成的英文文字排列組合及其釋義與語法規律的大數據庫;6)由部首偏旁構成的漢語文字結構及文字構成語法的大數據庫;7)利用層次方法的平衡迭代規約和聚類即BIRCH聚類算法的翻譯模型,七個部件。
2.根據權利要求1所述的用BIRCH聚類算法對四川口音和英語進行翻譯的方法,其特征在于:部件分為用戶端實體部件和服務端云計算部件構成;用戶端部件為權利要求1所述的1)和2);服務端云計算部件為權利要求1所述的3)、4)、5)、6)、7),且部件7)需要對部件3)、4)、5)、6)進行大數據的BIRCH聚類分析和深度學習后才能對部件1)輸入來的語音數據進行翻譯,再通過部件2)將翻譯后的語音傳輸給部件2)。
3.根據權利要求1所述的用BIRCH聚類算法對四川口音和英語進行翻譯的方法,其特征在于包括如步驟:
步驟一、英語文字及語法大數據與漢語文字及語法大數據采集;
步驟二、英語語音大數據與漢語語音大數據采集;
步驟三、在大數據庫中掃描所有數據,構建初始化的聚類特征樹,即CF tree,把稠密數據分成簇,稀疏數據作為孤立點對待;
步驟四、在BIRCH中的全局或半全局聚類算法有著輸入范圍的要求,據此要求細化CFtree樹,建立若干個更小的CF樹;
步驟五、補救由于輸入順序和頁面大小帶來的分裂,使用全局/半全局算法對全部葉節點進行聚類;
步驟六、把步驟五中的中心點作為種子,將數據點重新分配到最近的種子上,保證重復數據分到同一個簇中,同時添加簇標簽使得翻譯的準確度更為精確;
步驟七、通過步驟三到步驟六完成BIRCH聚類模型對四川口音的音頻和英語發音的音頻數據進行翻譯的深度學習,此時BIRCH翻譯模型構建完成,在權利要求1所述的部件1)中輸入不小于10000句英語音頻使其通過BIRCH翻譯模型翻譯后從權利要求1所述的部件2)中輸出音頻,檢測其翻譯準確度;再將不小于10000句四川方言輸入權利要求1所述的部件1)通過BIRCH翻譯模型翻譯后從權利要求1所述的部件2)中輸出音頻,檢測其翻譯準確度;若上述兩次檢測的交傳翻譯準確率高于95%,同傳翻譯的準確率高于70%則BIRCH聚類模型訓練成功,可以投入使用;若準確率偏低,則重復步驟三到步驟六,并延長BIRCH聚類模型的深度學習時間,直至翻譯準確率達標后結束。
4.根據權利要求1所述的用BIRCH聚類算法對四川口音和英語進行翻譯的方法,在構建BIRCH聚類樹時采用的方法為歐幾里得距離函數和曼哈頓距離函數,具體公式如下:
CF tree的結構類似于一棵B-樹,它有兩個參數:內部節點平衡因子B,葉節點平衡因子L,簇半徑閾值T;樹中每個節點最多包含B個孩子節點,記為(CFi,CHILDi),1<=i<=B,CFi是這個節點中的第i個聚類特征,CHILDi指向節點的第i個孩子節點,對應于這個節點的第i個聚類特征;需特別注意的是:構建CF樹的過程中,一個重要的參數是簇半徑閾值T,因為它決定了CF tree的規模,從而讓CF tree適應當前在云計算中心為BIRCH模型分配的內存的大??;如果T太小,那么簇的數量將會非常的大,從而導致樹節點數量也會增大,這樣可能會導致所有數據點還沒有掃描完之前內存就不夠用了,同時翻譯的準確率與T值和所分配的內存大小成正比關系,此處內存不得小于100TB。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南本來文化發展有限公司,未經湖南本來文化發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710174084.4/1.html,轉載請聲明來源鉆瓜專利網。





