[發明專利]基于BIRCH聚類算法翻譯粵語口音和英語的APP在審
| 申請號: | 201710172504.5 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN108628841A | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 邱念 | 申請(專利權)人: | 湖南本來文化發展有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30;H04M1/725 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410000 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 聚類算法 粵語 云計算中心 英語 大數據庫 攜帶方便 智能手機 資金成本 客戶端 手機 疲勞 攜帶 替代 | ||
1.基于BIRCH聚類算法翻譯粵語口音和英語的APP,其特征在于,包括:1)手機APP客戶端;2)云計算中心的粵語與英語相關翻譯大數據庫;3)云計算中心搭載的BIRCH聚類算法模塊,三個部件構成。
2.根據權利要求1所述的部件1)其特征在于:手機APP客戶端需安裝在用戶的智能手機上,使用時該手機需與互聯網連接,且用戶需佩戴連接該手機的耳機收聽翻譯后的音頻信息。
3.根據權利要求1所述的部件2)具體包括:粵語口音音頻大數據庫、英語音頻大數據庫、由26個基礎字母構成的英文文字排列組合及其釋義與語法規律的大數據庫、由部首偏旁構成的漢語文字結構及文字構成語法的大數據庫、由不低于10個行業的行業專有名詞大數據庫。
4.根據權利要求1所述的部件3)是搭載在云計算中心上利用層次方法的平衡迭代規約和聚類即BIRCH聚類算法的翻譯模型;該模型需要輸入部件2)中的各類翻譯大數據,并進行粵語口音和英語發音的大數據深度學習后,才能進行翻譯。
5.根據權利要求1所述的基于BIRCH聚類算法翻譯粵語口音和英語的APP,其進行翻譯的過程為:APP采集用戶發出的粵語口音或英語的音頻信息,傳輸至云計算中心,由經過深度學習翻譯大數據后的BIRCH聚類算法翻譯模型進行翻譯,再將翻譯后的音頻信息同步傳回用戶的APP上,用戶通過佩戴連接該手機的耳機,聽取翻譯后的音頻內容。
6.根據權利要求1所述的基于BIRCH聚類算法翻譯粵語口音和英語的APP,其特征在于包括如步驟:
步驟一、英語文字及語法大數據與漢語文字及語法大數據采集;
步驟二、英語語音大數據與漢語語音大數據采集;
步驟三、在大數據庫中掃描所有數據,構建初始化的聚類特征樹,即CF tree,把稠密數據分成簇,稀疏數據作為孤立點對待;
步驟四、在BIRCH中的全局或半全局聚類算法有著輸入范圍的要求,據此要求細化CFtree樹,建立若干個更小的CF樹;
步驟五、補救由于輸入順序和頁面大小帶來的分裂,使用全局/半全局算法對全部葉節點進行聚類;
步驟六、把步驟五中的中心點作為種子,將數據點重新分配到最近的種子上,保證重復數據分到同一個簇中,同時添加簇標簽使得翻譯的準確度更為精確;
步驟七、通過步驟三到步驟六完成BIRCH聚類模型對粵語口音的音頻和英語發音的音頻數據進行翻譯的深度學習,此時BIRCH翻譯模型構建完成,在權利要求1所述的部件1)中輸入不小于10000句英語音頻使其通過BIRCH翻譯模型翻譯后從權利要求1所述的部件2)中輸出音頻,檢測其翻譯準確度;再將不小于10000句粵語方言輸入權利要求1所述的部件1)通過BIRCH翻譯模型翻譯后從權利要求1所述的部件2)中輸出音頻,檢測其翻譯準確度;若上述兩次檢測的交傳翻譯準確率高于95%,同傳翻譯的準確率高于70%則BIRCH聚類模型訓練成功,可以投入使用;若準確率偏低,則重復步驟三到步驟六,并延長BIRCH聚類模型的深度學習時間,直至翻譯準確率達標后結束。
7.根據權利要求1所述的基于BIRCH聚類算法翻譯粵語口音和英語的APP,在構建BIRCH聚類樹時采用的方法為歐幾里得距離函數和曼哈頓距離函數,具體公式如下:
CF tree的結構類似于一棵B-樹,它有兩個參數:內部節點平衡因子B,葉節點平衡因子L,簇半徑閾值T,樹中每個節點最多包含B個孩子節點,記為(CFi,CHILDi),1<=i<=B,CFi是這個節點中的第i個聚類特征,CHILDi指向節點的第i個孩子節點,對應于這個節點的第i個聚類特征;需特別注意的是:構建CF樹的過程中,一個重要的參數是簇半徑閾值T,因為它決定了CF tree的規模,從而讓CF tree適應當前在云計算中心為BIRCH模型分配的內存的大小,如果T太小,那么簇的數量將會非常的大,從而導致樹節點數量也會增大,這樣可能會導致所有數據點還沒有掃描完之前內存就不夠用了,同時翻譯的準確率與T值和所分配的內存大小成正比關系,此處內存不得小于100TB。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南本來文化發展有限公司,未經湖南本來文化發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710172504.5/1.html,轉載請聲明來源鉆瓜專利網。





