[發(fā)明專利]基于BIRCH聚類(lèi)算法翻譯粵語(yǔ)口音和英語(yǔ)的APP在審
| 申請(qǐng)?zhí)枺?/td> | 201710172504.5 | 申請(qǐng)日: | 2017-03-22 |
| 公開(kāi)(公告)號(hào): | CN108628841A | 公開(kāi)(公告)日: | 2018-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 邱念 | 申請(qǐng)(專利權(quán))人: | 湖南本來(lái)文化發(fā)展有限公司 |
| 主分類(lèi)號(hào): | G06F17/28 | 分類(lèi)號(hào): | G06F17/28;G06F17/30;H04M1/725 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 410000 湖南省*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 翻譯 聚類(lèi)算法 粵語(yǔ) 云計(jì)算中心 英語(yǔ) 大數(shù)據(jù)庫(kù) 攜帶方便 智能手機(jī) 資金成本 客戶端 手機(jī) 疲勞 攜帶 替代 | ||
1.基于BIRCH聚類(lèi)算法翻譯粵語(yǔ)口音和英語(yǔ)的APP,其特征在于,包括:1)手機(jī)APP客戶端;2)云計(jì)算中心的粵語(yǔ)與英語(yǔ)相關(guān)翻譯大數(shù)據(jù)庫(kù);3)云計(jì)算中心搭載的BIRCH聚類(lèi)算法模塊,三個(gè)部件構(gòu)成。
2.根據(jù)權(quán)利要求1所述的部件1)其特征在于:手機(jī)APP客戶端需安裝在用戶的智能手機(jī)上,使用時(shí)該手機(jī)需與互聯(lián)網(wǎng)連接,且用戶需佩戴連接該手機(jī)的耳機(jī)收聽(tīng)翻譯后的音頻信息。
3.根據(jù)權(quán)利要求1所述的部件2)具體包括:粵語(yǔ)口音音頻大數(shù)據(jù)庫(kù)、英語(yǔ)音頻大數(shù)據(jù)庫(kù)、由26個(gè)基礎(chǔ)字母構(gòu)成的英文文字排列組合及其釋義與語(yǔ)法規(guī)律的大數(shù)據(jù)庫(kù)、由部首偏旁構(gòu)成的漢語(yǔ)文字結(jié)構(gòu)及文字構(gòu)成語(yǔ)法的大數(shù)據(jù)庫(kù)、由不低于10個(gè)行業(yè)的行業(yè)專有名詞大數(shù)據(jù)庫(kù)。
4.根據(jù)權(quán)利要求1所述的部件3)是搭載在云計(jì)算中心上利用層次方法的平衡迭代規(guī)約和聚類(lèi)即BIRCH聚類(lèi)算法的翻譯模型;該模型需要輸入部件2)中的各類(lèi)翻譯大數(shù)據(jù),并進(jìn)行粵語(yǔ)口音和英語(yǔ)發(fā)音的大數(shù)據(jù)深度學(xué)習(xí)后,才能進(jìn)行翻譯。
5.根據(jù)權(quán)利要求1所述的基于BIRCH聚類(lèi)算法翻譯粵語(yǔ)口音和英語(yǔ)的APP,其進(jìn)行翻譯的過(guò)程為:APP采集用戶發(fā)出的粵語(yǔ)口音或英語(yǔ)的音頻信息,傳輸至云計(jì)算中心,由經(jīng)過(guò)深度學(xué)習(xí)翻譯大數(shù)據(jù)后的BIRCH聚類(lèi)算法翻譯模型進(jìn)行翻譯,再將翻譯后的音頻信息同步傳回用戶的APP上,用戶通過(guò)佩戴連接該手機(jī)的耳機(jī),聽(tīng)取翻譯后的音頻內(nèi)容。
6.根據(jù)權(quán)利要求1所述的基于BIRCH聚類(lèi)算法翻譯粵語(yǔ)口音和英語(yǔ)的APP,其特征在于包括如步驟:
步驟一、英語(yǔ)文字及語(yǔ)法大數(shù)據(jù)與漢語(yǔ)文字及語(yǔ)法大數(shù)據(jù)采集;
步驟二、英語(yǔ)語(yǔ)音大數(shù)據(jù)與漢語(yǔ)語(yǔ)音大數(shù)據(jù)采集;
步驟三、在大數(shù)據(jù)庫(kù)中掃描所有數(shù)據(jù),構(gòu)建初始化的聚類(lèi)特征樹(shù),即CF tree,把稠密數(shù)據(jù)分成簇,稀疏數(shù)據(jù)作為孤立點(diǎn)對(duì)待;
步驟四、在BIRCH中的全局或半全局聚類(lèi)算法有著輸入范圍的要求,據(jù)此要求細(xì)化CFtree樹(shù),建立若干個(gè)更小的CF樹(shù);
步驟五、補(bǔ)救由于輸入順序和頁(yè)面大小帶來(lái)的分裂,使用全局/半全局算法對(duì)全部葉節(jié)點(diǎn)進(jìn)行聚類(lèi);
步驟六、把步驟五中的中心點(diǎn)作為種子,將數(shù)據(jù)點(diǎn)重新分配到最近的種子上,保證重復(fù)數(shù)據(jù)分到同一個(gè)簇中,同時(shí)添加簇標(biāo)簽使得翻譯的準(zhǔn)確度更為精確;
步驟七、通過(guò)步驟三到步驟六完成BIRCH聚類(lèi)模型對(duì)粵語(yǔ)口音的音頻和英語(yǔ)發(fā)音的音頻數(shù)據(jù)進(jìn)行翻譯的深度學(xué)習(xí),此時(shí)BIRCH翻譯模型構(gòu)建完成,在權(quán)利要求1所述的部件1)中輸入不小于10000句英語(yǔ)音頻使其通過(guò)BIRCH翻譯模型翻譯后從權(quán)利要求1所述的部件2)中輸出音頻,檢測(cè)其翻譯準(zhǔn)確度;再將不小于10000句粵語(yǔ)方言輸入權(quán)利要求1所述的部件1)通過(guò)BIRCH翻譯模型翻譯后從權(quán)利要求1所述的部件2)中輸出音頻,檢測(cè)其翻譯準(zhǔn)確度;若上述兩次檢測(cè)的交傳翻譯準(zhǔn)確率高于95%,同傳翻譯的準(zhǔn)確率高于70%則BIRCH聚類(lèi)模型訓(xùn)練成功,可以投入使用;若準(zhǔn)確率偏低,則重復(fù)步驟三到步驟六,并延長(zhǎng)BIRCH聚類(lèi)模型的深度學(xué)習(xí)時(shí)間,直至翻譯準(zhǔn)確率達(dá)標(biāo)后結(jié)束。
7.根據(jù)權(quán)利要求1所述的基于BIRCH聚類(lèi)算法翻譯粵語(yǔ)口音和英語(yǔ)的APP,在構(gòu)建BIRCH聚類(lèi)樹(shù)時(shí)采用的方法為歐幾里得距離函數(shù)和曼哈頓距離函數(shù),具體公式如下:
CF tree的結(jié)構(gòu)類(lèi)似于一棵B-樹(shù),它有兩個(gè)參數(shù):內(nèi)部節(jié)點(diǎn)平衡因子B,葉節(jié)點(diǎn)平衡因子L,簇半徑閾值T,樹(shù)中每個(gè)節(jié)點(diǎn)最多包含B個(gè)孩子節(jié)點(diǎn),記為(CFi,CHILDi),1<=i<=B,CFi是這個(gè)節(jié)點(diǎn)中的第i個(gè)聚類(lèi)特征,CHILDi指向節(jié)點(diǎn)的第i個(gè)孩子節(jié)點(diǎn),對(duì)應(yīng)于這個(gè)節(jié)點(diǎn)的第i個(gè)聚類(lèi)特征;需特別注意的是:構(gòu)建CF樹(shù)的過(guò)程中,一個(gè)重要的參數(shù)是簇半徑閾值T,因?yàn)樗鼪Q定了CF tree的規(guī)模,從而讓CF tree適應(yīng)當(dāng)前在云計(jì)算中心為BIRCH模型分配的內(nèi)存的大小,如果T太小,那么簇的數(shù)量將會(huì)非常的大,從而導(dǎo)致樹(shù)節(jié)點(diǎn)數(shù)量也會(huì)增大,這樣可能會(huì)導(dǎo)致所有數(shù)據(jù)點(diǎn)還沒(méi)有掃描完之前內(nèi)存就不夠用了,同時(shí)翻譯的準(zhǔn)確率與T值和所分配的內(nèi)存大小成正比關(guān)系,此處內(nèi)存不得小于100TB。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南本來(lái)文化發(fā)展有限公司,未經(jīng)湖南本來(lái)文化發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710172504.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種構(gòu)建多語(yǔ)言網(wǎng)站實(shí)時(shí)翻譯的方法
- 一種待翻譯軟件的翻譯方法及裝置
- 一種待翻譯軟件的翻譯方法及裝置
- 一種CAT系統(tǒng)中翻譯記憶庫(kù)和MT結(jié)合的方法及系統(tǒng)
- 翻譯方法、系統(tǒng)、終端以及存儲(chǔ)介質(zhì)
- 一種文本展示方法及裝置
- 機(jī)器翻譯方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 翻譯系統(tǒng)、翻譯方法、翻譯機(jī)及存儲(chǔ)介質(zhì)
- 文字翻譯方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種中藥方劑核心藥物的發(fā)現(xiàn)方法
- 一種基于本體的聚類(lèi)服務(wù)方法
- 一種基于Hadoop的自適應(yīng)RK?means算法
- 一種減小客戶流失風(fēng)險(xiǎn)的大數(shù)據(jù)聚類(lèi)算法
- 網(wǎng)點(diǎn)聚類(lèi)方法及裝置
- 一種多源放電及干擾疊加情況下的局部放電信號(hào)聚類(lèi)方法
- 一種基于多屬性決策的最優(yōu)聚類(lèi)算法選擇方法和裝置
- 一種短文本聚類(lèi)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 視頻聚類(lèi)方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)選擇偏差下的去相關(guān)聚類(lèi)方法及裝置
- 簡(jiǎn)化式粵語(yǔ)拼音中文輸入法
- 香港語(yǔ)言學(xué)學(xué)會(huì)粵語(yǔ)拼音方案輸入法
- 利用組合漢字進(jìn)行輸入的粵語(yǔ)字輸入系統(tǒng)及其方法
- 采用卷積神經(jīng)網(wǎng)絡(luò)算法翻譯粵語(yǔ)和西班牙語(yǔ)的手機(jī)app
- 基于RBH神經(jīng)網(wǎng)絡(luò)模型翻譯粵語(yǔ)口音和德語(yǔ)的APP
- 用LVQ神經(jīng)網(wǎng)絡(luò)算法翻譯粵語(yǔ)口音和葡萄牙語(yǔ)的APP
- 一種基于GSP算法翻譯意大利語(yǔ)和粵語(yǔ)的手機(jī)APP
- 普通話和粵語(yǔ)混合語(yǔ)音識(shí)別模型訓(xùn)練方法及系統(tǒng)
- 一種基于深度神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)粵語(yǔ)謠言檢測(cè)方法
- 一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語(yǔ)分詞方法
- 一種云計(jì)算安全架構(gòu)的實(shí)現(xiàn)方法
- 一種私有云與公有云的信息交互系統(tǒng)及方法
- 一種基于云計(jì)算安全架構(gòu)裝置的實(shí)現(xiàn)方法
- 一種通過(guò)云服務(wù)協(xié)議訪問(wèn)機(jī)器人軟件包的方法
- 云計(jì)算系統(tǒng)及云數(shù)據(jù)處理方法
- 云計(jì)算系統(tǒng)
- 用于汽車(chē)個(gè)性化的系統(tǒng)、裝置及方法
- 一種超算資源的云調(diào)度方法、云調(diào)度中心和系統(tǒng)
- 云計(jì)算核心網(wǎng)絡(luò)系統(tǒng)
- 一種運(yùn)用于云數(shù)據(jù)計(jì)算的數(shù)據(jù)采集系統(tǒng)





