[發明專利]機器學習人工智能翻譯數據庫的更新方法有效
| 申請號: | 201810873984.2 | 申請日: | 2018-08-02 |
| 公開(公告)號: | CN109241539B | 公開(公告)日: | 2023-09-08 |
| 發明(設計)人: | 王大江 | 申請(專利權)人: | 愛云保(上海)科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242;G06F40/30;G06F16/33;G06F16/36;G06F16/23;G10L15/00;G10L15/06;G10L15/26 |
| 代理公司: | 成都貞元會專知識產權代理有限公司 51390 | 代理人: | 韓敏 |
| 地址: | 200050 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習 人工智能 翻譯 數據庫 更新 方法 | ||
1.一種機器學習人工智能翻譯數據庫的更新方法,包括:
(10)以機器學習方式建立詞語庫;
(20)建立人工智能語音預測模型;
(30)將待翻譯的語音轉換成文字;
(40)根據所述詞語庫和語音預測模型,確定譯文文字;
(50)對譯文文字進行校正,并根據校正結果更新所述詞語庫;
所述步驟(10)包括:利用機器學習方式,根據詞典建立外文詞語和與該外文詞語對應的中文含義的詞語之間的第一關聯,其中中文詞語的譯文為多個時以詞典中的第一順序位置標識的中文譯文詞語為主要中文譯文詞語而之后順序位置的中文譯文詞語作為次要中文譯文詞語;
所述步驟(20)包括:
(201)根據外文文章進行切詞得到外文詞語并根據該外文文章的中文譯文詞語,建立外文詞語和中文譯文詞語以及該中文譯文詞語之后接續的二級詞語的第二關聯;
(202)將第一關聯和第二關聯進行索引;
所述步驟(201)包括:根據外文文章以無監督學習方式進行機器學習;
所述步驟(201)包括:采用隨機梯度下降法對外文文章及其譯文進行機器學習;
所述步驟(202)包括:
以第一關聯為主鍵,從第二關聯中出現的與第一關聯相關的信息進行索引;
其特征在于,所述以第一關聯為主鍵,從第二關聯中出現的與第一關聯相關的信息進行索引包括:
(2021)主鍵信息確定:假設第一關聯中,英文詞語Ei對應主要中文譯文詞語Cj;且根據第二關聯,詞語Cj之后接續的二級詞語構成集合{Sm,pm},則以詞語Cj為主鍵,其中pm是詞語Sm出現在Cj之后作為接續的二級詞語的概率,i、j和m均為從1開始的自然數;
(2022)定義詞語Cj出現的概率:
p(Sm|Cj)=χgh(pj),
其中
且為以為均值、ξm為方差的m階對角陣,
(2023)根據概率p(Sm|Cj)確定詞語Cj取當前含義時與語境的匹配度:
計算其中p’表示對p進行差分;
計算是否小于第一預設閾值:當小于時,確定Cj中j表示的位置符合Ei對應的語境,否則令j=j+1,跳轉到步驟(2022),如果j經過遍歷到達了其最大值,則令j=1并繼續進行步驟(2024),u和v均為自然數;
(2024)校正Sm作為Cj的接續的二級詞語時與語境的匹配度:
計算是否小于第二預設閾值:當小于時,確定Sm作為Cj的接續的二級詞語符合語境,否則令m=m+1,跳轉到步驟(2022),如果m經過遍歷到達了其最大值,則令m=1。
2.根據權利要求1所述的方法,其特征在于,所述步驟(30)包括:
(301)對原始語音信號作線性分析,得到加權倒頻譜系數作為語音特征參數;
(302)根據語音特征參數獲得語音模型;
(303)對待識別的語音用語音模型進行匹配,利用幀同步網絡搜索,對每一幀語音針對不同的模型確定一個輸出概率值,在匹配過程中保留多條路徑,最后回溯出匹配結果;
(304)對匹配的結果用狀態持續時間分布及最佳路徑概率分布進行判別拒識掉識別范圍之外的語音,獲得正確的識別結果。
3.根據權利要求1所述的方法,其特征在于,所述步驟(40)包括:
基于STT技術利用中文譯文詞語產生語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于愛云保(上海)科技有限公司,未經愛云保(上海)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810873984.2/1.html,轉載請聲明來源鉆瓜專利網。





