[發明專利]CTC模型的訓練方法和數據處理方法、裝置及存儲介質在審
| 申請號: | 202010124513.9 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111340117A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 巢林林;陳景東;褚崴 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 郭曼 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | ctc 模型 訓練 方法 數據處理 裝置 存儲 介質 | ||
1.一種聯結主義時間分類CTC模型的訓練方法,包括:
獲取特征序列以及與所述特征序列對應的標簽序列的嵌入表示向量,其中,所述特征序列包括至少一個特征向量,所述至少一個特征向量包括:圖片格式的文字或者語音信號經過特征提取網絡處理后得到的對應各個時刻的特征向量;
將所述至少一個特征向量依次輸入第一全連接層,并將所述第一全連接層的輸出歸一化后,得到空白字符對應各個時刻的先驗分布;
將所述至少一個特征向量依次輸入第二全連接層,并將所述第二全連接層的輸出歸一化后,得到所述文字或所述語音信號對應的字典集中各個元素對應各個時刻的概率;
確定所述至少一個特征向量與所述標簽序列的聯合表示向量,將所述聯合表示向量輸入第三全連接層,并將所述第三全連接層的輸出歸一化后,得到空白字符對應各個時刻的后驗逼近概率;
根據所述空白字符對應各個時刻的后驗逼近概率以及所述字典集中各個元素對應各個時刻的概率確定所述標簽序列的似然分布;以及
根據所述標簽序列的似然分布和所述空白字符先驗分布確定本次訓練的梯度值,并根據所述梯度值調整所述第一全連接層、第二全連接層和第三全連接層的權值。
2.根據權利要求1所述的方法,其中,確定所述標簽序列的似然分布包括:
確定所述字典集中各個元素以及空白字符對應各個時刻的似然概率;其中,所述空白字符對應各個時刻的似然概率為空白字符對應各個時刻的后驗逼近概率;所述字典集中各個元素對應各個時刻的似然概率為非空白字符對應各個時刻的后驗逼近概率與所述元素在對應時刻概率的乘積;
根據所述字典集中各個元素以及空白字符對應各個時刻的似然概率確定所述標簽序列的似然分布。
3.根據權利要求2所述的方法,其中,根據所述字典集中各個元素以及空白字符對應各個時刻的似然概率確定所述標簽序列的似然分布包括:
根據所述字典集中各個元素以及空白字符對應各個時刻的似然概率分別確定所述CTC模型多條輸出路徑的似然概率;
將對應同一輸出序列的多條輸出路徑的似然概率求和,得到所述輸出序列的似然概率;以及
將所述CTC模型多個輸出序列的似然概率的分布作為所述標簽序列的似然分布。
4.根據權利要求1所述的方法,其中,根據所述標簽序列的似然分布和所述空白字符先驗分布確定本次訓練的梯度值包括:
以如下表達式作為CTC模型訓練的損失函數:
其中,p(Ob|X)為所述空白字符先驗分布;p(Y|Ob,X)為所述標簽序列的似然分布;Ob代表空白字符輸出序列;以及
根據所述損失函數確定本次訓練的梯度值。
5.根據權利要求1所述的方法,其中,根據所述標簽序列的似然分布和所述空白字符先驗分布確定本次訓練的梯度值包括:
以如下表達式作為CTC模型訓練的損失函數:
其中,p(Y|Ob,X)為所述標簽序列的似然分布;qψ(Ob|X,Y)為所述空白字符的后驗逼近分布;p(Ob|X)為所述空白字符先驗分布;KL()為求散度運算;E()為求期望運算;以及
根據所述損失函數確定本次訓練的梯度值。
6.根據權利要求1所述的方法,其中,所述標簽序列的嵌入表示向量通過如下方式確定:將所述字典集中的各個元素分別映射至一個初始向量;對所述標簽序列所包含的元素對應的初始向量求平均,得到所述標簽序列的嵌入表示向量;
所述確定所述至少一個特征向量與所述標簽序列的聯合表示向量包括:分別求所述至少一個特征向量與所述標簽序列的嵌入表示向量的哈達瑪積。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010124513.9/1.html,轉載請聲明來源鉆瓜專利網。





