[發明專利]基于單向自標注輔助信息的多視角語言識別方法有效
| 申請號: | 201710561261.4 | 申請日: | 2017-07-11 |
| 公開(公告)號: | CN107452374B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 俞凱;錢彥旻;吳越;賀天行;陳哲懷 | 申請(專利權)人: | 上海交通大學;蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/16;G10L15/18;G10L17/04 |
| 代理公司: | 上海交達專利事務所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 單向 標注 輔助 信息 視角 語言 識別 方法 | ||
1.一種基于單向自標注輔助信息的多視角語言識別方法,其特征在于,首先通過標注模型對當前詞和詞層面的輔助信息進行自標注,得到當前詞的自標注輔助特征的概率分布;然后將自標注輔助特征的概率分布通過Viterbi解碼得到相對準確的輔助特征,從而將雙向輔助信息轉換為單向輔助信息;再將單向輔助信息和當前詞一起輸入多視角語言模型進行解析,得到當前詞的準確語義;
所述的標注模型采用具有長短時間變化單元的循環神經網絡,用于在保證較高準確率的情況下將同時包含前后文信息的輔助特征轉化為只含有前文信息的特征;
所述的多視角語言模型采用具有長短時間變化的循環神經網絡,且循環神經網絡的采用LSTM作為其隱層單元,其中:來自標注模型的單向輔助信息和當前詞一起作為多視角語言模型的輸入,由該多視角語言模型的隱層訓練一個多視角的長短時間變化循環神經網絡語言模型,下一個詞作為標注輸入到該多視角語言模型的輸出層。
2.根據權利要求1所述的方法,其特征是,所述的長短時間變化循環神經網絡包含前后文信息的輔助特征將由基于最大熵的雙向循環神經網絡對語言模型的訓練數據進行標注,特征作為訓練這個模型的標注輸入到標注模型的輸出層。
3.根據權利要求1所述的方法,其特征是,所述的Viterbi解碼過程中使用的約束矩陣是根據訓的已標注數據統計得到,用來保證標注模型的準確率。
4.根據權利要求1所述的方法,其特征是,所述的多視角語言模型中的隱層具有多個輸入和一個輸出,輸入為語言模型的當前詞和標注模型輸出的當前詞的單向輔助信息,輸出表示語言模型下一個詞的概率分布向量。
5.根據權利要求4所述的方法,其特征是,在訓練多視角語言模型時,隱層中的每一層均設有用于獨立調整各層學習率的穩定算子,從而使得兩個分模型用適合各自的不同的學習率進行訓練。
6.根據權利要求1所述的方法,其特征是,所述的多視角語言模型采用不含有長短時間變化的循環神經網絡、卷積神經網絡或深度神經網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學;蘇州思必馳信息科技有限公司,未經上海交通大學;蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710561261.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:機器人交互方法及系統
- 下一篇:藍牙耳機





