[發明專利]中文口語語義理解方法及系統有效
| 申請號: | 201910814333.0 | 申請日: | 2019-08-30 |
| 公開(公告)號: | CN110516253B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 朱蘇;徐華;俞凱;張瑜 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 口語 語義 理解 方法 系統 | ||
本發明實施例提供一種中文口語語義理解方法。該方法包括:獲取泛化的無標注文本序列訓練集,依次對訓練集進行正向預測、反向預測,訓練字級別以及詞級別的雙向語言模型;接收用戶輸入的口語語音音頻,進行序列分詞,字序列以及詞序列;分別使用字級別以及詞級別的雙向語言模型對字序列以及詞序列解碼,獲得字級別以及詞級別的隱層向量;對字序列和詞序列的隱層向量進行向量對齊,得到語義理解模型輸入的口語語音音頻的隱層向量;將口語語音音頻的隱層向量輸入至語義理解模型,確定口語語音音頻的語義。本發明實施例還提供一種中文口語語義理解系統。本發明實施例具有良好的泛化能力,將詞、字序列相結合,提升了中文語義理解的性能。
技術領域
本發明涉及智能語音交互領域,尤其涉及一種中文口語語義理解方法及系統。
背景技術
語義理解在智能語音的交互中有著重要的作用,通常會使用以下幾個方法來進行語義理解:
1、基于深度學習、有監督學習的口語語義理解:需要在自然文本或者語音識別文本上進行人工的語義標注,結合深度神經網絡模型,以數據驅動的方式訓練語義理解模型。
2、基于深度學習、有監督學習,結合預訓練詞向量的口語語義理解:需要在自然文本或者語音識別文本上進行人工的語義標注,同時使用外部預訓練的詞向量初始化輸入層網絡,訓練語義理解模型。
3、基于深度學習、半監督學習的口語語義理解:需要在自然文本或者語音識別文本上進行人工的語義標注,同時還有大量未標注的自然文本或者語音識別文本,然后結合半監督學習方法(比如偽標簽學習、對抗訓練等)訓練語義理解模型。
4、基于深度學習、多任務學習,利用語言模型和語義理解聯合訓練的口語語義理解:需要在自然文本或者語音識別文本上進行人工的語義標注,同時還有大量未標注的自然文本或者語音識別文本;利用有標簽數據學習語義理解任務,利用無標簽數據學習語言模型任務,同時兩個任務的底層參數相互共享。
5、英文自然語言處理領域,利用預訓練語言模型作為輸入的自然語言處理技術:利用大量未標注的自然文本訓練一個雙向語言模型,然后將改語言模型作為后端自然語言處理任務的輸入層。
在實現本發明過程中,發明人發現相關技術中至少存在如下問題:
1、基于深度學習、有監督學習的口語語義理解:需要大量人工標注的數據,嚴重依賴數據量,且文本特征是有較大稀疏性的,這樣訓練出來的模型會有一定的過擬合現象和低泛化性。
2、基于深度學習、有監督學習,結合預訓練詞向量的口語語義理解:相比于1,此方法利用的預訓練詞向量可以適當提高模型的泛化性且降低過擬合的現象,但詞向量只能表現單個詞的特性,對于句子(詞序列)的泛化起到的作用非常有限。
3、基于深度學習、半監督學習的口語語義理解:半監督學習依賴于大量高質量的未標注文本,但是很難獲取大量高質量的未標注數據,尤其是在口語對話系統剛起步或者用戶量不大的時候(口語語義理解理解作為口語對話系統的重要組成部分)。
4、基于深度學習、多任務學習,利用語言模型和語義理解聯合訓練的口語語義理解:語言模型的訓練數據是非常巨大的,深度學習的模型訓練時間統一非常長。相比較而言語義理解的訓練數據一般都非常小,所以為了語義理解任務而同時訓練語言模型,時間和金錢的代價是非常大的。
5、英文自然語言處理領域,利用預訓練語言模型作為輸入的自然語言處理技術:在中文自然語言處理中,尤其使用到中口語語義理解中,該模型結構沒有考慮中文分詞現象(且無法同時考慮字和詞),對于中文分詞錯誤的魯棒性較差。
發明內容
為了至少解決現有技術中需要大量人工標注的數據,詞向量智能表現單個此的特性,對于句子的泛化起到的作用非常有限,并且依賴于大量高質量的未標注文本,語言模型的訓練數據巨大,訓練時間非常長,語言模型無法同時考慮字和詞,對中文分詞效果欠佳的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910814333.0/2.html,轉載請聲明來源鉆瓜專利網。





