[發明專利]語音交互的處理方法、裝置、電子設備及存儲介質有效

申請號：	202011322535.2	申請日：	2020-11-23
公開（公告）號：	CN112382291B	公開（公告）日：	2021-10-22
發明（設計）人：	劉兵;吳震;白錦峰	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/06
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	王萌
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音交互處理方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了語音交互的處理方法、裝置、電子設備及存儲介質，涉及語音技術領域、深度學習技術領域等人工智能技術領域。具體實現方案為：獲取當前時間點用戶的輸入語音以及用戶的歷史語音序列；根據輸入語音和歷史語音序列生成用戶的語音特征信息；根據語音特征信息生成輸入語音的分類判斷結果；若分類判斷結果為拒識，則忽略輸入語音；若分類判斷結果為接收，則對輸入語音進行響應處理。從而能夠結合當前時間點用戶的輸入語音以及用戶的歷史語音序列來確定對該輸入語音進行拒識還是接收，提高了對語音進行響應的準確度，避免忽略部分語音。

技術領域

本申請涉及計算機技術領域，具體涉及語音技術領域、深度學習技術領域等人工智能技術領域，尤其涉及語音交互的處理方法、裝置、電子設備及存儲介質。

背景技術

目前在智能語音交互硬件產品中，存在一次喚醒多次交互的場景。相關技術中，針對一次喚醒中的多次交互，利用query白名單只對存在高頻指令詞的語音進行響應，其他語音全部忽略；或直接將高頻指令詞作為喚醒詞的方式實現。

上述方式中，只對存在高頻指令詞的語音進行響應，響應準確度差，會忽略部分語音，給用戶的體驗差。

發明內容

本公開提供了一種用于語音交互的處理方法、裝置、電子設備以及存儲介質。

根據本公開的一方面，提供了一種語音交互的處理方法，包括：獲取當前時間點用戶的輸入語音以及所述用戶的歷史語音序列；根據所述輸入語音和所述歷史語音序列生成所述用戶的語音特征信息；根據所述語音特征信息生成所述輸入語音的分類判斷結果；若所述分類判斷結果為拒識，則忽略所述輸入語音；若所述分類判斷結果為接收，則對所述輸入語音進行響應處理。

根據本公開的另一方面，提供了一種語音交互的處理裝置，包括：獲取模塊，用于獲取當前時間點用戶的輸入語音以及所述用戶的歷史語音序列；第一生成模塊，用于根據所述輸入語音和所述歷史語音序列生成所述用戶的語音特征信息；第二生成模塊，用于根據所述語音特征信息生成所述輸入語音的分類判斷結果；處理模塊，用于在所述分類判斷結果為拒識時，忽略所述輸入語音；所述處理模塊，還用于在所述分類判斷結果為接收時，對所述輸入語音進行響應處理。

根據第三方面，提供了一種電子設備，包括：至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行如上所述的語音交互的處理方法。

根據第四方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，所述計算機指令用于使所述計算機執行如上所述的語音交互的處理方法。

根據第五方面，提供了一種計算機程序產品，包括計算機程序，所述計算機程序在被處理器執行時實現如上所述的語音交互的處理方法。

應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

附圖說明

附圖用于更好地理解本方案，不構成對本申請的限定。其中：

圖1是根據本申請第一實施例的示意圖；

圖2是根據本申請第二實施例的示意圖；

圖3是對比預測編碼CPC模型的示意圖；

圖4是根據本申請第三實施例的示意圖；

圖5是接收拒識分類模型的示意圖；

圖6是根據本申請第四實施例的示意圖；