[發明專利]語音控制方法及裝置、存儲介質、電子設備有效

申請號：	201810163645.5	申請日：	2018-02-27
公開（公告）號：	CN108538300B	公開（公告）日：	2021-01-29
發明（設計）人：	舒翔	申請（專利權）人：	科大訊飛股份有限公司
主分類號：	G10L15/30	分類號：	G10L15/30;G10L15/26;G10L15/22;G06F3/16;G06K9/32;G06K9/62
代理公司：	北京維澳專利代理有限公司 11252	代理人：	王立民
地址：	230000 安徽省***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音控制方法裝置存儲介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供一種語音控制方法及裝置、存儲介質、電子設備。該方法包括：獲取當前頁面的頁面圖像，識別頁面圖像中包含的文字；將連續排列的文字確定為一個文字單元，并確定出文字單元所在顯示區域；獲取當前頁面中可操作元素所在顯示區域，與文字單元所在顯示區域相匹配，確定出可操作元素對應的文字單元；將可操作元素對應的文字單元上傳至語音服務器保存；獲取用戶輸入的語音數據，并將語音數據轉發至語音服務器進行語音識別，語音服務器用于根據上傳的文字單元，確定出語音數據對應的待操作文字單元；接收語音服務器發送的待操作文字單元，對待操作文字單元對應的可操作元素執行操作。如此方案，有助于提高語音控制效果。

技術領域

本公開涉及智能控制技術領域，具體地，涉及一種語音控制方法及裝置、存儲介質、電子設備。

背景技術

隨著智能技術的不斷發展，智能設備在日常生活中也越來越普及，尤其是智能家居中各種智能設備的出現，大大的提高了家庭生活的便利性。

在實際應用過程中，用戶可以通過語音遙控器，控制智能設備執行相關操作。對于具有顯示屏幕的智能設備來說，一個重要的功能就是“所見即所說”，也就是說，對于顯示屏幕上展示的文字，用戶可以直接以語音輸入的方式，直接說出屏幕上展示的文字，以此控制智能設備執行相關操作。以智能電視機為例，用戶可以說出屏幕上的文字，觸發電視機播放這個文字對應的節目；以智能空調為例，用戶可以說出屏幕上的文字，觸發空調執行這個文字對應的動作，例如調整室溫等。

通常，在進行語音控制之前，智能設備需要預先將頁面包括的文字上傳給語音服務器，由語音服務器處理并保存，這樣，當用戶喊出對應的文字時，語音服務器可以進行語音識別，將識別出的文字發送給智能設備，由智能設備對文字對應的界面元素執行相關操作。需要說明的是，目前的文字上傳過程，主要是由頁面開發商實現，具體地，智能設備先對接語音服務器提供的統一接口，然后將各頁面包含的文字上傳到語音服務器。

結合實際應用效果來看，目前的語音控制效果不理想，存在語音識別失敗的情況，影響了用戶體驗。

發明內容

本公開的主要目的是提供一種語音控制方法及裝置、存儲介質、電子設備，有助于提高語音控制效果。

為了實現上述目的，本公開提供一種語音控制方法，所述方法包括：

獲取當前頁面的頁面圖像，識別所述頁面圖像中包含的文字；

將連續排列的文字確定為一個文字單元，并確定出所述文字單元所在顯示區域；

獲取所述當前頁面中可操作元素所在顯示區域，與所述文字單元所在顯示區域相匹配，確定出可操作元素對應的文字單元；

將所述可操作元素對應的文字單元上傳至語音服務器保存；

獲取用戶輸入的語音數據，并將所述語音數據轉發至所述語音服務器進行語音識別，所述語音服務器用于根據上傳的所述文字單元，確定出所述語音數據對應的待操作文字單元；

接收所述語音服務器發送的所述待操作文字單元，對所述待操作文字單元對應的可操作元素執行操作。

可選地，所述獲取當前頁面的頁面圖像，包括：

從智能設備的硬件顯示緩沖區獲取所述頁面圖像；或者，