[發明專利]交互閱讀方法、裝置、系統及存儲介質在審
| 申請號: | 201910557458.X | 申請日: | 2019-06-25 |
| 公開(公告)號: | CN110299036A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 于德鴻 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G09B5/06 | 分類號: | G09B5/06;G06K9/00 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 馬爽;臧建明 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 存儲介質 視頻圖像 書本內容 文本信息 服務器反饋 擴展性 觸發條件 用戶體驗 智能音箱 閱讀 讀書本 播報 預設 服務器 書本 采集 制作 | ||
1.一種交互閱讀方法,其特征在于,包括:
采集包含書本內容的視頻圖像;
將所述視頻圖像發送給服務器;
接收所述服務器反饋的文本信息;
若滿足預設的觸發條件,則播報所述文本信息。
2.根據權利要求1所述的方法,其特征在于,在采集包含書本內容的視頻圖像之前,還包括:
接收用戶輸入的控制信息;
根據所述控制信息,開啟閱讀模式;所述閱讀模式是指開啟圖像采集器采集視頻圖像的模式。
3.根據權利要求1所述的方法,其特征在于,若滿足預設的觸發條件,則播報所述文本信息,包括:
若在預設的時間段內接收到目標語音信息,或者目標按鍵信息,則播報所述預設時間段內接收到的所述文本信息。
4.根據權利要求1-3中任一項所述的方法,其特征在于,還包括:
若在預設的時間段內未接收到目標語音信息,則清除所述預設時間段內接收到的所述文本信息。
5.一種閱讀交互方法,其特征在于,包括:
接收語音裝置發送的視頻圖像;
通過預先加載的圖像識別模型識別所述視頻圖像,得到文本信息;
將所述文本信息反饋給所述語音裝置。
6.根據權利要求5所述的方法,其特征在于,通過預先加載的圖像識別模型識別所述視頻圖像,得到文本信息,包括:
從所述視頻圖像中選取任一滿足清晰度要求的視頻幀;
從所述視頻幀中提取圖像特征,并將所述圖像特征輸入第一圖像識別模型;
若所述第一圖像識別模型輸出書名,則將所述圖像特征輸入第二圖像識別模型;
若所述第一圖像識別模型識別失敗,則重新接收視頻圖像;
若所述第二圖像識別模型輸出書本頁碼,則將所述圖像特征輸入第三圖像識別模型;
若所述第二圖像識別模型識別失敗,則重新接收視頻圖像;
若所述第三圖像識別模型輸出單根手指的位置,則將所述圖像特征輸入第四圖像識別模型;
若所述第三圖像識別模型識別失敗,則重新接收視頻圖像;
若所述第四圖像識別模型輸出手指指示位置,則獲取所述手指指示位置對應行的文本信息;
若所述第四圖像識別模型識別失敗,則重新接收視頻圖像。
7.一種交互閱讀裝置,其特征在于,包括:
采集模塊,用于采集包含書本內容的視頻圖像;
發送模塊,用于將所述視頻圖像發送給服務器;
接收模塊,用于接收所述服務器反饋的文本信息;
播報模塊,用于在滿足預設的觸發條件時,則播報所述文本信息。
8.一種交互閱讀裝置,其特征在于,包括:
接收模塊,用于接收語音裝置發送的視頻圖像;
識別模塊,用于通過預先加載的圖像識別模型識別所述視頻圖像,得到文本信息;
反饋模塊,用于將所述文本信息反饋給所述語音裝置。
9.一種交互閱讀系統,其特征在于,包括語音裝置和服務器,所述語音裝置和所述服務器通信連接;其中:
所述語音裝置包括存儲器和處理器,存儲器中存儲有所述處理器的可執行指令;其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1-4所述的交互閱讀方法;
所述服務器包括存儲器和處理器,存儲器中存儲有所述處理器的可執行指令;其中,所述處理器配置為經由執行所述可執行指令來執行權利要求5或6所述的交互閱讀方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-7任一項所述的交互閱讀方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910557458.X/1.html,轉載請聲明來源鉆瓜專利網。





