[發明專利]基于拍照識物的智能點讀方案在審
| 申請號: | 202010268840.1 | 申請日: | 2020-04-08 |
| 公開(公告)號: | CN111539408A | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 王鵬 | 申請(專利權)人: | 王鵬 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京盛凡智榮知識產權代理有限公司 11616 | 代理人: | 胡文強 |
| 地址: | 101127 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 拍照 智能 方案 | ||
1.基于拍照識物的智能點讀方案,包括信號采集器、信號處理器、語音合成單元、人機交互端口,其特征在于:所述的信號采集器是進行圖片采集,且信號采集器基于若干類型的設備設計軟件,所述的信號處理器是完成圖像信號的分析處理,包括圖片定位、分割、識別,以及文本句子的生成,所述的信號采集器、信號處理器組成圖片內容編輯和生成前端系統,所述的語音合成單元是將文本內容轉換為語音信號,所述的人機交互端口包括用戶觸發界面或者開關以及音頻信號的輸出,且人機交互端口內設有基于位置觸發的內容拼讀。
2.根據權利要求1所述的基于拍照識物的智能點讀方案,其特征在于:所述的信號采集器基于若干類型的設備設計軟件,例如手持移動設備(比如智能手機,平板電腦,攝像機,錄像筆等)或者其他可穿戴設備(比如智能眼鏡)對目標區域進行拍照。
3.根據權利要求1或2所述的信號采集器,其特征在于:所述的采集圖像的場景可以包括對真實的物體進行圖片采集,對書籍、文案內容進行圖片采集,以及虛擬現實中的圖片采集等。
4.根據權利要求1所述的基于拍照識物的智能點讀方案,其特征在于:所述的信號處理器是完成圖像信號的分析處理,對所述采集到的圖片進行分析,包括對圖片中物體或者文字的定位、分割和識別等,所采用的技術實現算法包括但不限于通過訓練的深度神經網絡模型,比如RCNN,Faster-RCNN等對圖像內容進行End-to-End的分析。
5.根據權利要求1所述的基于拍照識物的智能點讀方案,其特征在于:所述文本句子的生成通過已經得到圖片中物體的標簽和文字內容,依此為關鍵信息生成句子級別的文本描述,常用的模型有Attention-based model,GAN和Reinforcement Learning等。
6.根據權利要求1所述的基于拍照識物的智能點讀方案,其特征在于:所述的基于位置觸發的內容拼讀對圖片中的物體和文字內容都完成了區域定位和識別理解,當用戶對相應位置點擊觸發時,即可按照預設的語言(比如英文)進行智能拼讀。該步驟基于語音合成技術(Text-to-Speech,TTS)進行實現,還可以訂制不同類型的聲色。
7.根據權利要求6所述的基于位置觸發的內容拼讀,其特征在于:所述的觸發方式又分為離線觸發和在線觸發。其中,離線觸發是指設備對圖片采集和分析處理后,等待用戶對相應位置區域進行觸發喚醒后,并只對該區域的內容和用戶進行信息交互;在線觸發是指設備對圖片進行采集和分析處理完,已經同步獲得用戶的觸發意向,并對圖片整體內容和用戶進行全面的信息交互,比如基于錄像筆的文字采集和基于智能眼鏡的視障用戶輔助場景等。
8.根據權利要求1所述的基于拍照識物的智能點讀方案,其特征在于:所述的圖像編輯和生成是基于聯想的圖片內容編輯和生成,用戶通過手寫或語音輸入要求指令(比如關鍵詞),基于預訓練模型(比如GAN)生成新的圖片或者自動修改圖片的樣式和內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王鵬,未經王鵬許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010268840.1/1.html,轉載請聲明來源鉆瓜專利網。





