[發(fā)明專利]信息處理裝置和信息處理方法在審
| 申請?zhí)枺?/td> | 201611087113.5 | 申請日: | 2016-12-01 |
| 公開(公告)號: | CN106851087A | 公開(公告)日: | 2017-06-13 |
| 發(fā)明(設計)人: | 梅澤岳央 | 申請(專利權)人: | 佳能株式會社 |
| 主分類號: | H04N5/232 | 分類號: | H04N5/232 |
| 代理公司: | 北京怡豐知識產(chǎn)權代理有限公司11293 | 代理人: | 遲軍 |
| 地址: | 日本東京都*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息處理 裝置 方法 | ||
技術領域
本發(fā)明涉及一種信息處理裝置和信息處理方法。
背景技術
迄今為止,用于聲音檢測和語音識別的技術被應用于各種領域并且正在被使用。例如,已經(jīng)提出了作為控制接口的應用,例如,移動電話、個人計算機(PC)或汽車導航系統(tǒng)。日本特開2014-137323號公報描述了一種異常診斷裝置,其被構造為,根據(jù)對象物的圖像和收集到的聲壓信號計算分布并將聲壓圖(sound pressure map)疊加在圖像上,以診斷異常區(qū)域。
然而,在諸如語音識別等的技術中,需要適當?shù)貙嵤┲T如收集聲音的麥克風的音量增益等的設置,并且,用戶需要調(diào)整麥克風的設置。例如,在用戶期望在特定區(qū)域中進行語音識別的情況下,用戶需要提取該區(qū)域的代表點,并且在代表點處生成測試聲音,以進行諸如音量增益等的設置。即使當進行上述調(diào)整時,用戶期望進行語音識別的區(qū)域也可能會偏離實際上能夠進行適當語音識別的區(qū)域,結果是,在一些情況下不能獲得用戶期待的語音識別的精度等。
發(fā)明內(nèi)容
為了支持用于進行用戶的聲音檢測處理的設置操作,例如,一種信息處理裝置包括以下結構。
也就是說,根據(jù)本發(fā)明的一個方面的一種信息處理裝置包括:獲得單元,其被構造為獲得由攝像單元拍攝的圖像;檢測單元,其被構造為根據(jù)由聲音收集單元獲得的音頻數(shù)據(jù)檢測與檢測目標相對應的目標聲音;區(qū)域估計單元,其被構造為基于所述聲音收集單元的方向性和與產(chǎn)生目標聲音的目標聲源的位置相距的距離中的至少一者,估計由拍攝圖像表示的區(qū)域中的能夠檢測到所述目標聲音的可檢測區(qū)域;以及生成單元,其被構造為生成表示所述可檢測區(qū)域的區(qū)域圖像。
根據(jù)下面參照附圖對示例性實施例的描述,本發(fā)明的其他的特征將變得清楚。
附圖說明
圖1示出監(jiān)視系統(tǒng)的硬件結構。
圖2示出信息處理裝置的軟件結構。
圖3A和圖3B是用于描述坐標系的說明圖。
圖4是用于描述特性信息和安裝信息的說明圖。
圖5是示出檢測異常聲音的設置處理的流程圖。
圖6A至圖6C示出顯示畫面的示例。
圖7示出根據(jù)變形例的監(jiān)視系統(tǒng)。
圖8示出根據(jù)第二示例性實施例的信息處理裝置的軟件結構。
圖9是示出級別比估計值梯度估計處理的流程圖。
圖10示出根據(jù)第三示例性實施例的信息處理裝置的軟件結構。
圖11示出區(qū)域圖像的示例。
圖12A至圖12C是用于更詳細地描述可檢測區(qū)域的說明圖。
圖13A和圖13B示出可檢測區(qū)域的其它顯示示例。
具體實施方式
在下文中,將參照附圖描述本發(fā)明的示例性實施例。
第一示例性實施例
圖1示出根據(jù)第一示例性實施例的監(jiān)視系統(tǒng)100的硬件結構。監(jiān)視系統(tǒng)100是被構造為進行監(jiān)視以便檢測異常聲音的系統(tǒng)。在監(jiān)視區(qū)域中產(chǎn)生諸如尖叫或吼叫的異常聲音的情況下,監(jiān)視系統(tǒng)100將該聲音檢測為異常聲音,并向諸如監(jiān)視代理的用戶通知該事件。監(jiān)視系統(tǒng)100包括與攝像裝置的示例相對應的照相機110、以及信息處理裝置120。
照相機110拍攝監(jiān)視區(qū)域的視頻,并將該視頻發(fā)送到信息處理裝置120。照相機110還收集聲音并將音頻數(shù)據(jù)發(fā)送到信息處理裝置120。信息處理裝置120顯示接收到的視頻。另外,信息處理裝置120根據(jù)音頻數(shù)據(jù)確定異常聲音的存在或不存在。在產(chǎn)生了異常聲音的情況下,信息處理裝置120進行通知用戶產(chǎn)生了異常聲音的處理。信息處理裝置120還估計可以進行異常聲音的檢測的區(qū)域,并將估計的可檢測區(qū)域疊加在要顯示的視頻上。
照相機110包括攝像單元111、圖像處理單元112、麥克風113、CPU 114、ROM 115、RAM 116和通信單元117。攝像單元111包括由被構造為將光學圖像轉換為電信號的CCD或CMOS元件構成的圖像拾取元件、透鏡組、快門等,并且拍攝監(jiān)視區(qū)域的視頻。圖像處理單元112進行諸如像素插值處理或顏色轉換處理的圖像處理。麥克風113包括放大電路和控制單元,并且收集環(huán)境聲音。
CPU 114讀出存儲在ROM 115中的控制程序,并執(zhí)行各種處理。RAM 116用作臨時存儲區(qū)域,例如,CPU 114的主存儲器或工作區(qū)域。應當注意,當CPU 114讀出存儲在ROM 115中的程序并執(zhí)行該程序時,實現(xiàn)將在下面描述的照相機110的功能和處理。通信單元117經(jīng)由網(wǎng)絡與諸如信息處理裝置120等的外部裝置進行通信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佳能株式會社,未經(jīng)佳能株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611087113.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





