[發明專利]一種基于語音輸入的圖像信息提取分析方法及裝置有效

申請號：	201210568735.5	申請日：	2012-12-24
公開（公告）號：	CN103064936B	公開（公告）日：	2018-03-30
發明（設計）人：	韓鈞宇	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京鴻德海業知識產權代理事務所(普通合伙)11412	代理人：	袁媛
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音輸入圖像信息提取分析方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

【技術領域】

本發明涉及圖像信息提取技術，尤其涉及一種基于語音輸入的圖像信息提取分析方法及裝置。

【背景技術】

隨著圖像識別技術以及移動互聯網的廣泛應用，大量的圖像信息提取軟件應運而生，能夠讓用戶隨時隨地查詢指定圖像中的相關信息。現有的圖像信息提取軟件通常都是針對不同類別的用戶需求而設計的，例如，文字信息提取類的應用軟件可以提取并識別圖像中的文字，特定商品元素提取類的應用軟件可以提取并識別圖像中商品的二維碼或者商品的Logo，臉部識別類的應用軟件可以識別圖像中人臉。然而，諸如此類的應用軟件只能實現某一類別的圖像信息提取，同時需要基于用戶的明確操作指令，隨著應用種類的增多，用戶的交互負擔也越來越大，為多種圖像信息提取應用提供便捷的一站式交互服務是一個亟待有效解決的問題。

【發明內容】

有鑒于此，本發明提供了一種基于語音輸入的圖像信息提取分析方法及裝置，能夠基于用戶輸入的語音，自動提取目標圖像中的對應信息并處理。

具體技術方案如下：

一種基于語音輸入的圖像信息提取分析方法，圖像信息提取場景庫中的圖像信息提取場景設置有對應的文字描述標簽，該方法包括：

S1、根據用戶輸入的語音，獲取用戶的信息提取意圖；

S2、根據所述用戶的信息提取意圖查詢圖像信息提取場景庫，與各文字描述標簽進行匹配，并獲取匹配得到的文字描述標簽對應的圖像信息提取場景；

S3、根據所獲取的圖像信息提取場景對目標圖像進行目標對象識別，將識別結果返回給用戶。

根據本發明一優選實施例，所述獲取用戶的信息提取意圖具體包括：將所述用戶輸入的語音通過語音識別轉換為文字信息，并將該文字信息或者從該文字信息中提取的關鍵詞組作為用戶的信息提取意圖。

根據本發明一優選實施例，所述步驟S2中獲取匹配得到的文字描述標簽對應的圖像信息提取場景具體包括：

依據所述用戶的信息提取意圖與文字描述標簽的匹配度確定各文字描述標簽對應的圖像信息提取場景的場景權重值，獲取場景權重值高于預設場景閾值的一個或多個圖像信息提取場景；或者，

依據場景特征分類模塊對目標圖像進行特征提取以及分類后，得到的目標圖像與各圖像信息提取場景的匹配度，確定各圖像信息提取場景的特征權重值，利用各圖像信息提取場景的特征權重值和場景權重值得到各圖像信息提取場景的綜合權重值，獲取綜合權重值高于預設綜合閾值的一個或多個圖像信息提取場景。

根據本發明一優選實施例，在所述步驟S2中進一步包括：將獲取匹配得到的文字描述標簽對應的圖像信息提取場景反饋給用戶；