[發明專利]一種標記方法及電子設備在審

申請號：	202111153604.6	申請日：	2021-09-29
公開（公告）號：	CN113901785A	公開（公告）日：	2022-01-07
發明（設計）人：	楊奇川;張楊;張柳新	申請（專利權）人：	聯想（北京）有限公司
主分類號：	G06F40/205	分類號：	G06F40/205;G06F40/279;G06V10/75;G06V30/19;G06T7/10;G10L15/26
代理公司：	北京金信知識產權代理有限公司 11225	代理人：	韓岳松
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種標記方法電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種標記方法及電子設備，該方法包括：分別獲取當前播放的第一影像中的音頻和圖像；對所述音頻進行語音識別，生成相對應的第一文本信息；確定所述圖像中的實物對象和/或文本對象；將所述第一文本信息與所述實物對象和/或所述文本對象的內容進行匹配操作，至少基于匹配結果確定所述圖像中的第一目標；對所述第一目標進行標記。該標記方法能夠根據當前播放的第一影像，來自動的對第一影像中當前播放內容進行標記，從而使得用戶可以隨時準確的獲知第一影像在當前時間所表達的內容，節省了用戶理解第一影像所表達內容的時間。

技術領域

本申請涉及圖像及音頻處理領域，特別涉及一種標記方法及電子設備。

背景技術

在使用網絡進行交互時，多個交互方能夠通過網絡進行視頻和音頻的交流。但是，在交互過程中交互一方經常會遇到另一方表達過程中的指代不明問題。例如，第一交互方在針對文稿發表演講過程中，第二交互方并不能及時在交互影像的文稿中看到當前語音對應的位置點，而且該現象還可能會出現多次，從而影響了交互準確度，降低了交互效率。對于該問題的解決方式，通常是通過人工的對話來詢問當前演講在文稿中的具體位置，費時費力。

發明內容

本申請實施例的目的在于提供一種標記方法，包括：

分別獲取當前播放的第一影像中的音頻和圖像；

對所述音頻進行語音識別，生成相對應的第一文本信息；

確定所述圖像中的實物對象和/或文本對象；

將所述第一文本信息與所述實物對象和/或所述文本對象的內容進行匹配操作，至少基于匹配結果確定所述圖像中的第一目標；

對所述第一目標進行標記。

作為可選，所述確定所述圖像中的實物對象和/或文本對象，包括：

對所述圖像進行圖像語義分割操作，確定所述圖像中的至少一個實物對象；

對所述實物對象進行標識，形成相應的實物標識；相應的，

所述將所述第一文本信息與所述實物對象和/或所述文本對象的內容進行匹配操作，至少基于匹配結果確定所述圖像中的第一目標，包括：

將所述第一文本信息與所述實物標識進行對比；