[發明專利]圖像的文本信息生成方法和深度學習模型的訓練方法有效
| 申請號: | 202211068079.2 | 申請日: | 2022-08-31 |
| 公開(公告)號: | CN115359323B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 李威 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/80;G06V10/82;G06T11/60;G06N3/0464;G06N3/08 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂朝蕙 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 文本 信息 生成 方法 深度 學習 模型 訓練 | ||
1.一種圖像的文本信息生成方法,包括:
對待處理圖像進行特征提取,得到與所述待處理圖像的文本信息相關聯的全局特征;
對所述待處理圖像進行目標檢測,得到所述待處理圖像的局部特征;
利用所述全局特征對所述局部特征進行處理,得到經更新局部特征;以及
基于所述全局特征和所述經更新局部特征,生成所述待處理圖像的所述文本信息,
其中,所述利用所述全局特征對所述局部特征進行處理,得到經更新局部特征包括:
利用所述全局特征處理所述局部特征,得到目標特征權重;以及
利用所述目標特征權重處理所述局部特征,得到所述經更新局部特征;
其中,所述全局特征包括全局特征矩陣,所述局部特征包括局部特征矩陣;所述利用所述全局特征處理所述局部特征,得到目標特征權重包括:
利用所述全局特征矩陣乘以所述局部特征矩陣,得到目標矩陣;以及
將所述目標矩陣,確定為所述目標特征權重;
其中,所述利用所述目標特征權重處理所述局部特征,得到所述經更新局部特征包括:
利用所述目標矩陣乘以所述局部特征矩陣,得到所述經更新局部特征。
2.根據權利要求1所述的方法,其中,所述基于所述全局特征和所述經更新局部特征,生成所述待處理圖像的所述文本信息包括:
將所述全局特征和所述經更新局部特征進行融合,得到圖像融合特征;以及
利用自然語言理解方式對所述圖像融合特征進行語義理解,生成所述待處理圖像的所述文本信息。
3.根據權利要求2所述的方法,還包括,在利用所述全局特征對所述局部特征進行處理,得到經更新局部特征之前:
確定與所述自然語言理解方式相關聯的特征空間;
將所述全局特征映射至所述特征空間,得到經映射全局特征,作為所述全局特征;以及
將所述局部特征映射至所述特征空間,得到經映射局部特征,作為所述局部特征。
4.根據權利要求1所述的方法,其中,所述對所述待處理圖像進行目標檢測,得到所述待處理圖像的局部特征包括:
對所述待處理圖像進行目標檢測,得到候選圖像區域;
基于與所述候選圖像區域相關聯的概率數據,從所述候選圖像區域中確定目標圖像區域,其中,所述概率數據表征了所述候選圖像區域存在目標對象的概率;以及
將所述目標圖像區域的區域特征,確定為所述局部特征。
5.根據權利要求1-4中任意一項所述的方法,其中,所述文本信息包括以下至少一項:
目標對象的標識信息、所述目標對象的特征信息、所述目標對象所處的場景信息。
6.根據權利要求1所述的方法,還包括:
根據所述待處理圖像的所述文本信息,生成所述待處理圖像的語音信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211068079.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:焊接設備
- 下一篇:動態可擴展的組相聯高速緩存方法、裝置、設備及介質
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





