[發明專利]用于生成字幕器以及輸出字幕的方法和裝置在審
申請號: | 202110338045.X | 申請日: | 2021-03-30 |
公開(公告)號: | CN113052090A | 公開(公告)日: | 2021-06-29 |
發明(設計)人: | 潘瀅煒;李業豪;姚霆;梅濤 | 申請(專利權)人: | 京東數字科技控股股份有限公司 |
主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06F40/30;G06N3/04 |
代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 用于 生成 字幕 以及 輸出 方法 裝置 | ||
1.一種用于生成字幕器的方法,包括:
獲取樣本圖像集;
將所述樣本圖像集輸入句子生成器的圖像編碼器,輸出對象集;
將所述對象集分組成第一對象集和第二對象集,其中,所述第一對象集為被包含在預定對象集內的對象集,所述第二對象集為被排除在預定對象集外的對象集;
將所述圖像編碼器輸出的對象集輸入句子生成器的句子解碼器,在解碼步驟中以所述第一對象集、所述第二對象集為約束條件進行波束搜索,生成偽圖像句子對集;
將所述偽圖像句子對集作為樣本集訓練所述句子生成器,得到字幕器。
2.根據權利要求1所述的方法,其中,所述方法還包括:
通過以下至少一種方式優化所述字幕器:
通過句子鑒別器對所述字幕器進行對抗式訓練來優化所述字幕器;
通過所述字幕器識別出的對象在所述字幕器輸出的句子中的包含程度優化所述字幕器;
通過圖像三元組與相應生成的句子之間的語義相關性優化所述字幕器,其中,圖像三元組包括查詢圖像,正圖像和負圖像。
3.根據權利要求2所述的方法,其中,所述通過句子鑒別器對所述字幕器進行對抗式訓練來優化所述字幕器,包括:
提取預置的第一樣本集,其中,每個第一樣本包括圖像和對應的真句子;
提取預先建立的生成式對抗網絡,其中,所述生成式對抗網絡包括字幕器和句子鑒別器,所述字幕器用于對所輸入的圖像進行圖像編碼后再進行句子解碼,得到偽句子,所述句子鑒別器用于確定所輸入的句子是否為所述字幕器所輸出的偽句子;
基于機器學習方法,從所述第一樣本集中選取第一樣本,以及執行以下第一訓練步驟:將選取的第一樣本中的圖像輸入所述字幕器,輸出偽句子;將所述偽句子和選取的第一樣本中的真句子輸入所述句子鑒別器,輸入鑒別結果;根據輸出的鑒別結果統計所述句子鑒別器的準確率;若所述準確率達到預設數值,則確定出所述字幕器訓練完成。
4.根據權利要求3所述的方法,其中,所述方法還包括:
若所述準確率未達到預設數值,則計算所述句子鑒別器的對抗性損失,調整所述句子鑒別器的相關參數使得所述對抗性損失減小,以及從所述第一樣本集中重新選取第一樣本,繼續執行所述第一訓練步驟。
5.根據權利要求3所述的方法,其中,所述方法還包括:
若所述準確率未達到預設數值,則計算所述字幕器的對抗性獎勵,調整所述字幕器的相關參數使得所述對抗性獎勵增大,以及從所述第一樣本集中重新選取第一樣本,繼續執行所述第一訓練步驟。
6.根據權利要求2所述的方法,其中,所述通過所述字幕器識別出的對象在所述字幕器輸出的句子中的包含程度優化所述字幕器,包括:
提取預置的第二樣本集,其中,每個第二樣本包括圖像;
基于機器學習方法,從所述第二樣本集中選取樣本,以及執行以下第二訓練步驟:將選取的第二樣本中的圖像輸入所述字幕器的圖像編碼器,輸出樣本對象集;將所述樣本對象集輸入字幕器的句子解碼器,輸出偽句子;計算所述偽句子中包含所述樣本對象集中的樣本對象的置信度均值分數,作為所述偽句子的對象包含獎勵;若所述對象包含獎勵達到預設包含獎勵閾值,則確定出所述字幕器訓練完成。
7.根據權利要求6所述的方法,其中,所述方法還包括:
若所述對象包含獎勵未達到預設包含獎勵閾值,則調整所述字幕器的相關參數使得所述對象包含獎勵增大,以及從所述第二樣本集中重新選取第二樣本,繼續執行所述第二訓練步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股股份有限公司,未經京東數字科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110338045.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:端到端海空活動目標數據規律實時挖掘方法
- 下一篇:螺紋及其退刀槽加工刀具