[發明專利]一種基于強化學習的語言評價生成方法有效
| 申請號: | 201910794996.0 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN110532555B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 金鑫;周興暉;吳樂;李曉東 | 申請(專利權)人: | 北京電子科技學院 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 安麗 |
| 地址: | 100080*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 語言 評價 生成 方法 | ||
1.一種基于強化學習的語言評價生成方法,其特征在于,包括以下步驟:
(1)將輸入數據集中的每一類語言評價利用詞嵌入Word Embedding技術生成不同屬性的Word2Vec向量,其生成結果中,每個詞被轉為一個詞向量,所述數據集包含圖像及其對應語言評價;同時對語言評價進行分詞提取和詞形還原,語言評價詞匯數據為英語,根據語言的語態和時態對句子進行相應的詞干抽取和詞形還原;接下來構造詞匯詞典,詞典中的鍵為詞匯本身,值為詞匯在全部語言評價中的出現頻次,該步驟需要詞典遍歷所有的語言評價,找出所有出現過的詞匯,并統計各個詞匯的出現頻次,圖像經過卷積操作,得到尺寸較原圖更小的圖像卷積特征圖;
(2)對步驟(1)中得到的詞向量和使用卷積神經網絡提取得到的圖像卷積特征圖進行線性融合,融合結果為字典,字典中的鍵為圖像特征圖,值為圖像的五個美學屬性對應的評論;圖像特征圖和圖像評論輸入到基于遞歸神經網絡的語言生成模塊中,用神經網絡進行預測處理并生成圖像屬性評論,輸出并得到評論;
(3)將基于遞歸神經網絡的語言生成模塊的單詞序列輸出,作為強化學習模塊的輸入,進行語言序列生成的學習過程,語言生成過程中使用的學習算法為行動者評價者學習算法(Actor-Critic);強化學習模塊通過決策函數對梯度下降的方向提供指導,對不同的梯度下降方向提供決策,以生成的詞匯的回饋作為基線,決定梯度下降的方向;根據語言生成的結果動態調整遞歸神經網絡中的注意力模型參數和其他涉及到語言生成的參數遞歸神經網絡將預測單詞的詞向量與實際詞匯的詞向量間的誤差,作為回歸預測算法的優化損失,并進行反向傳遞,以達到網絡優化的目的;所述其他涉及到語言生成的參數包括詞向量長度、長短期記憶網絡的個數參數;
(4)從單詞序列的輸出、動態調整參數到損失反向傳導,將上述步驟(1)-(3)作為完整過程反復進行,迭代一定輪數后,生成最終的圖像語言評價,圖像語言評價包括:用光和用色評價、構圖評價、景深和聚焦評價、印象和主題評價、相機技巧評價;
所述步驟(2)中,基于遞歸神經網絡的語言生成模塊實現如下:
(21)構造樹形結構,輸入為數據集中按批次大小分割好的局部依照詞匯的出現頻率構造Huffman樹,生成節點所在的二進制碼,其中二進制碼反映了節點在樹中的位置,根據二進制碼的二進制碼數值,按照編碼從根節點找到對應的葉節點;
(22)初始化各非葉節點的中間向量和葉節點中的詞向量,樹中的各個節點,都存儲著一個長為m的向量,但葉節點和非葉節點中的向量的含義不同,其中葉節點中存儲輸入的各個詞匯的各詞的詞向量,作為長短期記憶網絡,而非葉節點中存儲的是中間向量,對應于長短期記憶網絡中隱含層的參數,與輸入一起決定詞匯生成結果;
(23)將隱含層的參數同步驟(21)中的二進制碼數值送入LSTM(長短期記憶網絡)單元之中;
(24)步驟(23)的長短期記憶網絡具體包括多個長短期記憶單元,每個單位為一個小的長短期記憶網絡,分別用于生成一種評價,其中包括生成用光和用色評價,構圖評價,景深和聚焦評價,印象和主題評價,相機技巧評價,共五個語言評價。
2.根據權利要求1所述的基于強化學習的語言評價生成方法,其特征在于:所述步驟(3)中,強化學習模塊實現如下:
(31)構建決策函數:從狀態映射到動作,該決策函數的形式和參數即為需要學習的部分,其中狀態是指所進行學習的圖片和已生成的單詞,動作是下一個單詞生成的選擇,對于優化損失,使用的是CIDEr評價標準(Consensus-based Image Description Evaluation)具體指標;
(32)設計自引導序列算法,用長短期記憶網絡模型在測試階段生成的詞的回饋作為基線,從而對梯度的形式產生影響,影響之后的具體公式為:
上式中,w代表具體參數,θ代表網絡中間變量,L是損失函數,t代表時間狀態,h代表隱含層,s代表環境狀態,r代表回饋函數,其中作用是在測試階段使用貪心策略進行解碼取概率最大的詞匯來生成句子,而r(ws)是通過根據概率來隨機采樣的詞匯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京電子科技學院,未經北京電子科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910794996.0/1.html,轉載請聲明來源鉆瓜專利網。





