[發明專利]一種機器閱讀理解模型的分階段訓練方法及裝置有效
| 申請號: | 201811536824.5 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109685212B | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 李健銓;劉小康;陳夏飛;晉耀紅;楊凱程;陳瑋;張樂樂;董銘慆 | 申請(專利權)人: | 安徽省泰岳祥升軟件有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F16/332 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230088 安徽省合肥市高新區習友路333*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器 閱讀 理解 模型 分階段 訓練 方法 裝置 | ||
本申請提供了一種機器閱讀理解模型的分階段訓練方法及裝置,具體的,在進行機器閱讀理解模型訓練時,首先利用極大似然估計函數對目標機器閱讀理解模型進行訓練,得到基礎機器閱讀理解模型,然后,再利用最小風險訓練損失函數,繼續對上述基礎機器閱讀理解模型進行訓練,以實現基礎機器閱讀理解模型參數的微調整,對模型繼續進行優化。由于最小風險訓練函數的思想是使用損失函數來描述模型輸出的答案與標準答案之間的差異程度、即損失,并試圖尋找一組模型參數使得機器閱讀理解模型在訓練集上損失值最小,因此,與單純利用極大似然估計函數相比,本申請提供的分階段方法所訓練出來的模型抽取答案可以更準確。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種機器閱讀理解模型的分階段訓練方法及裝置。
背景技術
目前,深度學習在圖像識別、語音識別等領域取得豐碩成果,機器閱讀理解(Machine Reading Comprehension,MRC)成為了人工智能研究與應用領域的新熱點,其主要功能是閱讀和理解給定的文章或上下文,自動給出相關的問題的答案。
隨著機器閱讀理解技術的發展,閱讀理解的任務也在不斷升級,從早期的“完形填空形式”,發展到基于維基百科的“單文檔閱讀理解”,如以斯坦福SQuAD(StanfordQuestion Answering Dataset,斯坦福問答數據集)為數據集的任務。并進一步升級至基于web(網頁)數據的“多文檔閱讀理解”,這一形式的典型代表是以微軟MS-MARCO(MicrosoftMAchine Reading Comprehension,微軟機器閱讀理解)、百度DuReader為數據集的任務。近年來,隨著閱讀理解任務不斷變化與發展,研究人員已經設計出多種深度學習模型,其中,有一類模型的輸出為針對問題所對應的答案在文檔中的的開始位置和結束位置。
目前,針對上述類型的機器閱讀理解的訓練方法通常是監督學習任務。所謂監督學習,是指訓練樣本不僅包含輸入,同時包含對應標準答案輸出。監督學習的慣用訓練準則是極大似然估計(MLE,Maximum Likelihood Estimation),其基本思想是一個好的模型應該盡可能使得觀測到的訓練樣本概率最大。但是,在后續評價模型好壞時,不同用戶往往有不同的側重點和需求,因而產生了多種多樣的評價方式,例如,采用BLEU(BilingualEvaluation Understudy,雙語評價)評價系統、ROUGE(Recall-Oriented Understand ForGisting Evalution,面向研究的提升評價輔助研究)評價系統、基于rough集的評價系統等。因此,上述使用似然函數,盡可能使觀測到的訓練樣本概率最大作為訓練階段的目標的方式,會存在與測試階段所使用評價指標不一致的問題。
發明內容
本發明實施例提供了一種機器閱讀理解模型的分階段訓練方法及裝置,以使訓練出來的模型抽取答案更準確,盡可能貼近用戶需求。
根據本發明實施例的第一方面,提供了一種機器閱讀理解模型的分階段訓練方法,該方法包括:
選取預設數目的樣本,作為訓練集;
將所述訓練集中的樣本數據輸入機器閱讀理解模型中,得到所述機器閱讀理解模型輸出的訓練集中各問題對應的答案,其中,包括答案的開始和結束位置、以及位于所述開始和結束位置的概率;
以最小化極大似然估計損失函數為目標,調整所述機器閱讀理解模型的參數,得到基礎機器閱讀理解模型;
將所述訓練集中的樣本數據輸入所述基礎機器閱讀理解模型中,得到所述基礎機器閱讀理解模型輸出的訓練集中各問題對應的答案;
以最小化最小風險訓練損失函數為目標,調整所述基礎機器閱讀理解模型的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽省泰岳祥升軟件有限公司,未經安徽省泰岳祥升軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811536824.5/2.html,轉載請聲明來源鉆瓜專利網。





