[發明專利]模型訓練、閱讀理解方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110661685.4 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113486174B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 劉操;馬兵;胡書杰;楊帆;蔡勛梁;萬廣魯;陳見聳 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06N3/08 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 閱讀 理解 方法 裝置 電子設備 存儲 介質 | ||
本公開實施例提供了一種模型訓練、閱讀理解方法、裝置、電子設備及存儲介質。模型訓練方法包括:獲取樣本文檔、樣本問題和樣本答案;基于樣本答案對樣本文檔進行標注,得到樣本文檔中各字符出現在樣本答案中的樣本標注概率;將樣本文檔和樣本問題作為初始模型的輸入,得到所述初始模型輸出的所述樣本文檔中各字符出現在所述樣本答案中的樣本預測概率;基于所述樣本標注概率和所述樣本預測概率確定訓練完成后,將訓練完成的模型作為分類模型。本公開實施例中,在模型訓練過程中,引入遠程監督的方式,自動構造標簽,不需要人工標注樣本答案在樣本文檔中出現的具體位置,從而使得大量的無標注數據集可以被利用,進而使分類模型達到更好的性能。
技術領域
本公開涉及數據處理技術領域,特別是涉及一種模型訓練、閱讀理解方法、裝置、電子設備及存儲介質。
背景技術
機器閱讀理解(Machine Reading Comprehension,MRC)是一種利用算法使計算機理解文章語義并回答相關問題的技術。近些年來,隨著機器學習,特別是深度學習的發展,機器閱讀理解研究有了長足的進步,并在實際應用中獲得了越來越多的關注。
隨著人工智能和深度學習技術的快速發展,機器閱讀理解的相關模型已經成為當前研究和應用的熱點內容。現有技術中,利用大量的樣本數據對機器閱讀理解的相關模型進行訓練,但是,需要對大規模的樣本數據進行人工標注,即在文檔中標注出答案的位置,這將耗費大量的人力物力,處理過程較為復雜。
發明內容
鑒于上述問題,本公開實施例提出了克服上述問題或者至少部分地解決上述問題的一種模型訓練、閱讀理解方法、裝置、電子設備及存儲介質。
根據本公開的實施例的第一方面,提供了一種模型訓練方法,包括:
獲取樣本文檔、樣本問題和樣本答案;
基于所述樣本答案對所述樣本文檔進行標注,得到所述樣本文檔中各字符出現在所述樣本答案中的樣本標注概率;
將所述樣本文檔和所述樣本問題作為初始模型的輸入,得到所述初始模型輸出的所述樣本文檔中各字符出現在所述樣本答案中的樣本預測概率;
基于所述樣本標注概率和所述樣本預測概率確定訓練完成后,將訓練完成的模型作為分類模型。
可選地,基于所述樣本答案對所述樣本文檔進行標注,得到所述樣本文檔中各字符出現在所述樣本答案中的樣本標注概率,包括:將所述樣本文檔中,出現在所述樣本答案中的字符的樣本標注概率標記為第一預設概率;將所述樣本文檔中,未出現在所述樣本答案中的字符的樣本標注概率標記為第二預設概率;其中,所述第一預設概率大于所述第二預設概率。
根據本公開的實施例的第二方面,提供了一種閱讀理解方法,包括:
獲取待識別文檔和待識別問題;
將所述待識別文檔和所述待識別問題輸入預先訓練的分類模型,得到所述分類模型輸出的所述待識別文檔中各字符出現在答案中的預測概率;其中,所述分類模型通過如上任一項所述的模型訓練方法得到;
基于所述預測概率確定答案。
可選地,基于所述預測概率確定答案,包括:從所述待識別文檔中抽取片段;基于所述片段中各字符對應的預測概率,計算所述片段的密度;選取密度最大的片段作為所述答案。
可選地,從所述待識別文檔中抽取片段,包括:以字符為粒度,從所述待識別文檔中抽取包含至少一個字符的片段;和/或,對所述待識別文檔進行分詞,以詞為粒度,從所述待識別文檔抽取包含至少一個詞的片段;和/或,對所述待識別文檔進行分句,以句子為粒度,從所述待識別文檔抽取包含至少一個句子的片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110661685.4/2.html,轉載請聲明來源鉆瓜專利網。





