[發明專利]排序模型確定方法、排序方法、裝置及電子設備在審
| 申請號: | 202010750541.1 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN111858895A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 王福釙;杜新凱;韓佳;史輝;高峰;劉謙;史祎凡;蔡巖松 | 申請(專利權)人: | 陽光保險集團股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/335;G06F16/9535;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 排序 模型 確定 方法 裝置 電子設備 | ||
本申請涉及一種排序模型確定方法、排序方法、裝置及電子設備。排序模型確定方法包括:針對多個候選文檔集中的每個候選文檔集,根據訓練問題集中每個訓練問題對應的問題答案,為候選文檔集包括的每篇候選文檔添加文檔標記;針對多個候選文檔集中的每個候選文檔集,構建對應的訓練數據集,以獲得多個訓練數據集,訓練數據集包括訓練問題集中每個訓練問題,以及訓練數據集對應的候選文檔集中,添加有文檔標記的每篇候選文檔;通過多個訓練數據集,分別對預訓練語言模型進行訓練,獲得多個排序模型;分別對多個排序模型進行測試,獲得多個測試結果,最終,從多個排序模型中選取出目標模型。前述排序模型確定方法能保證目標模型輸出結果的準確性。
技術領域
本申請涉及機器閱讀理解技術領域,具體而言,涉及一種排序模型確定方法、排序方法、裝置及電子設備。
背景技術
近些年,機器閱讀理解被廣泛的應用于各種文章的動態信息抽取,以及各種問答機器人的輔助上,然而,在未給定回答目標問題的文檔時,想要獲得答案,召回文檔就顯得至關重要了。目前,召回文檔的通用辦法是通過搜索引擎,從文檔數據庫中,召回多個與目標問題對應的多個候選文檔。以Elastic Search搜索引擎為例,雖然其召回TOP10的準確率已經達到90%,但是對于基于閱讀理解式的問答系統,從TOP10的候選文檔中去尋找答案的計算量和準確度都是一種挑戰。另外,現有的預訓練語言模型都是通用領域的,通過通用領域的預訓練語言模型去處理領域內任務會損失一定程度的準確度。
發明內容
本申請的目的在于,提供一種排序模型確定方法、排序方法、裝置及電子設備,以解決上述問題。
第一方面,本申請提供的排序模型確定方法,包括:
通過搜索引擎,從文檔數據庫中,召回多個與訓練問題集對應的候選文檔集,多個候選文檔集中,每個候選文檔集包括的候選文檔數量不同;
針對多個候選文檔集中的每個候選文檔集,根據訓練問題集中每個訓練問題對應的問題答案,為候選文檔集包括的每篇候選文檔添加文檔標記;
針對多個候選文檔集中的每個候選文檔集,構建對應的訓練數據集,以獲得多個訓練數據集,訓練數據集包括訓練問題集中每個訓練問題,以及訓練數據集對應的候選文檔集中,添加有文檔標記的每篇候選文檔;
通過多個訓練數據集,分別對預訓練語言模型進行訓練,獲得多個排序模型;
分別對多個排序模型進行測試,獲得多個測試結果,以根據多個測試結果,從多個排序模型中選取出目標模型。
本申請實施例提供的排序模型確定方法實施過程結合了搜索引擎和預訓練語言模型,同時,由于通過多個訓練數據集,分別對預訓練語言模型進行訓練,獲得多個排序模型,而每個訓練數據集中包括的候選文檔數量不同,也即,每個訓練數據集的大小是不同的,因此,獲得的多個排序模型的排序準確率也是不同的,此后,分別對多個排序模型進行測試,獲得多個測試結果,以根據多個測試結果,從多個排序模型中選取出目標模型,便能夠保證目標模型輸出結果的準確性。
結合第一方面,本申請實施例還提供了第一方面的第一種可選的實施方式,通過搜索引擎,從文檔數據庫中,召回多個與訓練問題集對應的候選文檔集,包括:
確定出多個比例數值,多個比例數值中,每個比例數值不同,且每個比例數值為大于1的整數;
針對多個比例數值中的每個比例數值,針對訓練問題集中的每個訓練問題,通過搜索引擎,從文檔數據庫中,召回比例數值篇與訓練問題對應的候選文檔,組成一個候選文檔集,以獲得多個候選文檔集。
結合第一方面的第一種可選的實施方式,本申請實施例還提供了第一方面的第二種可選的實施方式,通過搜索引擎,從文檔數據庫中,召回比例數值篇與訓練問題對應的候選文檔,組成一個候選文檔集,包括:
通過關鍵詞抽取算法,從訓練問題中,獲取至少一個關鍵詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陽光保險集團股份有限公司,未經陽光保險集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010750541.1/2.html,轉載請聲明來源鉆瓜專利網。





