[發明專利]一種基于bert并融合句群檢索的答案抽取方法有效
申請號: | 202110361140.1 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113032541B | 公開(公告)日: | 2023-05-12 |
發明(設計)人: | 程燕;朱江;張振海 | 申請(專利權)人: | 同方知網數字出版技術股份有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司 |
主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/126;G06F40/216 |
代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 陳新勝 |
地址: | 100192 北京市海淀區西小口路66號中關村東升科技*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 bert 融合 檢索 答案 抽取 方法 | ||
本發明公開了一種基于bert并融合句群檢索的答案抽取方法,包括:構建基于bert的答案抽取模型;基于生成的答案抽取模型,聯合句群相似檢索技術進行問題答案的抽?。痪唧w包括:從文檔中利用片段相似檢索技術將與待回答問題有淺層語義相關的句群片段找見,并進行相關度評分;根據評分高低排序,獲取滿足特定閾值評分的句群片段作為候選句群片段;將候選句群片段以及待回答問題輸入基于bert的答案抽取模型,進行答案跨度預測;答案起始和結束位置,依據原文句群片段內容,計算具體的答案結果。
技術領域
本發明涉及人工智能、自然語言處理技術領域,尤其涉及一種基于bert并融合句群相似檢索的答案抽取方法。
背景技術
答案抽取是問答系統核心技術之一,也是一種抽取式閱讀理解,其是自然語言處理、人工智能領域核心任務之一,近些年受到了廣泛的關注和研究。抽取式閱讀理解技術,即機器從大量文本中快速找到問題的準確答案,提升信息獲取、知識獲取的效率。
早期的問答系統答案抽取依賴手工規則或特性,特征通常非常稀疏,泛化能力弱,很難推廣到更廣的領域。近年來,隨著深度學習技術的使用,抽取式閱讀理解能力有了大幅提高,能夠更好的實現語義表達。基于深度學習的答案抽取相比傳統方法有了一定的進展,在簡單事實類型問題的答案抽取上取得了較好的效果,但在非簡單事實類型問題方面仍表現不佳,研究進展較慢,存在很大的提升空間,當前更多是學術界的研究。目前答案抽取仍面臨以下問題:
(1)答案抽取準確性不高,實際應用效果差,適應性弱;
(2)缺乏大規模規范語料,語料標注成本高,尤其中文大規模訓練數據缺失,領域遷移困難;
綜上,抽取式閱讀理解技術,面向問題的答案抽取,在實際應用中仍存在很多問題亟待解決,答案抽取效果不佳,領域遷移難。
發明內容
為解決上述技術問題,解決從結構化文本中提取定義、方法、原因、人物、時間、地點等類型問題的答案,并將其應用到具體的知識問答中,本發明的目的是提供一種基于bert并融合句群相似檢索的答案抽取方法,由此解決答案抽取效果不佳問題,提升答案抽取準確性。
本發明的目的通過以下的技術方案來實現:
一種基于bert并融合句群相似檢索的答案抽取方法,包括:
A構建基于bert的答案抽取模型;
B基于生成的答案抽取模型,聯合句群相似檢索技術進行問題答案的抽?。痪唧w包括:
從文檔中利用片段相似檢索技術將與待回答問題有淺層語義相關的句群片段找見,并進行相關度評分;
根據評分高低排序,獲取滿足特定閾值評分的句群片段作為候選句群片段;
將候選句群片段以及待回答問題輸入基于bert的答案抽取模型,進行答案跨度預測;
答案起始和結束位置,依據原文句群片段內容,計算具體的答案結果。
與現有技術相比,本發明的一個或多個實施例可以具有如下優點:
通過將整篇文檔碎片化為句群片段,再通過淺層語義匹配打分排序,獲取與問題最相關的候選句群片段,基于這樣的數據處理,再利用基于bert微調(Pre-trained?Model+Fine?Tuning模式)的答案抽取模型進行答案推理預測,這種兩者融合的方式,能夠有效排除不包含答案的片段,減少無答案片段時的噪音,可有效提升答案抽取效果。通過實際評測,在中文答案抽取任務上表現較好,優于單一模型解決方案,領域遷移,適合長文檔、短文檔的問題答案抽取。
訓練數據的短缺是最大的挑戰之一,預訓練使用更小的數據集對預訓練模型進行微調,與使用大量數據集進行的傳統訓練方法相比,已有很大的改進。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網數字出版技術股份有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司,未經同方知網數字出版技術股份有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361140.1/2.html,轉載請聲明來源鉆瓜專利網。