[發明專利]一種基于bert并融合句群檢索的答案抽取方法有效
申請號: | 202110361140.1 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113032541B | 公開(公告)日: | 2023-05-12 |
發明(設計)人: | 程燕;朱江;張振海 | 申請(專利權)人: | 同方知網數字出版技術股份有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司 |
主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/126;G06F40/216 |
代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 陳新勝 |
地址: | 100192 北京市海淀區西小口路66號中關村東升科技*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 bert 融合 檢索 答案 抽取 方法 | ||
1.一種基于bert并融合句群檢索的答案抽取方法,其特征在于,所述方法包括:
A構建基于bert的答案抽取模型;
B基于生成的答案抽取模型,聯合句群相似檢索技術進行問題答案的抽取;具體包括:
從文檔中利用片段相似檢索技術將與待回答問題有淺層語義相關的句群片段找見,并進行相關度評分;
根據評分高低排序,獲取滿足特定閾值評分的句群片段作為候選句群片段;
將候選句群片段以及待回答問題輸入基于bert的答案抽取模型,進行答案跨度預測;
答案起始和結束位置,依據原文句群片段內容,計算具體的答案結果;
所述A基于bert的答案抽取模型的構建具體包括:
數據預處理,對問題和文本片段處理,將句子轉為字符級序列;將問題序列和文本序列相連接并分隔,對連接的序列做預處理,輸入問題和文本短序列的長度大于規定的最大序列長度時,將文本片段以一定的步長分割為若干段并分別與問題連接;
將問題和文本同時進行編碼;
問題編碼將問題中的每個單詞qi的embedding應用一個編碼網絡,獲得通過attention層聚合這些隱變量到一個向量中;及獲得
將問題編碼與文本編碼交互混合預測答案,進行訓練調優;
有了片段P的表示和問題q的表示應用attention機制的想法,分別訓練兩個分類器,一個用來預測范圍的開始位置,另一個用來預測結束位置;按公式:
計算預測答案,式中P(start)表示開始位置概率,表示結束位置概率;模型訓練中需要按公式:
L=-∑logP(start)(astart)-∑logP(end)(aend)
計算最小化交叉熵損失,式中astart表示訓練數據標注的答案開始位置概率,aend表示訓練數據標注的答案結束位置概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網數字出版技術股份有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司,未經同方知網數字出版技術股份有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361140.1/1.html,轉載請聲明來源鉆瓜專利網。