[發明專利]基于語義變化流形分析獲取問答相關段落的方法、裝置有效
| 申請號: | 202110213301.2 | 申請日: | 2021-02-26 |
| 公開(公告)號: | CN112800205B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 丁銳東;周斌;涂宏魁;賈焰;李愛平;王曄;喻承 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/30;G06F40/289;G06F16/953 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 陳松 |
| 地址: | 410000 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 變化 流形 分析 獲取 問答 相關 段落 方法 裝置 | ||
本發明提供了基于語義變化流形分析獲取問答相關段落的方法、裝置、計算機存儲介質,可以快速而準確的提取出可能包含答案的段落,提升公開域問答的效率,包括步驟:依據問題,在互聯網各公開搜索引擎中進行搜索,從中抽取段落作為匹配度計算語料,進行分詞,并將分詞結果拼接為問題詞序列和段落詞序列,進行滑動窗口切片得到段落子詞序列,隨后進行嵌入表示,再通過映射模型轉換得到兩個相同維度的映射向量并計算相似度,將得到相似度組成語義變化趨勢曲線,采用流形學習的方法提取流形特征,構建流形特征的高維映射,將高維映射輸入訓練好的權重模型,得到問題與匹配度計算語料中各段落的匹配度得分,取得分最高的k個段落作為問答最相關的段落。
技術領域
本發明屬于公開域問答、深度學習技術領域,基于語義變化流形分析獲取問答相關段落的方法、裝置。
背景技術
公開域問答(Open-domin QA)是在給定問題的同時,不直接提供某篇文檔或者給定段落,而是需要在某個大型文檔集合或者整個互聯網絡中尋找答案。通常來說,公開域問答需要先根據給定問題檢索出相關文檔直到搜索出段落,再通過閱讀理解給出答案,這個過程通常需要對段落進行打分和排序來完成。此外,針對可能存在的復合問題,也可能需要搜索得到多個段落,以支持進行多步推理,根據橋接信息去尋找最終答案。
機器閱讀理解從給定的段落中抽取或者理解出答案來回答問題,其過程往往需要復雜的的數學概率模型及計算步驟來實現,在大規模的文檔集合中直接應用其消耗的資源巨大。因此,提供一種快速而準確的文檔段落檢索方式,支持提取出可能包含答案的段落,可以大幅提升公開域問答的效率,具備現實意義。
發明內容
針對上述問題,本發明提供了基于語義變化流形分析獲取問答相關段落的方法、裝置、計算機存儲介質,其可以快速而準確的從大規模的文檔中提取出可能包含答案的段落,可以大幅提升公開域問答的效率。
其技術方案是這樣的:基于語義變化流形分析獲取問答相關段落的方法,其特征在于,包括以下步驟:
步驟1:依據用戶所提供的問題,在互聯網各公開搜索引擎中進行搜索,從搜索結果中抽取前N項內容對應的段落作為匹配度計算語料;
步驟2:對問題文本和匹配度計算語料文本進行分詞,并分別將分詞結果拼接為問題詞序列和段落詞序列,將段落詞序列進行滑動窗口切片,得到段落子詞序列,通過預訓練的語義表示模型,得到問題詞序列和段落子詞序列的嵌入表示;
步驟3:構建并訓練基于深度學習網絡的映射模型,通過映射模型得到的問題詞序列和段落子詞序列的嵌入表示轉換為兩個相同維度的映射向量,計算兩個映射向量的相似度,按照滑動窗口的時序將得到的相似度組成語義變化趨勢曲線;
步驟4:采用流形學習的方法提取語義變化趨勢曲線的流形特征,構建流形特征的高維映射;
步驟5:構建高維映射的權重模型,輸入訓練集的流形特征的高維映射訓練權重模型,直至權重模型收斂;
步驟6:將流形特征的高維映射輸入訓練好的權重模型,計算得到問題與匹配度計算語料中各段落的匹配度得分,取得分最高的k個段落作為問答最相關的段落。
進一步的,步驟2具體包括以下步驟:
步驟201:對問題文本和匹配度計算語料文本進行分詞,并分別將分詞結果按照語料中先后順序拼接為問題詞序列和段落詞序列;
步驟202:將段落詞序列按照固定的步長l與固定的窗口大小w進行滑動窗口切片,得到段落子詞序列,其中lw/2;
步驟203:基于Bert-base-chinese的預訓練語義表示模型,構建BERT網絡編碼器,通過BERT網絡編碼器將問題詞序列和段落子詞序列進行嵌入表示。
進一步的,步驟3具體包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110213301.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于貪婪算法和搜索算法的組合測試用例生成算法
- 下一篇:一種船舶組裝方法





