[發明專利]一種結合外部知識的文本向量檢索方法有效
| 申請號: | 202011612232.4 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112685538B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 史樹敏;劉宏玉;黃河燕 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F40/211;G06F40/30;G06F40/289 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 外部 知識 文本 向量 檢索 方法 | ||
本發明涉及一種結合外部知識的文本向量檢索方法,屬于開放域文檔檢索應用技術領域。本方法旨在文本向量空間模型的框架中,引入語言本身的句法結構和詞性信息來獲得問題的子條件結構,將問題表示成若干個子條件,同時通過BM25算法召回文檔來計算問題每個子條件的重要程度,為問題最終的表示提供額外的訓練標簽。本方法通過提取的子條件以及BM25算法引入的相應的權重分數來優化現有表示方法,最終達到提升文本向量方法檢索性能的目的。本方法可以利用基于預訓練的深度學習模型獲得更好的表示能力和泛化能力,能夠更好的建模問題和文檔的語義信息,提升了開放域檢索的檢索質量。
技術領域
本發明涉及一種結合外部知識的文本向量檢索方法,具體涉及一種利用詞性和句法標簽信息將問題文本拆解成若干子條件,利用現有算法提供的詞匯匹配信息衡量子條件在問題中的重要程度,以增強條件信息融合的文本向量檢索方法,屬于開放域文檔檢索應用技術領域。
背景技術
近幾年,開放域問答系統(Open Domain Question Answering,OPQA)在自然語言處理領域獲得了廣泛關注。
開放域問答系統分為流水線式兩個框架。針對開放域問題,首先由開放域文檔檢索系統針對當前問題召回相關文檔,然后由開放域機器閱讀理解模型對從相關文檔中抽取問題所對應的答案。開放域機器閱讀理解模型,沿用傳統機器閱讀理解模型,建模問題與文檔的相關性,從文檔中選擇一個文本片段作為答案。隨著2018年底預訓練模型的提出,傳統機器閱讀理解效果得到了顯著的提高,因此,研究人員拓展了開放域問答系統研究方向,需要由模型自主完成檢索和閱讀的兩大過程。其中,檢索為問題提供相關文檔,如果在檢索過程無法提供正確文檔,則機器閱讀理解模型無法從中選擇出正確的答案。同時,開放域文檔檢索系統需要面對百萬級的文檔數量,在兼顧檢索性能的同時還需要考慮模型的計算效率。
開放域文檔檢索系統的目的,是從百萬級文檔中檢索出與問題相關的文檔,針對搜索空間大和相關文檔數量小的特點,檢索系統應該在保證檢索精度的同時提高檢索效率,因此,無法對每個問題和百萬級文檔進行分別建模。
而傳統的解決開放域文檔檢索系統的方法,是利用傳統搜索引擎檢索相關技術幫助建模問題與文檔的相關性,例如BM25算法,該算法無需訓練,對于百萬級文檔語料庫,利用現有分詞技術和倒排索引技術可以構建單詞與包含該單詞的全部文檔的映射關系,并且可以提前計算當前單詞的重要性,即逆文檔頻率,表明在語料庫中越少出現的單詞應該越代表文檔的特殊性。問題進行分詞后,召回每個詞語所對應的文檔集合,對文檔集合分別計算問題與文檔的相關性得分。BM25算法的特點在于實現效率快,基于倒排的BM25分數可以快速縮小待比對文檔數量,同時基于詞與詞的匹配關系可以召回與問題相似的文檔內容,保證召回文檔的準確性。
但是,基于BM25算法的文檔檢索系統缺點也十分明顯,其無法對語義進行建模,檢索文檔必須要求詞之間的完全匹配會導致大量語義相關的文檔被漏召回。
因此,研究人員提出了基于文本向量空間的雙塔召回模型,將問題和文檔分別編碼到相同的語義空間,用相似度函數計算問題與文檔的相關性分數,排序后選取top-k文檔進行輸出。基于文本向量空間模型考慮了文本之間語義近似程度,從語義角度召回相關文檔可以為后續閱讀理解模型提供更豐富的文檔信息。
但是,文本向量空間模型僅利用純文本進行建模,忽略了語言相關知識,容易造成文本向量空間的語義漂移等問題,同時無法利用或結合現有BM25算法提供的較強詞匯匹配的信息。
發明內容
本發明的目的是為了解決現有的文檔檢索系統中,文本向量空間模型僅利用純文本建模,忽略了語言相關知識等問題而導致的模型表示空間語義漂移的技術缺陷,提出一種結合外部知識的文本向量檢索方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011612232.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種管樁專用行車變頻調速控制系統
- 下一篇:一種潛水泵電纜進線密封結構





