[發明專利]文檔檢索方法、設備及計算機可讀存儲介質有效
| 申請號: | 202011215045.2 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112347223B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 王偉;李響;鄧俊毅;謝超 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/36;G06F40/216;G06F40/295;G06F40/30;G06N3/0442;G06N3/049;G06N3/08 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 魏潤潔 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 檢索 方法 設備 計算機 可讀 存儲 介質 | ||
本發明涉及自然語言處理,提供一種文檔檢索方法、設備及介質。本發明通過獲取被檢索文檔的多層級跨句語義信息,能夠挖掘到被檢索文檔在單詞級、句子級再到文檔級層面的內在語義的聯系,并提取跨句語義信息,為后續在預訓練語言模型中進行匹配提供了更為全面的文檔特征;通過對模型采用不同比例掩蓋處理方式進行預訓練,使得模型能夠對文檔中的單詞采用不同的掩蓋處理方式,有利于捕捉更重要的內在聯系;通過為模型輸入被檢索文件的多層級跨句語義信息,并結合模型的不同比例掩蓋處理方式進一步挖掘語義內在聯系,使得模型所得到的特征相似度更為精確,匹配結果也更加準確。此外,本發明還涉及區塊鏈技術,上述被檢索文檔可存儲于區塊鏈中。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種文檔檢索方法、設備及計算機可讀存儲介質。
背景技術
信息檢索一直是自然語言處理中的重要領域。該領域的基本思路是:分別提取檢索內容和被檢索內容的文檔特征,通過相似性算法來獲得最匹配的檢索內容,被檢索內容文檔對。而預訓練語言模型近年來在文檔分類、智能問答、機器閱讀、文檔摘要等眾多自然語言處理領域都取得很好效果,目前主流方法大都以谷歌開源的預訓練模型BERT為基礎再加以改進,但BERT本身設計存在一些缺陷,例如:訓練時對語料中句子隨機位置的單詞進行掩蓋,模型假設各個單詞之間互相是獨立的,但實際上很多單詞之間隱含了豐富的語義特征,BERT的做法丟失了很多內在語義特征,導致后續任務精度的下降;簡單地將單詞的詞嵌入向量,位置向量等向量相加,作為transformer模型的輸入向量,對句子乃至整個文檔內在的語義關聯度考慮不夠全面等。現有方法在這兩點上基本繼承了BERT原來的處理思路,因此依然存在著精確度不高的問題。
發明內容
本發明的主要目的在于提供一種文檔檢索方法、設備及計算機可讀存儲介質,旨在解決現有的基于預訓練語言模型的檢索精確度不高的技術問題。
為實現上述目的,本發明提供一種文檔檢索方法,所述文檔檢索方法包括以下步驟:
獲取被檢索文檔經整合后所得的被檢索文檔矩陣,并基于所述被檢索文檔矩陣提取所述被檢索文檔的多層級跨句語義信息,以得到包含所述多層級跨句語義信息的第一輸入向量;
獲取包含有預設檢索文檔庫中若干檢索文檔的多層級跨句語義信息的第二輸入向量集,并將所述第一輸入向量與所述第二輸入向量集作為采用不同比例掩蓋處理方式訓練后的預訓練語言模型的輸入,得到所述第一輸入向量與所述第二輸入向量集之間的特征相似度,以基于所述特征相似度確定出與所述被檢索文檔相匹配的目標檢索文檔。
可選地,所述基于所述被檢索文檔矩陣提取所述被檢索文檔的多層級跨句語義信息,以得到包含所述多層級跨句語義信息的第一輸入向量,包括:
獲取所述被檢索文檔矩陣的詞向量與位置向量;
基于詞頻-逆文檔頻率算法與命名實體識別技術,得到用于獲取所述被檢索文檔矩陣的鄰接語義向量的目標備選詞集合;
基于長短時記憶網絡模型,對所述目標備選詞集合中的每一備選詞進行編碼,以得到所述被檢索文檔矩陣的鄰接語義向量;
將所述詞向量、所述位置向量與所述鄰接語義向量作為所述第一輸入向量,其中,所述第一輸入向量存儲于區塊鏈中。
可選地,所述基于詞頻-逆文檔頻率算法與命名實體識別技術,得到用于獲取所述被檢索文檔矩陣的鄰接語義向量的目標備選詞集合,包括:
使用詞頻-逆文檔頻率算法對所述被檢索文檔矩陣中的詞序列進行加權處理,生成所述被檢索文檔矩陣對應的詞頻-逆文檔頻率屬性隊列;
對所述被檢索文檔矩陣的每一詞序列進行詞性分析,得到所述被檢索文檔矩陣對應的詞性頻率屬性隊列;
使用命名實體識別技術,識別所述被檢索文檔矩陣中每一語句序列的實體,并結合預設知識圖譜三元組,得到所述被檢索文檔矩陣對應的實體共現頻率屬性隊列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011215045.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種混凝土加工用攪拌裝置
- 下一篇:一種無框車窗的控制方法、裝置、系統及介質





