[發明專利]哈希碼的生成方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110733009.3 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113821527A | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 歐子菁;趙瑞輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F40/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 哈希碼 生成 方法 裝置 計算機 設備 存儲 介質 | ||
本申請公開了一種哈希碼的生成方法、裝置、計算機設備及存儲介質,涉及人工智能技術領域。該方法包括:生成目標文本的初始哈希碼;根據所述目標文本和所述初始哈希碼的聯合概率分布,建立所述目標文本的語義哈希模型;根據所述初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣,得到所述語義哈希模型的后驗概率分布,所述采樣概率分布為根據所述初始哈希碼和所述目標文本確定的條件概率分布;根據所述后驗概率分布確定所述目標文本對應的校正哈希碼。本申請提供了一種通過對初始哈希碼進行采樣,獲得更能體現目標文本的離散表征的校正哈希碼的方法,提高了生成哈希碼的質量,提升了語義哈希模型的準確性。
技術領域
本申請涉及人工智能技術領域,特別涉及一種哈希碼的生成方法、裝置、計算機設備及存儲介質。
背景技術
在數據檢索的很多應用場景中,需要通過對文本進行相似度計算來確定出與檢索條件最為匹配的目標文本。人工智能技術中的語義哈希算法將文本映射為哈希碼,通過對哈希碼之間的漢明距離的計算來實現對文本的相似度計算。該語義哈希算法通過文本和哈希碼之間的聯合概率分布建立語義哈希模型,并通過計算語義哈希模型的后驗概率分布,得到文本對應的哈希碼。
語義哈希模型中的后驗概率分布通常難以計算,相關技術中通過變分推斷來對語義哈希模型的后驗概率分布進行近似計算,但距離真實的后驗概率分布有較大差距,導致語義哈希模型的準確度下降。
如何在語義哈希模型中更好地擬合后驗概率分布,提高語義哈希模型的精度,是需要解決的問題。
發明內容
本申請實施例提供了一種哈希碼的生成方法、裝置、計算機設備及存儲介質,能夠提高語義哈希模型的準確度。所述技術方案如下:
一方面,提供了一種哈希碼的生成方法,所述方法包括:
生成目標文本的初始哈希碼;
根據所述目標文本和所述初始哈希碼的聯合概率分布,建立所述目標文本的語義哈希模型;
根據所述初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣,得到所述語義哈希模型的后驗概率分布,所述采樣概率分布為根據所述初始哈希碼和所述目標文本確定的概率分布;
根據所述后驗概率分布確定所述目標文本對應的校正哈希碼。
另一方面,提供了一種文本匹配方法,所述方法包括:
獲取輸入的第一文本;
獲取所述第一文本的第一哈希碼和候選文本的第二哈希碼,所述第一哈希碼和所述第二哈希碼均為根據初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣后得到的校正哈希碼,所述初始哈希碼為基于所述第一文本和所述候選文本生成的哈希碼,所述采樣概率分布為根據所述初始哈希碼和所述候選文本確定的條件概率分布;計算所述第一哈希碼和所述第二哈希碼的漢明距離;
將與所述第一哈希碼的所述漢明距離最小的第二哈希碼對應的候選文本確定為第二文本,所述第二文本為與所述第一文本最相似的文本。
另一方面,提供了一種哈希碼的生成裝置,所述裝置包括:
生成模塊,用于生成目標文本的初始哈希碼;
模型建立模塊,用于根據所述目標文本和所述初始哈希碼的聯合概率分布,建立所述目標文本的語義哈希模型;
采樣模塊,用于根據所述初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣,得到所述語義哈希模型的后驗概率分布,所述采樣概率分布為根據所述初始哈希碼和所述目標文本確定的概率分布;
確定模塊,用于根據所述后驗概率分布確定所述目標文本對應的校正哈希碼。
另一方面,提供了一種文本匹配裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110733009.3/2.html,轉載請聲明來源鉆瓜專利網。





