[發明專利]哈希碼的生成方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110733009.3 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113821527A | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 歐子菁;趙瑞輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F40/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 哈希碼 生成 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種哈希碼的生成方法,其特征在于,所述方法包括:
生成目標文本的初始哈希碼;
根據所述目標文本和所述初始哈希碼的聯合概率分布,建立所述目標文本的語義哈希模型;
根據所述初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣,得到所述語義哈希模型的后驗概率分布,所述采樣概率分布為根據所述初始哈希碼和所述目標文本確定的條件概率分布;
根據所述后驗概率分布確定所述目標文本對應的校正哈希碼。
2.根據權利要求1所述的方法,其特征在于,所述根據所述初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣,得到所述語義哈希模型的后驗概率分布,包括:
根據所述初始哈希碼和所述目標文本,基于馬爾科夫鏈確定對所述初始哈希碼進行采樣的采樣概率分布;
根據所述采樣概率分布對所述初始哈希碼進行n輪采樣,得到所述語義哈希模型的所述后驗概率分布,n為正整數。
3.根據權利要求2所述的方法,其特征在于,所述初始哈希碼有d個維度,對所述初始哈希碼進行n輪次采樣;
所述根據所述初始哈希碼和所述目標文本,基于馬爾科夫鏈確定對所述初始哈希碼進行采樣的采樣概率分布,包括:
根據所述初始哈希碼中除第k維度以外的其余維度和所述目標文本,確定對所述初始哈希碼的第k維度進行第一輪次采樣時的采樣概率分布,k為不大于d的正整數;
根據對所述初始哈希碼進行第t-1輪次采樣后獲得的第t-1哈希碼中除第k維度以外的其他維度和所述目標文本,確定對所述第t-1哈希碼的第k維度進行第t輪次采樣時的采樣概率分布,k為不大于d的正整數,t為大于1且不大于n的整數。
4.根據權利要求1至3任一所述的方法,其特征在于,所述生成所述目標文本的初始哈希碼,包括:
隨機生成所述目標文本的所述初始哈希碼;
或,
通過編碼器生成所述目標文本的所述初始哈希碼。
5.根據權利要求4所述的方法,其特征在于,所述編碼器是采用如下步驟訓練得到的:
確定所述編碼器的損失函數;
基于所述損失函數采用期望最大化算法對所述編碼器的參數進行訓練。
6.一種文本匹配方法,其特征在于,所述方法包括:
獲取輸入的第一文本;
獲取所述第一文本的第一哈希碼和候選文本的第二哈希碼,所述第一哈希碼和所述第二哈希碼均為根據初始哈希碼的采樣概率分布對所述初始哈希碼進行采樣后得到的校正哈希碼,所述初始哈希碼為基于所述第一文本和所述候選文本生成的哈希碼,所述采樣概率分布為根據所述初始哈希碼和所述候選文本確定的條件概率分布;
計算所述第一哈希碼和所述第二哈希碼的漢明距離;
將與所述第一哈希碼的所述漢明距離最小的第二哈希碼對應的候選文本確定為第二文本,所述第二文本為與所述第一文本最相似的文本。
7.根據權利要求6所述的方法,其特征在于,所述將與所述第一哈希碼的所述漢明距離最小的第二哈希碼對應的候選文本確定為第二文本,包括:
將與所述第一哈希碼的所述漢明距離最小的所述第二哈希碼輸入生成器,得到所述第二哈希碼對應的后驗概率分布;
基于所述第二哈希碼對應的后驗概率分布確定所述第二哈希碼對應的第二文本。
8.根據權利要求7所述的方法,其特征在于,所述生成器是采用如下步驟訓練得到的:
確定所述生成器的損失函數;
基于所述損失函數采用期望最大化算法對所述編碼器的參數進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110733009.3/1.html,轉載請聲明來源鉆瓜專利網。





