[發明專利]頁面關聯方法、設備及存儲介質在審
| 申請號: | 202210633456.6 | 申請日: | 2022-06-06 |
| 公開(公告)號: | CN115168685A | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 傅凌進;吳瀚宇;徐融冰;劉同華;賀同;蔣勇翔;高西蒙;喻振華;孔琳琳;吳翰清 | 申請(專利權)人: | 阿里云計算有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F40/30;G06F16/35;G06N3/04 |
| 代理公司: | 北京太合九思知識產權代理有限公司 11610 | 代理人: | 劉瑞霞 |
| 地址: | 310012 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 關聯 方法 設備 存儲 介質 | ||
1.一種頁面關聯方法,其特征在于,包括:
獲取待顯示頁面的頁面信息;
對所述頁面信息進行語義提取,以確定所述頁面信息的語義向量;
根據所述頁面信息的語義向量,確定所述頁面信息的關聯信息;
根據所述頁面信息的關聯信息,確定所述待顯示頁面的關聯頁面;
對所述待顯示頁面和所述關聯頁面進行頁面互鏈,以得到相關內容聚合頁。
2.根據權利要求1所述的方法,其特征在于,所述對所述頁面信息進行語義提取,以確定所述頁面信息的特征向量,包括:
利用隱含語義編碼模型對所述頁面信息進行語義提取,以得到所述頁面信息的語義向量。
3.根據權利要求2所述的方法,其特征在于,在利用隱含語義編碼模型對所述頁面信息進行語義提取之前,還包括:
獲取已知語義相關的正樣本對和已知語義無關的負樣本對;所述正樣本對包括:語義相關的文本;所述負樣本對包括:語義無關的文本;
以損失函數最小化為訓練目標,利用所述正樣本對和所述負樣本對對初始隱含語義編碼模型進行模型訓練,以得到所述隱含語義編碼模型;
其中,所述損失函數是根據模型訓練輸出的所述正樣本對的相關性與所述正樣本對的相關性真值之間的差異,以及,模型訓練輸出的所述負樣本對的相關性與所述負樣本對的相關性真值之間的差異確定的。
4.根據權利要求1所述的方法,其特征在于,所述根據所述頁面信息的語義向量,確定所述頁面信息的關聯信息,包括:
利用所述頁面信息的語義向量在文本向量庫中進行向量召回,以從所述語義向量庫中選擇所述頁面信息對應的候選文本向量;
根據所述候選文本向量,確定目標文本向量;
確定所述目標文本向量對應的文本信息,為所述頁面信息的關聯信息。
5.根據權利要求4所述的方法,其特征在于,所述利用所述頁面信息的語義向量在文本向量庫中進行向量召回,以從所述文本向量庫中選擇所述頁面信息對應的候選文本向量,包括:
利用近似最近鄰算法,對所述文本向量庫進行空間劃分,得到多層文本向量空間;
根據指定的候選文本向量的數量,從多層文本向量空間中確定所述頁面信息的語義向量所屬的目標文本向量子空間;
從目標文本向量子空間包含的文本向量中選擇所述候選文本向量。
6.根據權利要求4所述的方法,其特征在于,所述根據所述候選文本向量,確定所述目標文本向量,包括:
計算所述頁面信息的語義向量與所述候選文本向量之間的相似度;
根據所述頁面信息包含的所述待顯示頁面的上下文信息及所述頁面信息的語義向量與所述候選文本向量之間的相似度,從所述候選文本向量中選擇目標文本向量。
7.根據權利要求1所述的方法,其特征在于,所述根據所述頁面信息的關聯信息,確定所述待顯示頁面的關聯頁面,包括:
利用所述頁面信息的關聯信息,在預先生成的組合詞與頁面之間的對應關系中進行查詢,以得到所述頁面信息的關聯信息對應的頁面,作為所述待顯示頁面的關聯頁面。
8.根據權利要求7所述的方法,其特征在于,還包括:
對已知詞庫中的詞語進行詞性分析,以確定所述已知詞庫中詞語的詞性;
根據所述已知詞庫中詞語的詞性,對所述已知詞庫中的詞語進行組合,以得到候選組合詞;
對所述候選組合詞進行有效性識別,以從所述候選組合詞中確定有效組合詞;
確定所述有效組合詞對應的頁面;
根據所述有效組合詞和所述有效組合詞對應的頁面,生成所述組合詞與頁面之間的對應關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里云計算有限公司,未經阿里云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210633456.6/1.html,轉載請聲明來源鉆瓜專利網。





