[發明專利]一種核心詞確定方法和相關裝置在審
| 申請號: | 202110301838.4 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113705214A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 黃劍輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06K9/62;G06N20/00 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 核心 確定 方法 相關 裝置 | ||
1.一種核心詞確定方法,其特征在于,所述方法包括:
獲取包括樣本文本和樣本分詞的詞標簽的訓練樣本,所述樣本分詞為所述樣本文本的多個分詞中的一個,所述詞標簽用于標識所述樣本分詞是否為所述樣本文本的核心詞;
將所述訓練樣本作為初始詞權重模型的輸入數據進行模型訓練,所述初始詞權重模型包括文本模塊、詞模塊和融合模塊,所述文本模塊用于提取所述樣本文本的文本向量,所述詞模塊用于提取所述樣本分詞的詞向量,所述融合模塊用于通過融合張量,根據所述文本向量和所述詞向量生成文本融合向量;
通過所述初始詞權重模型獲取根據所述文本融合向量確定的詞權重參數,所述詞權重參數用于標識所述樣本分詞屬于所述樣本文本的核心詞的概率;
根據所述詞權重參數與所述詞標簽的差別,對所述融合張量進行參數調整;
通過訓練得到的詞權重模型識別目標文本中的核心詞。
2.根據權利要求1所述的方法,其特征在于,所述獲取包括樣本文本和所樣本分詞的詞標簽的訓練樣本,包括:
獲取歷史搜索行為數據,所述歷史搜索行為數據用于標識搜索詞以及通過所述搜索詞所打開頁面的頁面文本;
根據所述頁面文本確定所述樣本文本,并將所述頁面文本對應的搜索詞確定為所述頁面文本的核心詞。
3.根據權利要求1所述的方法,其特征在于,所述根據所述詞權重參數與所述詞標簽的差別,對所述融合張量進行參數調整,包括:
根據所述詞權重參數與所述詞標簽的差別,對所述文本模塊、所述詞模塊和所述融合張量進行參數調整。
4.根據權利要求1-3任意一項所述的方法,其特征在于,所述文本向量的維度為第一維數,所述詞向量的維度為第二維數,所述文本融合向量的維數為第三維數,所述融合張量為三維張量,維度分別為第一維數、第三維數和第二維數;所述通過融合張量,根據所述文本向量和所述詞向量生成文本融合向量,包括:
根據所述文本向量和所述融合張量得到初級融合向量,所述初級融合向量的維度分別為第三維數和第二維數;
根據所述初級融合向量和所述詞向量的轉置向量得到所述文本融合向量。
5.一種核心詞確定裝置,其特征在于,所述裝置包括第一獲取單元、訓練單元、第二獲取單元、調參單元和識別單元:
所述第一獲取單元,用于獲取包括樣本文本和樣本分詞的詞標簽的訓練樣本,所述樣本分詞為所述樣本文本的多個分詞中的一個,所述詞標簽用于標識所述樣本分詞是否為所述樣本文本的核心詞;
所述訓練單元,用于將所述訓練樣本作為初始詞權重模型的輸入數據進行模型訓練,所述初始詞權重模型包括文本模塊、詞模塊和融合模塊,所述文本模塊用于提取所述樣本文本的文本向量,所述詞模塊用于提取所述樣本分詞的詞向量,所述融合模塊用于通過融合張量,根據所述文本向量和所述詞向量生成文本融合向量;
所述第二獲取單元,用于通過所述初始詞權重模型獲取根據所述文本融合向量確定的詞權重參數,所述詞權重參數用于標識所述樣本分詞屬于所述樣本文本的核心詞的概率;
所述調參單元,用于根據所述詞權重參數與所述詞標簽的差別,對所述融合張量進行參數調整;
所述識別單元,用于通過訓練得到的詞權重模型識別目標文本中的核心詞。
6.根據權利要求5所述的裝置,其特征在于,所述第一獲取單元具體用于:
獲取歷史搜索行為數據,所述歷史搜索行為數據用于標識搜索詞以及通過所述搜索詞所打開頁面的頁面文本;
根據所述頁面文本確定所述樣本文本,并將所述頁面文本對應的搜索詞確定為所述頁面文本的核心詞。
7.根據權利要求5所述的裝置,其特征在于,所述調參單元具體用于:
根據所述詞權重參數與所述詞標簽的差別,對所述文本模塊、所述詞模塊和所述融合張量進行參數調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110301838.4/1.html,轉載請聲明來源鉆瓜專利網。





