[發明專利]一種主題詞生成模型的訓練方法及計算設備在審
| 申請號: | 202110710401.6 | 申請日: | 2021-06-25 |
| 公開(公告)號: | CN113609841A | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 李輝;陳永生 | 申請(專利權)人: | 北京齊爾布萊特科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30;G06N20/10 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 高攀;趙愛軍 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題詞 生成 模型 訓練 方法 計算 設備 | ||
1.一種主題詞生成模型的訓練方法,在計算設備中執行,包括步驟:
獲取文檔集合和記錄用戶行為的日志;
針對用戶每一次搜索行為,對用戶搜索的關鍵詞進行分詞處理,得到一個或多個切分后的詞;
針對每一個切分后的詞和文檔集合中的每一個文檔,根據切分后的詞、所述日志和文檔集合生成特征向量,將所述切分后的詞作為所述特征向量的標簽,并確定包含特征向量及其標簽的樣本為正樣本或負樣本;
根據所述樣本,對主題詞生成模型進行訓練,得到訓練后的主題詞生成模型。
2.如權利要求1所述的方法,所述記錄用戶行為的日志包括第一日志和第二日志,其中,所述第一日志包括用戶搜索關鍵詞后所展示的文檔集合中的文檔,所述第二日志包括用戶搜索關鍵詞后所點擊的文檔集合中的文檔,所述第一日志和第二日志中的文檔通過標記用戶搜索行為的唯一的標識號進行關聯。
3.如權利要求2所述的方法,所述用戶每一次搜索行為對應唯一的標識號,其中,所述確定包含特征向量及其標簽的樣本為正樣本或負樣本的步驟,包括:
如果切分后的詞存在于第二日志中該標識號對應的文檔中,則所述樣本為正樣本;
如果切分后的詞不存在于第二日志中該標識號對應的文檔中,但存在于第一日志中該標識號對應的文檔中,則所述樣本為負樣本。
4.如權利要求1-3中任一項所述的方法,其中,所述特征向量中包括切分后的詞的以下至少一個特征:是否出現在所述文檔集合中當前文檔的標題中、出現在所述文檔集合中當前文檔的標題中的次數、是否在預測的主題詞中出現、TF、IDF、TF-IDF、詞性、所對應的語義向量。
5.如權利要求4所述的方法,其中,所述特征向量中還包括以下至少一個特征:是否為車系詞、是否為品牌詞。
6.如權利要求4所述的方法,其中,切分后的詞是否在預測的主題詞中出現是按照如下方式確定:
基于Textrank算法,對所述文檔集合中每個文檔進行主題詞預測;
如果所述切分后的詞存在于當前文檔的預測的主題詞中,則確定所述切分后的詞在預測的主題詞中出現;
如果所述切分后的詞未存在于當前文檔的預測的主題詞中,則確定所述切分后的詞未在預測的主題詞中出現。
7.如權利要求4所述的方法,其中,所述TF通過如下方式確定:
獲取所述切分后的詞出現在文檔集合中所有文檔中的次數,與所有文檔的總詞數的比值,作為所述切分后的詞對應的TF值。
8.一種主題詞生成模型的訓練裝置,包括:
日志獲取單元,獲取文檔集合和記錄用戶行為的日志;
分詞處理單元,針對用戶每一次搜索行為,對用戶搜索的關鍵詞進行分詞處理,得到一個或多個切分后的詞;
樣本生成單元,針對每一個切分后的詞和文檔集合中的每一個文檔,根據切分后的詞、所述日志和文檔集合生成特征向量,將所述切分后的詞作為所述特征向量的標簽,并確定包含特征向量及其標簽的樣本為正樣本或負樣本;
模型訓練單元,根據所述樣本,對主題詞生成模型進行訓練,得到訓練后的主題詞生成模型。
9.一種計算設備,包括:
一個或多個處理器;和
存儲器;
一個或多個程序,其中所述一個或多個程序存儲在所述存儲器中并被配置為由所述一個或多個處理器執行,所述一個或多個程序包括用于執行根據權利要求1-7所述方法中的任一方法的指令。
10.一種存儲一個或多個程序的計算機可讀存儲介質,所述一個或多個程序包括指令,所述指令當計算設備執行時,使得所述計算設備執行根據權利要求1-7所述的方法中的任一方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京齊爾布萊特科技有限公司,未經北京齊爾布萊特科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110710401.6/1.html,轉載請聲明來源鉆瓜專利網。





