[發明專利]一種主題詞生成模型的訓練方法及計算設備在審
| 申請號: | 202110710401.6 | 申請日: | 2021-06-25 |
| 公開(公告)號: | CN113609841A | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 李輝;陳永生 | 申請(專利權)人: | 北京齊爾布萊特科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30;G06N20/10 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 高攀;趙愛軍 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題詞 生成 模型 訓練 方法 計算 設備 | ||
本發明公開了一種主題詞生成模型的訓練方法,在計算設備中執行,包括步驟:獲取文檔集合和記錄用戶行為的日志;針對用戶每一次搜索行為,對用戶搜索的關鍵詞進行分詞處理,得到一個或多個切分后的詞;針對每一個切分后的詞和文檔集合中的每一個文檔,根據切分后的詞、日志和文檔集合生成特征向量,將切分后的詞作為特征向量的標簽,并確定包含特征向量及其標簽的樣本為正樣本或負樣本;根據樣本,對主題詞生成模型進行訓練,得到訓練后的主題詞生成模型。本發明一并公開了相應的裝置、計算設備及可讀存儲介質。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種主題詞生成模型的訓練方法、裝置、計算設備及可讀存儲介質。
背景技術
提取文本主題詞在眾多網絡應用中起著至關重要的作用。例如,在搜索引擎建立索引以及內容推薦中,需要提取文本主題詞,根據主題詞建立各個文本的索引,并根據用戶的搜索詞推薦具有相關主題詞的內容,從而提高檢索效率;在基于內容的網絡廣告中,需要提取用戶當前瀏覽內容的主題詞,以便向用戶推送與其瀏覽內容相關的廣告;在根據用戶搜索關鍵詞進行內容排序階段,文本的主題詞作為一個相關特征對排序起著重要作用;以及在基于內容的文本分類中,需要根據提取到的文本主題詞對文本進行分類。
現有技術中,提取文本主題詞的一種方法是:計算文本中的詞在語料庫中詞頻(TF)、逆文本頻率指數(IDF)或TF-IDF等指標的值,當指標的值達到一定閾值時,將相應的詞作為文本的主題詞。但是,這種方法會導致一些生僻詞的IDF較高,而常見詞的IDF較低,從而導致有些生僻詞被當做文檔關鍵詞、錯誤地判斷主題詞的問題。另一種方法是:基于TextRank算法,獲得文本中詞的重要性的得分,確定得分高的指定個數的詞作為文本的主題詞。但是,這一方法僅考慮詞語之間的共現關系,會導致一些局部主題詞成為全局主題詞,而導致主題詞的選取精度低。
為此,需要一種主題詞生成模型的訓練方法來提高主題詞提取的準確度,以力圖解決或至少緩解上述技術方案中存在的問題。
發明內容
為此,本發明提供一種主題詞生成模型的訓練方法、裝置、計算設備及可讀存儲介質,以力圖解決或至少緩解上面存在的問題。
根據本發明的一個方面,提供了一種主題詞生成模型的訓練方法,在計算設備中執行,包括步驟:獲取文檔集合和記錄用戶行為的日志;針對用戶每一次搜索行為,對用戶搜索的關鍵詞進行分詞處理,得到一個或多個切分后的詞;針對每一個切分后的詞和文檔集合中的每一個文檔,根據切分后的詞、日志和文檔集合生成特征向量,將切分后的詞作為特征向量的標簽,并確定包含特征向量及其標簽的樣本為正樣本或負樣本;根據樣本,對主題詞生成模型進行訓練,得到訓練后的主題詞生成模型。
可選地,在根據本發明的方法中,記錄用戶行為的日志包括第一日志和第二日志,其中,第一日志包括用戶搜索關鍵詞后所展示的文檔集合中的文檔,第二日志包括用戶搜索關鍵詞后所點擊的文檔集合中的文檔,第一日志和第二日志中的文檔通過標記用戶搜索行為的唯一的標識號進行關聯。
可選地,在根據本發明的方法中,用戶每一次搜索行為對應唯一的標識號,其中,確定包含特征向量及其標簽的樣本為正樣本或負樣本的步驟,包括:如果切分后的詞存在于第二日志中該標識號對應的文檔中,則樣本為正樣本;如果切分后的詞不存在于第二日志中該標識號對應的文檔中,但存在于第一日志中該標識號對應的文檔中,則樣本為負樣本。
可選地,在根據本發明的方法中,其中,特征向量中包括切分后的詞的以下至少一個特征:是否出現在文檔集合中當前文檔的標題中、出現在文檔集合中當前文檔的標題中的次數、是否在預測的主題詞中出現、TF、IDF、TF-IDF、詞性、所對應的語義向量。
可選地,在根據本發明的方法中,其中,特征向量中還包括以下至少一個特征:是否為車系詞、是否為品牌詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京齊爾布萊特科技有限公司,未經北京齊爾布萊特科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110710401.6/2.html,轉載請聲明來源鉆瓜專利網。





