[發明專利]打標簽方法、推薦方法及記錄介質有效
申請號: | 201910423246.2 | 申請日: | 2019-05-21 |
公開(公告)號: | CN110147499B | 公開(公告)日: | 2021-09-14 |
發明(設計)人: | 張煒 | 申請(專利權)人: | 智者四海(北京)技術有限公司 |
主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 楊奇松 |
地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 標簽 方法 推薦 記錄 介質 | ||
1.一種打標簽方法,包括:
從目標內容的文本部分選擇多個關鍵詞;其中,通過kafka隊列在線獲取的新內容作為目標內容;
使用語言模型確定各關鍵詞的相應關鍵詞向量;
通過對各相應關鍵詞向量加權求和確定所述目標內容的內容向量;
基于所述內容向量和標簽集中的各標簽的標簽向量確定所述目標內容關于各標簽的相似度;以及
基于各相似度確定所述目標內容的內容類別標簽;
其中,所述標簽集中的各標簽為指示所述目標內容的候選類別的類別指示詞;并且
各標簽向量是由所述語言模型基于相應類別指示詞確定的向量;
其中,通過對各相應關鍵詞向量加權求和確定所述目標內容的內容向量包括:
確定各關鍵詞的類別;以及基于各關鍵詞的類別確定各相應關鍵詞向量的相應權重;
其中,所述類別選自于由以下構成的類別組:商品、人名、地名、數字、時間和其他;
當所述類別為商品時,所述相應權重為第一值;
當所述類別為其他時,所述相應權重為第二值;
當所述類別為人名、地名、數字或時間時,所述相應權重為第三值;
所述第一值大于所述第二值;并且
所述第二值大于所述第三值。
2.根據權利要求1所述的打標簽方法,其中,所述標簽集中的各標簽選自二級行業類別。
3.根據權利要求1所述的打標簽方法,其中,從目標內容的文本部分選擇多個關鍵詞包括:
對所述文本部分進行分詞以得到多個候選關鍵詞;
確定各候選關鍵詞的關于所述文本部分的詞頻;
確定各候選關鍵詞的關于預定語料庫的逆文檔頻率;以及
基于各候選關鍵詞的詞頻與逆文檔頻率的積選擇預定數量的候選關鍵詞作為所述多個關鍵詞。
4.根據權利要求1所述的打標簽方法,其中,所述語言模型是針對預定語料庫使用word2vec工具訓練后的自然語音處理模型。
5.一種推薦方法,包括:
基于多個內容中的每個的內容類別標簽集和用戶的感興趣內容類別集確定用于向所述用戶推薦的候選內容集;
從候選內容集選擇向所述用戶推薦的推薦內容;以及
生成向所述用戶顯示所述推薦內容的表示的指示;
其中,所述指示用于供所述用戶選擇;并且
所述多個內容包括目標內容,所述目標內容的內容類別標簽集中的至少一個內容類別標簽是通過權利要求1至4中的任一項所述的打標簽方法來被確定。
6.根據權利要求5所述的推薦方法,還包括:使用kafka隊列獲取最新內容作為所述目標內容。
7.一種存儲有程序的計算機可讀記錄介質,其中,所述程序使計算機執行權利要求1至4中的任一項所述的打標簽方法。
8.一種存儲有程序的計算機可讀記錄介質,其中,所述程序使計算機執行權利要求5或6所述的推薦方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于智者四海(北京)技術有限公司,未經智者四海(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910423246.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種知識推送方法、裝置及存儲設備、程序產品
- 下一篇:一種信息推薦方法及裝置