[發(fā)明專利]一種基于話題識別的物品信息推送方法、系統(tǒng)及存儲介質在審
| 申請?zhí)枺?/td> | 202110023421.6 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112765459A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設計)人: | 張凱;周建設;王偉麗;劉杰;冀俊宇 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F40/284 |
| 代理公司: | 北京清控智云知識產權代理事務所(特殊普通合伙) 11919 | 代理人: | 管士濤 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 話題 識別 物品 信息 推送 方法 系統(tǒng) 存儲 介質 | ||
1.一種基于話題識別的物品信息推送方法,其特征在于:所述方法包括:
S1,基于用戶的注冊信息及使用習慣給用戶畫像,確定出用戶關注的話題集合U;
S2,基于話題識別算法獲取新的網絡話題集合New;
S3,逐一計算所述集合U與所述集合New中的各話題的相似度;
S4,若所述集合New中的話題與所述集合U中的任一話題相似度大于閾值,則向用戶推送與所述集合New中的所述話題對應的購物信息。
2.根據權利要求1所述的方法,其特征在于:所述步驟S2具體包括如下步驟:
S21,實時采集不同類別的網絡文檔;
S22,先對每篇所述網絡文檔進行預料分詞,然后保留有實際意義的分詞,篩除停用詞和單個字,所述有實際意義的分詞包括名詞、動詞、形容詞;然后,再從保留的分詞中選擇特征詞構建話題模型,并計算特征詞權重,其中,所述特征詞包括關鍵詞元和普通特征詞;
S23,基于步驟S22獲得的數據計算文檔S與歷史話題的相似度,如果該文檔與歷史話題相似度小于預設值,則使用文檔S建立一個新話題,直至完成所有網絡文檔的相似度計算,構建出新的網絡話題集合New。
3.根據權利要求2所述的方法,其特征在于:所述步驟S22中采用向量空間模型來構建話題模型:
V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d)
其中,ti是從文檔d中選出的特征項,wi(d)為ti在文檔d中的權重。
4.根據權利要求3所述的方法,其特征在于:所述步驟S22中計算特征詞權重,包括:
首先根據人工設立的網絡熱詞庫篩選出關鍵詞元,對于關鍵詞元按如下公式計算權重:
Wi(keyword)=Wi(d)+Wi(d)/3
其中,式中Len(T)為文章長度,Wi為關鍵詞第i次在文本中出現(xiàn)的位置;
其余特征詞的權重采用如下經典的tf-idf權重計算公式:
其中,tfi表示關鍵詞ti在文檔d中出現(xiàn)的頻率;N表示用于特征提取的全部訓練文本的文檔總數;nti表示出現(xiàn)關鍵詞ti的文檔數。
5.根據權利要求4所述的方法,其特征在于:所述步驟S23中相似度的計算公式為:
其中,ωi(d)和ωi(T)分別是文檔d和話題T中特征項ti的權重。
6.根據權利要求1所述的方法,其特征在于:所述步驟S3中采用歐式距離、余弦相似度、Jaccard相似度算法計算話題間的所述相似度。
7.根據權利要求1所述的方法,其特征在于:所述步驟S4還包括:若所述集合New中存在多個相似度大于閾值的話題,則基于所述多個相似度計算各話題之間的推送比重,并基于所述推送比重確定所述推送購物信息的顯示順序和/或位置。
8.一種基于話題識別的物品信息推送系統(tǒng),其特征在于:所述系統(tǒng)包括用戶畫像單元、網絡話題識別單元、比對單元、購物信息推送單元;
用戶畫像單元,用于基于用戶的注冊信息及使用習慣給用戶畫像,確定出用戶關注的話題集合U;
網絡話題識別單元,用于基于話題識別算法獲取新的網絡話題集合New;
比對單元,用于逐一計算所述集合U與所述集合New中的各話題的相似度;
購物信息推送單元,用于若所述集合New中的話題與所述集合U中的任一話題相似度大于閾值,則向用戶推送與所述集合New中的所述話題對應的購物信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110023421.6/1.html,轉載請聲明來源鉆瓜專利網。





