[發明專利]基于互聯網社區的帖子與話題的相關性計算方法和裝置在審
| 申請號: | 202210725666.8 | 申請日: | 2022-06-24 |
| 公開(公告)號: | CN115345156A | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 文成明 | 申請(專利權)人: | 北京小川科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30 |
| 代理公司: | 北京中和立達知識產權代理有限公司 11756 | 代理人: | 楊磊 |
| 地址: | 100191 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 互聯網 社區 帖子 話題 相關性 計算方法 裝置 | ||
本發明是關于一種基于互聯網社區的帖子與話題的相關性計算方法和裝置,方法包括:獲取互聯網社區中的全部話題,提取每個話題名對應的代表詞組,并建立每個話題名和與其對應的代表詞組之間的索引;對每個話題名進行信息擴展和代表詞組查詢,以得到與其對應的代表詞組查詢結果;獲取用戶輸入的帖子內容文本;計算帖子內容文本與每個話題名之間的第一相關性分數,和帖子內容文本與每個話題名對應的代表詞組查詢結果之間的第二相關性分數;根據第一相關性分數和第二相關性分數,確定帖子內容文本和話題之間的最終相關性分數。通過該技術方案,讓相關性分數計算更為準確。
技術領域
本發明涉及互聯網數據處理技術領域,尤其涉及一種基于互聯網社區的 帖子與話題的相關性計算方法和裝置。
背景技術
社區APP通常有百萬級別的話題。當一個新帖發表時,如果確保新帖能 發表在最相關的話題里,對于社區APP的用戶體驗非常重要。因此基于帖子 內容,從百萬級別的話題里挑選出最相關的話題,是一個很挑戰的技術問題。 一般是通過準確計算帖子內容和話題的相關性分數來解決這個問題。把帖子 內容與每一個話題詞計算語義相關性,根據相關性分數,選出帖子最相關的 TOP N個話題名來展現給用戶。因此,準確的計算帖子內容和話題名的相關 性分數,變得至關重要。如果帖子內容和話題名的相關性分數計算不準確, 會導致帖子被發在不相關的話題里,從而導致帖子的回復率很低,話題內的 0回復帖增多,話題質量和社區用戶互動率、活躍度變差。
常見的計算帖子內容和話題名的相關性分數的方法是,把話題詞與帖子 內容的關鍵詞進行匹配,包括直接匹配,或者轉成word embedding的詞向量 的語義匹配。但是,存在以下問題:
1)直接詞級別的匹配,經常會出現帖子內容和話題名之間命中的詞的個 數為零,導致相關性分數為0,無法準確區分相關的話題;
2)基于word embedding的詞向量計算,話題名通常很短,而帖子內容 詞較多,僅以話題名的詞向量與帖子內容的詞向量計算距離,經常會導致最 相關的話題名的相關性分數并不是最高的,最相關的話題名因為相關性分數 低排在后面,并沒有被選出來展示給用戶。
發明內容
為克服相關技術中存在的問題,本發明提供一種基于互聯網社區的帖子 與話題的相關性計算方法和裝置,從而有效避免僅對話題名算相關性分數所 帶來的片面性,讓相關性分數計算更為準確。
根據本發明實施例的第一方面,提供一種基于互聯網社區的帖子與話題 的相關性計算方法,所述方法包括:
獲取互聯網社區中的全部話題,提取每個話題名對應的代表詞組,并建 立每個話題名和與其對應的代表詞組之間的索引;
對每個話題名進行信息擴展和代表詞組查詢,以得到與其對應的代表詞 組查詢結果;
獲取用戶輸入的帖子內容文本;
計算所述帖子內容文本與每個話題名之間的第一相關性分數,和所述帖 子內容文本與每個話題名對應的代表詞組查詢結果之間的第二相關性分數;
根據所述第一相關性分數和所述第二相關性分數,確定所述帖子內容文 本和話題之間的最終相關性分數。
在一個實施例中,優選地,提取每個話題名對應的代表詞組,包括:
獲取每個話題里的所有歷史帖子,并統計每個歷史帖子的點贊量和評論 量,并進行加權和計算,得到計算結果;
根據所述計算結果,對每個話題里的所有歷史帖子進行降序排列;
針對每個話題,選取排列在前的第一預設數量的目標歷史帖子的內容作 為該話題的熱帖預料;
根據所述話題的熱帖預料,提取對應的代表詞組。
在一個實施例中,優選地,根據所述話題的熱帖預料,提取對應的代表 詞組,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小川科技有限公司,未經北京小川科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210725666.8/2.html,轉載請聲明來源鉆瓜專利網。





