[發(fā)明專利]文章相關(guān)性的確定方法、裝置、可讀介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 201811360896.9 | 申請日: | 2018-11-15 |
| 公開(公告)號: | CN111191025A | 公開(公告)日: | 2020-05-22 |
| 發(fā)明(設(shè)計)人: | 李冰鋒;李彪;馮曉強;范欣 | 申請(專利權(quán))人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市隆天聯(lián)鼎知識產(chǎn)權(quán)代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 100800 北京市海淀區(qū)海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文章 相關(guān)性 確定 方法 裝置 可讀 介質(zhì) 電子設(shè)備 | ||
1.一種文章相關(guān)性的確定方法,其特征在于,包括:
獲取用于對機器學習模型進行訓練的文章數(shù)據(jù);
提取所述文章數(shù)據(jù)中各個文章所包含的文本特征和圖片特征,根據(jù)所述各個文章所包含的文本特征和圖片特征生成所述各個文章的特征;
根據(jù)所述各個文章的特征和所述各個文章之間的相關(guān)關(guān)系,生成所述機器學習模型的訓練樣本;
基于所述訓練樣本對所述機器學習模型進行訓練,以基于訓練后的機器學習模型確定文章之間的相關(guān)性。
2.根據(jù)權(quán)利要求1所述的文章相關(guān)性的確定方法,其特征在于,提取所述文章數(shù)據(jù)中各個文章所包含的文本特征和圖片特征,包括:
提取所述各個文章的標題和正文標簽,以及所述各個文章中所包含的預定數(shù)量個圖片的特征;
將所述各個文章的標題和正文標簽作為所述各個文章所包含的文本特征,并根據(jù)所述各個文章中所包含的預定數(shù)量個圖片的特征生成所述各個文章所包含的圖片特征。
3.根據(jù)權(quán)利要求2所述的文章相關(guān)性的確定方法,其特征在于,根據(jù)所述各個文章中所包含的預定數(shù)量個圖片的特征生成所述各個文章所包含的圖片特征,包括:
計算所述各個文章中所包含的預定數(shù)量個圖片的特征平均值,將所述特征平均值作為所述各個文章所包含的圖片特征。
4.根據(jù)權(quán)利要求2所述的文章相關(guān)性的確定方法,其特征在于,還包括:
對于所包含的圖片數(shù)量小于所述預定數(shù)量的目標文章,將所述目標文章中所包含的所有圖片的特征平均值作為所述目標文章所包含的圖片特征,或者對所述目標文章中所包含的圖片進行復制,以得到所述預定數(shù)量個圖片。
5.根據(jù)權(quán)利要求1所述的文章相關(guān)性的確定方法,其特征在于,根據(jù)所述各個文章的特征和所述各個文章之間的相關(guān)關(guān)系,生成所述機器學習模型的訓練樣本,包括:
根據(jù)所述各個文章之間的相關(guān)關(guān)系,確定具有相關(guān)性的第一文章和第二文章;
根據(jù)所述第一文章的特征、所述第二文章的特征,以及與所述第一文章不相關(guān)的第三文章的特征,生成所述訓練樣本。
6.根據(jù)權(quán)利要求5所述的文章相關(guān)性的確定方法,其特征在于,根據(jù)所述各個文章之間的相關(guān)關(guān)系,確定具有相關(guān)性的第一文章和第二文章,包括:
根據(jù)所述各個文章的點擊情況,計算文章之間的相關(guān)性得分;
將所述相關(guān)性得分大于或等于得分閾值的兩篇文章作為所述第一文章和所述第二文章。
7.根據(jù)權(quán)利要求6所述的文章相關(guān)性的確定方法,其特征在于,根據(jù)所述各個文章的點擊情況,基于如下公式計算文章之間的相關(guān)性得分:
其中,sim_score表示文章A和文章B之間的相關(guān)性得分;click_user_num(A,B)表示既點擊過文章A又點擊過文章B的用戶數(shù)量,且click_user_num(A,B)大于或等于設(shè)定閾值;click_user_num(A)表示點擊文章A的用戶數(shù)量;click_user_num(B)表示點擊文章B的用戶數(shù)量。
8.根據(jù)權(quán)利要求5所述的文章相關(guān)性的確定方法,其特征在于,根據(jù)所述第一文章的特征、所述第二文章的特征,以及與所述第一文章不相關(guān)的第三文章的特征,生成所述訓練樣本,包括:
根據(jù)所述第一文章的特征、所述第二文章的特征和所述第三文章的特征生成特征三元組,將所述特征三元組作為一個所述訓練樣本。
9.根據(jù)權(quán)利要求5所述的文章相關(guān)性的確定方法,其特征在于,還包括:
從文章數(shù)據(jù)中隨機選取文章作為所述第三文章;或
根據(jù)所述各個文章之前的相關(guān)關(guān)系,確定與所述第一文章不相關(guān)的文章作為所述第三文章。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(北京)有限公司,未經(jīng)騰訊科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811360896.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





