[發(fā)明專利]文章相關(guān)性的確定方法、裝置、可讀介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 201811360896.9 | 申請日: | 2018-11-15 |
| 公開(公告)號: | CN111191025A | 公開(公告)日: | 2020-05-22 |
| 發(fā)明(設(shè)計)人: | 李冰鋒;李彪;馮曉強;范欣 | 申請(專利權(quán))人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市隆天聯(lián)鼎知識產(chǎn)權(quán)代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 100800 北京市海淀區(qū)海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文章 相關(guān)性 確定 方法 裝置 可讀 介質(zhì) 電子設(shè)備 | ||
本發(fā)明的實施例提供了一種文章相關(guān)性的確定方法、裝置、可讀介質(zhì)及電子設(shè)備。該文章相關(guān)性的確定方法包括:獲取用于對機器學(xué)習(xí)模型進行訓(xùn)練的文章數(shù)據(jù);提取所述文章數(shù)據(jù)中各個文章所包含的文本特征和圖片特征,根據(jù)所述各個文章所包含的文本特征和圖片特征生成所述各個文章的特征;根據(jù)所述各個文章的特征和所述各個文章之間的相關(guān)關(guān)系,生成所述機器學(xué)習(xí)模型的訓(xùn)練樣本;基于所述訓(xùn)練樣本對所述機器學(xué)習(xí)模型進行訓(xùn)練,以基于訓(xùn)練后的機器學(xué)習(xí)模型確定文章之間的相關(guān)性。本發(fā)明實施例的技術(shù)方案能夠綜合利用文章的文本特征和圖片特征來提高文章相關(guān)性的計算準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機及通信技術(shù)領(lǐng)域,具體而言,涉及一種文章相關(guān)性的確定方法、裝置、可讀介質(zhì)及電子設(shè)備。
背景技術(shù)
文章相關(guān)性計算在資訊推薦領(lǐng)域應(yīng)用廣泛,比如可以應(yīng)用在底層頁面相關(guān)推薦、新聞專題聚類、新聞APP(Application,應(yīng)用程序)的列表頁個性化推薦等領(lǐng)域。相關(guān)技術(shù)中在計算文章的相關(guān)性時,基本都是采用基于文章文本特征的相關(guān)性計算方法,這種方式雖然計算簡單,但是存在相關(guān)性計算不準(zhǔn)確的問題。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種文章相關(guān)性的確定方法、裝置、可讀介質(zhì)及電子設(shè)備,進而至少在一定程度上可以提高文章相關(guān)性的計算準(zhǔn)確率。
本發(fā)明的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。
根據(jù)本發(fā)明實施例的一個方面,提供了一種文章相關(guān)性的確定方法,包括:獲取用于對機器學(xué)習(xí)模型進行訓(xùn)練的文章數(shù)據(jù);提取所述文章數(shù)據(jù)中各個文章所包含的文本特征和圖片特征,根據(jù)所述各個文章所包含的文本特征和圖片特征生成所述各個文章的特征;根據(jù)所述各個文章的特征和所述各個文章之間的相關(guān)關(guān)系,生成所述機器學(xué)習(xí)模型的訓(xùn)練樣本;基于所述訓(xùn)練樣本對所述機器學(xué)習(xí)模型進行訓(xùn)練,以基于訓(xùn)練后的機器學(xué)習(xí)模型確定文章之間的相關(guān)性。
根據(jù)本發(fā)明實施例的一個方面,提供了一種文章相關(guān)性的確定裝置,包括:獲取單元,用于獲取對機器學(xué)習(xí)模型進行訓(xùn)練的文章數(shù)據(jù);提取單元,用于提取所述文章數(shù)據(jù)中各個文章所包含的文本特征和圖片特征,根據(jù)所述各個文章所包含的文本特征和圖片特征生成所述各個文章的特征;生成單元,用于根據(jù)所述各個文章的特征和所述各個文章之間的相關(guān)關(guān)系,生成所述機器學(xué)習(xí)模型的訓(xùn)練樣本;處理單元,用于基于所述訓(xùn)練樣本對所述機器學(xué)習(xí)模型進行訓(xùn)練,以基于訓(xùn)練后的機器學(xué)習(xí)模型確定文章之間的相關(guān)性。
在本發(fā)明的一些實施例中,基于前述方案,所述提取單元配置為:提取所述各個文章的標(biāo)題和正文標(biāo)簽,以及所述各個文章中所包含的預(yù)定數(shù)量個圖片的特征;將所述各個文章的標(biāo)題和正文標(biāo)簽作為所述各個文章所包含的文本特征,并根據(jù)所述各個文章中所包含的預(yù)定數(shù)量個圖片的特征生成所述各個文章所包含的圖片特征。
在本發(fā)明的一些實施例中,基于前述方案,所述提取單元配置為:計算所述各個文章中所包含的預(yù)定數(shù)量個圖片的特征平均值,將所述特征平均值作為所述各個文章所包含的圖片特征。
在本發(fā)明的一些實施例中,基于前述方案,所述提取單元配置為:對于所包含的圖片數(shù)量小于所述預(yù)定數(shù)量的目標(biāo)文章,將所述目標(biāo)文章中所包含的所有圖片的特征平均值作為所述目標(biāo)文章所包含的圖片特征,或者對所述目標(biāo)文章中所包含的圖片進行復(fù)制,以得到所述預(yù)定數(shù)量個圖片。
在本發(fā)明的一些實施例中,基于前述方案,所述生成單元配置為:根據(jù)所述各個文章之間的相關(guān)關(guān)系,確定具有相關(guān)性的第一文章和第二文章;根據(jù)所述第一文章的特征、所述第二文章的特征,以及與所述第一文章不相關(guān)的第三文章的特征,生成所述訓(xùn)練樣本。
在本發(fā)明的一些實施例中,基于前述方案,所述生成單元配置為:根據(jù)所述各個文章的點擊情況,計算文章之間的相關(guān)性得分;將所述相關(guān)性得分大于或等于得分閾值的兩篇文章作為所述第一文章和所述第二文章。
在本發(fā)明的一些實施例中,基于前述方案,所述生成單元基于如下公式計算文章之間的相關(guān)性得分:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(北京)有限公司,未經(jīng)騰訊科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811360896.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





