[發(fā)明專利]一種微信公眾號文章閱讀量的預(yù)測方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010065180.7 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111260145A | 公開(公告)日: | 2020-06-09 |
| 發(fā)明(設(shè)計)人: | 竇志成;文繼榮 | 申請(專利權(quán))人: | 中國人民大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/00;G06F16/35;G06K9/62 |
| 代理公司: | 北京紀凱知識產(chǎn)權(quán)代理有限公司 11245 | 代理人: | 王胥慧 |
| 地址: | 100872 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 公眾 文章 閱讀 預(yù)測 方法 系統(tǒng) | ||
1.一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,包括以下內(nèi)容:
1)在微信文章數(shù)據(jù)集上分別訓(xùn)練XGBoost分類模型和XGBoost回歸模型;
2)獲取待測文章的文章特征;
3)采用訓(xùn)練后的XGBoost分類模型,根據(jù)待測文章的文章特征,判斷待測文章是否為超級文章,若是,則該待測文章的閱讀量預(yù)測值為超過10萬;若不是,則進入步驟4);
4)采用訓(xùn)練后的XGBoost回歸模型,根據(jù)待測文章的文章特征,確定待測文章的閱讀量預(yù)測值。
2.如權(quán)利要求1所述的一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,所述步驟1)的具體過程為:
1.1)根據(jù)文章的發(fā)布時間,將微信文章數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,且每一集合之間沒有重疊;
1.2)確定微信文章數(shù)據(jù)集中各微信文章的樣本正負,其中,微信文章為超級文章,則表示為正樣本;微信文章為非超級文章,則表示為負樣本;
1.3)在微信文章數(shù)據(jù)集上訓(xùn)練XGBoost分類模型;
1.4)在微信文章數(shù)據(jù)集上訓(xùn)練XGBoost回歸模型。
3.如權(quán)利要求2所述的一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,所述步驟1.3)的具體過程為:
1.3.1)構(gòu)建XGBoost分類模型,其中,XGBoost分類模型的分類任務(wù)采用的評價指標(biāo)包括準確率、精確率、召回率和F1分數(shù);
1.3.2)通過訓(xùn)練集中表示為正樣本的微信文章和部分表示為負樣本的微信文章訓(xùn)練XGBoost分類模型;
1.3.3)在驗證集調(diào)整XGBoost分類模型的參數(shù),在測試集測試XGBoost分類模型,得到訓(xùn)練后的XGBoost分類模型。
4.如權(quán)利要求2所述的一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,所述步驟1.4)的具體過程為:
1.4.1)構(gòu)建XGBoost回歸模型,其中,XGBoost回歸模型的評價指標(biāo)包括平均絕對誤差MAE、均方根誤差RMSE和決定系數(shù)R2:
其中,yi表示第i篇微信文章的目標(biāo)值;表示第i篇微信文章的預(yù)測值;n表示微信文章的數(shù)量;
其中,表示目標(biāo)值的平均值;Variance表示所有微信文章目標(biāo)值的方差;
1.4.2)將訓(xùn)練集中微信文章的文章特征作為樣本、微信文章的閱讀量作為標(biāo)簽訓(xùn)練XGBoost回歸模型;
1.4.3)在驗證集調(diào)整XGBoost回歸模型的參數(shù),在測試集測試XGBoost回歸模型,得到訓(xùn)練后的XGBoost回歸模型。
5.如權(quán)利要求1所述的一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,所述文章特征包括歷史信息特征,歷史信息特征包括待測文章所屬公眾號的歷史發(fā)文頻率和歷史閱讀量,其中:
歷史發(fā)文頻率為在時間t內(nèi)公眾號o在文章a前的發(fā)文總數(shù);
歷史閱讀量為時間t內(nèi)公眾號o所獲閱讀量的總數(shù)、平均數(shù)、方差和中位數(shù)。
6.如權(quán)利要求1所述的一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,所述文章特征包括標(biāo)題特征,標(biāo)題特征包括標(biāo)題基本組成、情感屬性和標(biāo)題實體,其中:
標(biāo)題基本組成為文章標(biāo)題的標(biāo)題長度、單詞個數(shù)和數(shù)字個數(shù);
情感屬性為采用情感分類模型對文章的標(biāo)題進行情感分類得到的情感屬性,包括積極、消極和中性;
標(biāo)題實體為文章標(biāo)題中出現(xiàn)的地名、人名和機構(gòu)名。
7.如權(quán)利要求1所述的一種微信公眾號文章閱讀量的預(yù)測方法,其特征在于,所述文章特征包括正文特征,正文特征包括正文基本組成、正文實體、組成元素、平均段落長度、文章所屬話題,其中:
正文基本組成為文章正文的文章長度、單詞個數(shù)和數(shù)字個數(shù);
正文實體為文章正文中出現(xiàn)的地名、人名和機構(gòu)名;
組成元素為文章正文的段落數(shù)、圖片數(shù)、網(wǎng)頁鏈接數(shù)和音樂視頻數(shù);
平均段落長度為文章正文中各段落的平均詞數(shù);
文章所屬話題為采用分類模型對文章正文的主題進行分類得到的話題類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民大學(xué),未經(jīng)中國人民大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010065180.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





