[發(fā)明專利]獲取目標(biāo)類別的文章的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010612869.7 | 申請(qǐng)日: | 2020-06-30 |
| 公開(kāi)(公告)號(hào): | CN111667023A | 公開(kāi)(公告)日: | 2020-09-15 |
| 發(fā)明(設(shè)計(jì))人: | 康戰(zhàn)輝 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06N20/00;G06F16/9535 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 獲取 目標(biāo) 類別 文章 方法 裝置 | ||
1.一種獲取目標(biāo)類別的文章的方法,其特征在于,所述方法包括:
獲取目標(biāo)時(shí)間段內(nèi)的m篇文章,其中m為正整數(shù);
根據(jù)所述m篇文章的標(biāo)題,將所述m篇文章劃分至k個(gè)候選文章集合中,同一個(gè)候選文章集合中的文章和同一個(gè)新聞事件相關(guān),其中k為正整數(shù),且小于或等于m;
根據(jù)各新聞事件對(duì)應(yīng)的候選文章集合中的文章數(shù)量,在各新聞事件對(duì)應(yīng)的候選文章集合中,將文章數(shù)量不少于數(shù)量閾值的候選文章集合,確定為目標(biāo)文章集合;
根據(jù)所述目標(biāo)文章集合中各個(gè)文章的內(nèi)容,以及完成訓(xùn)練的分類模型,篩選出屬于目標(biāo)類別的文章,作為所述目標(biāo)文章集合中的待發(fā)布文章;
將所述目標(biāo)文章集合中的待發(fā)布文章,發(fā)布在目標(biāo)應(yīng)用程序中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
根據(jù)文章所在內(nèi)容號(hào)的關(guān)注用戶數(shù)、文章的閱讀量、文章的點(diǎn)贊數(shù)和文章的評(píng)論數(shù),確定所述目標(biāo)文章集合中的各個(gè)待發(fā)布文章的熱度分值;
在所述目標(biāo)文章集合中,根據(jù)所述各個(gè)待發(fā)布文章的熱度分值,確定排在前p名的待發(fā)布文章,其中p為正整數(shù);
所述將所述目標(biāo)文章集合中的待發(fā)布文章,發(fā)布在目標(biāo)應(yīng)用程序中,包括:
將所述目標(biāo)文章集合中排在前p名的待發(fā)布文章,發(fā)布在目標(biāo)應(yīng)用程序中。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分類模型是根據(jù)如下步驟訓(xùn)練得到的:
獲取訓(xùn)練樣本,所述訓(xùn)練樣本包括樣本文章和所述樣本文章的樣本標(biāo)簽,所述樣本文章包括目標(biāo)類別的文章和非目標(biāo)類別的文章,所述樣本標(biāo)簽包括目標(biāo)類別的標(biāo)簽和非目標(biāo)類別的標(biāo)簽;
對(duì)所述訓(xùn)練樣本的樣本文章進(jìn)行重要詞語(yǔ)提取,得到所述樣本文章的重要詞語(yǔ);
將所述樣本文章的重要詞語(yǔ)輸入到待訓(xùn)練的分類模型,得到所述樣本文章的測(cè)試標(biāo)簽;
根據(jù)所述樣本文章的測(cè)試標(biāo)簽和樣本標(biāo)簽,對(duì)所述待訓(xùn)練的分類模型進(jìn)行訓(xùn)練,得到所述分類模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)所述訓(xùn)練樣本的樣本文章進(jìn)行重要詞語(yǔ)提取,得到所述樣本文章的重要詞語(yǔ),包括:
對(duì)所述訓(xùn)練樣本的樣本文章的內(nèi)容進(jìn)行切詞,得到所述樣本文章的多個(gè)詞語(yǔ);
在所述樣本文章的多個(gè)詞語(yǔ)中,根據(jù)詞頻TF和逆文本頻率指數(shù)IDF的乘積,確定所述樣本文章中TF和IDF的乘積排在前q名的詞語(yǔ),作為關(guān)鍵詞語(yǔ),其中q為正整數(shù);
在所述樣本文章的多個(gè)詞語(yǔ)中,根據(jù)所述目標(biāo)類別的詞語(yǔ)庫(kù)中的術(shù)語(yǔ),確定所述樣本文章中屬于所述目標(biāo)類別的術(shù)語(yǔ);
將所述樣本文章中的關(guān)鍵詞語(yǔ)和術(shù)語(yǔ),作為所述樣本文章的重要詞語(yǔ)。
5.一種獲取目標(biāo)類別的文章的裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取目標(biāo)時(shí)間段內(nèi)的m篇文章,其中m為正整數(shù);
聚類模塊,用于根據(jù)所述m篇文章的標(biāo)題,將所述m篇文章劃分至k個(gè)候選文章集合中,同一個(gè)候選文章集合中的文章和同一個(gè)新聞事件相關(guān),其中k為正整數(shù),且小于或等于m;
第一篩選模塊,用于根據(jù)各新聞事件對(duì)應(yīng)的候選文章集合中的文章數(shù)量,在各新聞事件對(duì)應(yīng)的候選文章集合中,將文章數(shù)量不少于數(shù)量閾值的候選文章集合,確定為目標(biāo)文章集合;
第二篩選模塊,用于根據(jù)所述目標(biāo)文章集合中各個(gè)文章的內(nèi)容,以及完成訓(xùn)練的分類模型,篩選出屬于目標(biāo)類別的文章,作為所述目標(biāo)文章集合中的待發(fā)布文章;
發(fā)布模塊,用于將所述目標(biāo)文章集合中的待發(fā)布文章,發(fā)布在目標(biāo)應(yīng)用程序中。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括:
打分模塊,用于根據(jù)文章所在內(nèi)容號(hào)的關(guān)注用戶數(shù)、文章的閱讀量、文章的點(diǎn)贊數(shù)和文章的評(píng)論數(shù),確定所述目標(biāo)文章集合中的各個(gè)待發(fā)布文章的熱度分值;
第三篩選模塊,用于在所述目標(biāo)文章集合中,根據(jù)所述各個(gè)待發(fā)布文章的熱度分值,確定排在前p名的待發(fā)布文章,其中p為正整數(shù);
所述發(fā)布模塊,具體用于將所述目標(biāo)文章集合中排在前p名的待發(fā)布文章,發(fā)布在目標(biāo)應(yīng)用程序中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010612869.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 目標(biāo)檢測(cè)裝置、學(xué)習(xí)裝置、目標(biāo)檢測(cè)系統(tǒng)及目標(biāo)檢測(cè)方法
- 目標(biāo)監(jiān)測(cè)方法、目標(biāo)監(jiān)測(cè)裝置以及目標(biāo)監(jiān)測(cè)程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測(cè)方法和目標(biāo)檢測(cè)裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法





