[發(fā)明專利]一種內(nèi)容識別、內(nèi)容分發(fā)方法、裝置及電子設(shè)備有效
| 申請?zhí)枺?/td> | 201810765617.0 | 申請日: | 2018-07-12 |
| 公開(公告)號: | CN109189918B | 公開(公告)日: | 2020-11-27 |
| 發(fā)明(設(shè)計)人: | 王志華;宋華;查強 | 申請(專利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;H04L29/08 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 李欣;項京 |
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 內(nèi)容 識別 分發(fā) 方法 裝置 電子設(shè)備 | ||
1.一種內(nèi)容識別方法,其特征在于,包括:
獲得待識別內(nèi)容的標(biāo)題;
對所述待識別內(nèi)容的標(biāo)題進行預(yù)處理,獲得至少一個標(biāo)題字和/或詞;
將各個標(biāo)題字和/或詞按其在標(biāo)題中出現(xiàn)的順序輸入至預(yù)設(shè)的基于長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM的深度內(nèi)容分類模型;所述預(yù)設(shè)的LSTM深度內(nèi)容分類模型是通過收集精華內(nèi)容得到的正樣本和收集的非精華內(nèi)容得到的負(fù)樣本訓(xùn)練后的模型;
所述深度內(nèi)容分類模型,按輸入的順序?qū)?biāo)題字和/或詞進行順序計算,獲得標(biāo)題為深度內(nèi)容標(biāo)題的概率,若所述概率大于預(yù)設(shè)概率閾值,則所述待識別內(nèi)容為深度內(nèi)容,若所述概率不大于預(yù)設(shè)概率閾值,則所述待識別內(nèi)容為非深度內(nèi)容;
所述基于LSTM的深度內(nèi)容分類模型的訓(xùn)練步驟,包括:
從問答類網(wǎng)站中收集被標(biāo)識為精華的內(nèi)容的標(biāo)題,添加正樣本標(biāo)簽,作為深度內(nèi)容的正樣本;
從內(nèi)容庫中,獲取點擊率小于預(yù)設(shè)第二點擊率閾值的內(nèi)容,和點擊率大于預(yù)設(shè)第一點擊率閾值且觀看時長小于預(yù)設(shè)第二觀看時長閾值的內(nèi)容的標(biāo)題,添加負(fù)樣本標(biāo)簽,作為深度內(nèi)容的負(fù)樣本;
利用深度內(nèi)容的正樣本和負(fù)樣本,分別利用指定的各個預(yù)處理方式對LSTM神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:
所述指定的各個預(yù)處理方式,包括:分字處理、分詞處理和漢語語言模型N-Gram處理。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用深度內(nèi)容的正樣本和負(fù)樣本,分別利用指定的各個預(yù)處理方式對LSTM神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練的步驟,包括:
選擇預(yù)設(shè)數(shù)量個樣本,所述樣本包括正樣本和負(fù)樣本;
選擇一種預(yù)處理方式;
針對每個樣本,獲得至少一個樣本標(biāo)題字和/或詞;
將各個樣本標(biāo)題字和/或詞按其在標(biāo)題中出現(xiàn)的順序輸入至預(yù)設(shè)的基于LSTM的初始深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò);
所述初始深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò),按輸入的順序?qū)?biāo)題詞語進行順序計算,獲得每個標(biāo)題為深度內(nèi)容標(biāo)題的概率;
記錄每個標(biāo)題為深度內(nèi)容標(biāo)題的概率;
將所記錄的每個標(biāo)題為深度內(nèi)容標(biāo)題的概率及其分類標(biāo)簽,代入預(yù)設(shè)的損失函數(shù),獲得損失函數(shù)值;
根據(jù)損失函數(shù)值,判斷當(dāng)前深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò)是否收斂;
如果收斂,記錄損失函數(shù)值和所述當(dāng)前深度內(nèi)容神經(jīng)網(wǎng)絡(luò)每層的權(quán)重參數(shù)W和偏置參數(shù)b,將所述當(dāng)前深度內(nèi)容神經(jīng)網(wǎng)絡(luò)確定為待確定神經(jīng)網(wǎng)絡(luò);
如果不收斂,更新所述當(dāng)前深度內(nèi)容神經(jīng)網(wǎng)絡(luò)各層的權(quán)重參數(shù)W和偏置參數(shù)b;
將各個樣本標(biāo)題字和/或詞按其在標(biāo)題中出現(xiàn)的順序輸入至調(diào)整參數(shù)后的LSTM深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò),得到各標(biāo)題為深度內(nèi)容的概率,返回所述記錄每個樣本為深度內(nèi)容的概率的步驟;
判斷指定的各個預(yù)處理方式是否都訓(xùn)練完成;
如果否,則選擇下一種預(yù)處理方式,返回所述針對每個樣本,獲得至少一個樣本標(biāo)題字和/或詞;
如果是,將在模型收斂時損失函數(shù)值最小的待確定神經(jīng)網(wǎng)絡(luò)確定為深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò);
將所述深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò)對應(yīng)的預(yù)處理方式,確定為深度內(nèi)容分類模型的預(yù)處理方式;
在深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò)后增加預(yù)設(shè)概率閾值判斷部分,將深度內(nèi)容分類神經(jīng)網(wǎng)絡(luò)與預(yù)設(shè)概率閾值判斷部分組合成深度內(nèi)容分類模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述損失函數(shù)包括:
其中,N為樣本的數(shù)量,oi為第i個樣本的輸出值,yi為第i個樣本的標(biāo)簽。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述更新所述當(dāng)前深度內(nèi)容神經(jīng)網(wǎng)絡(luò)各層的權(quán)重參數(shù)W和偏置參數(shù)b的步驟,包括:
將損失函數(shù)分別對各層權(quán)重參數(shù)W和偏置參數(shù)b求偏導(dǎo)數(shù),得到所述各層權(quán)重參數(shù)W和偏置參數(shù)b的梯度;
按照預(yù)設(shè)學(xué)習(xí)率采用梯度下降的方式更新所述各層權(quán)重參數(shù)W和偏置參數(shù)b。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810765617.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 電子數(shù)據(jù)分發(fā)系統(tǒng)
- 分發(fā)系統(tǒng)、分發(fā)控制設(shè)備和分發(fā)控制方法
- 分發(fā)方法和分發(fā)系統(tǒng)
- 廣播TS分發(fā)系統(tǒng)、分發(fā)裝置及分發(fā)方法
- 分發(fā)裝置、分發(fā)系統(tǒng)以及分發(fā)方法
- 分發(fā)系統(tǒng)以及分發(fā)方法
- 影像分發(fā)裝置、影像分發(fā)系統(tǒng)、影像分發(fā)方法及存儲介質(zhì)
- 分發(fā)梳齒以及分發(fā)梳
- 向用戶分發(fā)問題的方法及裝置
- 數(shù)據(jù)分發(fā)系統(tǒng)及數(shù)據(jù)分發(fā)方法





