[發(fā)明專利]輿情獲取和詞粘度模型訓(xùn)練方法及設(shè)備、服務(wù)器和介質(zhì)在審
| 申請?zhí)枺?/td> | 202011058837.3 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112052375A | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設(shè)計(jì))人: | 章文俊;黃強(qiáng);方軍;潘旭;李云聰;楊哲;洪賽丁 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/216;G06F40/289;G06F40/30;G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 輿情 獲取 粘度 模型 訓(xùn)練 方法 設(shè)備 服務(wù)器 介質(zhì) | ||
1.一種視頻輿情獲取方法,包括:
接收輿情獲取請求,其中所述輿情獲取請求包括所要獲取的輿情關(guān)鍵詞;
將所述所要獲取的輿情關(guān)鍵詞與包含識別結(jié)果的視頻數(shù)據(jù)進(jìn)行匹配,其中,所述識別結(jié)果是對所述視頻數(shù)據(jù)進(jìn)行預(yù)定義內(nèi)容識別獲得的,所述預(yù)定內(nèi)容識別包括文本識別和圖像識別;以及
確定經(jīng)匹配得到的視頻數(shù)據(jù)作為結(jié)果視頻數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其中,對所述視頻數(shù)據(jù)進(jìn)行預(yù)定義內(nèi)容識別包括:
定時從視頻源獲取源視頻數(shù)據(jù);
根據(jù)預(yù)定義條件對所獲取的源視頻數(shù)據(jù)進(jìn)行過濾;以及
將所述過濾后的源視頻數(shù)據(jù)轉(zhuǎn)碼為預(yù)定義格式,以用于預(yù)定義內(nèi)容識別。
3.如權(quán)利要求2所述的方法,其中,所述預(yù)定義條件包括以下中的一個或多個:視頻時長、視頻類別、發(fā)布時間。
4.如權(quán)利要求1所述的方法,所述文本識別包括:
對所述視頻進(jìn)行取幀,以獲得所提取的每一幀的圖片;
對所述圖片中的文本進(jìn)行識別,以作為文本信息;以及
對所述文本信息進(jìn)行關(guān)鍵詞抽取,以將所述抽取的關(guān)鍵詞作為識別結(jié)果。
5.如權(quán)利要求1所述的方法,所述文本識別包括:
獲取所述視頻周邊文本,以作為文本信息,其中所述周邊文本包括以下中的一個或多個:標(biāo)題、描述文本、語音文本;
對所述文本信息進(jìn)行分詞處理;
將經(jīng)分詞處理的的詞輸入經(jīng)訓(xùn)練的詞粘度模型,以獲得每一個所述詞能與其后一個詞連在一起的概率;以及
篩選所述概率大于閾值概率的詞,以將所述詞組成關(guān)鍵短語,作為識別結(jié)果。
6.如權(quán)利要求5所述的方法,篩選所述概率大于閾值概率的詞,以將所述詞組成關(guān)鍵短語,作為識別結(jié)果包括:
獲得所述組成的關(guān)鍵短語中的每個詞的逆文檔頻率;
計(jì)算所述關(guān)鍵短語中的所有詞的逆文檔頻率之和,以作為所述關(guān)鍵短語的逆文檔頻率;
選擇其逆文檔頻率最高的預(yù)定個數(shù)的關(guān)鍵短語作為所述識別結(jié)果。
7.如權(quán)利要求4或5所述的方法,還包括:
對所述文本信息進(jìn)行情感分析,其中所述情感包括正面情感、中性情感和反面情感;以及
對所述文本信息進(jìn)行敏感度識別。
8.如權(quán)利要求1所述的方法,所述圖像識別包括人臉識別,其中,對所述視頻數(shù)據(jù)進(jìn)行預(yù)定義內(nèi)容識別包括:
對所述視頻進(jìn)行取幀,以獲得所提取的每一幀的圖片;以及
對所述圖片中的人臉進(jìn)行識別,以基于人臉數(shù)據(jù)庫識別出所述人臉對應(yīng)的名稱。
9.如權(quán)利要求1所述的方法,所述圖像識別還包括:場景識別、實(shí)體識別以及標(biāo)識識別,其中,對所述視頻數(shù)據(jù)進(jìn)行預(yù)定義內(nèi)容識別包括:
將所述視頻進(jìn)行取幀,以獲得所提取的每一幀的圖片;
對所述圖片中的場景進(jìn)行識別;
對所述圖片中的實(shí)體進(jìn)行識別;以及
對所述圖片中的標(biāo)識進(jìn)行識別。
10.如權(quán)利要求1所述的方法,所述輿情獲取請求還包括所要過濾掉的輿情關(guān)鍵詞,其中,確定經(jīng)匹配得到的結(jié)果視頻數(shù)據(jù)包括:
將匹配得到的視頻數(shù)據(jù)中包括所述所要過濾掉的輿情關(guān)鍵詞相對應(yīng)的識別結(jié)果的視頻數(shù)據(jù)進(jìn)行過濾;以及
確定所述過濾后的視頻數(shù)據(jù)作為所述結(jié)果視頻數(shù)據(jù)。
11.一種詞粘度模型訓(xùn)練方法,包括:
對文本語料進(jìn)行分詞,以獲得多個詞對作為訓(xùn)練樣本,其中所述詞對包括前詞和后詞兩個詞;
基于所述訓(xùn)練樣本訓(xùn)練所述詞粘度模型,以使得所述詞粘度模型輸出每一個詞對能夠組成關(guān)鍵短語的概率;以及
通過梯度下降訓(xùn)練所述詞粘度模型,直到所述詞粘度模型達(dá)到預(yù)設(shè)條件則停止訓(xùn)練,其中所述預(yù)設(shè)條件包括預(yù)設(shè)精度或預(yù)設(shè)訓(xùn)練次數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011058837.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲介質(zhì)
- 企業(yè)輿情監(jiān)測方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 知識庫構(gòu)建方法及裝置
- 生成輿情專題方法、系統(tǒng)及存儲介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺用戶單位變更配置的方法及系統(tǒng)





