[發明專利]輿情獲取和詞粘度模型訓練方法及設備、服務器和介質在審
| 申請號: | 202011058837.3 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112052375A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 章文俊;黃強;方軍;潘旭;李云聰;楊哲;洪賽丁 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/216;G06F40/289;G06F40/30;G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輿情 獲取 粘度 模型 訓練 方法 設備 服務器 介質 | ||
本公開提供一種輿情獲取和詞粘度模型訓練方法及設備、服務器和介質,涉及人工智能技術領域,具體涉及圖像識別、自然語言處理,可用于云平臺。一種視頻輿情獲取方法,包括:接收輿情獲取請求,其中所述輿情獲取請求包括所要獲取的輿情關鍵詞;將所要獲取的輿情關鍵詞與包含識別結果的視頻數據進行匹配,其中,識別結果是對所述視頻數據進行預定義內容識別獲得的,預定內容識別包括文本識別和圖像識別;以及確定經匹配得到的視頻數據作為結果視頻數據。
技術領域
本公開涉及人工智能技術領域,具體涉及圖像識別、自然語言處理,特別涉及一種輿情獲取和詞粘度模型訓練方法及設備、服務器和介質。
背景技術
目前的輿情監控系統主要是從各媒體網站、社交平臺、移動端采集文本類輿情信息。但隨著技術的發展,越來越多的輿情信息采用富媒體的方式發布和傳播,如視頻。現有的輿情產品對視頻數據的識別也是基于其周邊文本如視頻標題、視頻描述等進行識別,以根據用戶輸入的關鍵詞與識別信息進行匹配并召回,缺少對視頻內容本身的理解。而且,現有的輿情產品雖然可以實現文本類型的識別和匹配,但其文本類型的識別和匹配一般較簡單,容易出現描述偏差;而且對視頻數據的信息挖掘不夠充分,可能導致最終的輿情預測精度不夠準確,無法對視頻中提及或展示的內容進行召回,導致系統的召回率低。
在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明,否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地,除非另有指明,否則此部分中提及的問題不應認為在任何現有技術中已被公認。
發明內容
根據本公開的一個方面,提供了一種視頻輿情獲取方法,包括:接收輿情獲取請求,其中輿情獲取請求包括所要獲取的輿情關鍵詞;將所要獲取的輿情關鍵詞與包含識別結果的視頻數據進行匹配,其中,識別結果是對所述視頻數據進行預定義內容識別獲得的,預定內容識別包括文本識別和圖像識別;以及確定經匹配得到的視頻數據作為結果視頻數據。
根據本公開的另一個方面,提供了一種詞粘度模型訓練方法,包括:對文本語料進行分詞,以獲得多個詞對作為訓練樣本,其中所述詞對包括前詞和后詞兩個詞;基于所述訓練樣本訓練所述詞粘度模型,以使得所述詞粘度模型輸出每一個詞對能夠組成關鍵短語的概率;以及通過梯度下降訓練所述詞粘度模型,直到所詞粘度模型達到預設條件則停止訓練,其中預設條件包括預設精度或預設訓練次數。
根據本公開的又一個方面,提供了一種視頻輿情獲取設備,包括:接收單元,配置為接收輿情獲取請求,其中所述輿情獲取請求包括所要獲取的輿情關鍵詞;匹配單元,配置為將所要獲取的輿情關鍵詞與包含識別結果的視頻數據進行匹配,其中,識別結果是對所述視頻數據進行預定義內容識別獲得的,預定內容識別包括文本識別和圖像識別;以及確定單元,配置為確定經匹配得到的視頻數據作為結果視頻數據。
根據本公開的又一個方面,提供了一種詞粘度模型訓練設備,包括:取樣單元,配置為對文本語料進行分詞,以獲得多個詞對作為訓練樣本,其中所述詞對包括前詞和后詞兩個詞;訓練單元,配置為基于所述訓練樣本訓練所述詞粘度模型,以使得所述詞粘度模型輸出每一個詞對能夠組成關鍵短語的概率;以及響應單元,配置為通過梯度下降訓練所述詞粘度模型,直到所述詞粘度模型達到預設條件則停止訓練,其中所述預設條件包括預設精度或預設訓練次數。
根據本公開的又一個方面,提供了一種服務器,包括:處理器;以及存儲程序的存儲器,該程序包括指令,該指令在由處理器執行時使處理器執行本公開中所述的視頻輿情獲取方法。
根據本公開的又一個方面,提供了一種存儲程序的計算機可讀存儲介質,該程序包括指令,該指令在由服務器的處理器執行時,致使服務器執行本公開中所述的視頻輿情獲取方法。
根據本公開的又一個方面,提供了一種服務器,包括:處理器;以及存儲程序的存儲器,該程序包括指令,該指令在由處理器執行時使處理器執行本公開中所述的詞粘度模型訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011058837.3/2.html,轉載請聲明來源鉆瓜專利網。





