[發明專利]一種新聞內容識別方法、模型訓練方法和裝置在審
| 申請號: | 201911414722.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN113127598A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 徐佳宏;朱呂亮 | 申請(專利權)人: | 深圳市茁壯網絡股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/951;G06F40/258;G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 518004 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 內容 識別 方法 模型 訓練 裝置 | ||
1.一種新聞內容識別模型訓練方法,其特征在于,包括:
利用網絡爬蟲技術,從網絡上抓取距今預設時間段內的新聞文字內容;
以當前抓取的新聞文字內容作為最新的新聞語料,結合預先存儲的背景圖片和字庫,合成訓練集;
利用所述訓練集訓練新聞內容識別模型。
2.根據權利要求1所述的新聞內容識別模型訓練方法,其特征在于,當新聞內容以音頻或視頻的形式出現時,所述從網絡上抓取距今預設時間段內的新聞文字內容,包括:從網絡上抓取距今預設時間段內的新聞標題。
3.根據權利要求1所述的新聞內容識別模型訓練方法,其特征在于,在合成訓練集時,還對要合成的訓練集設置如下參數中的一種或任意幾種:文字大小、文字顏色、文字透明度、文字在圖片中的位置、文字之間的間隔、文字的邊距等。
4.根據權利要求1所述的新聞內容識別模型訓練方法,其特征在于,所述以當前抓取的新聞文字內容作為最新的新聞語料,包括:不對當前抓取的新聞文字內容進行去重處理,直接將其作為最新的新聞語料。
5.根據權利要求1所述的新聞內容識別模型訓練方法,其特征在于,所述新聞內容識別模型的架構為卷積神經網絡CNN與循環神經網絡RNN相結合的數學模型。
6.一種新聞內容識別方法,其特征在于,包括:
將新聞視頻抽幀成一張張圖片;
分別對抽幀成的每張圖片進行區域檢測,得到文本行圖片;
利用新聞內容識別模型分別對每張文本行圖片進行文字識別,得到文本行,作為識別結果;
其中,所述新聞內容識別模型是利用權利要求1-5中任一項所述的新聞內容識別模型訓練方法進行訓練得到。
7.一種新聞內容識別模型訓練裝置,其特征在于,包括:
抓取單元,用于利用網絡爬蟲技術,從網絡上抓取距今預設時間段內的新聞文字內容;
合成單元,用于以當前抓取的新聞文字內容作為最新的新聞語料,結合預先存儲的背景圖片和字庫,合成訓練集;
訓練單元,用于利用所述訓練集訓練新聞內容識別模型。
8.根據權利要求7所述的新聞內容識別模型訓練裝置,其特征在于,當新聞內容以音頻或視頻的形式出現時,所述抓取單元具體用于利用網絡爬蟲技術,從網絡上抓取距今預設時間段內的新聞標題。
9.根據權利要求7所述的新聞內容識別模型訓練裝置,其特征在于,所述合成單元不對所述抓取單元當前抓取的新聞文字內容進行去重處理,直接將其作為最新的新聞語料。
10.一種新聞內容識別裝置,其特征在于,包括:
抽幀單元,用于將新聞視頻抽幀成一張張圖片;
區域檢測單元,用于分別對抽幀成的每張圖片進行區域檢測,得到文本行圖片;
文字識別單元,用于利用新聞內容識別模型分別對每張文本行圖片進行文字識別,得到文本行,作為識別結果;其中,所述新聞內容識別模型是利用權利要求7-9中任一項所述的新聞內容識別模型訓練裝置進行訓練得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市茁壯網絡股份有限公司,未經深圳市茁壯網絡股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911414722.0/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





