[發明專利]文本信息提取方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011009652.3 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112101353A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 華路延 | 申請(專利權)人: | 廣州虎牙科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06F16/783;G06F16/78 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張欣欣 |
| 地址: | 511495 廣東省廣州市番禺*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 提取 方法 裝置 電子設備 存儲 介質 | ||
本發明提供了一種文本信息提取方法、裝置、電子設備及存儲介質,方法包括:獲取待檢測視頻的N個幀圖像,根據N個幀圖像,確定目標幀圖像集,目標幀圖像集包含的每個目標幀圖像均包含目標文本,根據目標幀圖像集,提取目標文本,目標文本的起始時間戳與結束時間戳為目標幀圖像集中起始位置的目標幀圖像對應的時間戳,結束時間戳為目標幀圖像集中結束位置的目標幀圖像對應的時間戳。本發明在進行文本提取的過程中,能夠識別完整提取同一個目標文本,并根據包含同一個目標文件的所有目標幀圖像對應時間戳提取該同一個目標文本的時間信息,無需人工標記時間,提高了文本信息提取的準確度和效率。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及文本信息提取方法、裝置、電子設備及存儲介質。
背景技術
目前,終端設備上的視頻客戶端已經成為用戶觀看視頻的重要工具,各類視頻可以通過字幕翻譯或者字幕再編輯,可以將來自不同國家、不同地區、不同語種的視頻信息轉換為用戶能夠理解的視頻信息。如果能將字幕從視頻中提取出來,轉化為能夠編輯的文本文件,將為字幕翻譯和字幕處理工作減輕很大的負擔。
在實際的應用中,出于某種使用需要,需要對視頻中的字幕進行提取。但是,在進行視頻字幕提取的過程中,現有的字幕提取方法存在以下缺點:準確度低,無法完整提取同一個句子,文本的時間戳多為后期人工標注,耗時較多,效率低。
發明內容
有鑒于此,本發明提供一種文本信息提取方法、裝置、電子設備及存儲介質,用以提高文本信息提取的準確度和效率。為了實現上述有益效果,本發明技術方案如下:
第一方面,本發明提供一種文本信息提取方法,所述方法包括:獲取待檢測視頻的N個幀圖像,所述N大于零;根據所述N個幀圖像,確定目標幀圖像集,所述目標幀圖像集包含的每個目標幀圖像均包含目標文本,所述目標幀圖像屬于所述N個幀圖像;根據所述目標幀圖像集,確定目標文本、所述目標文本的起始時間戳與結束時間戳,其中,所述起始時間戳為所述目標幀圖像集中起始位置的目標幀圖像對應的時間戳;所述結束時間戳為所述目標幀圖像集中結束位置的目標幀圖像對應的時間戳。
可選地,所述根據所述N個幀圖像,確定目標幀圖像集,包括:判斷所述N個幀圖像中任意相鄰的幀圖像是否具有相同的目標文本;當在第n個幀圖像中具有所述目標文本,且第n-1個幀圖像中不具有所述目標文本,將所述第n個幀圖像作為所述目標幀圖像集中起始位置的目標幀圖像;當在第n+m個幀圖像中不具有所述目標文本,且第n+m-1個幀圖像中具有所述目標文本,將所述第n+m-1個幀圖像作為所述目標幀圖像集中結束位置的目標幀圖像。
可選地,所述判斷所述N個幀圖像中任意相鄰的幀圖像是否具有相同的目標文本,包括:當在第n個幀圖像中具有第一目標文本,且所述n-1個幀圖像中具有第二目標文本,判斷所述第一目標文本與所述第二目標文本的重復率是否大于或等于重復閾值;若所述重復率大于或等于重復閾值,則判定所述第n個幀圖像與所述n-1個幀圖像具有相同的目標文本。
可選地,所述獲取待檢測視頻的N個幀圖像,包括:獲取所述待檢測視頻的起始文本坐標;根據所述起始文本坐標確定文本檢測區域;所述文本檢測區域為對所述起始文本所在區域進行擴展后的區域;根據所述文本檢測區域獲得所述N個幀圖像;所述N個幀圖像為所述待檢測視頻的每一幀圖像中包含所述文本檢測區域的截圖。
可選地,在所述獲取所述待檢測視頻的起始文本坐標之前,所述方法還包括:提取所述待檢測視頻的全部文本信息;所述全部文本信息中包含所述起始文本坐標。
可選地,在所述提取所述待檢測視頻的全部文本信息之后,所述方法還包括:當任意一幀圖像中具有至少兩個文本,將所述任意一幀圖像對應的全部文本進行拼接,并將拼接后的文本作為所述任意一幀圖像的文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州虎牙科技有限公司,未經廣州虎牙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011009652.3/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





