[發(fā)明專利]文本提取方法、裝置及存儲介質(zhì)有效

申請?zhí)枺?/td>	201810857110.8	申請日：	2018-07-31
公開（公告）號：	CN110163051B	公開（公告）日：	2023-03-10
發(fā)明（設(shè)計(jì)）人：	李洋	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號：	G06V20/40	分類號：	G06V20/40;G06V30/19
代理公司：	深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300	代理人：	黃威
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本提取方法裝置存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種文本提取方法，其特征在于，包括：

對視頻進(jìn)行解析，得到所述視頻所包含的視頻幀；

對所述視頻幀進(jìn)行文本提取處理，得到所述視頻的初始文本集；所述初始文本集包括至少一個視頻幀對應(yīng)的初始文本；

獲取所述初始文本集中初始文本之間的文本相似度；

根據(jù)所述文本相似度，對所述初始文本集中的初始文本進(jìn)行優(yōu)化處理，得到有效文本集；所述有效文本集包括至少一個有效文本；

按序?qū)⑺鲇行谋炯械挠行谋荆瑑蓛山M合為文本對；

判斷所述文本對中是否包括分割文本對；所述分割文本對內(nèi)的有效文本之間不存在相同字段；

若存在，則基于所述分割文本對，將所述有效文本集劃分為至少兩個場景文本組；所述場景文本組內(nèi)有效文本組成的文本對連續(xù)、且不包括分割文本對；

將各場景文本組中所有有效文本進(jìn)行并集運(yùn)算，得到各場景文本組對應(yīng)的場景文本；

將所有場景文本組對應(yīng)的場景文本，組合得到所述有效文本集對應(yīng)的文本；

將所述有效文本集對應(yīng)的文本，作為所述視頻對應(yīng)的視頻文本。

2.根據(jù)權(quán)利要求1所述的文本提取方法，其特征在于，所述根據(jù)所述文本相似度，對所述初始文本集中的初始文本進(jìn)行優(yōu)化處理，得到有效文本集的步驟包括：

對文本相似度不低于第一閾值的初始文本，進(jìn)行去重處理；

對文本相似度大于第二閾值、且小于第一閾值的初始文本，進(jìn)行修正處理。

3.根據(jù)權(quán)利要求2所述的文本提取方法，其特征在于，所述對文本相似度大于第二閾值、且小于第一閾值的初始文本，進(jìn)行修正處理的步驟包括：

將文本相似度大于第二閾值、且小于第一閾值的初始文本，作為待修正文本組；

獲取待修正文本組中各字段的出現(xiàn)概率；

根據(jù)各字段的出現(xiàn)概率，確定所述待修正文本組對應(yīng)的修正文本；

使用所述修正文本，替換所述待修正文本組內(nèi)的初始文本。

4.根據(jù)權(quán)利要求1所述的文本提取方法，其特征在于，在將所有場景文本組對應(yīng)的場景文本，組合得到所述有效文本集對應(yīng)的文本的步驟之后，還包括：

獲取各場景文本組中指定位置的有效文本所對應(yīng)的視頻幀在所述視頻中的位置屬性；

根據(jù)位置屬性，確定所述場景文本組對應(yīng)的標(biāo)記符；

使用場景文本組對應(yīng)的標(biāo)記符，在所述有效文本集對應(yīng)的文本中，對場景文本進(jìn)行標(biāo)記。

5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的文本提取方法，其特征在于，所述對所述視頻幀進(jìn)行文本提取處理，得到所述視頻的初始文本集的步驟包括：

對所述視頻所包含的視頻幀進(jìn)行篩選，得到有效視頻幀；

對所述有效視頻幀進(jìn)行文本提取，生成所述視頻的初始文本集。

6.根據(jù)權(quán)利要求5所述的文本提取方法，其特征在于，所述對所述視頻所包含的視頻幀進(jìn)行篩選，得到有效視頻幀的步驟包括：

檢測拍攝所述視頻時是否存在拍攝場景的切換操作；

若存在切換操作，則確定切換操作對應(yīng)的切換視頻幀；

將所述視頻所包含的視頻幀，剔除所述切換視頻幀后，記為所述有效視頻幀。

7.根據(jù)權(quán)利要求5所述的文本提取方法，其特征在于，所述對所述視頻所包含的視頻幀進(jìn)行篩選，得到有效視頻幀的步驟包括：

檢測拍攝所述視頻時是否存在抖動操作；

若存在抖動作，則確定抖動操作對應(yīng)的抖動視頻幀；

將所述視頻所包含的視頻幀，剔除所述抖動視頻幀后，記為所述有效視頻幀。

8.根據(jù)權(quán)利要求5所述的文本提取方法，其特征在于，所述對所述視頻所包含的視頻幀進(jìn)行篩選，得到有效視頻幀的步驟包括：

判斷所述視頻所包含的各視頻幀是否存在文本；

將所述視頻所包含的、存在文本的視頻幀，記為所述有效視頻幀。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810857110.8/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】