[發明專利]信息提取方法、裝置及介質在審
| 申請號: | 202111156064.7 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN114064959A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 秦波;辛曉哲 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/587;G06V30/41;G06V30/19;G06K9/62;G06N3/08 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 房德權 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 提取 方法 裝置 介質 | ||
本申請的實施例提供了一種信息提取方法、裝置、介質,涉及計算機及人工智能技術領域。該方法包括:獲取目標圖像,以及獲取信息提取模型,所述目標圖像中包括至少一個信息單元;針對所述至少一個信息單元中的每一個目標信息單元,基于排列在所述目標信息單元之前的信息單元的參考定位信息,通過所述信息提取模型確定所述目標信息單元的目標定位信息;基于所述至少一個信息單元中各個信息單元的目標定位信息,通過所述信息提取模型提取所述至少一個信息單元的特征信息,得到目標特征信息。本申請實施例的技術方案可以提高信息提取的準確度。
技術領域
本申請涉及計算機及人工智能技術領域,具體而言,涉及一種信息提取方法、裝置及介質。
背景技術
在信息提取場景中,比如在針對圖像中的信息提取場景(例如提取圖像中的公式或者文本),通常是對圖像中的信息單元依次進行切分,識別,后處理的過程來提取圖像中的信息。然而,在對圖像中的信息單元依次進行切分,識別,后處理的過程中,會存在誤差積累的情況,導致圖像中的信息提取不準確?;诖?,如何提高信息提取的準確度是亟待解決的技術問題。
發明內容
本申請的實施例提供了一種信息提取方法、裝置、計算機程序產品或計算機程序、計算機可讀介質,進而至少在一定程度上可以提高信息提取的準確度。
本申請的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本申請的實踐而習得。
根據本申請實施例的一個方面,提供了一種信息提取方法,包括:獲取目標圖像,以及獲取信息提取模型,所述目標圖像中包括至少一個信息單元;針對所述至少一個信息單元中的每一個目標信息單元,基于排列在所述目標信息單元之前的信息單元的參考定位信息,通過所述信息提取模型確定所述目標信息單元的目標定位信息;基于所述至少一個信息單元中各個信息單元的目標定位信息,通過所述信息提取模型提取所述至少一個信息單元的特征信息,得到目標特征信息。
根據本申請實施例的一個方面,提供了一種信息提取裝置,包括:獲取單元,被用于獲取目標圖像,以及獲取信息提取模型,所述目標圖像中包括至少一個信息單元;確定單元,被用于針對所述至少一個信息單元中的每一個目標信息單元,基于排列在所述目標信息單元之前的信息單元的參考定位信息,通過所述信息提取模型確定所述目標信息單元的目標定位信息;提取單元,被用于基于所述至少一個信息單元中各個信息單元的目標定位信息,通過所述信息提取模型提取所述至少一個信息單元的特征信息,得到目標特征信息。
在本申請的一些實施例中,基于前述方案,所述確定單元配置為:獲取排列在所述目標信息單元之前的全部信息單元的參考定位信息,作為第一參考定位信息;獲取排列在所述目標信息單元之前的部分信息單元的參考定位信息,作為第二參考定位信息;基于所述第一參考定位信息和所述第二參考定位信息,通過所述信息提取模型確定所述目標信息單元的目標定位信息。
在本申請的一些實施例中,基于前述方案,所述確定單元配置為:獲取遺忘因子;在所述第一參考定位信息和所述第二參考定位信息中確定由所述遺忘因子限定的參考定位信息,作為目標參考定位信息;基于所述目標參考定位信息,通過所述信息提取模型確定所述目標信息單元的目標定位信息。
在本申請的一些實施例中,基于前述方案,所述獲取單元配置為:獲取訓練樣本圖像;為所述訓練樣本圖像中的至少一個信息單元確定在多個特征類型上的訓練標簽,得到多個訓練標簽,其中,每一個訓練標簽用于表征所述至少一個信息單元在對應特征類型上的特征信息;獲取待訓練模型,并通過所述訓練樣本圖像和所述多個訓練標簽對所述待訓練模型進行訓練,得到所述信息提取模型。
在本申請的一些實施例中,基于前述方案,所述獲取單元配置為:獲取至少一幀原始訓練樣本圖像;將各幀原始訓練樣本圖像的高度或者寬度縮放至預設圖像高度或者預設圖像寬度,并按照所述高度或者所述寬度的縮放比例,對所述原始訓練樣本圖像的寬度或者高度進行縮放處理,得到預處理訓練樣本圖像;從所述預處理訓練樣本圖像中選定預定數量的圖像作為所述訓練樣本圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111156064.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





