[發(fā)明專利]文檔信息抽取模型的訓練方法、裝置及電子設備在審
| 申請?zhí)枺?/td> | 202210566722.8 | 申請日: | 2022-05-23 |
| 公開(公告)號: | CN114818702A | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 吳思瑾;劉涵;李晨輝;胡騰;馮仕堃;陳永鋒 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/106;G06K9/62 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 信息 抽取 模型 訓練 方法 裝置 電子設備 | ||
1.一種文檔信息抽取模型的訓練方法,包括:
確定至少一個文本內容以及所述文本內容的標注信息,其中,所述標注信息根據所述文本內容所在頁面中的鍵值對信息確定;
根據至少一個所述文本內容、所述文本內容的標注信息以及至少一個候選文檔布局信息,生成至少一個文檔標注數據;
采用至少一個所述文檔標注數據,對初始的文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型。
2.根據權利要求1所述的方法,其中,所述確定至少一個文本內容以及所述文本內容的標注信息,包括:
確定至少一個文本內容,以及所述文本內容所在頁面中的鍵值對信息;所述鍵值對信息包括:至少一個鍵值對;
針對每個文本內容,根據所述文本內容對應的至少一個所述鍵值對中的值查詢所述文本內容,獲取所述文本內容中至少一個所述值的所在位置;
根據至少一個所述值的所在位置以及所述值所在鍵值對中的鍵,生成所述文本內容的標注信息。
3.根據權利要求1所述的方法,其中,所述根據至少一個所述文本內容、所述文本內容的標注信息以及至少一個文檔布局信息,生成至少一個文檔標注數據,包括:
針對每個文本內容,從至少一個候選文檔布局信息中選擇目標文檔布局信息;
根據所述文本內容以及所述目標文檔布局信息,生成所述文本內容對應的目標文檔;
根據所述目標文檔以及所述文本內容的標注信息,生成所述文檔標注數據。
4.根據權利要求3所述的方法,其中,所述目標文檔布局信息中包括文本內容布局信息和表格布局信息;所述根據所述文本內容以及所述目標文檔布局信息,生成所述文本內容對應的目標文檔,包括:
按照所述文本內容布局信息對所述文本內容進行布局處理,得到文本布局內容;
按照所述表格布局信息對所述文本內容所在頁面中的鍵值對信息進行布局處理,得到表格布局內容;
根據所述文本布局內容以及所述表格布局內容,生成所述文本內容對應的目標文檔。
5.根據權利要求1所述的方法,其中,所述文檔標注數據包括:所述文本內容對應的目標文檔以及所述文本內容的標注信息;所述采用至少一個所述文檔標注數據,對初始的文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型,包括:
將所述文本內容對應的目標文檔輸入所述文檔信息抽取模型,獲取所述文檔信息抽取模型的輸出結果;
根據所述輸出結果以及所述文本內容的標注信息,構建損失函數;
根據所述損失函數的數值對所述文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型。
6.一種文檔信息抽取模型的訓練裝置,包括:
確定模塊,用于確定至少一個文本內容以及所述文本內容的標注信息,其中,所述標注信息根據所述文本內容所在頁面中的鍵值對信息確定;
生成模塊,用于根據至少一個所述文本內容、所述文本內容的標注信息以及至少一個候選文檔布局信息,生成至少一個文檔標注數據;
訓練模塊,用于采用至少一個所述文檔標注數據,對初始的文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型。
7.根據權利要求6所述的裝置,其中,所述確定模塊具體用于,
確定至少一個文本內容,以及所述文本內容所在頁面中的鍵值對信息;所述鍵值對信息包括:至少一個鍵值對;
針對每個文本內容,根據所述文本內容對應的至少一個所述鍵值對中的值查詢所述文本內容,獲取所述文本內容中至少一個所述值的所在位置;
根據至少一個所述值的所在位置以及所述值所在鍵值對中的鍵,生成所述文本內容的標注信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210566722.8/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





