[發明專利]文檔信息抽取模型的訓練方法、裝置及電子設備在審
| 申請號: | 202210566722.8 | 申請日: | 2022-05-23 |
| 公開(公告)號: | CN114818702A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 吳思瑾;劉涵;李晨輝;胡騰;馮仕堃;陳永鋒 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/106;G06K9/62 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 信息 抽取 模型 訓練 方法 裝置 電子設備 | ||
本公開提供了文檔信息抽取模型的訓練方法、裝置及電子設備,涉及人工智能領域,尤其涉及自然語言處理、深度學習、智能搜索技術領域。具體實現方案為:確定至少一個文本內容以及文本內容的標注信息,其中,標注信息根據文本內容所在頁面中的鍵值對信息確定;根據至少一個文本內容、文本內容的標注信息以及至少一個候選文檔布局信息,生成至少一個文檔標注數據;采用至少一個文檔標注數據,對初始的文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型,從而降低文檔標注數據的獲取成本,提高文檔標注數據的準確度,進而提高文檔信息抽取模型的訓練效率。
技術領域
本公開涉及人工智能技術領域,尤其涉及自然語言處理、深度學習、智能搜索技術領域,尤其涉及一種文檔信息抽取模型的訓練方法、裝置及電子設備。
背景技術
目前,文檔信息抽取模型的訓練,需要一定的文檔標注數據,用于對預訓練后的文檔信息抽取模型進行微調。其中,文檔標注數據的獲取方式為,將文檔遞送至眾包標注平臺,讓標注人員進行人工標注,得到文檔標注數據。上述方案中,人工標注得到的文檔標注數據數量級較小,標注效率差,模型的訓練效率差。
發明內容
本公開提供了一種文檔信息抽取模型的訓練方法、裝置及電子設備質。
根據本公開的一方面,提供了一種文檔信息抽取模型的訓練方法,包括:確定至少一個文本內容以及所述文本內容的標注信息,其中,所述標注信息根據所述文本內容所在頁面中的鍵值對信息確定;根據至少一個所述文本內容、所述文本內容的標注信息以及至少一個候選文檔布局信息,生成至少一個文檔標注數據;采用至少一個所述文檔標注數據,對初始的文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型。
根據本公開的另一方面,提供了一種文檔信息抽取模型的訓練裝置,包括:確定模塊,用于確定至少一個文本內容以及所述文本內容的標注信息,其中,所述標注信息根據所述文本內容所在頁面中的鍵值對信息確定;生成模塊用于,根據至少一個所述文本內容、所述文本內容的標注信息以及至少一個候選文檔布局信息,生成至少一個文檔標注數據;訓練模塊,用于采用至少一個所述文檔標注數據,對初始的文檔信息抽取模型進行訓練處理,得到訓練好的文檔信息抽取模型。
根據本公開的又一方面,提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本公開上述提出的文檔信息抽取模型的訓練方法。
根據本公開的再一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行本公開上述提出的文檔信息抽取模型的訓練方法。
根據本公開的再一方面,提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現本公開上述提出的文檔信息抽取模型的訓練方法的步驟。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本公開的限定。其中:
圖1是根據本公開第一實施例的示意圖;
圖2是根據本公開第二實施例的示意圖;
圖3是根據本公開第三實施例的示意圖;
圖4是用來實現本公開實施例的方法的電子設備的框圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210566722.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





