[發明專利]一種基于預訓練模型和BiLatticeLSTM的標書關鍵信息抽取方法在審
| 申請號: | 202310165102.8 | 申請日: | 2023-02-24 |
| 公開(公告)號: | CN116127986A | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 涂著剛;湯雙明;周鴻章 | 申請(專利權)人: | 貴陽高新數通信息有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F16/951;G06N3/0442;G06N3/045;G06N3/08 |
| 代理公司: | 重慶強大凱創專利代理事務所(普通合伙) 50217 | 代理人: | 王照偉 |
| 地址: | 550000 貴州省貴陽市高新*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 bilatticelstm 標書 關鍵 信息 抽取 方法 | ||
本發明涉及信息提取技術領域,具體涉及了一種基于預訓練模型和BiLatticeLSTM的標書關鍵信息抽取方法。包括以下步驟:S100:獲取若干標書文件并進行預處理,生成數據集;S200:將數據集輸入Bert模型進行預訓練,學習標書文件的語義信息,得到BidBert預訓練模型S300:將數據集中的關鍵信息進行標注后輸入到BidBert模型,得到標書文件中每個字的字向量,以及關于關鍵信息的每個詞的詞向量;S400:根據字向量和詞向量提取標書文件中關鍵信息識別所需的特征向量,將特征向量通過條件隨機場進行解碼,得到最優參數模型;S500:迭代訓練得到標書關鍵信息抽取最終模型。能夠提高標書關鍵信息提取的準確度及效率。
技術領域
本發明涉及信息提取技術領域,具體涉及了一種基于預訓練模型和BiLatticeLSTM的標書關鍵信息抽取方法。
背景技術
標書是由發標單位編制或委托設計單位編制,向投標者提供該工程的主要技術、質量、工期等要求的文件。在標書文件中存在一些重要的信息,如項目名稱、招標單位、中標單位、中標金額、投標截止時間等30多項關鍵信息,這些關鍵信息是大家比較關注的。目前有效檢索標書中這些關鍵信息的方式有人為復制粘貼和規則抽取的方式。但是由于工程項目招標或物品采購時,通常會在眾多站點發布,且有著沒有固定模板、非結構化數據以及文檔形式多樣(Word、PDF、HTML、掃描圖片等)的特點,人為的方式耗時費力,需要有經驗的工作者才能夠完成,規則抽取需要特定人員配置大量規則,并且抽取結果邊界模糊,使得信息提取的效果并不理想,針對不同文檔的適應性也很差,現有技術并不能從海量標書中得到語義信息,從而存在一些語義歧義的關鍵信息難以正確提取。
發明內容
本發明所解決的技術問題在于提供一種基于預訓練模型和BiLatticeLSTM的標書關鍵信息抽取方法,能夠提高標書關鍵信息提取的準確度及效率。
本發明提供的基礎方案:一種基于預訓練模型和BiLatticeLSTM的標書關鍵信息抽取方法,包括以下步驟:
S100:獲取若干標書文件并進行預處理,提取文本信息,生成數據集;
S200:將數據集輸入Bert模型進行預訓練,學習標書文件的語義信息,得到BidBert預訓練模型;
S300:將數據集中的關鍵信息進行標注后輸入到BidBert模型,得到標書文件中每個字的字向量,以及關于關鍵信息的每個詞的詞向量;
S400:根據字向量和詞向量提取標書文件中關鍵信息識別所需的特征向量,將特征向量通過條件隨機場進行解碼,得到最優參數模型;
S500:迭代訓練得到標書關鍵信息抽取最終模型。
本發明的原理在于:首先獲取到海量的標書文件作為數據集,通過數據集輸入到Bert模型中進行預訓練,得到BidBert模型,學習到標書文件中的語義信息,通過海量的標書文件進行語義學習,得到招標領域的預訓練模型,該模型能夠更加準確的獲取輸入數據的字向量。之后對數據集中標書文件的關鍵信息進行標注后,輸入到BidBert模型中,提取到字向量和詞向量,進行字向量和詞向量的訓練。通過字向量和詞向量提取標書文件中識別關鍵信息,所需要的特征向量,對特征向量進行解碼后得到最優的模型,在多次迭代訓練后,得到最終的標書信息提取模型,后續將標書文件直接輸入模型中,便能夠直接提取出標書文件中的關鍵信息。
相比于現有技術,存在以下優點:
相比與傳統人工的方式,只需要在模型訓練過程中對關鍵信息進行標注即可,后續直接將標書文檔輸入模型,便能夠直接得到標書文檔中的關鍵信息,減少人力、物力以及時間成本。
相比于規則、詞庫的抽取方式,通過學習到標書文件中的語義信息,能夠準確識別標書文件中的關鍵信息,有著更高的覆蓋度、準確度,并且能夠適用于各種格式的標書文件,不需要認為的維護詞庫和識別規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴陽高新數通信息有限公司,未經貴陽高新數通信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310165102.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種局部鍍錫的方法
- 下一篇:產品推薦方法、裝置、設備及存儲介質





