[發明專利]詞條分類方法及審計信息抽取方法有效
| 申請號: | 201811453423.3 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109635289B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 賈禎;孫欣 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞條 分類 方法 審計 信息 抽取 | ||
一種詞條分類方法及審計信息抽取方法,詞條分類方法包括:確定離線訓練完成的至少兩個分類模型;獲取待分類文檔;分別利用所述至少兩個分類模型對所述待分類文檔中的各個詞條進行分類,每個分類模型得到相應的分類結果,所述分類結果包括多個預設類別以及每個預設類別下的詞條;根據所述至少兩個分類模型各自的準確率對全部分類結果進行融合,得到針對所述待分類文檔中各個詞條的最終分類結果。本發明技術方案能夠實現對文檔中各種詞條的分類及抽取,同時保證分類和抽取的準確性。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種詞條分類方法及審計信息抽取方法。
背景技術
在信息抽取和審計審核領域,需要抽取文檔中的特定詞條,例如在合同中抽取特定的條款信息。
但是,現有識別技術只能識別句子中的實體,無法實現對用戶自定義詞條的識別和抽取。
發明內容
本發明解決的技術問題是如何實現對文檔中各種詞條的分類及抽取,同時保證分類和抽取的準確性。
為解決上述技術問題,本發明實施例提供一種詞條分類方法,詞條分類方法包括:確定離線訓練完成的至少兩個分類模型;獲取待分類文檔;分別利用所述至少兩個分類模型對所述待分類文檔中的各個詞條進行分類,每個分類模型得到相應的分類結果,所述分類結果包括多個預設類別以及每個預設類別下的詞條;根據所述至少兩個分類模型各自的準確率對全部分類結果進行融合,得到針對所述待分類文檔中各個詞條的最終分類結果。
可選的,所述詞條分類方法還包括:在所述待分類文檔中,將已分類詞條與未分類詞條區別顯示,其中,所述已分類詞條為各個預設類別下的詞條,所述未分類詞條為所述已分類詞條以外的其他詞條;或者,抽取所述待分類文檔中的已分類詞條,并按照預設格式進行輸出。
可選的,采用以下方式離線訓練所述至少兩個分類模型:獲取訓練文檔;選取所述訓練文檔中的至少一部分詞條及其標注,詞條的標注是指所述詞條所屬的所述預設分類;至少將所述至少一部分詞條及其標注作為訓練集;使用所述訓練集分別對所述至少兩個分類模型進行訓練。
可選的,所述選取所述訓練文檔中的至少一部分詞條及其標注包括:選取所述訓練文檔中的部分詞條及其標注,每一預設分類下的詞條的數量小于100。
可選的,所述獲取訓練文檔之后還包括:將具備不同格式的訓練文檔轉換形成具備統一格式的訓練文檔。
可選的,所述選取所述訓練文檔中至少一部分詞條及其標注之后還包括:對具備標注的詞條進行分詞以及清洗,以刪除停用詞和預設詞。
可選的,所述至少將所述至少一部分詞條及其標注作為訓練集包括:利用同義詞林對所述部分詞條進行語義擴展,以得到所述至少一部分詞條的擴展詞;將所述部分詞條及其擴展詞、標注作為所述訓練集。
可選的,所述根據所述至少兩個分類模型的準確率對所述至少兩個結果進行融合包括:根據離線訓練時各個分類模型對應的分類結果計算各個分類模型的準確率,并根據所述準確率計算各個分類模型的準確率權重;將各個分類模型對應的分類結果與所述準確率權重進行加權以確定所述最終分類結果。
可選的,所述根據離線訓練時各個分類模型對應的分類結果計算各個分類模型的準確率包括:根據各個分類模型對應的分類結果計算各個分類模型的F1分數,所述F1分數作為準確率。
可選的,所述分類模型為三個,其分別選自CRF模型、Seq2Seq模型和Boost模型。
可選的,所述分別利用所述至少兩個分類模型對所述待分類文檔中的各個詞條進行分類包括:在所述至少兩個分類模型中確定待更新模型;利用所述至少兩個分類模型中除所述待更新模型之外的分類模型繼續對待分類文檔中的詞條進行分類,并利用分類完成的各個詞條及其最終分類結果對所述待更新模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811453423.3/2.html,轉載請聲明來源鉆瓜專利網。





