[發明專利]簽名信息提取方法及裝置有效
| 申請號: | 201811268593.4 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109460551B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 鄒晶;岳永鵬 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/295;G06F18/243 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 徐麗 |
| 地址: | 100000 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 簽名 信息 提取 方法 裝置 | ||
1.一種簽名信息提取方法,其特征在于,應用于電子設備,所述電子設備中配置有簽名信息提取模型,所述簽名信息提取模型包括結構化信息抽取模型和非結構化信息抽取模型,所述方法包括:
獲取待抽取簽名信息的文本數據,并對所述文本數據進行分句,得到多條語句;
依次將每條語句輸入到所述結構化信息抽取模型中,通過所述結構化信息抽取模型中的各個正則表達式分別提取每條語句中的結構化信息;
分別提取每條語句的TF-IDF詞頻特征和標注序列特征,并將提取得到的TF-IDF詞頻特征和標注序列特征分別輸入到所述非結構化信息抽取模型中的地址二分類模型和字符粒度序列標注模型中,得到每條語句中的非結構化信息,其中,所述非結構化信息包括人名信息和地址信息;
根據所述結構化信息和所述非結構化信息生成簽名信息提取結果。
2.根據權利要求1所述的簽名信息提取方法,其特征在于,所述分別提取每條語句的TF-IDF詞頻特征和標注序列特征的步驟,包括:
對所述文本數據中的每條語句進行完全分詞,得到每條語句的完全分詞結果,并提取所述完全分詞結果的TF-IDF詞頻特征;
同時對所述文本數據中的每條語句進行字符粒度拆分,得到拆分后的每條語句對應的各個詞語;
分別提取每個詞語的序列標注特征,以得到每條語句的標注序列特征。
3.根據權利要求1或2所述的簽名信息提取方法,其特征在于,所述將提取得到的TF-IDF詞頻特征和標注序列特征分別輸入到所述非結構化信息抽取模型中的地址二分類模型和字符粒度序列標注模型中,得到每條語句中的非結構化信息的步驟,包括:
將所述TF-IDF詞頻特征輸入到所述地址二分類模型中,得到對應的地址信息;
將所述標注序列特征輸入到所述字符粒度序列標注模型中,得到對應的實體標注序列,并對所述實體標注序列中各個實體標簽進行識別,根據識別結果輸出對應的人名信息。
4.根據權利要求3所述的簽名信息提取方法,其特征在于,所述獲取待抽取簽名信息的文本數據的步驟之前,所述方法還包括:
訓練所述地址二分類模型;以及
訓練字符粒度序列標注模型。
5.根據權利要求4所述的簽名信息提取方法,其特征在于,所述訓練所述地址二分類模型的步驟,包括:
獲取多個地址二分類正例和多個地址二分類例;
將所述多個地址二分類正例和所述多個地址二分類例進行亂序處理,得到訓練樣本;
對所述訓練樣本進行完全分詞,得到完全分詞結果,并提取所述完全分詞結果的TF-IDF詞頻特征;
根據提取的TF-IDF詞頻特征,選取在線主動攻擊型分類器訓練得到地址二分類模型。
6.根據權利要求4所述的簽名信息提取方法,其特征在于,所述訓練字符粒度序列標注模型的步驟,包括:
獲取預訓練數據集;
根據預設規則將所述預訓練數據集轉換為目標數據集,其中,所述目標數據集包括多條語句以及每條語句中各個詞語對應的實體類別標簽;
按照字符粒度對所述目標數據集中每條語句和對應的各個詞語對應的實體類別標簽進行拆分,得到拆分結果,其中,所述拆分結果包括拆分后的各個詞語和各個詞語對應的實體類別標簽;
對所述拆分結果進行序列標注,得到每條語句的實體標注序列,同時提取拆分后的各個詞語的標注序列特征,得到每條語句的標注序列特征,其中,每條語句中的第一個實體詞語采用第一實體符號標注、其它實體詞語采用第二實體符號標注、非實體詞語采用非實體符號標注;
通過CRF條件隨機場對每條語句的標注序列特征與對應的實體標注序列進行訓練,得到字符粒度序列標注模型。
7.根據權利要求6所述的簽名信息提取方法,其特征在于,所述根據預設規則將所述預訓練數據集轉換為目標數據集的步驟,包括:
查找所述預訓練數據集中各個需要合并的詞語,并將查找到的各個需要合并的詞語進行合并,得到合并詞語后的預訓練數據集;
將所述合并詞語后的預訓練數據集中的各個詞語的詞性標簽轉換為對應的實體類別標簽,以得到轉換后的目標數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司,未經北京知道創宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811268593.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





