[發明專利]文本信息抽取方法、裝置、設備及可讀存儲介質在審
| 申請號: | 202110377541.6 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN112860905A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 黃一鳴 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 抽取 方法 裝置 設備 可讀 存儲 介質 | ||
1.一種文本信息抽取方法,其特征在于,所述方法包括:
接收待抽取文本,對所述待抽取文本進行位置信息標記,得到標準文本序列;
利用信息抽取模型中的特征提取層對所述標準文本序列進行特征抽取,得到文本特征矩陣;
利用所述信息抽取模型中的文本分類層對所述文本特征矩陣進行分類,得到文本信息分類結果;
利用所述信息抽取模型中的文本匹配層對所述文本特征矩陣進行元素分類,得到文本特征圖矩陣;
根據所述文本特征圖矩陣進行關聯映射,得到文本信息關聯結果;
根據所述文本信息分類結果及所述文本信息關聯結果進行無向圖構建及極大團篩選關聯,得到目標信息文本。
2.如權利要求1所述的文本信息抽取方法,其特征在于,所述利用信息抽取模型對所述標準文本序列進行信息抽取,得到文本信息分類結果及文本信息關聯結果之前,還包括:
獲取歷史文本集,對所述歷史文本集進行多標簽標記,得到訓練樣本集;
利用所述訓練樣本集對預構建的深度學習模型進行訓練,得到所述信息抽取模型。
3.如權利要求2所述的文本信息抽取方法,其特征在于,所述獲取歷史文本集,對所述歷史文本集進行多標簽標記,得到訓練樣本集,包括:
對所述歷史文本集中的每個歷史文本進行信息類別標簽標記、字符坐標標簽標記及信息類別關聯標簽標記,得到對應的訓練樣本;
對所述訓練樣本進行分詞處理,得到分詞序列樣本;
匯總所有的所述分詞序列樣本,得到所述訓練樣本集。
4.如權利要求1所述的文本信息抽取方法,其特征在于,所述利用信息抽取模型中的特征提取層對所述標準文本序列進行信息特征抽取,得到文本特征矩陣,包括:
利用信息抽取模型的特征提取層將所述標準文本序列中的的每個詞語轉化為詞向量;
將轉化的所有詞向量按照所述標準文本序列中對應的詞語的先后順序進行組合,得到所述文本特征矩陣。
5.如權利要求4所述的文本信息抽取方法,其特征在于,所述利用所述信息抽取模型中的文本匹配層對所述文本特征矩陣進行元素分類,得到文本特征圖矩陣,包括:
將所述文本特征矩陣進行矩陣轉置,得到文本特征行矩陣;
將所述文本特征行矩陣及所述文本特征矩陣進行矩陣乘法計算,得到初始文本特征圖矩陣;
利用預設的分類函數對所述文本特征圖矩陣中的每個元素進行分類,得到所述文本特征圖矩陣。
6.如權利要求5所述的文本信息抽取方法,其特征在于,所述根據所述文本特征圖矩陣進行關聯映射,得到文本信息關聯結果,包括:
篩選所述文本特征圖矩陣中每一個預設數值大小的元素對應行列序號,得到每一個預設數值大小的元素對應的關聯數組;
根據所述關聯數組選取所述標準文本序列中對應順序的詞語進行關聯關系標記,得到關聯文本;
匯總所有的所述關聯文本,得到所述文本信息關聯結果。
7.如權利要求1至6中任意一項所述的文本信息抽取方法,其特征在于,所述根據所述文本信息分類結果及所述文本信息關聯結果進行無向圖構建及極大團篩選關聯,得到目標信息文本,包括:
根據所述文本信息關聯結果構建無向圖,得到關聯無向圖;
選取所述關聯無向圖中的極大團,得到對應的所述關聯匹配組;
將每個所述關聯匹配組與所述文本信息分類結果進行關聯,得到所述目標信息文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110377541.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種加巴噴丁膠囊制劑及其制備方法
- 下一篇:圖片處理方法及裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





