[發明專利]通知文本信息實體屬性抽取方法、計算機設備及存儲介質有效
| 申請號: | 202110241513.1 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN112597283B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 劉孟奇;羊晉;司俊俊;涂波 | 申請(專利權)人: | 北京數業專攻科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/216;G06F40/295 |
| 代理公司: | 北京金咨知識產權代理有限公司 11612 | 代理人: | 秦景芳 |
| 地址: | 102399 北京市門頭*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通知 文本 信息 實體 屬性 抽取 方法 計算機 設備 存儲 介質 | ||
1.一種通知文本信息實體屬性抽取方法,其特征在于,包括:
獲取通知文本信息,所述通知文本信息包括服務商標識和通知文本內容;
對通知文本內容進行分詞,得到分詞結果;
根據分詞結果查詢預先建立的高頻詞匯表,得到文本特征;
根據文本特征和服務商標識,利用預先訓練的文本分類模型,計算得到服務類別;
獲取服務商標識和服務類別對應的預先建立的關鍵詞和正則表達式的映射關系;
檢索通知文本內容中包含的關鍵詞,根據檢索到的關鍵詞查找獲取的關鍵詞和正則表達式的映射關系,得到檢索的關鍵詞對應的正則表達式集合,作為潛在的正則表達式匹配模板;
對通知文本內容遍歷匹配潛在的正則表達式匹配模板,提取得到通知文本內容的實體屬性信息;
所述方法還包括:訓練文本分類模型;
訓練文本分類模型,包括:
獲取歷史通知文本信息集,每條歷史通知文本信息包括服務商標識和歷史通知文本內容;
將歷史通知文本信息集按服務商標識進行分組,得到每個服務商標識對應的歷史通知文本內容集;
將每個服務商標識對應的歷史通知文本內容集中的歷史通知文本內容兩兩進行文本相似性比較,并將相似的歷史通知文本內容放在同一個相似文本組中;
從同一個服務商標識對應的各相似文本組中各抽取部分歷史通知文本內容,并獲取抽取的各歷史通知文本內容對應的服務類別標簽;
對抽取的各歷史通知文本內容進行分詞,并根據分詞結果查詢預先建立的高頻詞匯表,得到相應歷史通知文本內容的文本特征;
根據抽取的每條歷史通知文本內容的文本特征、服務商標識、及服務類別標簽形成一個分類訓練樣本,并將分類訓練樣本中的文本特征和服務商標識輸入至設定分類器模型,得到預測的服務類別;
根據預測的服務類別和相應的分類訓練樣本中的服務類別標簽計算損失函數,并將損失函數返回至設定分類器模型,以訓練該設定分類器模型,直到滿足設定訓練條件,根據訓練后的設定分類器模型得到文本分類模型。
2.如權利要求1所述的通知文本信息實體屬性抽取方法,其特征在于,檢索通知文本內容中包含的關鍵詞,根據檢索到的關鍵詞查找獲取的關鍵詞和正則表達式的映射關系,得到檢索的關鍵詞對應的正則表達式集合,包括:
利用服務商標識和服務類別對應的預先構造的字典樹檢索通知文本內容中包含的關鍵詞;
根據檢索到的關鍵詞查找獲取的關鍵詞和正則表達式的映射關系,得到檢索的關鍵詞對應的正則表達式集合。
3.如權利要求1所述的通知文本信息實體屬性抽取方法,其特征在于,還包括:建立高頻詞匯表;
建立高頻詞匯表,包括:
根據分詞結果查詢預先建立的高頻詞匯表,得到相應歷史通知文本內容的文本特征之前,獲取從各服務商標識對應的各相似文本組中抽取的歷史通知文本內容的分詞結果,統計所有分詞結果中詞匯的出現頻次,并根據出現頻次靠前的設定數量的詞匯得到高頻詞匯表。
4.如權利要求1至3任一項所述的通知文本信息實體屬性抽取方法,其特征在于,還包括:建立關鍵詞和正則表達式的映射關系;
建立關鍵詞和正則表達式的映射關系,包括:
獲取從各服務商標識對應的各相似文本組中抽取的歷史通知文本內容,并獲取抽取的歷史通知文本內容對應的實體標注標簽;
根據抽取的每個歷史通知文本內容和相應的實體標注標簽形成命名體識別訓練樣本,并利用命名體識別訓練樣本對設定識別模型進行訓練,得到命名體識別模型;
利用命名體識別模型對每個服務商標識對應的每個相似文本組的歷史通知文本內容進行實體抽取,得到相應歷史通知文本內容的實體數據;
將每個服務商標識對應的每個相似文本組的每個歷史通知文本內容的實體數據替換為正則規則,得到相應的正則表達式;
提取每個服務商標識對應的每個相似文本組的每個歷史通知文本內容對應的正則表達式中的關鍵詞,得到關鍵詞和正則表達式的映射關系;
其中,相似文本組是通過將每個服務商標識對應的歷史通知文本內容集中的歷史通知文本內容兩兩進行文本相似性比較,并將相似的歷史通知文本內容放在同一個組中得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京數業專攻科技有限公司,未經北京數業專攻科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110241513.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖書堆放層疊夾取裝置
- 下一篇:光模塊及通信設備
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





