[發明專利]模型訓練方法、電信業務特征信息提取方法、裝置及設備在審
| 申請號: | 202110753862.1 | 申請日: | 2021-07-03 |
| 公開(公告)號: | CN113361644A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 代曉菊;蔣潤青;孫海;李錚;李戰克;賈博民 | 申請(專利權)人: | 上海理想信息產業(集團)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/284 |
| 代理公司: | 上海方瀾知識產權代理事務所(普通合伙) 31440 | 代理人: | 李娜 |
| 地址: | 201315 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 電信業務 特征 信息 提取 裝置 設備 | ||
本發明實施例涉及自然語言處理技術領域,公開了一種模型訓練方法、電信業務特征信息提取方法、裝置及設備。該方法包括:根據獲取的實際業務工單文本的訓練數據集合中業務特征信息得到業務特征的提取規則信息;基于提取規則信息從待提取業務特征信息的測試數據集合提取得到業務特征信息;根據提取的業務特征信息與訓練數據集合的業務特征信息的對比結果篩選得到滿足預設條件以及不滿足預設條件的提取規則信息;重新調整不滿足預設條件的提取規則信息,對調整后的提取規則信息重復執行前述步驟,直到得到提取出測試數據集合中的所有業務特征信息且滿足預設條件的提取規則信息。本發明實施例可提高電信行業等的業務特征信息提取的準確率以及效率。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種模型訓練方法、電信業務特征信息提取方法、裝置及設備。
背景技術
文本特征信息提取是計算機對自然語言的特征進行自動識別并提取的過程,在客服領域有重要應用,例如以電信10000號客服中心平臺為例,希望能夠通過自動提取業務特征信息的手段,實現用戶來電工單的訴求信息的自動提取及快速填充,從而達到加快現場話務員服務響應能效,提升整體服務質量,提高客服整體運營數據分析的智能化程度,優化管理效果。
目前隨著人工智能的不斷發展,文本特征信息提取的相關研究也越來越多,但是現有的文本特征信息提取技術在電信行業領域的落地應用較少,尤其是在提取指定業務特定信息的應用中受到不同業務特征信息會有交叉重疊、特征信息不規范等因素的影響導致最終提取結果的準確性和效率上都難以達到實際應用標準。
發明內容
有鑒于此,本發明實施例提供了一種模型訓練方法、電信業務特征信息提取方法、裝置及設備,以提高電信行業等的業務特征信息提取的準確率以及效率。
為解決上述技術問題,本發明實施例提供了一種模型訓練方法,用于訓練提取電信行業的業務特征信息的模型,所述方法包括:
獲取實際業務工單文本的訓練數據集合及待提取業務特征信息的測試數據集合;
根據所述訓練數據集合中業務特征信息得到業務特征的提取規則信息;所述提取規則信息包括:根據所述訓練數據集合中的業務特征信息的業務判斷依據構建的業務特征信息與特征元素的識別提取規則,以及從所述訓練數據集合中的業務特征信息中抽取的特征元素集合、特征元素區間范圍;
基于所述提取規則信息從所述測試數據集合提取得到業務特征信息;
根據提取的所述業務特征信息與所述訓練數據集合的業務特征信息的對比結果篩選得到所述提取規則信息中滿足預設條件的提取規則信息以及不滿足預設條件的提取規則信息;
重新調整所述不滿足所述預設條件的提取規則信息,對調整后的所述提取規則信息重復執行所述提取業務特征信息、篩選提取規則信息以及重新調整所述不滿足所述預設條件的提取規則信息的步驟,直到得到提取出所述測試數據集合中的所有業務特征信息且滿足所述預設條件的提取規則信息。
本發明實施例還提供了一種電信業務特征信息提取方法,包括:
獲取待提取業務特征信息的工單文本數據;
基于如前所述的模型訓練方法得到提取規則信息;所述提取規則信息包括:業務特征信息與特征元素的識別提取規則、特征元素集合以及特征元素區間范圍;
根據所述特征元素集合構建業務特征專有詞性的特征庫以及與業務無關的停用詞庫;
結合所述特征庫對所述待提取業務特征信息的工單文本數據進行分詞得到分詞結果集合,并利用所述停用詞庫過濾所述分詞結果集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理想信息產業(集團)有限公司,未經上海理想信息產業(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110753862.1/2.html,轉載請聲明來源鉆瓜專利網。





