[發明專利]模型訓練方法、電信業務特征信息提取方法、裝置及設備在審
| 申請號: | 202110753862.1 | 申請日: | 2021-07-03 |
| 公開(公告)號: | CN113361644A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 代曉菊;蔣潤青;孫海;李錚;李戰克;賈博民 | 申請(專利權)人: | 上海理想信息產業(集團)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/284 |
| 代理公司: | 上海方瀾知識產權代理事務所(普通合伙) 31440 | 代理人: | 李娜 |
| 地址: | 201315 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 電信業務 特征 信息 提取 裝置 設備 | ||
1.一種模型訓練方法,其特征在于,用于訓練提取電信行業的業務特征信息的模型,所述方法包括:
獲取實際業務工單文本的訓練數據集合及待提取業務特征信息的測試數據集合;
根據所述訓練數據集合中業務特征信息得到業務特征的提取規則信息;所述提取規則信息包括:根據所述訓練數據集合中的業務特征信息的業務判斷依據構建的業務特征信息與特征元素的識別提取規則,以及從所述訓練數據集合中的業務特征信息中抽取的特征元素集合、特征元素區間范圍;
基于所述提取規則信息從所述測試數據集合提取得到業務特征信息;
根據提取的所述業務特征信息與所述訓練數據集合的業務特征信息的對比結果篩選得到所述提取規則信息中滿足預設條件的提取規則信息以及不滿足預設條件的提取規則信息;
重新調整所述不滿足所述預設條件的提取規則信息,對調整后的所述提取規則信息重復執行所述提取業務特征信息、篩選提取規則信息以及重新調整所述不滿足所述預設條件的提取規則信息的步驟,直到得到提取出所述測試數據集合中的所有業務特征信息且滿足所述預設條件的提取規則信息。
2.根據權利要求1所述的模型訓練方法,其特征在于,基于所述提取規則信息從所述測試數據集合提取得到業務特征信息,包括:
根據所述特征元素集合構建業務特征專有詞性的特征庫以及與業務無關的停用詞庫;
結合所述特征庫對所述測試數據集合中的工單文本進行分詞得到分詞結果集合,并利用所述停用詞庫過濾所述分詞結果集合;
遍歷過濾后的所述分詞結果集合,若識別到業務特征專有詞性的分詞,則結合所述業務特征信息的特征元素區間范圍,判斷識別到的所述業務特征專有詞性的分詞是否滿足業務特征信息與特征元素的識別提取規則,若滿足所述業務特征信息與特征元素的識別提取規則,則將所述識別到的所述業務特征專有詞性的分詞對應的信息保存至業務特征信息的結果集合,若不滿足所述業務特征信息與特征元素的識別提取規則,則丟棄所述識別到的所述業務特征專有詞性的分詞,直到遍歷結束,返回提取的所有業務特征信息的結果集合。
3.根據權利要求2所述的模型訓練方法,其特征在于,所述根據提取的所述業務特征信息與所述訓練數據集合的業務特征信息的比較結果篩選得到所述提取規則信息中滿足預設條件的提取規則信息以及不滿足預設條件的提取規則信息,包括:
對比返回的所述所有業務特征信息的結果集合與所述訓練數據集合的業務特征信息,并計算所述提取規則信息的準確率,若所述準確率大于準確率閾值,則確定相應業務特征的提取規則信息滿足預設條件,并保存相應業務特征的提取規則信息,若所述準確率小于或者等于所述準確率閾值,則確定相應業務特征的提取規則信息不滿足所述預設條件。
4.根據權利要求2所述的模型訓練方法,其特征在于,所述根據所述特征元素集合構建業務特征專有詞性的特征庫,包括:
以預設文件命名規則對所述特征元素集合進行文件命名,將所述特征元素集合的命名規則與其對應的指定業務特征名稱保存到特征庫。
5.根據權利要求2所述的模型訓練方法,其特征在于,所述停用詞庫的詞匯包括以下一者或其任意組合:英文字符、副詞、語氣詞。
6.根據權利要求2所述的模型訓練方法,其特征在于,所述結合所述特征庫對所述測試數據集合中的工單文本進行分詞得到分詞結果集合,包括:
將所述特征庫按照各字段提取先后的優先級排序整合入預設分詞字典庫,依次對所述測試數據集合中的工單文本進行分詞得到分詞結果集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理想信息產業(集團)有限公司,未經上海理想信息產業(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110753862.1/1.html,轉載請聲明來源鉆瓜專利網。





