[發明專利]一種多價值鏈問題文本分類方法和裝置在審
| 申請號: | 202210734541.1 | 申請日: | 2022-06-27 |
| 公開(公告)號: | CN115168574A | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 覃博;馬祖揚 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06F40/30;G06F40/289;G06F16/36;G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 價值鏈 問題 文本 分類 方法 裝置 | ||
1.一種多價值鏈問題文本分類方法,其特征在于,所述方法包括:
S1、對企業里各業務檢索平臺中用戶檢索的問句進行收集與文本類別標簽標注,得到多價值鏈問題文本的數據集;
S2、將所述問題文本數據集進行預處理,將預處理后的問題文本數據集劃分為訓練文本集與測試文本集;
S3、對所述訓練文本集與所述測試文本集進行詞向量提取,基于所述訓練文本集,用提取后的詞向量與標注的文本類別標簽,構建全連接網絡圖;
S4、基于所述全連接網絡圖,對初始標簽圖注意力模型進行訓練,得到訓練完畢的標簽圖注意力模型;
S5、基于所述訓練文本集提取的詞向量,對初始文本語義抽取模型進行訓練,得到訓練完畢的文本語義抽取模型;
S6、根據訓練完畢的文本語義抽取模型,對所述測試文本集進行語義抽取,根據訓練完畢的標簽圖注意力模型,對所述測試文本集進行分類。
2.根據權利要求1所述的方法,其特征在于,所述S2中的對所述問題文本數據集進行預處理,包括:
對所述問題文本數據集進行中文分詞處理和去掉停用詞處理;
其中,所述中文分詞處理以及停用詞過濾處理包括:
基于預先構建的多價值鏈文本專家詞典對所述文本進行分詞,采用大顆粒度詞語數目最大化的原則,確定分詞結果;其中,所述文本為問題文本數據集;
基于預先構建的多價值鏈停用詞詞典對停用詞進行過濾,去除噪聲字詞。
3.根據權利要求1所述的方法,其特征在于,所述S3中的對預處理后的所述訓練文本集與測試文本集進行詞向量提取,并基于所述訓練文本集,用提取后的詞向量與標注的文本類別標簽,構建全連接網絡圖,包括:
基于預訓練的BERT詞向量提取模型,得到預處理后的訓練文本集與測試文本集的詞向量;
基于訓練文本集,用提取后的詞向量與標注的文本類別標簽分別作為節點,構建所有節點間全連接的全連接網絡圖,其中,所述文本類別標簽代表的節點初始化為隨機向量,維度與詞向量維度一致,詞向量節點間的邊權重隨機初始化,類別-詞節點間的邊權重初始化為所述訓練文本集中該詞在該類別中出現的概率。
4.根據權利要求1所述的方法,其特征在于,所述S4中基于全連接網絡圖,訓練初始標簽圖注意力模型為GNN-Attention模型,所述GNN-Attention模型包括GNN子模型與Attention子模型;
所述GNN子模型用于得到每個類別標簽節點的輸出特征;
所述Attention子模型用于控制在GNN子模型中的節點間的注意力權重分配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210734541.1/1.html,轉載請聲明來源鉆瓜專利網。





