[發明專利]文本表征方法、裝置及計算機設備在審
| 申請號: | 202011259325.3 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112364666A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 蔡薇;黃帥;尹亞維 | 申請(專利權)人: | 虎博網絡技術(上海)有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/289;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 董艷芳 |
| 地址: | 200050 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 表征 方法 裝置 計算機 設備 | ||
1.一種文本表征方法,其特征在于,所述方法包括:
接收輸入的句子文本;
對所述句子文本進行分詞操作,獲得第一詞向量矩陣和第一字向量矩陣;
將所述第一詞向量矩陣和所述第一字向量矩陣通過注意力機制動態結合,獲得詞信息背景矩陣和字信息背景矩陣;
將所述第一詞向量矩陣與所述詞信息背景矩陣進行矩陣拼接,獲得第二詞向量矩陣,將所述第一字向量矩陣與所述字信息背景矩陣進行矩陣拼接,獲得第二字向量矩陣;
將所述第二詞向量矩陣和所述第二字向量矩陣進行深層編碼,獲得詞矩陣層和字矩陣層;
將所述詞矩陣層和所述字矩陣層進行矩陣拼接,獲得所述句子文本的完整編碼層,作為所述句子文本對應的表征結果。
2.根據權利要求1所述的文本表征方法,其特征在于,所述對所述句子文本進行分詞操作,獲得第一詞向量矩陣和第一字向量矩陣的步驟,包括:
將所述句子文本通過分詞器以詞為單位進行分詞,獲得所述句子文本的詞集合,利用中文預訓練所述詞集合,獲得所述第一詞向量矩陣;
將所述句子文本通過分詞器以字為單位進行分詞,獲得所述句子文本的字集合,隨機初始化所述字集合,獲得所述第一字向量矩陣。
3.根據權利要求1所述的文本表征方法,其特征在于,所述將所述第一詞向量矩陣和所述第一字向量矩陣通過注意力機制動態結合,獲得詞信息背景矩陣和字信息背景矩陣的步驟,包括:
以所述第一字向量矩陣為key向量和value向量,所述第一詞向量矩陣為query向量,利用注意力機制通過預設公式進行計算,獲得所述詞信息背景矩陣,所述詞信息背景矩陣以字信息為背景元素;
以所述第一詞向量矩陣為key向量和value向量,所述第一字向量矩陣為query向量,利用注意力機制通過預設公式進行計算,獲得所述字信息背景矩陣,所述字信息背景矩陣以詞信息為背景元素;
其中,所述預設公式為:
Q表示query向量,K表示key向量,V表示value向量,dk表示所述key向量的維度。
4.根據權利要求1所述的文本表征方法,其特征在于,所述將所述第二詞向量矩陣和所述第二字向量矩陣進行深層編碼,獲得詞矩陣層和字矩陣層的步驟,包括:
將所述第二詞向量矩陣和所述第二字向量矩陣通向雙向長短記憶神經網絡層進行深層編碼,得到所述詞矩陣層和所述字矩陣層。
5.根據權利要求1所述的文本表征方法,其特征在于,所述將所述詞矩陣層和所述字矩陣層進行矩陣拼接,獲得所述句子文本的完整編碼層,作為所述句子文本對應的表征結果的步驟之后,包括:
通過Softmax對所述完整編碼層進行歸一化處理,獲得所述句子文本的離散概率向量和模型預測類別;
根據所述句子文本的離散概率向量構建文本分類任務。
6.根據權利要求5所述的文本表征方法,其特征在于,所述通過Softmax對所述完整編碼層進行歸一化處理,獲得所述句子文本的離散概率向量和模型預測類別的步驟之后,所述方法還包括:
將所述模型預測類別與真實類別進行對比,計算交叉熵損失函數以及所述交叉熵損失函數關于模型變量的導數值;
將所述導數值輸入優化器,所述優化器更新模型參數以使所述交叉熵損失函數最小化;
其中,所述交叉熵損失函數為:
у表示所述真實類別中的真實概率分布,表示所述模型預測類別中的預測概率分布,n表示所述文本分類任務的類別個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于虎博網絡技術(上海)有限公司,未經虎博網絡技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011259325.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種小兒解感中藥的制備方法
- 下一篇:一種燈條板激光切割機





