[發明專利]一種文本信息的處理方法、裝置及設備有效
| 申請號: | 202210088375.2 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114118085B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 梁矗;鄭鐵樵;張博 | 申請(專利權)人: | 云智慧(北京)科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 信息 處理 方法 裝置 設備 | ||
本發明的實施例提供一種文本信息的處理方法、裝置及設備,所述方法包括:獲取文本信息的句向量模型和詞向量;根據所述句向量模型和詞向量,確定第一參數矩陣和第一詞表;對所述第一參數矩陣進行乘積量化處理,得到量化編碼矩陣;對所述第一詞表進行壓縮處理,得到壓縮詞表;根據所述量化編碼矩陣和所述壓縮詞表,對所述文本信息進行處理,得到處理結果;本發明的實施例大大降低了模型參數量,同時保持模型精度,準確率損失少。
技術領域
本發明涉及信息處理技術領域,特別是指一種文本信息的處理方法、裝置及設備。
背景技術
word2vec是一種詞嵌入方式,可將不可計算且非結構化的詞轉化為可計算且結構化的向量,可將自然語言處理問題轉化為數學問題的基礎,是常見的自然語言處理任務如文本分類、語義相似度計算、機器翻譯等的前提;
基于類似word2vec思路,對句子級別內容實現向量化,即sentence2vec,以便后期使用時可以高效運算,比如尋找相似句子,常見的有下列方法:
對句子中出現的詞對應的詞向量通過映射參數矩陣,映射到句向量空間,得到句向量。但是這種方法在詞表很大情況下,word2vec數據占用空間會非常大,比如一段英文的詞向量維數300,包含單詞和子詞總數量200萬,僅詞向量文件大小是7GB,這在常見的應用場景,內存和計算資源有限的情況下,是不可用的。
另外,對于模型壓縮的方法通常有知識蒸餾,網絡剪枝以及低秩近似等,其存在的問題是可能會得不到預期的效果,效率也不高。同時,壓縮后通常對模型性能損失比較嚴重,比如用低秩近似的方法詞向量由300維變化到50維后,準確率降低30-40%;而另一種常見的模型壓縮的方法是乘積量化,乘積量化的核心思想是,對權重進行聚類,類別用索引來表示,在原權重矩陣中用索引替代,但是這種模型壓縮的方法不適用于句向量模型的詞表壓縮,詞表的每一維度數據的改變都會影響整個詞向量的表達精度。
發明內容
本發明提供了一種文本信息的處理方法、裝置及設備。大大降低了模型參數量,同時保持模型精度,準確率損失少。
為解決上述技術問題,本發明的實施例提供以下方案:
一種文本信息的處理方法,所述方法包括:
獲取文本信息的句向量模型和詞向量;
根據所述句向量模型和詞向量,確定第一參數矩陣和第一詞表;
對所述第一參數矩陣進行乘積量化處理,得到量化編碼矩陣;
對所述第一詞表進行壓縮處理,得到壓縮詞表;
根據所述量化編碼矩陣和所述壓縮詞表,對所述文本信息進行處理,得到處理結果。
可選的,根據所述句向量模型和詞向量,確定第一參數矩陣和第一詞表,包括:
根據所述句向量模型和詞向量,得到所述句向量模型的損失函數;
通過所述損失函數,確定第一參數矩陣和第一詞表。
可選的,所述損失函數為;其中,loss為損失函數,x1:t是句向量模型的句子中t個詞向量,yn為句子的標簽,A為第一詞表,B為第一參數矩陣,n為句子的數量。
可選的,對所述第一參數矩陣進行乘積量化處理,得到量化編碼矩陣,包括:
獲取第一參數矩陣的維度和壓縮參數;
根據所述維度和壓縮參數,對第一參數矩陣的維度進行劃分,得到至少兩個子空間;
對所述子空間進行聚類處理,得到所述子空間對應的類中心;
根據所述類中心,生成量化編碼矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云智慧(北京)科技有限公司,未經云智慧(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210088375.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





