[發明專利]一種語義特征處理方法、裝置及存儲介質在審
| 申請號: | 202110458796.5 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113177414A | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 蔡曉東;鄭淑婷 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 厲洋洋 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 特征 處理 方法 裝置 存儲 介質 | ||
本發明涉及一種語義特征處理方法、裝置及存儲介質,方法包括:導入待處理語句;分別以待處理語句中多個單詞為處理對象,對各個單詞進行詞級向量化表示,得到與各個單詞對應的詞級嵌入向量;分別以待處理語句中多個單詞為處理對象,提取各個單詞的子詞級特征,得到與各個單詞對應的子詞級向量;分別將同一單詞對應的詞級嵌入向量和所述子詞級向量作為門控動態選擇機制的輸入,通過門控動態選擇機制得到同一單詞對應的單詞語義特征。本發明能夠將待處理語句以詞級和子詞級,即詞與字符之間共同處理,得到詞級嵌入向量和子詞級向量,能夠較好的處理平衡低頻向量和未登錄詞,一并作為門控動態選擇機制輸入,提高了語義特征的準確性。
技術領域
本發明涉及語音數據處理領域,具體涉及一種語義特征處理方法、裝置及存儲介質。
背景技術
由于詞語和句法結構的多樣性,詞語即詞級無法準確表示低頻向量和未登錄詞的語義使得語義特征表示任務成為重要的挑戰,未登錄詞是指文本詞匯庫中沒有出現的詞。以往的embedding等方法存在由于詞向量特征表示稀疏而造成的“維數災難”問題,對于遠距離的依賴難以學到,導致得到的語義特征不準確。
發明內容
本發明所要解決的技術問題是針對現有技術的不足,提供一種語義特征處理方法、裝置及存儲介質。
本發明解決上述技術問題的技術方案如下:一種語義特征處理方法,包括如下步驟:
導入待處理語句,所述待處理語句包括多個單詞,所述單詞為英文單詞;
分別以所述待處理語句中多個單詞為處理對象,對各個單詞進行詞級向量化表示,得到與各個單詞對應的詞級嵌入向量;
分別以所述待處理語句中多個單詞為處理對象,提取各個單詞的子詞級特征,得到與各個單詞對應的子詞級向量;
分別將同一單詞對應的所述詞級嵌入向量和所述子詞級向量作為門控動態選擇機制的輸入,通過所述門控動態選擇機制得到同一單詞對應的單詞語義特征。
本發明解決上述技術問題的另一技術方案如下:一種語義特征處理系統,包括:
導入模塊,用于導入待處理語句,所述待處理語句包括多個單詞,所述單詞為英文單詞;
處理模塊,用于分別以所述待處理語句中多個單詞為處理對象,對各個單詞進行詞級向量化表示,得到與各個單詞對應的詞級嵌入向量;
分別以所述待處理語句中多個單詞為處理對象,提取各個單詞的子詞級特征,得到與各個單詞對應的子詞級向量;
輸出模塊,用于分別將同一單詞對應的所述詞級嵌入向量和所述子詞級向量作為門控動態選擇機制的輸入,通過所述門控動態選擇機制得到同一單詞對應的單詞語義特征。
本發明解決上述技術問題的另一技術方案如下:一種語義特征處理系統,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,當所述處理器執行所述計算機程序時,實現如上所述的語義特征處理方法。
本發明解決上述技術問題的另一技術方案如下:一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執行時,實現如上所述的語義特征處理方法。
本發明的有益效果是:本發明將語句劃分為詞級和子詞級形式,能夠將待處理語句以詞級和子詞級即詞語與子詞之間共同處理,由于子詞級的粒度在詞語與字符之間,解決了詞向量特征表示所帶來的數據稀疏問題,通過子詞級向量能夠較好的處理低頻向量和未登錄詞的語義,將詞級嵌入向量和子詞級向量一并作為門控動態選擇機制輸入,提高了語義特征的準確性。
附圖說明
圖1為本發明實施例提供的語義特征處理方法的流程圖;
圖2為本發明實施例提供的數據流向示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110458796.5/2.html,轉載請聲明來源鉆瓜專利網。





