[發明專利]文本處理方法以及裝置有效
| 申請號: | 202210436844.5 | 申請日: | 2022-04-25 |
| 公開(公告)號: | CN114548046B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 萬宇;楊寶嵩;劉大一恒;張海波;陳博興;謝軍 | 申請(專利權)人: | 阿里巴巴達摩院(杭州)科技有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06N3/04 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 以及 裝置 | ||
1.一種文本處理方法,包括:
根據文本矩陣確定當前時刻的文本信號,以及上一時刻的隱狀態信號,其中,所述上一時刻的隱狀態信號是指對上一時刻中的字單元對應的向量表達進行處理后得到的向量表達,由上一時刻對應的待處理脈沖信號通過隱狀態層進行語言理解處理獲得;
利用預設脈沖轉換函數對所述文本信號和所述隱狀態信號分別進行轉換,獲得文本脈沖信號和隱狀態脈沖信號;
對所述文本脈沖信號和所述隱狀態脈沖信號進行信號融合,獲得待處理脈沖信號;
通過對所述待處理脈沖信號進行處理,獲得所述當前時刻對應的目標文本信號。
2.根據權利要求1所述的方法,所述利用預設脈沖轉換函數對所述文本信號進行轉換,獲得文本脈沖信號,包括:
根據所述預設脈沖轉換函數確定脈沖信號激發閾值;
計算所述文本信號與所述脈沖信號激發閾值的文本信號差值,并將所述文本信號差值與預設值進行比較;
根據比較結果和所述預設脈沖轉換函數確定所述文本信號對應的所述文本脈沖信號;
相應的,所述利用預設脈沖轉換函數對所述隱狀態信號分別進行轉換,獲得隱狀態脈沖信號,包括:
計算所述隱狀態信號與所述脈沖信號激發閾值的隱狀態信號差值,并將所述隱狀態信號差值與所述預設值進行比較;
根據比較結果和所述預設脈沖轉換函數確定所述隱狀態信號對應的所述隱狀態脈沖信號。
3.根據權利要求2所述的方法,所述文本脈沖信號通過下述公式確定:
其中,t表示當前時刻,pt表示文本脈沖信號,xt表示文本信號,v表示脈沖信號激發閾值,F表示預設脈沖轉換函數,d表示模型維度;
相應的,所述隱狀態脈沖信號通過下述公式確定:
其中,t-1表示上一時刻,gt-1表示隱狀態脈沖信號,ht-1表示隱狀態信號。
4.根據權利要求3所述的方法,所述待處理脈沖信號通過下述公式確定:
其中,ht表示當前時刻待處理脈沖信號,r表示狀態衰退因子,Wg表示文本矩陣。
5.根據權利要求1所述的方法,所述根據文本矩陣確定當前時刻的文本信號,包括:
獲取待處理文本,并構建所述待處理文本對應的所述文本矩陣;
按照預設處理規則在所述文本矩陣中選擇所述當前時刻對應的所述文本信號。
6.根據權利要求1所述的方法,所述上一時刻的隱狀態信號的確定,包括:
獲取所述上一時刻對應的待處理脈沖信號;
通過隱狀態層對所述上一時刻對應的待處理脈沖信號進行語言理解處理,獲得所述上一時刻的隱狀態信號。
7.根據權利要求1所述的方法,所述通過對所述待處理脈沖信號進行處理,獲得所述當前時刻對應的目標文本信號,包括:
對所述待處理脈沖信號進行前向處理獲得前向脈沖信號,以及對所述待處理脈沖信號進行后向處理獲得后向脈沖信號;
將所述前向脈沖信號和所述后向脈沖信號進行融合,獲得目標脈沖信號;
通過對所述目標脈沖信號進行處理,獲得所述當前時刻對應的目標文本信號。
8.根據權利要求1-4任意一項所述的方法,所述根據文本矩陣確定當前時刻的文本信號,以及上一時刻的隱狀態信號步驟執行之前,還包括:
將待處理文本對應的所述文本矩陣輸入至語言理解模型;
相應的,所述通過對所述待處理脈沖信號進行處理,獲得所述當前時刻對應的目標文本信號步驟執行之后,還包括:
獲取所述文本矩陣對應的全局目標文本信號;
將所述全局目標文本信號輸入至所述語言理解模型中的輸出單元進行處理,獲得所述待處理文本對應的目標文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴達摩院(杭州)科技有限公司,未經阿里巴巴達摩院(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210436844.5/1.html,轉載請聲明來源鉆瓜專利網。





