[發明專利]一種文本特征提取方法與系統、電子設備、介質有效
| 申請號: | 202310255047.1 | 申請日: | 2023-03-16 |
| 公開(公告)號: | CN116306673B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 戚耀;陳紅陽;呂勁松;劉善赟 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F16/332;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 311121 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 特征 提取 方法 系統 電子設備 介質 | ||
1.一種文本特征提取方法,其特征在于,所述方法包括:
將文本序列轉換成形狀為(Hin,Win,Din)的張量序列,其中Hin、Win、Din為正整數;
構建文本特征提取網絡,通過文本特征提取網絡提取張量序列特征。
2.根據權利要求1所述的文本特征提取方法,其特征在于,將文本序列轉換成形狀為(Hin,Win,Din)的張量序列包括:
通過配置并查詢預設表確定文本序列中的每個元素對應的張量;
和/或,
通過全連接線性映射法確定文本序列中的每個元素對應的張量。
3.根據權利要求2所述的文本特征提取方法,其特征在于,通過配置并查詢預設表確定文本序列中的每個元素對應的張量包括:
配置預設表,所述預設表的每行存放一個可能存在于文本序列中的元素和一個與之對應的張量,且預設表中存放文本序列中的元素的列中沒有重復元素;
通過查詢預設表確定文本序列中的每個元素對應的張量。
4.根據權利要求1-3任一項所述的文本特征提取方法,其特征在于,所述文本特征提取網絡包括預處理單元、空間維度局部連接的處理單元和后處理單元;
所述預處理單元用于對張量序列進行預處理,包括以下一種或多種操作:恒等映射、插入一個或多個元素、每個元素分別執行一個函數;
所述空間維度局部連接的處理單元用于對預處理后的張量序列進行特征提取;
所述后處理單元用于對張量序列特征進行后處理,包括以下一種或多種操作:恒等映射、求均值、求最大值、求和、取出序列中的一項。
5.根據權利要求2所述的文本特征提取方法,其特征在于,所述方法還包括:獲取文本特征提取網絡參數、預設表中的張量以及全連接線性映射的參數。
6.根據權利要求5所述的文本特征提取方法,其特征在于,獲取文本特征提取網絡參數、預設表中的張量以及全連接線性映射的參數的過程包括:
獲取數據集,數據集由若干個實例構成,每一實例包含語義一致的文本信息和圖像信息;
從數據集采樣B個實例,其中B為正整數;
對B個實例中的圖像信息提取形狀為(B,H,W,D)的圖像信息特征Fb,其中H、W、D均為正整數;
對B個實例中的文本信息提取形狀為(B,H,W,D)的文本信息特征Gb,其中H、W、D均為正整數;
對圖像信息特征Fb和文本信息特征Gb進行歸一化,記為歸一化圖像特征和歸一化文本特征
定義形狀為(B,B)的分數矩陣S,分數矩陣S中的每個元素為其中⊙表示哈達瑪積;
對分數矩陣S的每行分別計算softmax函數,得到形狀為(B,B)的行分數矩陣Sr;
對分數矩陣S的每列分別計算softmax函數,得到形狀為(B,B)的列分數矩陣Sc;
計算損失函數,利用反向傳播算法更新參數;其中,損失函數的表達式為:
其中E為單位矩陣。
7.一種文本特征提取系統,用于實現權利要求1-6任一項所述的文本特征提取方法,其特征在于,所述系統包括:
張量序列生成模塊,用于將文本序列轉換成形狀為(Hin,Win,Din)的張量序列,其中Hin、Win、Din為正整數;
文本特征提取網絡模塊,用于提取張量序列特征。
8.根據權利要求7所述的文本特征提取系統,其特征在于,所述系統還包括:
參數獲取模塊,用于獲取文本特征提取網絡參數、預設表中的張量以及全連接線性映射的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310255047.1/1.html,轉載請聲明來源鉆瓜專利網。





