[發明專利]一種文本特征提取方法與系統、電子設備、介質有效
| 申請號: | 202310255047.1 | 申請日: | 2023-03-16 |
| 公開(公告)號: | CN116306673B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 戚耀;陳紅陽;呂勁松;劉善赟 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F16/332;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 311121 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 特征 提取 方法 系統 電子設備 介質 | ||
本發明公開了一種文本特征提取方法與系統、電子設備、介質,所述方法包括將文本序列轉換成形狀為(Hsubgt;in/subgt;,Wsubgt;in/subgt;,Dsubgt;in/subgt;)的張量序列,其中Hsubgt;in/subgt;、Wsubgt;in/subgt;、Dsubgt;in/subgt;為正整數;構建文本特征提取網絡,通過文本特征提取網絡提取張量序列特征。本發明方法對文本序列的每個元素特征和文本特征都擴展了兩個維度,使特征張量可以比詞向量包含更多的方位、形狀等語義信息,同時結合擁有局部連接特性的文本特征提取網絡處理張量序列,增強了特征的可解釋性和語義容量。
技術領域
本發明涉及人工智能和自然語言處理領域,尤其是涉及一種文本特征提取方法與系統、電子設備、介質。
背景技術
隨著計算機科學的發展,大規模存儲、大規模計算技術的完善,人工智能技術中的自然語言處理在日常生活越來越流行,在機器翻譯、輿情監測、自動摘要、觀點提取、文本分類、問題回答、文本語義對比等方向有著廣泛的應用。
在自然語言處理的相關應用中,文本特征提取是其核心問題。目前的流行的做法是,把文本中的組成元素,如詞匯、字等用一個向量來表示,稱為詞向量,將詞向量按順序輸入人工智能算法模型來獲取文本特征。word2vec、LSTM、RNN、BERT等算法都是基于詞向量來開發的。
然而,基于詞向量的文本特征提取方法存在可解釋性弱的問題,詞向量在特征空間的位置和方向很難與該詞在現實世界中所表示的物體對應起來,尤其是比較抽象的詞匯,如方位詞的詞向量的意義會更難解釋。此外,word2vec、LSTM、RNN、BERT等算法對向量的處理方式比較局限,基本都是對整個向量的所有元素進行加權聚合,語義性弱,靈活度低。
因此,亟需提出一種文本特征提取方法,以提高可解釋性。
發明內容
針對現有技術不足,本發明提供了一種文本特征提取方法與裝置。
為實現上述發明目的,本發明的技術方案為:
本發明實施例的第一方面提供了一種文本特征提取方法,所述方法包括:
將文本序列轉換成形狀為(Hin,Win,Din)的張量序列,其中Hin、Win、Din為正整數;
構建文本特征提取網絡,通過文本特征提取網絡提取張量序列特征。
本發明實施例的第二方面提供了一種文本特征提取系統,用于實現上述的文本特征提取方法,所述系統包括:
張量序列生成模塊,用于將文本序列轉換成形狀為(Hin,Win,Din)的張量序列,其中Hin、Win、Din為正整數;
文本特征提取網絡模塊,用于提取張量序列特征。
本發明實施例的第三方面提供了一種電子設備,包括存儲器和處理器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數據,所述處理器用于執行所述程序數據以實現上述的文本特征提取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310255047.1/2.html,轉載請聲明來源鉆瓜專利網。





