[發明專利]基于深度可分離卷積的語義特征處理方法、裝置及介質在審
| 申請號: | 202010912076.7 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN112052687A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 張輝極;趙偉;鄭偉斌;李文瑞;韓冰;歐榮安;賈東劍;趙建強 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F16/332;G06F16/33;G06K9/62 |
| 代理公司: | 廈門福貝知識產權代理事務所(普通合伙) 35235 | 代理人: | 陳遠洋 |
| 地址: | 361000 福建省廈門市思明*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 可分離 卷積 語義 特征 處理 方法 裝置 介質 | ||
本發明提出了一種基于深度可分離卷積的語義特征處理方法、裝置及介質,該方法包括:獲取聊天數據使用詞向量模型進行分詞得到分詞集合,將所述分詞集合預處理為片段詞嵌入矩陣;使用深度可分離卷積的不同高度的卷積核對片段詞嵌入矩陣進行特征提取得到二維特征張量后拼接得到三維特征張量;使用一維最大池化操作提取出每個卷積核輸出的最大值,將所有最大值拼接得到聊天文本的語義特征向量。本發明首先將聊天文本分割成子片段,片段中的每一句聊天作為詞嵌入矩陣的每個通道維度,并設計了多尺度深度可分離一維卷積核獲取子片段的語義特征,再提取每個卷積核中的最顯著特征拼接成為該子片段的語義特征向量,其提取語義特征連續,更為符合聊天數據的上下文特征。
技術領域
本發明涉及自然語言處理(NLP)技術領域,具體涉及一種基于深度可分離卷積的語義特征處理方法、裝置及存儲介質。
背景技術
近些年來隨著移動互聯網的飛速發展,QQ、微信等即時通訊軟件已成為人們日常生活、工作中不可或缺的社交工具。這些軟件每天都會產生極為龐大的聊天數據,通過對聊天數據的建模來分析聊天內容、聊天者間的關系,逐漸成為電子取證領域的熱門研究方向。其中,聊天內容分析的一個重要步驟為文本語義特征的獲取。在自然語言處理領域,合適的文本語義特征對下游任務(文本分類、命名實體識別、文本摘要、問答模型等)能起到決定性的作用。
目前常見的聊天文本主題建模方式為:將所有聊天數據或者分段后的聊天段落的每一句聊天拼接成段落作為分析單位。該做法可將聊天文本建模成與新聞、文章類似的結構,再通過雙向LSTM、卷積神經網絡等單元提取文本語義特征向量進行分析。然而聊天場景與新聞、文章的場景不同,聊天文本采用這種建模方式存在明顯的缺陷,例如:聊天文本的每句話在拼接處會造成語義不連續。
現有技術的主要技術缺陷如下:傳統的特征抽取過程文本張量矩陣的通道維數為1,沒有利用到通道特征,損失部分語義信息;傳統的語義特征向量利用雙向LSTM單元、1D卷積等模塊計算獲得,大量的大尺度矩陣乘法運算導致計算量大;基于文本拼接的方式提取到的語義向量不能很好地表示聊天場景下的文本語義特征,存在上下文拼接部分語義不連續的缺陷。
發明內容
本發明針對上述現有技術中一個或多個技術缺陷,提出了如下技術方案。
一種基于深度可分離卷積的語義特征處理方法,該方法包括:
預處理步驟,獲取聊天數據,并將所述聊天數據按照發送時間進行排序,將排序后的聊天數據使用訓練后的詞向量模型進行分詞得到分詞集合,將所述分詞集合預處理為片段詞嵌入矩陣;
特征提取步驟,使用深度可分離卷積的不同高度的卷積核對片段詞嵌入矩陣進行特征提取得到二維特征張量,將所述二維特征張量進行拼接后得到三維特征張量;
特征融合步驟,使用多個一維可分離卷積核分別提取從三維特征張量中每個通道的句子特征,再通過1*1卷積核對所述句子特征進行聚合,使用一維最大池化操作提取出每個卷積核輸出的最大值,將所有最大值拼接得到聊天文本的語義特征向量。
更進一步地,所述詞向量模型的訓練過程包括:提取移動設備中的所有聊天數據,所述聊天數據包括個人聊天數據和群組聊天數據;將所述聊天數據通過分詞工具進行分詞為[詞1詞2詞3...];將所有分詞后的聊天數據拼接成二維數組[[文本1],[文本2],[文本3],…],數組長度為聊天數據的總數量;使用二維數組[[文本1],[文本2],[文本3],…]訓練Word2Vec詞向量模型,詞向量長度設置為VecLength,訓練完成后每個詞均對應長度為VecLength的數值稠密向量,實現文本的向量化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010912076.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種曲板復合加載方法
- 下一篇:一種醫用導管的回收處理裝置





