[發明專利]一種句向量的融合方法和裝置有效
| 申請號: | 201510727239.3 | 申請日: | 2015-10-29 |
| 公開(公告)號: | CN105426354B | 公開(公告)日: | 2019-03-22 |
| 發明(設計)人: | 呂志高;鄒國平 | 申請(專利權)人: | 杭州九言科技股份有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 向量 融合 方法 裝置 | ||
本發明公開了一種句向量的融合方法和裝置。該方法包括:提取待處理文本中包括的文本詞向量;在設定語料庫中對所述文本詞向量進行查找,生成第二詞向量;根據所述文本詞向量與所述第二詞向量之間的空間相似度,確定與所述文本詞向量對應的文本句向量。本發明實施例所提供的技術方案,通過根據文本詞向量與第二詞向量之間的空間相似度,將文本中多組詞向量融合為句向量,可以有效避免破壞單獨詞向量的內在語義信息,根據文本具體的應用場景,結合上下句的語義進行句向量融合,提升了句向量對待處理文本的表述能力。
技術領域
本發明涉及網絡安全技術領域,尤其涉及一種句向量的融合方法和裝置。
背景技術
隨著互聯網及移動網絡的迅速發展,借由網絡傳播消息的快捷性,越來越多的用戶選擇通過互聯網平臺與他人交流,共享信息,如可以通過網站或終端應用軟件等方式。伴隨而來也會產生許多不符合互聯網安全使用環境,甚至是違反國家法律法規的內容,如政治敏感、淫穢色情的內容等等,導致相關的網站存在安全運營風險;某些商販為了提升自身店鋪/商品的曝光度,會在各互聯網環境下,瘋狂宣傳自家產品,使得網站或應用軟件的用戶體驗極差,甚至出現利用廣告信息進行詐騙等不良現象,給互聯網安全管理工作帶來了非常大的壓力。因此,為了保證網絡環境的安全以及用戶的良好體驗,有必要采用技術手段對目標信息(典型的,廣告類信息)進行識別。
文本作為信息傳播的主要數據類型之一,對文本數據中的目標信息進行識別顯得尤為重要,文本中目標信息的識別通常采用由詞向量融合生成的句向量,作為文本特征,進行識別。
現有的句向量融合方法通常采用對文本詞向量直接進行加權累加來實現,會破壞多個詞向量的語義,其僅適用于較短的文本處理,當待處理的文本較長時,該方法會隨著詞向量數據的增加,生成的詞向量分類辨析能力下降,對句向量對文本特征的表述能力產生較大影響。
發明內容
有鑒于此,本發明實施例提供一種句向量的融合方法和裝置,以解決現有的句向量融合技術會破壞多個詞向量的語義,影響對文本特征的表述能力的問題。
第一方面,本發明實施例提供了一種句向量的融合方法,包括:
提取待處理文本中包括的文本詞向量;
在設定語料庫中對所述文本詞向量進行查找,生成第二詞向量;
根據所述文本詞向量與所述第二詞向量之間的空間相似度,確定與所述文本詞向量對應的文本句向量。
第二方面,本發明實施例提供了一種句向量的融合裝置,包括:
文本詞向量提取模塊,用于提取待處理文本中包括的文本詞向量;
第二詞向量生成模塊,用于在設定語料庫中對所述文本詞向量進行查找,生成第二詞向量;
文本句向量生成模塊,用于根據所述文本詞向量與所述第二詞向量之間的空間相似度,確定與所述文本詞向量對應的文本句向量。
本發明實施例所提供的技術方案,通過根據文本詞向量與第二詞向量之間的空間相似度,將文本中多組詞向量融合為句向量,可以有效避免破壞單獨詞向量的內在語義信息,實現了根據文本具體的應用場景,結合上下句的語義進行句向量融合的技術效果,提升了句向量對待處理文本的表述能力。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1是本發明實施例一提供的一種句向量的融合方法的流程圖;
圖2是本發明實施例二提供的一種句向量的融合裝置的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州九言科技股份有限公司,未經杭州九言科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510727239.3/2.html,轉載請聲明來源鉆瓜專利網。





