[發明專利]文本向量表示方法及裝置有效
| 申請號: | 201510860394.2 | 申請日: | 2015-11-30 |
| 公開(公告)號: | CN106815244B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 祁國晟;何鑫 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/30 |
| 代理公司: | 11240 北京康信知識產權代理有限責任公司 | 代理人: | 韓建偉;李志剛 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 向量 表示 方法 裝置 | ||
本申請公開了一種文本向量表示方法及裝置。該方法包括:獲取測試文本;對測試文本進行特征化處理,得到多個文本特征表示的目標文本;利用預存的特征主題關系矩陣處理目標文本,得到目標文本的主題分布,其中,主題分布包括目標文本的目標主題與目標主題對應的比例;利用預存的特征嵌入向量集合對描述目標主題的文本特征進行擴展,得到目標主題特征集合,并根據目標主題特征集合得到表示目標主題的向量;以及對主題分布和表示目標主題的向量進行計算處理,得到表示測試文本的向量。通過本申請,解決了相關技術中的文本向量表示方法對文本包含的語義信息的表達能力較弱的問題。
技術領域
本申請涉及自然語言處理領域,具體而言,涉及一種文本向量表示方法及裝置。
背景技術
文本向量表示是將非結構化的文本通過一系列計算表示成數學向量的過程,是自然語言處理領域很多任務的基礎和前提。在文本分類、文本聚類、相似度計算等任務中,都需要預先對文本進行向量化變換,然后用向量化的文本代替原來的文本進行數學運算和統計。由此可見,文本向量表示的好壞將直接影響到后面分析結果。目前,文本向量表示的一般方法是使用向量空間模型(Vector Space Model,簡稱VSM),將文本表示成若干特征維度下的向量。而向量表示文本的能力強弱則與特征的選取方式和每一個特征維度下權重的計算方式有關。相關技術中文本向量表示方法在特征選擇上僅僅是在文本的切分詞集合中選擇若干相對具有表達能力的切分詞作為候選特征。而特征權重的計算也是基于切分詞在文本中的統計量計算獲得。這種文本向量表示方法將文本割裂的看作是詞語的集合,所產生的向量也并不能真正表達文本包含的語義信息。
針對相關技術中的文本向量表示方法對文本包含的語義信息的表達能力較弱的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種文本向量表示方法及裝置,以解決相關技術中的文本向量表示方法對文本包含的語義信息的表達能力較弱的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種文本向量表示方法。該方法包括:獲取測試文本;對測試文本進行特征化處理,得到多個文本特征表示的目標文本;利用預存的特征主題關系矩陣處理目標文本,得到目標文本的主題分布,其中,主題分布包括目標文本的目標主題與目標主題對應的比例;利用預存的特征嵌入向量集合對描述目標主題的文本特征進行擴展,得到目標主題特征集合,并根據目標主題特征集合得到表示目標主題的向量;以及對主題分布和表示目標主題的向量進行計算處理,得到表示測試文本的向量。
進一步地,在獲取測試文本之前,該方法還包括:獲取訓練語料,其中,訓練語料為用于訓練的語料;對訓練語料進行特征化處理,得到多個語料特征;分別訓練每個語料特征的特征嵌入向量,得到特征嵌入向量集合;獲取訓練語料中的多個主題;分別訓練每個主題與每個語料特征的關系,得到特征主題關系矩陣;以及存儲特征嵌入向量集合和特征主題關系矩陣。
進一步地,特征化處理包括分詞處理,對訓練語料進行特征化處理,得到多個語料特征包括:對訓練語料進行分詞處理,得到多個語料切分結果,對測試文本進行特征化處理,得到多個文本特征表示的目標文本包括:對測試文本進行分詞處理,得到多個文本切分結果。
進一步地,在對訓練語料進行分詞處理,得到多個語料切分結果之后,該方法還包括:分別對每個語料切分結果進行id化處理,得到id化處理后的第一數據集合,其中,id化處理是指將每個語料切分結果對應一個id;以及通過第一數據集合表示多個語料特征,在對測試文本進行分詞處理,得到多個文本切分結果之后,該方法還包括:分別對每個文本切分結果進行id化處理,得到id化處理后的第二數據集合;以及通過第二數據集合表示目標文本。
進一步地,分別訓練每個語料特征的特征嵌入向量為采用Word2vec算法訓練每個語料特征的特征嵌入向量。
進一步地,分別訓練每個主題與每個語料特征的關系為采用LDA算法訓練每個主題與每個語料特征的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510860394.2/2.html,轉載請聲明來源鉆瓜專利網。





