[發明專利]基于聚合加權矩陣壓縮算法的文本語義表示方法有效
| 申請號: | 201410728902.7 | 申請日: | 2014-12-03 |
| 公開(公告)號: | CN105718440B | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 衛金茂;韋陽;徐恒鵬;樊文哲 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聚合 加權 矩陣 壓縮 算法 文本 語義 表示 方法 | ||
本發明屬于數據挖掘技術領域,具體提出了一種基于聚合加權矩陣壓縮算法的文本表示方法。該方法通過構建全局平滑語境矩陣,弱化了語用習慣對單詞語義的影響;利用單詞向量聚合算法加權全局平滑語境,修正了單詞向量權重度量方法;最后使用無窮范數壓縮算法將全局平滑語境轉化為向量來表征文本。相較于已有方法,由于保留了向量各維度的最大可能取值,因此更全面地表征了文本信息。
技術領域
本發明屬于數據挖掘技術領域,具體提出一種基于聚合加權矩陣壓縮算法的文本表示方法。
背景技術
純文本作為一種廣泛存在的數據形式(不同類型的網頁、數字化的圖書、日志文件等等),一直以來是自然語言處理、機器學習、人工智能等領域研究的重點。在現今網絡數據不斷膨脹的條件下,針對文本數據的分析處理技術顯得愈發重要。傳統文本處理技術的一個共同點是需要將以自然段落呈現的文本數據轉換為可計算的數據形式。其中,將文本轉化為固定大小的向量形式作為輸入是許多文本處理技術的先決條件。以文本聚類分析為例,許多聚類算法的核心思想是,首先將文本轉化為向量形式,再通過相似度比較算法比較文檔向量兩兩之間的相似度,最后根據相似度計算結果將相似文檔劃分為一類。在此類文本聚類算法中,如何將文本轉化為向量既是算法的先決條件,也是影響算法效果的關鍵因素。
文本表示方法的研究長久以來都是國內外許多學者的研究焦點。最早的文本表示法使用“詞袋”模型,以自然語言中所有可能出現的單詞作為維度,以每一個維度對應的單詞在目標文檔中出現的次數作為目標文檔在該維度上的取值來構建文檔向量。使用詞袋模型生成的文檔向量度量文檔間相似度時,文檔間重復出現的詞越多,文檔越相似。該模型的缺陷是當兩個文檔表達的語義相近,但使用不同的詞進行描述時,模型不能發現這兩個文檔之間的相似性。針對這一問題,學者們提出了不同的解決方案。其中一種方案利用已有的單詞向量生成方法,通過單詞向量的加權累加生成文檔向量。由于單詞向量生成方法保證了同義詞、近義詞的單詞向量位于詞袋模型生成的特征空間中相鄰的位置,因此由這些單詞向量加權累加生成的文檔向量也位于此特征空間中相鄰的位置,從而保證了了語義相近的文檔的表征向量也相似。然而,這種基于單詞向量的文檔向量生成方法通常關注于單詞向量的生成方式,卻忽略了單詞向量的組合方式。加權累加方式傾向于使用權重較大的某些單詞向量表征整篇文檔,使得生成的文檔向量信息缺失,更進一步造成了文檔間相似度的錯誤估計。此外,現有方法在估計單詞向量的權值時,并沒有考慮單詞向量本身的語義相似性,造成了權值估計的偏差。
發明內容
本發明旨在提出一種新的基于單詞向量的文檔向量生成方法,該方法側重于對單詞向量組合方式的改進。本發明首先通過對數平滑手段構造單詞向量,提升了單詞向量的語義表征能力;然后利用語料庫級別的全局文檔頻信息和目標文檔中的局部詞頻信息設計了單詞向量聚合加權方法計算每個單詞向量針對目標文檔的權重,最后通過無窮范數求取,即最大值比較方法生成文檔向量。該方法以單詞向量間的相似性作為權值度量的依據,修正了單詞向量權重的度量方法;充分比較了所有單詞向量在相同維度的取值,不會盲目傾向于權重較大的單詞,捕獲了更多的語義信息,以期在實際應用中更具魯棒性。
本方法首先根據給定的語料庫生成單詞向量,并保存由單詞向量構成的全局平滑語境,具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410728902.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:螺桿鉆扭矩測試裝置
- 下一篇:一種基于改進型I2C總線的智能家居控制系統





