[發明專利]一種基于矩陣形式的文本表示方法有效
| 申請號: | 201910972648.8 | 申請日: | 2019-10-14 |
| 公開(公告)號: | CN110781678B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 姚念民;郭順 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 矩陣 形式 文本 表示 方法 | ||
本發明提供一種基于矩陣形式的文本表示方法,屬于數據挖掘和自然語言處理領域。該方法使用區間子窗口訓練并生成詞矩陣,這種矩陣形式的詞表示能夠包含比傳統的向量表示更豐富、更精細的語義信息。此外,在生成文本矩陣的過程中,該方法引入了序列子窗口,減少了語義信息的丟失。該方法包括四個步驟:1)預處理語料;2)訓練區間詞表示;3)生成詞矩陣;4)生成文本矩陣。在具體的任務中,該方法不僅提升了詞和文本表示的質量,也提高了任務的準確率。此外,本發明的實施流程較為簡便,具有良好的適用性。
技術領域
本發明屬于數據挖掘和自然語言處理領域,特別涉及一種基于矩陣形式的文本表示方法,具體可以應用在文本分類和情感分析等多項自然語言處理任務中。
背景技術
表示學習是自然語言處理領域的重要工作。近年來,文本表示學習已經被廣泛地研究和發展。詞袋模型(BoW)是最普遍使用的文本表示模型。該模型以每個詞在語料庫中出現的頻率作為特征生成文本表示。然而,該模型將文本僅僅看作一個詞集合,忽略了詞序、語法和語義等信息。此外,該模型將每一個詞映射成一個獨立和離散的字符,這將導致模型產生稀疏向量和高維度向量等問題。最近,基于線性操作的方法生成文本表示得到了認可和應用。這類模型首先利用詞向量訓練工具訓練詞表示。隨后,對訓練后的詞表示進行線性操作,即計算文檔中所有詞的算數平均,并生成文本表示。這類模型之所以有效,主要歸功于詞向量訓練工具word2vec。它的原理是使用目標詞的上下文來訓練目標詞,并將意思相近的詞映射成向量空間中相近的點。因此,word2vec具有很多優勢:首先,word2vec可以在百萬數量級的詞典和上億的數據集上進行高效地訓練;其次,該工具得到的訓練結果—詞向量(word embedding),可以很好地度量詞與詞之間的相似性。最重要的是,線性操作通過該工具訓練后的詞表示能夠維持句子中豐富的語義和語法信息。
目前,對文本表示的形式仍然停留在向量的形式。現有的方法也只是盲目地將文本中的詞進行算數平均來生成文本向量。這種向量形式的詞和文本表示所表現出的信息是有限的,并且對詞進行過多的線性操作得到的段向量也會丟失大量的語義信息。
發明內容
本發明的目的是提供一種基于矩陣形式的文本表示方法,該方法使用不同的子窗口訓練和操作詞表示,并生成矩陣形式的詞和文本表示。對于生成的詞矩陣,它能夠包含比傳統的向量表示更豐富、更精細的語義信息。此外,在生成文本矩陣的過程中,減少了語義信息的丟失。因此,該方法能夠得到高質量的詞和文本表示,并提高自然語言處理任務的準確率。
本發明的技術方案為:
一種基于矩陣形式的文本表示方法,包括以下步驟:
第一步,預處理語料
1.1)選擇自然語言處理任務中的語料庫,刪除文本中的特殊字符和不可識別字符。
第二步,訓練區間詞表示
2.1)選擇詞向量訓練工具作為基礎模型。可以選擇word2vec中的CBOW模型,doc2vecC,以及基于它們的改進模型等。附圖1給出了CBOW模型和doc2vecC模型的示意圖。
2.2)將基礎模型中的上下文窗口劃分成多個區間,即區間上下文子窗口。每個區間上下文子窗口劃分兩個位置區間:左位置區間子窗口和右位置區間子窗口。
2.3)以每個區間子窗口為單位,分別使用該區間子窗口中的左位置區間子窗口和右位置區間子窗口對相同的語料庫進行單獨訓練。訓練結束后,分別得到基于左位置區間子窗口的詞-詞向量映射表和基于右位置區間子窗口的詞-詞向量映射表。在這兩次單獨訓練中,除了窗口設置不一樣之外,模型的其他參數都是保持一致的。因此,得到的兩個映射表中的詞和詞數都是相同的,而同一個詞對應的詞表示是不同的。隨后,連接相同詞在不同的映射表中的詞向量生成該區間子窗口的詞表示。最后,生成該區間子窗口下的詞-區間詞向量映射表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910972648.8/2.html,轉載請聲明來源鉆瓜專利網。





