[發明專利]一種基于詞袋模型的文本表示的處理方法有效
| 申請號: | 201710569638.0 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107357895B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 姚念民;牛世雄 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06N3/02 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 文本 表示 處理 方法 | ||
本發明屬于計算機應用領域,公開了一種基于詞袋模型的文本表示的處理方法,本方法對采集到的文本數據集進行分詞,去停頓詞,去低頻詞,特征選擇等處理過程;然后運用空間向量模型表示處理后的文本;同時對處理后的文本運用神經網絡的方法訓練詞向量;根據詞向量的相似性修改詞袋模型的特征詞的權重,得到新的文本表示模型。用以處理文本表示問題,提高了分類的準確性。
技術領域
本發明屬于計算機應用領域,特別涉及一種基于詞袋模型的文本表示的處理方法。
背景技術
目前,文本處理已經被廣泛的應用于各個領域,一般的,需要對文本進行分詞、去停頓詞、低頻詞、特征選擇,然后表示文本,最后進行分類處理。不同的國家對于文本處理的研究,所取得成果同樣不一致。相對于其他國家,我國對文本處理的研究探索相對落后,起步也比較晚。
分詞處理,英文單詞之間由于有空格作為自然分界符,因此不再需要分詞。然而,當計算機處理中文文本時,首先需要對文本進行分詞,自動分詞是需要計算機根據語意將句子切分為合理的詞語。在對自然語言進行處理時,都是以詞作為最小的單位,分詞的準確性直接影響文本分類的好壞。
特征選擇,如果用文本中的所有特征詞來表示該文本,那么特征空間的維數通常超過十萬,如此高維的空間會使計算效率非常低,甚至無法完成計算。實際上,在文本中有些詞的貢獻非常弱,如副詞“的”在幾乎所有文本中都會出現,無法作為特定文本的特征,因此它對接下來的分類沒有意義。因此需要從文本中選取能夠代表文本的詞語組成新的特征空間,從而達到降維的目的。
文本表示,人類理解的文本是字符編碼形式,而計算機體系是二進制編碼形式,文本表示的作用是如何將文本編碼轉化為計算機編碼,并且使得計算機能夠對文本信息進行計算。文本表示的選取直接影響到文本分類的效果。常用的文本表示模型為向量空間模型。但是空間向量模型中有很多特征詞的權重為零,造成分類效果不是那么理想,本發明提出修改空間向量模型中的特征權重,提高了分類的準確度。
詞向量是運用神經網絡自然語言處理模型訓練文本預料得到每個詞的向量表示,谷歌開發的一個叫做Word2Vec的方法運用了神經網絡語言模型,該方法可以在捕捉語境信息的同時壓縮數據規模。Word2Vec實際上包括兩種不同的方法:Continuous Bag of Words(CBOW)和Skip-gram。CBOW的目標是根據上下文來預測當前詞語的概率。Skip-gram剛好相反:根據當前詞語來預測上下文的概率(如圖2所示)。這兩種方法都利用人工神經網絡作為它們的分類算法。起初,每個單詞都是一個隨機N維向量。經過訓練之后,該算法利用CBOW或者Skip-gram的方法獲得了每個單詞的最優向量。現在這些詞向量已經捕捉到上下文的信息,可以用來預測未知數據的情感狀況。
發明內容
為了解決現有技術文本處理過程中文本表示的問題,提高文本分類的準確性。本發明提供了一種基于詞袋模型的文本表示的處理方法,本發明利用空間向量模型結合詞向量的方法來建立文本模型,從而對整個文本文檔進行分類處理,提高了分類的準確性。本發明的技術方案為:
第一步,預處理;
對文本數據集進行分詞、去停頓詞和去低頻詞,再進行特征詞選擇;
第二步,經預處理后的文本數據集,運用詞袋模型表示;所述的詞袋模型是以TFIDF(term frequency-inverse document frequency)為權重的文本表示模型;
第三步,經預處理后的文本數據集,運用神經網絡自然語言處理模型訓練得到詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710569638.0/2.html,轉載請聲明來源鉆瓜專利網。





