[發明專利]一種基于Word2Vec和句法依存樹的文本特征構造方法有效
| 申請號: | 202110371554.2 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113111653B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 陳啟軍;王秋晨;劉成菊;張恒 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06F40/30;G06F40/247 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 word2vec 句法 依存 文本 特征 構造 方法 | ||
本發明涉及一種基于Word2Vec和句法依存樹的文本特征構造方法,包括以下步驟:S1:對語料庫中的文本數據進行預處理,并對句子進行句法分析得到句法依存樹;S2:根據句法依存樹合并依存詞組;S3:對完成合并后的數據,利用Word2Vec訓練詞向量;S4:構造TF?IDF特征向量;S5:對特征向量進行近義詞拓展,根據近義詞拓展情況對TF?IDF特征向量進行特征值更新,完成文本特征的構造,用于輸入機器學習模型,與現有技術相比,本發明具有避免重要特征丟失、提高文本特征表征能力等優點。
技術領域
本發明涉及自然語言處理領域,尤其是涉及一種基于Word2Vec和句法依存樹的文本特征構造方法。
背景技術
當今互聯網產業蓬勃發展,網絡社交平臺已經滲透到了人們生活的方方面面,曾經作為主流信息獲取、交流的電視、廣播、報紙雜志等傳統媒體逐步被數字媒體所替代。隨著微博、抖音等信息流媒體平臺的崛起,越來越多的用戶在這些平臺上發布文字內容,這些內容又以短文本為主。
將短文本信息進行分類獲得了非常廣闊的應用場景,例如通過對新聞評論區進行情感分類可以進行輿情分析,對文章進行分類有助于快速對文章進行查找和推薦。但是隨著網絡技術的高速發展與廣泛應用,電子文本信息呈級數增長,用人工方式對文本進行分類將是一項繁重的工作,因此需要借助計算機對文本進行自動分類。越來越多的學者和企業開始將機器學習算法用于文本自動分類,主要的機器學習算法有決策樹、持向量機、樸素貝葉斯等。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于Word2Vec和句法依存樹的文本特征構造方法,從語義和句法兩個角度對傳統TF-IDF特征向量進行調整,最終得到的特征向量避免了重要特征的丟失,并具有更好的表征能力,有助于提升下游的機器學習模型的效果。
本發明的目的可以通過以下技術方案來實現:
一種基于Word2Vec和句法依存樹的文本特征構造方法,包括以下步驟:
S1:對語料庫中的文本數據進行預處理,并對句子進行句法分析得到句法依存樹;
S2:根據句法依存樹合并依存詞組;
S3:對完成合并后的數據,利用Word2Vec訓練詞向量;
S4:構造TF-IDF特征向量;
S5:對特征向量進行近義詞拓展,根據近義詞拓展情況對TF-IDF特征向量進行特征值更新,完成文本特征的構造,用于輸入機器學習模型。
進一步地,所述的預處理包括中文分詞、去除亂碼和去除標點符號。
進一步地,步驟S2具體包括:遍歷句法依存樹,對每個詞語,檢查其父節點以及該詞語與其父節點之間的依存關系,當符合設定規則時,將兩者合并。
更進一步地,所述的設定規則根據具體任務通過人為設定,包括:
合并位置相鄰、依存關系為“狀中關系”的詞語;
合并位置相鄰、依存關系為“定中關系”的詞語;
合并依存關系為“動補關系”的詞語。
進一步地,步驟S3中,訓練方法選用Hierarchical-Softmax,所述的詞向量的維度根據語料庫大小設定。
更進一步地,步驟S3中,通過查找近義詞的方法判斷詞向量的訓練效果,并通過修改迭代次數提高訓練效果。
進一步地,步驟S4中,構造TF-IDF特征向量具體為:
首先為語料庫中的每條文本都生成一個n維向量;
然后依次計算每條文本中每個詞語的TF-IDF權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110371554.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種航路時隙與高度層協同優化分配方法
- 下一篇:一種高塑性雙相鋼及其生產方法





