[發(fā)明專利]基于卡方檢驗(yàn)的句向量計(jì)算方法、文本分類方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201811130081.1 | 申請(qǐng)日: | 2018-09-27 |
| 公開(公告)號(hào): | CN109522544A | 公開(公告)日: | 2019-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 黃友福;肖龍?jiān)?/a>;蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(qǐng)(專利權(quán))人: | 廈門快商通信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06F16/35;G06F16/332 |
| 代理公司: | 廈門仕誠(chéng)聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征詞 詞向量 文本分類 向量 分詞結(jié)果 使用頻率 向量計(jì)算 預(yù)設(shè) 文本 分詞處理 特征維度 文本信息 停用詞 賦予 加權(quán) 檢驗(yàn) 去除 | ||
本發(fā)明公開了一種基于卡方檢驗(yàn)的句向量計(jì)算方法、文本分類方法及系統(tǒng),其通過對(duì)當(dāng)前文本進(jìn)行分詞處理,并去除停用詞,得到分詞結(jié)果;計(jì)算所述分詞結(jié)果中每個(gè)詞的詞向量;計(jì)算每個(gè)詞向量與預(yù)設(shè)類別之間的卡方值,并根據(jù)所述卡方值將所述詞向量劃分為特征詞和非特征詞;計(jì)算所述特征詞在所述預(yù)設(shè)類別中的使用頻率,根據(jù)所述使用頻率對(duì)所述特征詞賦予第一權(quán)值,并對(duì)所述非特征詞賦予第二權(quán)值;且所述第一權(quán)值大于所述第二權(quán)值;根據(jù)所述特征詞和所述非特征詞的詞向量及對(duì)應(yīng)的權(quán)值,計(jì)算所有詞向量的加權(quán)平均值,作為當(dāng)前文本的句向量,從而提高了句向量在特征維度的權(quán)值,降低了文本信息中詞向量間的相互干擾,極大的提高文本分類的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言計(jì)算機(jī)自動(dòng)處理技術(shù)領(lǐng)域,特別是一種基于卡方檢驗(yàn)的句向量計(jì)算方法及其應(yīng)用該方法的文本分類方法及系統(tǒng)。
背景技術(shù)
文本分類(Text categorization)是自然語言處理的一個(gè)重要步驟。文本分類是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過程.20世紀(jì)90年代以前,占主導(dǎo)地位的文本分類方法一直是基于知識(shí)工程的分類方法,即由專業(yè)人員手工進(jìn)行分類.人工分類非常費(fèi)時(shí),效率非常低.90年代以來,眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于自動(dòng)文本分類,文本分類技術(shù)的研究引起了研究人員的極大興趣.目前在國(guó)內(nèi)也已經(jīng)開始對(duì)中文文本分類進(jìn)行研究,并在信息檢索、Web文檔自動(dòng)分類、數(shù)字圖書館、自動(dòng)文摘、分類新聞組、文本過濾、單詞語義辨析以及文檔的組織和管理等多個(gè)領(lǐng)域得到了初步的應(yīng)用.
早期常用的文本分類技術(shù)是通過利用獨(dú)熱編碼(One-Hot Encoding)的方法制定一個(gè)足夠長(zhǎng)的向量,向量的每個(gè)維度代表一個(gè)詞或短語。當(dāng)句子中出現(xiàn)特定維度的所指向詞匯后,向量在該維度的值為1,否則為0。通過該獨(dú)熱編碼的方法能將句子轉(zhuǎn)化為固定長(zhǎng)度的向量,但這這種方法存在向量空間不確定、向量維度爆炸等問題,導(dǎo)致模型訓(xùn)練效率低下。
目前常用的方法是先利用中文文本分詞技術(shù)將長(zhǎng)文本分割成詞語,再利用word2vec(詞向量技術(shù))將詞語轉(zhuǎn)化為一定維度的向量,利用句子中詞向量的算術(shù)平均值作為句向量。但是,采用該句向量的算法,當(dāng)句子中包含的相關(guān)詞匯比較多時(shí),可能導(dǎo)致句向量的特征不夠明顯,從而導(dǎo)致文本分類的準(zhǔn)確性較低。
發(fā)明內(nèi)容
本發(fā)明為解決上述問題,提供了一種基于卡方檢驗(yàn)的句向量計(jì)算方法、文本分類方法及系統(tǒng),其通過對(duì)文本中的關(guān)鍵特征的加強(qiáng),降低文本信息中詞向量間的相互干擾,提高句向量在特征維度的權(quán)值,從而提高文本分類的準(zhǔn)確性。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種基于卡方檢驗(yàn)的句向量計(jì)算方法,其包括以下步驟:
a.對(duì)當(dāng)前文本進(jìn)行分詞處理,并去除停用詞,得到分詞結(jié)果;
b.計(jì)算所述分詞結(jié)果中每個(gè)詞的詞向量;
c.計(jì)算每個(gè)詞向量與預(yù)設(shè)類別之間的卡方值,并根據(jù)所述卡方值將所述詞向量劃分為特征詞和非特征詞;
d.計(jì)算所述特征詞在所述預(yù)設(shè)類別中的使用頻率,根據(jù)所述使用頻率對(duì)所述特征詞賦予第一權(quán)值,并對(duì)所述非特征詞賦予第二權(quán)值;且所述第一權(quán)值大于所述第二權(quán)值;
e.根據(jù)所述特征詞和所述非特征詞的詞向量及對(duì)應(yīng)的權(quán)值,計(jì)算所有詞向量的加權(quán)平均值,作為當(dāng)前文本的句向量。
優(yōu)選的,所述的步驟a中,還包括對(duì)所述當(dāng)前文本進(jìn)行上下文擴(kuò)展得到擴(kuò)展文本,再對(duì)所述擴(kuò)展文本進(jìn)行分詞處理。
優(yōu)選的,所述的步驟b中,是指利用訓(xùn)練好的詞向量模型對(duì)所述分詞結(jié)果進(jìn)行計(jì)算詞向量;所述詞向量模型的訓(xùn)練是通過對(duì)訓(xùn)練語料進(jìn)行分詞處理和去除停用詞得到分詞結(jié)果,再將所述分詞結(jié)果輸入到所述詞向量模型中進(jìn)行訓(xùn)練,得到所述訓(xùn)練語料的每個(gè)詞的詞向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通信息技術(shù)有限公司,未經(jīng)廈門快商通信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811130081.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種事件特征的獲取方法和設(shè)備
- 一種基于知識(shí)圖譜的短文本理解方法及裝置
- 一種文本挖掘的特征詞權(quán)重計(jì)算方法
- 一種特征詞提取處理方法、系統(tǒng)及服務(wù)器
- 一種對(duì)LDA微博話題特征抽取結(jié)果優(yōu)化的方法
- 一種特征詞向量獲得方法、文本分類方法及裝置
- 內(nèi)容投放系統(tǒng)中的特征詞處理方法、裝置及存儲(chǔ)介質(zhì)
- 特征詞的確定方法、裝置和服務(wù)器
- 問題匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 詞語糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種文本分類方法及裝置
- 文本分類方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型訓(xùn)練方法、文本分類方法及設(shè)備
- 文本分類方法和裝置、服務(wù)器
- 文本分類方法及裝置
- 文本分類方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型封裝方法、文本分類方法及相關(guān)設(shè)備
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





