[發明專利]基于卡方檢驗的句向量計算方法、文本分類方法及系統在審
| 申請號: | 201811130081.1 | 申請日: | 2018-09-27 |
| 公開(公告)號: | CN109522544A | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 黃友福;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(專利權)人: | 廈門快商通信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35;G06F16/332 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征詞 詞向量 文本分類 向量 分詞結果 使用頻率 向量計算 預設 文本 分詞處理 特征維度 文本信息 停用詞 賦予 加權 檢驗 去除 | ||
1.一種基于卡方檢驗的句向量計算方法,其特征在于,包括以下步驟:
a.對當前文本進行分詞處理,并去除停用詞,得到分詞結果;
b.計算所述分詞結果中每個詞的詞向量;
c.計算每個詞向量與預設類別之間的卡方值,并根據所述卡方值將所述詞向量劃分為特征詞和非特征詞;
d.計算所述特征詞在所述預設類別中的使用頻率,根據所述使用頻率對所述特征詞賦予第一權值,并對所述非特征詞賦予第二權值;且所述第一權值大于所述第二權值;
e.根據所述特征詞和所述非特征詞的詞向量及對應的權值,計算所有詞向量的加權平均值,作為當前文本的句向量。
2.根據權利要求1所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟a中,還包括對所述當前文本進行上下文擴展得到擴展文本,再對所述擴展文本進行分詞處理。
3.根據權利要求1所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟b中,是指利用訓練好的詞向量模型對所述分詞結果進行計算詞向量;所述詞向量模型的訓練是通過對訓練語料進行分詞處理和去除停用詞得到分詞結果,再將所述分詞結果輸入到所述詞向量模型中進行訓練,得到所述訓練語料的每個詞的詞向量。
4.根據權利要求1所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟c中,計算每個詞向量與預設類別之間的卡方值,所述預設類別是指利用預設分類算法對每個詞向量進行類別識別,或者通過對每個詞向量進行類別標注,得到每個詞向量對應的所屬類別。
5.根據權利要求1或4所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟c中,根據所述卡方值將所述詞向量劃分為特征詞和非特征詞,是指將卡方值小于或等于預設值的詞向量作為特征詞,并將卡方值大于預設值的詞向量作為非特征詞;或者,按照卡方值從小到大的順序對所述詞向量進行排序,并將排序在前的預設數量的詞向量作為特征詞,排序在后的其他詞向量作為非特征詞。
6.根據權利要求1所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟d中,計算所述特征詞在所述預設類別中的使用頻率,是指將語料庫按照預設類別進行分類,得到不同類別的文本集;然后計算所述特征詞在每個類別的文本集中所占的比例。
7.根據權利要求6所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟d中,根據所述使用頻率對所述特征詞賦予第一權值,并對所述非特征詞賦予第二權值,是指將所述比例的最大值作為所述特征詞的權值,即得到所述第一權值;并將預設常數作為所述非特征詞的權值,即得到所述第二權值。
8.根據權利要求1所述的一種基于卡方檢驗的句向量計算方法,其特征在于:所述的步驟e中,所述句向量的計算方法為:對于對于所述當前文本中的每個詞向量,若為特征詞,則將特征詞的詞向量乘以對應的第一權值并累加;若為非特征詞,則將非特征詞的詞向量乘以對應的第二權值并累加;最后將得到的詞向量之和除以所有詞向量的權值之和,得到所述句向量;即:
句向量=(特征詞1的詞向量*第一權值1+特征詞2的詞向量*第一權值2+……+特征詞m的詞向量*第一權值m+非特征詞1的詞向量*第二權值1+非特征詞2的詞向量*第二權值2+……+非特征詞n的詞向量*第二權值n)/(第一權值1+第一權值2+……+第一權值m+第二權值1+第二權值2+……+第二權值n))。
9.一種文本分類方法,其特征在于,采用權利要求1至7任一項所述的基于卡方檢驗的句向量計算方法,并根據所述句向量對當前文本進行文本分類;即,將當前文本及對應的句向量輸入基于隨機森林的意圖識別分類模型中進行預測,并輸出當前文本的所屬類型。
10.一種文本分類系統,其特征在于,包括:
文本預處理模塊,用于對當前文本進行分詞處理,并去除停用詞,得到分詞結果;
詞向量計算模塊,用于計算所述分詞結果中每個詞的詞向量;
卡方檢驗模塊,用于計算每個詞向量與預設類別之間的卡方值,并根據所述卡方值將所述詞向量劃分為特征詞和非特征詞;
權值設置模塊,其通過計算所述特征詞在所述預設類別中的使用頻率,根據所述使用頻率對所述特征詞賦予第一權值,并對所述非特征詞賦予第二權值;且所述第一權值大于所述第二權值;
句向量計算模塊,其根據所述特征詞和所述非特征詞的詞向量及對應的權值,計算所有詞向量的加權平均值,作為當前文本的句向量;
文本分類模塊,其根據所述句向量對當前文本進行文本分類;即,將當前文本及對應的句向量輸入基于隨機森林的意圖識別分類模型中進行預測,并輸出當前文本的所屬類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通信息技術有限公司,未經廈門快商通信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811130081.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息處理方法及終端設備
- 下一篇:一種對多輪對話連貫性質量的評估方法





