[發明專利]一種基于機器學習的中文商業文本預處理方法在審
| 申請號: | 201910660219.7 | 申請日: | 2019-07-22 |
| 公開(公告)號: | CN110457685A | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 桂冠;張婕;楊潔 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N20/00 |
| 代理公司: | 32224 南京縱橫知識產權代理有限公司 | 代理人: | 董建林<國際申請>=<國際公布>=<進入 |
| 地址: | 210012江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 文本預處理 詞義 基于機器 詞語 預處理 貝葉斯分類器 機器翻譯 詞性標注 混合模型 利用條件 模型結合 問答系統 詞向量 多義詞 決策樹 實施性 分詞 分句 權重 消歧 應答 語境 輸出 智能 學習 情景 計算機 概率 延伸 | ||
1.一種基于機器學習的中文商業文本預處理方法,其特征在于:對輸入的中文商業文本采用以下步驟進行處理:
(1)對中文商業文本進行分句和分詞;
(2)利用決策樹對分好的詞語進行詞性標注;
(3)基于貝葉斯分類器利用條件概率進行詞義消歧;
(4)利用One-Hot編碼與Skip-Gram模型結合的混合模型表示詞向量;
(5)利用TF-IDF調整詞語權重,確定多義詞在當前語境下對應的詞義;
(6)輸出基于機器學習預處理后的中文商業文本。
2.根據權利要求1所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述的步驟(1)中利用句號作為識別符對文本進行分句,基于概率統計模型對文本進行分詞,具體為:
輸入由C=[c1,c2,…,cn]T表示的字符串,輸出由S=[w1,w2,…,wm]T表示的分詞串,其中m≤n,之后利用如下公式進行分詞:
比較不同分割方案出現概率的大小,概率最大的方案即為確定的分割方案S;
其中,P(S|C)為當輸入字符串為C時,輸出分詞串為S的條件概率;
P(C|S)為當輸出分詞串為S時,輸入字符串為C的條件概率;
P(S)為分詞串S出現的概率;
P(C)為輸入字符串C出現的概率,是一個用于標準化的固定值。
3.根據權利要求1所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:步驟(2)通過使用詞語特征A劃分數據集D,其中特征A是根據信息增益,增益比和基尼指數三個決策樹指標確定的。
4.根據權利要求3所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述的信息增益,用于衡量分類前后信息的變化,公式如下:
g(D,A)=H(D)-H(D|A)
其中,H(D)為所述數據集D的熵,H(D|A)為所述數據集D和所述特征A之間的互信息,g(D,A)為所述數據集D分類前后的信息變化。
5.根據權利要求3所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述的增益比公式如下:
其中,g(D,A)為所述信息增益,HA(D)表示通過使用特征A作為樣本集D的隨機變量而獲得的經驗熵,gR(D,A)為所述增益比;
分類時在候選特征中找到所述信息增益高于平均值的特征,然后選擇具有最高增益比的特征。
6.根據權利要求3所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述基尼指數,公式如下:
其中,D為所述數據集,Di為根據第i個所述特征A所劃分的數據集D的子集,n為所述特征A的總個數,Gini(D,A)為基于所述特征A劃分所述樣本集D時的基尼指數。
7.根據權利要求3-6任一項所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:包括采用以詞語的結構或偏旁部首作為所述的特征A。
8.根據權利要求1所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:步驟(3)用于確定在上下文語境T條件下,確定具有多義詞v的語義K,
其中,P(K|T)為當上下文語境為T時,所述多義詞v的語義為K的條件概率;P(T|K)為當所述多義詞v的語義為K時,上下文語境為T的條件概率;P(K)為所述多義詞v的語義為K的概率;P(T)是一個固定值,為上下文語境T出現的概率;
當P(K|T)取得最大值時為對應確定的語義K。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910660219.7/1.html,轉載請聲明來源鉆瓜專利網。





