[發明專利]一種基于機器學習的中文商業文本預處理方法在審
| 申請號: | 201910660219.7 | 申請日: | 2019-07-22 |
| 公開(公告)號: | CN110457685A | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 桂冠;張婕;楊潔 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N20/00 |
| 代理公司: | 32224 南京縱橫知識產權代理有限公司 | 代理人: | 董建林<國際申請>=<國際公布>=<進入 |
| 地址: | 210012江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 文本預處理 詞義 基于機器 詞語 預處理 貝葉斯分類器 機器翻譯 詞性標注 混合模型 利用條件 模型結合 問答系統 詞向量 多義詞 決策樹 實施性 分詞 分句 權重 消歧 應答 語境 輸出 智能 學習 情景 計算機 概率 延伸 | ||
本發明公開了一種基于機器學習的中文商業文本預處理方法,對輸入的中文商業文本采用以下步驟進行處理:(1)對中文商業文本進行分句和分詞;(2)利用決策樹對分好的詞語進行詞性標注;(3)基于貝葉斯分類器利用條件概率進行詞義消歧;(4)利用One?Hot編碼與Skip?Gram模型結合的混合模型表示詞向量;(5)利用TF?IDF調整詞語權重,確定多義詞在當前語境下對應的詞義;(6)輸出基于機器學習預處理后的中文商業文本。本發明能夠有效的解決中文商業問答系統由于文本預處理不足導致系統答非所問,應答情景有限的問題,提高計算機理解文本的準確性,使得機器翻譯、智能問答等延伸工作具有可實施性。
技術領域
本發明屬于自然語言處理領域,具體涉及一種基于機器學習的中文商業文本預處理方法。
背景技術
商業發展和人工智能的結合受到越來越廣泛的關注,語音識別技術是人機交互的基礎?,F階段的自然語言處理通常采用以下兩種方法,一種是基于規則的自然語言處理方法,國內外利用這種方法進行多年的實驗后,效果依然十分不理想,原因是它從該語言的語法句法等方面出發,按照語言的規則來分析和處理,因為規則太多,沒有固定的方法,同時通過人們的生產生活,不斷地增添新的規則,所以實現起來十分困難。另一種方法是基于統計的自然語言處理方法,這種方法基于收集大量的語料數據,通過統計學習的方式來理解語言,這在當代越來越受重視而且已經成為趨勢。目前,計算機功能和數據存儲的快速增長,使訪問大量的語言數據成為可能。中文數據與其他語言存在巨大差異,如中文是連續書寫的,沒有語態和時態的變化以及存在多音字等,使得中文更加的靈活,許多國外成熟的技術無法用于處理中文文本。本發明提出一種基于機器學習的中文商業文本預處理方法。
發明內容
針對上述問題,本發明提出一種基于機器學習的中文商業文本預處理方法。
實現上述技術目的,達到上述技術效果,本發明通過以下技術方案實現:
一種基于機器學習的中文商業文本預處理方法,其特征在于:對輸入的中文商業文本采用以下步驟進行處理:
(1)對中文商業文本進行分句和分詞;
(2)利用決策樹對分好的詞語進行詞性標注;
(3)基于貝葉斯分類器利用條件概率進行詞義消歧;
(4)利用One-Hot編碼與Skip-Gram模型結合的混合模型表示詞向量;
(5)利用TF-IDF調整詞語權重,確定多義詞在當前語境下對應的詞義;
(6)輸出基于機器學習預處理后的中文商業文本。
作為本發明的進一步改進,所述的步驟(1)中利用句號作為識別符對文本進行分句,基于概率統計模型對文本進行分詞,具體為:
輸入由C=[c1,c2,…,cn]T表示的字符串,輸出由S=[w1,w2,…,wm]T表示的分詞串,其中m≤n,之后利用如下公式進行分詞:
比較不同分割方案出現概率的大小,概率最大的方案即為確定的分割方案S;
其中,P(S|C)為當輸入字符串為C時,輸出分詞串為S的條件概率;
P(C|S)為當輸出分詞串為S時,輸入字符串為C的條件概率;
P(S)為分詞串S出現的概率;
P(C)為輸入字符串C出現的概率,是一個用于標準化的固定值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910660219.7/2.html,轉載請聲明來源鉆瓜專利網。





