日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于機器學習的中文商業文本預處理方法在審

專利信息
申請號: 201910660219.7 申請日: 2019-07-22
公開(公告)號: CN110457685A 公開(公告)日: 2019-11-15
發明(設計)人: 桂冠;張婕;楊潔 申請(專利權)人: 南京郵電大學
主分類號: G06F17/27 分類號: G06F17/27;G06N20/00
代理公司: 32224 南京縱橫知識產權代理有限公司 代理人: 董建林<國際申請>=<國際公布>=<進入
地址: 210012江*** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 中文 文本 文本預處理 詞義 基于機器 詞語 預處理 貝葉斯分類器 機器翻譯 詞性標注 混合模型 利用條件 模型結合 問答系統 詞向量 多義詞 決策樹 實施性 分詞 分句 權重 消歧 應答 語境 輸出 智能 學習 情景 計算機 概率 延伸
【權利要求書】:

1.一種基于機器學習的中文商業文本預處理方法,其特征在于:對輸入的中文商業文本采用以下步驟進行處理:

(1)對中文商業文本進行分句和分詞;

(2)利用決策樹對分好的詞語進行詞性標注;

(3)基于貝葉斯分類器利用條件概率進行詞義消歧;

(4)利用One-Hot編碼與Skip-Gram模型結合的混合模型表示詞向量;

(5)利用TF-IDF調整詞語權重,確定多義詞在當前語境下對應的詞義;

(6)輸出基于機器學習預處理后的中文商業文本。

2.根據權利要求1所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述的步驟(1)中利用句號作為識別符對文本進行分句,基于概率統計模型對文本進行分詞,具體為:

輸入由C=[c1,c2,…,cn]T表示的字符串,輸出由S=[w1,w2,…,wm]T表示的分詞串,其中m≤n,之后利用如下公式進行分詞:

比較不同分割方案出現概率的大小,概率最大的方案即為確定的分割方案S;

其中,P(S|C)為當輸入字符串為C時,輸出分詞串為S的條件概率;

P(C|S)為當輸出分詞串為S時,輸入字符串為C的條件概率;

P(S)為分詞串S出現的概率;

P(C)為輸入字符串C出現的概率,是一個用于標準化的固定值。

3.根據權利要求1所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:步驟(2)通過使用詞語特征A劃分數據集D,其中特征A是根據信息增益,增益比和基尼指數三個決策樹指標確定的。

4.根據權利要求3所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述的信息增益,用于衡量分類前后信息的變化,公式如下:

g(D,A)=H(D)-H(D|A)

其中,H(D)為所述數據集D的熵,H(D|A)為所述數據集D和所述特征A之間的互信息,g(D,A)為所述數據集D分類前后的信息變化。

5.根據權利要求3所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述的增益比公式如下:

其中,g(D,A)為所述信息增益,HA(D)表示通過使用特征A作為樣本集D的隨機變量而獲得的經驗熵,gR(D,A)為所述增益比;

分類時在候選特征中找到所述信息增益高于平均值的特征,然后選擇具有最高增益比的特征。

6.根據權利要求3所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:所述基尼指數,公式如下:

其中,D為所述數據集,Di為根據第i個所述特征A所劃分的數據集D的子集,n為所述特征A的總個數,Gini(D,A)為基于所述特征A劃分所述樣本集D時的基尼指數。

7.根據權利要求3-6任一項所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:包括采用以詞語的結構或偏旁部首作為所述的特征A。

8.根據權利要求1所述的一種基于機器學習的中文商業文本預處理方法,其特征在于:步驟(3)用于確定在上下文語境T條件下,確定具有多義詞v的語義K,

其中,P(K|T)為當上下文語境為T時,所述多義詞v的語義為K的條件概率;P(T|K)為當所述多義詞v的語義為K時,上下文語境為T的條件概率;P(K)為所述多義詞v的語義為K的概率;P(T)是一個固定值,為上下文語境T出現的概率;

當P(K|T)取得最大值時為對應確定的語義K。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201910660219.7/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产91九色在线播放| 国产伦精品一区二区三区无广告| 国产一二区精品| 午夜剧场一区| 精品中文久久| 欧美一区视频观看| 91精品国模一区二区三区| 狠狠躁天天躁又黄又爽| 色午夜影院| 国产99久久久久久免费看| 精品综合久久久久| 国产精品亚洲二区| 日韩无遮挡免费视频| 海量av在线| 国产理论一区| 国产无遮挡又黄又爽免费网站| 日本少妇一区二区三区| 午夜天堂在线| 国产精品尤物麻豆一区二区三区| 91久久精品国产91久久性色tv| 夜夜躁人人爽天天天天大学生| 国产欧美一区二区三区视频| 大伊人av| 性欧美激情日韩精品七区| 精品视频久| 免费午夜在线视频| 亚洲乱亚洲乱妇50p| 国产日韩欧美网站| 国产精品国产一区二区三区四区| 欧美精品在线一区二区| 精品国产乱码久久久久久老虎| 乱淫免费视频| 欧美日韩久久一区二区| 亚洲s码欧洲m码在线观看| 久久久久久中文字幕| 亚洲国产精品综合| 日韩精品一区在线视频| 欧美精品粉嫩高潮一区二区| 国产一区二区在| 国产亚洲精品久久网站| 夜夜嗨av一区二区三区中文字幕 | xxxx在线视频| 国产欧美一区二区三区免费看| 久久乐国产精品| 97精品久久久午夜一区二区三区| 欧美日韩一区二区三区在线播放| 国产精品高潮在线| 午夜肉伦伦影院九七影网| 亚洲少妇一区二区三区| 免费看农村bbwbbw高潮| 一区二区三区国产精品视频| 99精品少妇| 久久精品色欧美aⅴ一区二区| 少妇高潮在线观看| 欧美一级不卡| 欧美精品一区二区三区四区在线| 国产一级在线免费观看| 少妇高清精品毛片在线视频 | 日韩精品一区中文字幕| www.午夜av| 国产偷窥片| 国产精品久久久久久一区二区三区| 日韩午夜三级| 国产精品一二三区免费| 日本精品一区视频| 亚洲久色影视| 午夜欧美a级理论片915影院| 久久99精品国产一区二区三区| 91麻豆精品国产91久久久资源速度 | 国产亚洲精品久久午夜玫瑰园| 国产91九色视频| 久久五月精品| 国产白丝一区二区三区| 强制中出し~大桥未久10| 国内自拍偷拍一区| 亚洲va国产| 国产一区二区在线观| 亚洲精品国产精品国产| 中文字幕国内精品| 激情aⅴ欧美一区二区三区| 爱看av在线入口| 夜夜爽av福利精品导航|