[發(fā)明專利]一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011385160.4 | 申請(qǐng)日: | 2020-12-01 |
| 公開(kāi)(公告)號(hào): | CN112487762A | 公開(kāi)(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 杜爽 | 申請(qǐng)(專利權(quán))人: | 蘇州英特雷真智能科技有限公司 |
| 主分類號(hào): | G06F40/126 | 分類號(hào): | G06F40/126;G06F40/151 |
| 代理公司: | 無(wú)錫市匯誠(chéng)永信專利代理事務(wù)所(普通合伙) 32260 | 代理人: | 王春麗 |
| 地址: | 215000 江蘇省蘇州市相城*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 漢字 結(jié)構(gòu) 漢字編碼 自然語(yǔ)言 處理 方法 | ||
本發(fā)明公開(kāi)了一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法,包括如下步驟:步驟一,漢字編碼的轉(zhuǎn)換以及UTF?8到新編碼轉(zhuǎn)化;步驟二,自然語(yǔ)言處理以及深度學(xué)習(xí)訓(xùn)練;步驟三,語(yǔ)法器、分類器、語(yǔ)言模型生成。該方法可以降低現(xiàn)有自然語(yǔ)言處理方法的難度,提供一種基于漢字特征的、包含漢字音意結(jié)構(gòu)特征編碼的自然分析處理方法,使得自然語(yǔ)言分析技術(shù),從漢字本身出發(fā),進(jìn)行屬性分析,特征提取,減少暴力訓(xùn)練的語(yǔ)料需求量,提高語(yǔ)言模型的訓(xùn)練效率,提升分析結(jié)果的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能漢字處理技術(shù)領(lǐng)域,更具體的說(shuō),涉及一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法。
背景技術(shù)
目前,深度學(xué)習(xí)是一種基于特征學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,國(guó)際國(guó)內(nèi)的自然語(yǔ)言處理技術(shù)(NLP)都是通過(guò)提取原始數(shù)據(jù)的數(shù)字編碼的特征來(lái)進(jìn)行的。
英語(yǔ)是構(gòu)成每個(gè)單詞的英文字母編碼的羅列,所以編碼體現(xiàn)了字母的排列順序,如:study 7374756479(編碼直接反應(yīng)字母構(gòu)成),有助于對(duì)單詞的特征提取,能夠體現(xiàn)英語(yǔ)的詞根等特性,從而有助于基于英語(yǔ)單詞結(jié)構(gòu)分類的特征提取,模型微調(diào)過(guò)程可實(shí)現(xiàn)快速收斂。
漢語(yǔ)處理基于每個(gè)漢字的UTF-8編碼進(jìn)行的,如(圖1所示UTF-8編碼的規(guī)則,偏旁+整個(gè)字的筆畫,偏旁氵的漢字到火的過(guò)度只是單純的編碼+1,無(wú)法表現(xiàn)出漢字特征):燈706F 00E7 81AF(無(wú)結(jié)構(gòu)規(guī)律),這種編碼是按照(偏旁+整個(gè)字的筆畫)進(jìn)行的連續(xù)數(shù)字編碼,該編碼無(wú)明顯語(yǔ)義特征,需要海量的語(yǔ)料數(shù)據(jù)進(jìn)行暴力學(xué)習(xí)訓(xùn)練。這也是為什么很多語(yǔ)言模型歐美體系取得很好效果,漢語(yǔ)效果卻不行的原因。
漢字,是中文的記錄符號(hào),也在日文、朝鮮文等文字中使用。與英文、俄文、印地文、阿拉伯文等表音的字母文字不同,漢字是典型的意音文字。與拼音文字單詞的單音或多音表義不同,漢字一般單字單音表義。
漢字由象形文字(表形文字)演變成兼表音義的意音文字,但總的體系仍屬表意文字。所以,漢字具有集形象、聲音和辭義三者于一體的特性。本身具有很強(qiáng)的語(yǔ)義信息。這一特性在世界文字中是獨(dú)一無(wú)二的,因此它具有獨(dú)特的魅力。
如果想讓計(jì)算機(jī)處理漢字信息,尤其是在深度學(xué)習(xí)對(duì)文本的分析中,能夠像人學(xué)習(xí)漢字一樣,對(duì)漢字的發(fā)音、表意、結(jié)構(gòu)進(jìn)行全面分析,并提取語(yǔ)義特征的話,就需要有效利用中文字符內(nèi)部的語(yǔ)義信息,形成一種能夠暴露漢字的音、意結(jié)構(gòu)屬性特征,并特征碼對(duì)齊的漢字編碼方式,這將極大的減小n-gram漢語(yǔ)語(yǔ)言模型訓(xùn)練所需的資源,通過(guò)極少的語(yǔ)料,迅速提取漢字間關(guān)聯(lián)性特征,分析文本中漢字與整句構(gòu)成及語(yǔ)義的關(guān)聯(lián)關(guān)系,從而分析出句型的構(gòu)成。
發(fā)明內(nèi)容
本發(fā)明的目的是提供了一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法,該方法可以降低現(xiàn)有自然語(yǔ)言處理方法的難度,提供一種基于漢字特征的、包含漢字音意結(jié)構(gòu)特征編碼的自然分析處理方法,使得自然語(yǔ)言分析技術(shù),從漢字本身出發(fā),進(jìn)行屬性分析,特征提取,減少暴力訓(xùn)練的語(yǔ)料需求量,提高語(yǔ)言模型的訓(xùn)練效率,提升分析結(jié)果的準(zhǔn)確率。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法,其特征在于:包括如下步驟:
步驟一,漢字編碼的轉(zhuǎn)換以及UTF-8到新編碼轉(zhuǎn)化;
步驟二,自然語(yǔ)言處理以及深度學(xué)習(xí)訓(xùn)練;
步驟三,語(yǔ)法器、分類器、語(yǔ)言模型生成。
進(jìn)一步,所述的漢字編碼的轉(zhuǎn)換中將漢字編碼分為音碼和結(jié)構(gòu)碼兩部分,所述的音碼為15位二進(jìn)制數(shù),所述的結(jié)構(gòu)碼為26位二進(jìn)制數(shù)。
進(jìn)一步,所述的音碼包括聲母、介母、韻母和聲調(diào),其中聲母為5位二進(jìn)制數(shù),介母為2位二進(jìn)制數(shù),韻母為5位二進(jìn)制數(shù),聲調(diào)為3位二進(jìn)制數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州英特雷真智能科技有限公司,未經(jīng)蘇州英特雷真智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011385160.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





