[發(fā)明專利]一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法在審

申請(qǐng)?zhí)枺?/td>	202011385160.4	申請(qǐng)日：	2020-12-01
公開(kāi)（公告）號(hào)：	CN112487762A	公開(kāi)（公告）日：	2021-03-12
發(fā)明（設(shè)計(jì)）人：	杜爽	申請(qǐng)（專利權(quán)）人：	蘇州英特雷真智能科技有限公司
主分類號(hào)：	G06F40/126	分類號(hào)：	G06F40/126;G06F40/151
代理公司：	無(wú)錫市匯誠(chéng)永信專利代理事務(wù)所(普通合伙) 32260	代理人：	王春麗
地址：	215000 江蘇省蘇州市相城***	國(guó)省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于漢字結(jié)構(gòu) 漢字編碼自然語(yǔ)言處理方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本發(fā)明公開(kāi)了一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法，包括如下步驟：步驟一，漢字編碼的轉(zhuǎn)換以及UTF?8到新編碼轉(zhuǎn)化；步驟二，自然語(yǔ)言處理以及深度學(xué)習(xí)訓(xùn)練；步驟三，語(yǔ)法器、分類器、語(yǔ)言模型生成。該方法可以降低現(xiàn)有自然語(yǔ)言處理方法的難度，提供一種基于漢字特征的、包含漢字音意結(jié)構(gòu)特征編碼的自然分析處理方法，使得自然語(yǔ)言分析技術(shù)，從漢字本身出發(fā)，進(jìn)行屬性分析，特征提取，減少暴力訓(xùn)練的語(yǔ)料需求量，提高語(yǔ)言模型的訓(xùn)練效率，提升分析結(jié)果的準(zhǔn)確率。

技術(shù)領(lǐng)域

本發(fā)明涉及人工智能漢字處理技術(shù)領(lǐng)域，更具體的說(shuō)，涉及一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法。

背景技術(shù)

目前，深度學(xué)習(xí)是一種基于特征學(xué)習(xí)的機(jī)器學(xué)習(xí)方法，國(guó)際國(guó)內(nèi)的自然語(yǔ)言處理技術(shù)(NLP)都是通過(guò)提取原始數(shù)據(jù)的數(shù)字編碼的特征來(lái)進(jìn)行的。

英語(yǔ)是構(gòu)成每個(gè)單詞的英文字母編碼的羅列，所以編碼體現(xiàn)了字母的排列順序，如：study 7374756479(編碼直接反應(yīng)字母構(gòu)成)，有助于對(duì)單詞的特征提取，能夠體現(xiàn)英語(yǔ)的詞根等特性，從而有助于基于英語(yǔ)單詞結(jié)構(gòu)分類的特征提取，模型微調(diào)過(guò)程可實(shí)現(xiàn)快速收斂。

漢語(yǔ)處理基于每個(gè)漢字的UTF-8編碼進(jìn)行的，如(圖1所示UTF-8編碼的規(guī)則，偏旁+整個(gè)字的筆畫，偏旁氵的漢字到火的過(guò)度只是單純的編碼+1，無(wú)法表現(xiàn)出漢字特征)：燈706F 00E7 81AF(無(wú)結(jié)構(gòu)規(guī)律)，這種編碼是按照(偏旁+整個(gè)字的筆畫)進(jìn)行的連續(xù)數(shù)字編碼，該編碼無(wú)明顯語(yǔ)義特征，需要海量的語(yǔ)料數(shù)據(jù)進(jìn)行暴力學(xué)習(xí)訓(xùn)練。這也是為什么很多語(yǔ)言模型歐美體系取得很好效果，漢語(yǔ)效果卻不行的原因。

漢字，是中文的記錄符號(hào)，也在日文、朝鮮文等文字中使用。與英文、俄文、印地文、阿拉伯文等表音的字母文字不同，漢字是典型的意音文字。與拼音文字單詞的單音或多音表義不同，漢字一般單字單音表義。

漢字由象形文字(表形文字)演變成兼表音義的意音文字，但總的體系仍屬表意文字。所以，漢字具有集形象、聲音和辭義三者于一體的特性。本身具有很強(qiáng)的語(yǔ)義信息。這一特性在世界文字中是獨(dú)一無(wú)二的，因此它具有獨(dú)特的魅力。

如果想讓計(jì)算機(jī)處理漢字信息，尤其是在深度學(xué)習(xí)對(duì)文本的分析中，能夠像人學(xué)習(xí)漢字一樣，對(duì)漢字的發(fā)音、表意、結(jié)構(gòu)進(jìn)行全面分析，并提取語(yǔ)義特征的話，就需要有效利用中文字符內(nèi)部的語(yǔ)義信息，形成一種能夠暴露漢字的音、意結(jié)構(gòu)屬性特征，并特征碼對(duì)齊的漢字編碼方式，這將極大的減小n-gram漢語(yǔ)語(yǔ)言模型訓(xùn)練所需的資源，通過(guò)極少的語(yǔ)料，迅速提取漢字間關(guān)聯(lián)性特征，分析文本中漢字與整句構(gòu)成及語(yǔ)義的關(guān)聯(lián)關(guān)系，從而分析出句型的構(gòu)成。

發(fā)明內(nèi)容

本發(fā)明的目的是提供了一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法，該方法可以降低現(xiàn)有自然語(yǔ)言處理方法的難度，提供一種基于漢字特征的、包含漢字音意結(jié)構(gòu)特征編碼的自然分析處理方法，使得自然語(yǔ)言分析技術(shù)，從漢字本身出發(fā)，進(jìn)行屬性分析，特征提取，減少暴力訓(xùn)練的語(yǔ)料需求量，提高語(yǔ)言模型的訓(xùn)練效率，提升分析結(jié)果的準(zhǔn)確率。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

一種基于漢字音意結(jié)構(gòu)漢字編碼的自然語(yǔ)言處理方法，其特征在于：包括如下步驟：

步驟一，漢字編碼的轉(zhuǎn)換以及UTF-8到新編碼轉(zhuǎn)化；

步驟二，自然語(yǔ)言處理以及深度學(xué)習(xí)訓(xùn)練；

步驟三，語(yǔ)法器、分類器、語(yǔ)言模型生成。

進(jìn)一步，所述的漢字編碼的轉(zhuǎn)換中將漢字編碼分為音碼和結(jié)構(gòu)碼兩部分，所述的音碼為15位二進(jìn)制數(shù)，所述的結(jié)構(gòu)碼為26位二進(jìn)制數(shù)。

進(jìn)一步，所述的音碼包括聲母、介母、韻母和聲調(diào)，其中聲母為5位二進(jìn)制數(shù)，介母為2位二進(jìn)制數(shù)，韻母為5位二進(jìn)制數(shù)，聲調(diào)為3位二進(jìn)制數(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州英特雷真智能科技有限公司，未經(jīng)蘇州英特雷真智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011385160.4/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：冷熱一體式液冷板
下一篇：一種納米銀/度米芬復(fù)合抗菌劑及其制備方法與應(yīng)用

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】