[發(fā)明專利]一種自然語(yǔ)言信息的處理方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010595643.0 | 申請(qǐng)日: | 2020-06-28 |
| 公開(kāi)(公告)號(hào): | CN111753088A | 公開(kāi)(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 汪秀英 | 申請(qǐng)(專利權(quán))人: | 汪秀英 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06F40/30;G06N3/04 |
| 代理公司: | 長(zhǎng)沙正務(wù)聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 43252 | 代理人: | 鄭雋;吳婷 |
| 地址: | 410205 湖南省長(zhǎng)沙市高新*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自然語(yǔ)言 信息 處理 方法 | ||
1.一種自然語(yǔ)言信息的處理方法,其特征在于,所述方法包括:
利用Huffman樹(shù)將自然語(yǔ)言信息進(jìn)行存儲(chǔ),將所述自然語(yǔ)言信息轉(zhuǎn)換為自然語(yǔ)言向量;
利用預(yù)訓(xùn)練的LC-CRF模型提取自然語(yǔ)言向量的前后信息以及局部特征信息,并對(duì)每個(gè)字符向量進(jìn)行標(biāo)注,從而依據(jù)每個(gè)字符的類別進(jìn)行分詞;
提取歧義詞的詞匯單元向量,并構(gòu)成歧義詞特征矩陣;
將歧義詞特征矩陣輸入預(yù)構(gòu)建的詞義消歧模型,利用所述詞義消歧模型對(duì)歧義詞的語(yǔ)義進(jìn)行識(shí)別;
利用基于平均信息熵的權(quán)重計(jì)算算法計(jì)算自然語(yǔ)言信息中每個(gè)詞匯向量的權(quán)重;
利用基于詞語(yǔ)綜合權(quán)重的加權(quán)節(jié)點(diǎn)初始值及節(jié)點(diǎn)概率轉(zhuǎn)移矩陣進(jìn)行權(quán)重迭代更新,選擇前N個(gè)權(quán)重比較大的詞語(yǔ)作為關(guān)鍵詞;
將所述自然語(yǔ)言信息中的關(guān)鍵詞向量,作為基于分段池化層的神經(jīng)網(wǎng)絡(luò)的輸入,從而利用所述基于分段池化層的神經(jīng)網(wǎng)絡(luò)對(duì)自然語(yǔ)言信息中的情感進(jìn)行識(shí)別。
2.如權(quán)利要求1所述的一種自然語(yǔ)言信息的處理方法,其特征在于,所述利用Huffman樹(shù)將自然語(yǔ)言信息進(jìn)行存儲(chǔ),包括:
取一個(gè)適當(dāng)大小的窗口當(dāng)做語(yǔ)境,將所述自然語(yǔ)言信息輸入到窗口中,并將它們的K維向量加和在一起,形成隱藏層K個(gè)節(jié)點(diǎn);
輸出層是一個(gè)巨大的二叉樹(shù),葉節(jié)點(diǎn)代表自然語(yǔ)言信息中所有的詞,語(yǔ)料含有V個(gè)獨(dú)立的詞,則二叉樹(shù)有|V|個(gè)葉節(jié)點(diǎn),而這整顆二叉樹(shù)構(gòu)建的算法就是Huffman樹(shù);
隱層的每一個(gè)節(jié)點(diǎn)都會(huì)跟二叉樹(shù)的內(nèi)節(jié)點(diǎn)有連邊,于是對(duì)于二叉樹(shù)的每一個(gè)內(nèi)節(jié)點(diǎn)都會(huì)有K條連邊,每條邊上也會(huì)有權(quán)值。
3.如權(quán)利要求2所述的一種自然語(yǔ)言信息的處理方法,其特征在于,所述利用LC-CRF模型對(duì)每個(gè)字符向量進(jìn)行標(biāo)注,從而依據(jù)每個(gè)字符的類別進(jìn)行分詞,包括:
LC-CRF模型將經(jīng)過(guò)卷積運(yùn)算的字符向量輸入到輸出層中,所述輸出層對(duì)自然語(yǔ)言向量l中每一個(gè)句子向量s進(jìn)行評(píng)分,所述評(píng)分函數(shù)為:
其中:
i為句子向量s中的第i個(gè)字符;
λ為超參數(shù);
li為給第i個(gè)字符注明的詞性;
li-1為給第i-1個(gè)字符注明的詞性;
對(duì)所述評(píng)分分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化處理,即可以得到自然語(yǔ)言向量l中一個(gè)句子向量s的詞性標(biāo)注正確概率值,若該概率值大于0.8,則認(rèn)為該句子向量的詞性標(biāo)注正確,本發(fā)明則根據(jù)所標(biāo)注的詞性進(jìn)行分詞處理,否則將自然語(yǔ)言向量重新輸入LC-CRF模型進(jìn)行分詞處理,所述概率值計(jì)算公式為:
其中:
l為自然語(yǔ)言向量;
s為自然語(yǔ)言向量中的一個(gè)句子向量。
4.如權(quán)利要求3所述的一種自然語(yǔ)言信息的處理方法,其特征在于,所述提取歧義詞的詞匯單元向量,包括:
根據(jù)所述自然語(yǔ)言向量,對(duì)于自然語(yǔ)言信息中所存在的歧義詞匯w,本發(fā)明分別提取歧義詞匯w左側(cè)第二個(gè)詞匯單元向量FL2,左側(cè)第一個(gè)詞匯單元向量FL1,右側(cè)第一個(gè)詞匯單元向量FR1,右側(cè)第二個(gè)詞匯單元向量FR2;
以詞匯單元向量FL2、FL1、FR1和FR2為基礎(chǔ),構(gòu)造特征矩陣Feature={FL2,F(xiàn)L1,F(xiàn)R1,F(xiàn)R2}。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于汪秀英,未經(jīng)汪秀英許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010595643.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種銻氧化物溶膠的合成方法及阻燃助劑
- 下一篇:一種絞線模具
- 一種自然語(yǔ)言的搜索方法及系統(tǒng)
- 基于交互上下文處理自然語(yǔ)言方法
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言描述信息的生成方法及裝置
- 風(fēng)格可定制的文本生成
- 多輪預(yù)制對(duì)話
- 改變應(yīng)答以提供表現(xiàn)豐富的自然語(yǔ)言對(duì)話的方法、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言查詢的轉(zhuǎn)換
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言理解模型訓(xùn)練方法、自然語(yǔ)言理解方法及裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





