[發(fā)明專利]面向中文文本的語義理解系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710671230.4 | 申請(qǐng)日: | 2017-08-08 |
| 公開(公告)號(hào): | CN107577662A | 公開(公告)日: | 2018-01-12 |
| 發(fā)明(設(shè)計(jì))人: | 趙群飛;趙博軒;何弢 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué);安徽酷哇機(jī)器人有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06N3/04 |
| 代理公司: | 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司31236 | 代理人: | 郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 中文 文本 語義 理解 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,具體地,可以廣泛應(yīng)用于無人駕駛車、智能家居、機(jī)器人等任何需要人機(jī)語音交互及其語義理解的智能終端。
背景技術(shù)
隨著社會(huì)經(jīng)濟(jì)與科學(xué)技術(shù)的發(fā)展,人類已經(jīng)走進(jìn)人工智能時(shí)代,無人駕駛車、智能手機(jī)、智能電視、服務(wù)機(jī)器人等一大批智能產(chǎn)品已經(jīng)走進(jìn)人們的生活,改變?nèi)祟惖纳罘绞剑鵀榱耸怪悄墚a(chǎn)品更好的為人類服務(wù),用戶需要實(shí)時(shí)與其進(jìn)行交互,并需要智能終端理解用戶的意圖。在眾多交互方式中,基于語音的交互方式是最便捷、最方便、也是應(yīng)用最廣泛的交互方式,語音交互已成為人與智能產(chǎn)品最主要的交互方式。而基于語音交互的系統(tǒng)主要包括語音識(shí)別和語義理解三大部分,目前語音識(shí)別方面已經(jīng)有很多成熟的論文及方法,且國內(nèi)諸多公司都已推出了自己的語音識(shí)別產(chǎn)品,并有良好的應(yīng)用效果。而語義理解技術(shù)則存在較多難點(diǎn),怎樣讓機(jī)器對(duì)語音識(shí)別得到的文本進(jìn)行理解,從而使機(jī)器理解人類的意圖,成為了交互過程中的關(guān)鍵環(huán)節(jié),進(jìn)行對(duì)語義理解的研究有著重要意義。
經(jīng)檢索發(fā)現(xiàn),目前針對(duì)中文文本的語義理解方法可分為兩類,基于統(tǒng)計(jì)學(xué)的方法與基于深度學(xué)習(xí)的方法。基于統(tǒng)計(jì)的方法如發(fā)明專利(公告號(hào):CN104408095A)是一種改進(jìn)的KNN文本分類方法,其首先生成訓(xùn)練集的向量空間模型,將樣本空間按類型定義為多個(gè)球形區(qū),測試時(shí)再依距離進(jìn)行判斷類別,此方法適合高特征維度的文本空間分類,但當(dāng)類別數(shù)量增加時(shí),空間分類面的分類精度會(huì)隨之下降;發(fā)明專利(公告號(hào):CN105912716A)是一種基于SVM的文本分類方法,其引入了擴(kuò)展詞的概念,克服了短文本特征稀疏的問題,但其在大規(guī)模語料庫情況下會(huì)產(chǎn)生維度過大的問題;基于深度學(xué)習(xí)的方法如發(fā)明專利(公告號(hào)CN104834747A)是一種基于詞向量與卷積神經(jīng)網(wǎng)絡(luò)的分類方法,其將詞映射到空間上一點(diǎn)并用其之間距離來衡量詞間關(guān)系,并用卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行特征提取,但其在處理復(fù)雜意圖文本或長語句時(shí),會(huì)產(chǎn)生上下文信息丟失的情況。近些年基于深度學(xué)習(xí)的意圖理解或文本分類方面的論文也越來越多的,Yann LeCun于Character-level Convolutional Networks for Text Classificat ion中提出一種基于字符的新文本表征方法,與之前以詞為單位的特征方法所不同的是,序列將每一個(gè)字符視為單元輸入,但這種方法在應(yīng)用于中文時(shí)有其局限性,因?yàn)橹形牡钠匆羰且月曧嵞竷刹糠纸M成,而不是單純的單字符,以“導(dǎo)航”為例,將其視為“d ao 1 h ang 2”的組合比“d a o 1 h a n g 2”的構(gòu)成更為科學(xué),其中數(shù)字代表聲調(diào)。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種面向中文文本語義理解系統(tǒng)及方法。
根據(jù)本發(fā)明提供的一種面向中文文本語義理解系統(tǒng),包括:
文本預(yù)處理模塊:對(duì)接收到的文本進(jìn)行分詞,將分詞后的文本轉(zhuǎn)化為拼音序列;
深度學(xué)習(xí)文本分類模型:將拼音序列作為已訓(xùn)練好的深度學(xué)習(xí)文本分類模型的輸入,深度學(xué)習(xí)文本分類模型包括:
輸入層:接收所述文本預(yù)處理模塊得到的拼音序列,將拼音序列依照字符表映射成稀疏向量,拼音序列中所有映射后的稀疏向量構(gòu)成該拼音序列的稀疏表示矩陣;
卷積層:采取不同窗口大小、不同權(quán)值的卷積核矩陣對(duì)稀疏表示矩陣進(jìn)行特征提取,獲取文本中每個(gè)詞的特征序列;
池化層:對(duì)得到的每個(gè)詞的特征序列取最大池化,得到對(duì)應(yīng)詞的拼音表示的特征;
GRU層:利用GRU遞歸神經(jīng)網(wǎng)絡(luò)單元對(duì)池化后的特征進(jìn)行處理,得到GRU隱層單元;
全連接層:對(duì)GRU隱層單元進(jìn)行全連接計(jì)算隱層輸出;
輸出層:對(duì)隱層輸出進(jìn)行分類得到文本的預(yù)測類別。
優(yōu)選的,所述字符表為根據(jù)漢語拼音聲韻母成分所定義的57維字符表,包括:a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z、0、1、2、3、4、5、6、7、8、9、ai、ei、ao、ou、ui、ie、ue、an、en、in、un、ang、eng、ing、ong、zh、ch、sh、$、_以及*。
優(yōu)選的,所述卷積層與所述池化層的計(jì)算式為:
其中表示文本序列中第i個(gè)詞xi中第j到j(luò)+h-1個(gè)字符映射構(gòu)成的矩陣,w為權(quán)值矩陣,b為偏置,h表示窗口大小;
假設(shè)詞xi中字符經(jīng)映射后長度為l,詞xi得到的特征序列為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué);安徽酷哇機(jī)器人有限公司,未經(jīng)上海交通大學(xué);安徽酷哇機(jī)器人有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710671230.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





