[發(fā)明專利]語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610248440.8 | 申請(qǐng)日: | 2016-04-20 |
| 公開(公告)號(hào): | CN107305768B | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設(shè)計(jì))人: | 黃亦睿;劉功申;蘇波;劉春梅;李建華 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L15/18 |
| 代理公司: | 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 郭國(guó)中 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 交互 中的 錯(cuò)字 校準(zhǔn) 方法 | ||
1.一種語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法,其特征在于,包括:
識(shí)別語(yǔ)境步驟:針對(duì)不同的領(lǐng)域創(chuàng)建相應(yīng)的語(yǔ)境知識(shí)庫(kù),構(gòu)造語(yǔ)境知識(shí)庫(kù)的步驟包括:首先根據(jù)領(lǐng)域的關(guān)鍵詞,通過搜索引擎得到相關(guān)文檔,作為該領(lǐng)域的語(yǔ)料庫(kù);然后根據(jù)語(yǔ)義知識(shí),獲取該領(lǐng)域的核心詞,按照核心詞聚類得到該領(lǐng)域的實(shí)例句子,從而構(gòu)建了語(yǔ)境知識(shí)庫(kù);
在識(shí)別語(yǔ)境步驟中,依據(jù)文本句子與語(yǔ)境知識(shí)庫(kù)中不同領(lǐng)域的語(yǔ)境相似度來判斷,作為自動(dòng)糾錯(cuò)的前提;其中,語(yǔ)境相似度的具體算法如下:
S1:統(tǒng)計(jì)文本句子A中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù),并表示成向量形式;
S2:按照余弦相似度計(jì)算公式,計(jì)算文本句子A與語(yǔ)境Ci中向量形式的每一個(gè)實(shí)例句子B這兩個(gè)向量之間向量夾角的余弦值,作為基于向量的詞形相似度;
S3:將文本句子A的所有詞語(yǔ)轉(zhuǎn)為拼音形式,統(tǒng)計(jì)文本句子A中每個(gè)不同拼音序列出現(xiàn)的次數(shù),表示成向量形式,計(jì)算以拼音形式表示的文本句子A與語(yǔ)境Ci中向量形式的每一個(gè)實(shí)例句子B這兩個(gè)向量之間向量夾角的余弦值,得到基于向量的拼音相似度;
S4:通過對(duì)拼音相似度和詞形相似度賦予不同權(quán)重,計(jì)算文本句子A與每一個(gè)實(shí)例句子B的句子相似度,并選擇句子相似度最大的值,作為文本句子A與語(yǔ)境Ci的句子相似度;
S5:計(jì)算文本句子A與語(yǔ)境Ci的核心詞匹配率,即文本句子A中含有語(yǔ)境Ci中所有核心詞的數(shù)量占文本句子A中所有詞語(yǔ)數(shù)量的百分比;
S6:通過對(duì)句子相似度和核心詞匹配率賦予不同權(quán)重,計(jì)算文本句子A與語(yǔ)境Ci的語(yǔ)境相似度;
S7:計(jì)算文本句子A與語(yǔ)境Ci基于前文語(yǔ)境的平滑語(yǔ)境相似度SmoothContextSim(A,Ci):
SmoothContextSim(A,Ci)=λ1·ContextSim(A-2,Ci)+λ2·ContextSim(A-1,Ci)+λ3·ContextSim(A,Ci)
λ1+λ2+λ3=1
λ1≤λ2≤λ3
其中,A,A-1,A-2分別表示當(dāng)前文本句子、當(dāng)前文本句子的前第一句、當(dāng)前文本句子的前第兩句;λ1,λ2,λ3是常數(shù);ContextSim(X,Y)表示文本句子X與語(yǔ)境Y的語(yǔ)境相似度;
所述的語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法,還包括:
基于限制語(yǔ)義的自動(dòng)糾錯(cuò)步驟:獲取用戶語(yǔ)音輸入的文本句子中的待糾錯(cuò)地名,對(duì)待糾錯(cuò)地名進(jìn)行差錯(cuò)糾錯(cuò)。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法,其特征在于,所述基于限制語(yǔ)義的自動(dòng)糾錯(cuò)步驟,包括:
文本句子讀取步驟:讀入用戶語(yǔ)音輸入的文本句子P,P=P1P2...Pi...Pn;其中,pi表示文本句子中的第i個(gè)漢字,n表示文本句子的長(zhǎng)度;
待糾錯(cuò)地名獲取步驟:掃描P,根據(jù)地名匹配規(guī)則進(jìn)行匹配,得到待糾錯(cuò)地名;
差錯(cuò)糾錯(cuò)步驟:將待糾錯(cuò)地名與地名庫(kù)中的所有地名進(jìn)行短文本相似度匹配,得到與待糾錯(cuò)地名最相似的地名,作為查錯(cuò)糾錯(cuò)后的正確地名。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610248440.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





