[發(fā)明專利]語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法有效

申請(qǐng)?zhí)枺?/td>	201610248440.8	申請(qǐng)日：	2016-04-20
公開（公告）號(hào)：	CN107305768B	公開（公告）日：	2020-06-12
發(fā)明（設(shè)計(jì)）人：	黃亦睿;劉功申;蘇波;劉春梅;李建華	申請(qǐng)（專利權(quán)）人：	上海交通大學(xué)
主分類號(hào)：	G10L15/22	分類號(hào)：	G10L15/22;G10L15/18
代理公司：	上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 31236	代理人：	郭國(guó)中
地址：	200240 ***	國(guó)省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語(yǔ)音交互中的錯(cuò)字校準(zhǔn) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法，其特征在于，包括：

識(shí)別語(yǔ)境步驟：針對(duì)不同的領(lǐng)域創(chuàng)建相應(yīng)的語(yǔ)境知識(shí)庫(kù)，構(gòu)造語(yǔ)境知識(shí)庫(kù)的步驟包括：首先根據(jù)領(lǐng)域的關(guān)鍵詞，通過搜索引擎得到相關(guān)文檔，作為該領(lǐng)域的語(yǔ)料庫(kù)；然后根據(jù)語(yǔ)義知識(shí)，獲取該領(lǐng)域的核心詞，按照核心詞聚類得到該領(lǐng)域的實(shí)例句子，從而構(gòu)建了語(yǔ)境知識(shí)庫(kù)；

在識(shí)別語(yǔ)境步驟中，依據(jù)文本句子與語(yǔ)境知識(shí)庫(kù)中不同領(lǐng)域的語(yǔ)境相似度來判斷，作為自動(dòng)糾錯(cuò)的前提；其中，語(yǔ)境相似度的具體算法如下：

S1：統(tǒng)計(jì)文本句子A中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù)，并表示成向量形式；

S2：按照余弦相似度計(jì)算公式，計(jì)算文本句子A與語(yǔ)境Ci中向量形式的每一個(gè)實(shí)例句子B這兩個(gè)向量之間向量夾角的余弦值，作為基于向量的詞形相似度；

S3：將文本句子A的所有詞語(yǔ)轉(zhuǎn)為拼音形式，統(tǒng)計(jì)文本句子A中每個(gè)不同拼音序列出現(xiàn)的次數(shù)，表示成向量形式，計(jì)算以拼音形式表示的文本句子A與語(yǔ)境Ci中向量形式的每一個(gè)實(shí)例句子B這兩個(gè)向量之間向量夾角的余弦值，得到基于向量的拼音相似度；

S4：通過對(duì)拼音相似度和詞形相似度賦予不同權(quán)重，計(jì)算文本句子A與每一個(gè)實(shí)例句子B的句子相似度，并選擇句子相似度最大的值，作為文本句子A與語(yǔ)境Ci的句子相似度；

S5：計(jì)算文本句子A與語(yǔ)境Ci的核心詞匹配率，即文本句子A中含有語(yǔ)境Ci中所有核心詞的數(shù)量占文本句子A中所有詞語(yǔ)數(shù)量的百分比；

S6：通過對(duì)句子相似度和核心詞匹配率賦予不同權(quán)重，計(jì)算文本句子A與語(yǔ)境Ci的語(yǔ)境相似度；

S7：計(jì)算文本句子A與語(yǔ)境Ci基于前文語(yǔ)境的平滑語(yǔ)境相似度SmoothContextSim(A,C_i)：

SmoothContextSim(A,C_i)＝λ₁·ContextSim(A_-2,C_i)+λ₂·ContextSim(A_-1,C_i)+λ₃·ContextSim(A,C_i)

λ₁+λ₂+λ₃＝1

λ₁≤λ₂≤λ₃

其中，A,A_-1,A_-2分別表示當(dāng)前文本句子、當(dāng)前文本句子的前第一句、當(dāng)前文本句子的前第兩句；λ₁,λ₂,λ₃是常數(shù)；ContextSim(X,Y)表示文本句子X與語(yǔ)境Y的語(yǔ)境相似度；

所述的語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法，還包括：

基于限制語(yǔ)義的自動(dòng)糾錯(cuò)步驟：獲取用戶語(yǔ)音輸入的文本句子中的待糾錯(cuò)地名，對(duì)待糾錯(cuò)地名進(jìn)行差錯(cuò)糾錯(cuò)。

2.根據(jù)權(quán)利要求1所述的語(yǔ)音交互中的易錯(cuò)字校準(zhǔn)方法，其特征在于，所述基于限制語(yǔ)義的自動(dòng)糾錯(cuò)步驟，包括：

文本句子讀取步驟：讀入用戶語(yǔ)音輸入的文本句子P，P＝P₁P₂...P_i...P_n；其中，p_i表示文本句子中的第i個(gè)漢字，n表示文本句子的長(zhǎng)度；

待糾錯(cuò)地名獲取步驟：掃描P，根據(jù)地名匹配規(guī)則進(jìn)行匹配，得到待糾錯(cuò)地名；

差錯(cuò)糾錯(cuò)步驟：將待糾錯(cuò)地名與地名庫(kù)中的所有地名進(jìn)行短文本相似度匹配，得到與待糾錯(cuò)地名最相似的地名，作為查錯(cuò)糾錯(cuò)后的正確地名。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué)，未經(jīng)上海交通大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610248440.8/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)，例如對(duì)說話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】