[發(fā)明專(zhuān)利]一種語(yǔ)音轉(zhuǎn)錄文本的實(shí)體糾錯(cuò)方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010439068.5 | 申請(qǐng)日: | 2020-05-21 |
| 公開(kāi)(公告)號(hào): | CN111611792B | 公開(kāi)(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計(jì))人: | 賈全燁;張強(qiáng);宋博川;柴博 | 申請(qǐng)(專(zhuān)利權(quán))人: | 全球能源互聯(lián)網(wǎng)研究院有限公司;國(guó)家電網(wǎng)有限公司;國(guó)家電網(wǎng)有限公司信息通信分公司;國(guó)網(wǎng)山東省電力公司信息通信公司 |
| 主分類(lèi)號(hào): | G06F40/232 | 分類(lèi)號(hào): | G06F40/232;G06F40/295;G10L15/26 |
| 代理公司: | 北京三聚陽(yáng)光知識(shí)產(chǎn)權(quán)代理有限公司 11250 | 代理人: | 胡曉靜 |
| 地址: | 102209 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語(yǔ)音 轉(zhuǎn)錄 文本 實(shí)體 糾錯(cuò) 方法 系統(tǒng) | ||
本發(fā)明提供了一種語(yǔ)音轉(zhuǎn)錄文本的實(shí)體糾錯(cuò)方法及系統(tǒng),該方法包括:對(duì)從目標(biāo)語(yǔ)音轉(zhuǎn)錄文本中提取的實(shí)體詞匯進(jìn)行拼音標(biāo)注;利用標(biāo)注的拼音及基于拼音相似度的編輯距離對(duì)實(shí)體詞匯進(jìn)行聚類(lèi),生成聚類(lèi)結(jié)果;將聚類(lèi)結(jié)果中在同一類(lèi)別出現(xiàn)頻率最高的實(shí)體詞匯確定為標(biāo)準(zhǔn)實(shí)體詞匯,并將該類(lèi)別中其他實(shí)體詞匯替換為標(biāo)準(zhǔn)實(shí)體詞匯。通過(guò)利用基于拼音相似度的編輯距離對(duì)實(shí)體詞匯進(jìn)行聚類(lèi),從而將拼音相似度作為參考因素加入編輯距離算法中,加強(qiáng)了對(duì)同義詞及音詞的辨別能力,使得聚類(lèi)結(jié)果更加符合語(yǔ)音轉(zhuǎn)錄文本的實(shí)際情況,根據(jù)該聚類(lèi)結(jié)果用同一類(lèi)別中出現(xiàn)頻率最高的實(shí)體詞匯替換其他實(shí)體詞匯,實(shí)現(xiàn)了對(duì)語(yǔ)音轉(zhuǎn)錄文本的糾錯(cuò),進(jìn)而提高了最終語(yǔ)音轉(zhuǎn)錄文本的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,具體涉及一種語(yǔ)音轉(zhuǎn)錄文本的實(shí)體糾錯(cuò)方法及系統(tǒng)。
背景技術(shù)
隨著人工智能(AI,Artificial?Intelligence)技術(shù)的推廣和深入,以帶電作業(yè)機(jī)器人、AI控制器為代表的一批智能產(chǎn)品已率先進(jìn)入電力行業(yè),并發(fā)揮了極大的效用。因此,將人工智能技術(shù)與電力、能源等行業(yè)相結(jié)合,促進(jìn)傳統(tǒng)行業(yè)的轉(zhuǎn)型升級(jí),是現(xiàn)在的發(fā)展趨勢(shì)。語(yǔ)音作為人類(lèi)最自然、最有效地交流方式,使得語(yǔ)音識(shí)別技術(shù)成為當(dāng)下熱門(mén)研究方向。目前,在國(guó)網(wǎng)客服中心每天產(chǎn)生大量的通話(huà)記錄,這些通話(huà)的語(yǔ)音通過(guò)自動(dòng)轉(zhuǎn)錄為文本的方式進(jìn)行存儲(chǔ),但是由于受到口音、斷句及語(yǔ)音中詞意等影響,機(jī)器在識(shí)別語(yǔ)音文本時(shí),容易識(shí)別成讀音相同或者相似的同音字,造成自動(dòng)轉(zhuǎn)錄完的語(yǔ)音文本中的實(shí)體名稱(chēng)會(huì)出現(xiàn)各類(lèi)錯(cuò)誤,例如:實(shí)體名稱(chēng)為“離線投標(biāo)工具”被轉(zhuǎn)錄為“禮縣投標(biāo)工具”或“離線圖標(biāo)工具”等。因此,需要對(duì)轉(zhuǎn)錄文本中的實(shí)體名稱(chēng)進(jìn)行糾錯(cuò)。
而目前現(xiàn)有的文本糾錯(cuò)方法往往是利用相似度計(jì)算的方式進(jìn)行文本糾錯(cuò),其中最常見(jiàn)的相似度算法為編輯距離算法(Minimum?Edit?Distance,MED),該算法將兩個(gè)字符串的相似度問(wèn)題,歸結(jié)為將其中一個(gè)字符串轉(zhuǎn)化成另一個(gè)字符串所要付出的代價(jià),轉(zhuǎn)化的代價(jià)越高,說(shuō)明兩個(gè)字符串的相似度越低。然而,現(xiàn)有的編輯距離算法在計(jì)算字符相似度時(shí),只劃分為不同和完全相同這兩種情況,但是,由于語(yǔ)音轉(zhuǎn)錄文本中一些詞匯的真實(shí)詞意可能會(huì)被轉(zhuǎn)換為同音詞或近音詞,而這些同音詞或近音詞基于現(xiàn)有的編輯距離算法的文本糾錯(cuò)方法往往無(wú)法準(zhǔn)確辨別出來(lái),進(jìn)而影響最終語(yǔ)音轉(zhuǎn)錄文本的準(zhǔn)確性。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供了一種語(yǔ)音轉(zhuǎn)錄文本的實(shí)體糾錯(cuò)方法及系統(tǒng),以克服現(xiàn)有技術(shù)中的語(yǔ)音轉(zhuǎn)錄文本的實(shí)體糾錯(cuò)方法準(zhǔn)確性低的問(wèn)題。
本發(fā)明實(shí)施例提供了一種語(yǔ)音轉(zhuǎn)錄文本的實(shí)體糾錯(cuò)方法,包括:對(duì)從目標(biāo)語(yǔ)音轉(zhuǎn)錄文本中提取的實(shí)體詞匯進(jìn)行拼音標(biāo)注;利用標(biāo)注的拼音及基于拼音相似度的編輯距離對(duì)實(shí)體詞匯進(jìn)行聚類(lèi),生成聚類(lèi)結(jié)果;將聚類(lèi)結(jié)果中在同一類(lèi)別出現(xiàn)頻率最高的實(shí)體詞匯確定為標(biāo)準(zhǔn)實(shí)體詞匯,并將該類(lèi)別中其他實(shí)體詞匯替換為所述標(biāo)準(zhǔn)實(shí)體詞匯。
可選地,利用標(biāo)注的拼音及基于拼音相似度的編輯距離對(duì)實(shí)體詞匯進(jìn)行聚類(lèi),生成聚類(lèi)結(jié)果,包括:步驟S1:將所有實(shí)體詞匯隨機(jī)劃分為若干類(lèi);步驟S2:從所有實(shí)體詞匯中依次選擇待分類(lèi)實(shí)體詞匯,利用標(biāo)注的拼音計(jì)算所述待分類(lèi)實(shí)體詞匯與每一類(lèi)中所包含的所有實(shí)體詞匯之間基于拼音相似度的編輯距離的平均值;步驟S3:將所述待分類(lèi)實(shí)體詞匯劃分入基于拼音相似度的編輯距離的平均值最小的類(lèi)別中,并返回上述步驟S2,直至分類(lèi)結(jié)果不再變化為止。
可選地,所述基于拼音相似度的編輯距離通過(guò)如下公式計(jì)算:
其中,Leva,b(i,j)表示字符串a(chǎn)中前i個(gè)字符和b中前j個(gè)字符之間的基于拼音相似度的編輯距離,i,j分別表示字符串a(chǎn),b的長(zhǎng)度,且i、j為自然數(shù);sim_pinyin(ai,bj)表示字符ai與字符bj之間的拼音相似度,A表示拼音相似度的預(yù)設(shè)權(quán)重值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于全球能源互聯(lián)網(wǎng)研究院有限公司;國(guó)家電網(wǎng)有限公司;國(guó)家電網(wǎng)有限公司信息通信分公司;國(guó)網(wǎng)山東省電力公司信息通信公司,未經(jīng)全球能源互聯(lián)網(wǎng)研究院有限公司;國(guó)家電網(wǎng)有限公司;國(guó)家電網(wǎng)有限公司信息通信分公司;國(guó)網(wǎng)山東省電力公司信息通信公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010439068.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 磁轉(zhuǎn)錄方法及磁轉(zhuǎn)錄裝置
- 媒體轉(zhuǎn)錄控制方法及使用上述方法的嵌入式系統(tǒng)
- 使用轉(zhuǎn)錄門(mén)戶(hù)組件隨需轉(zhuǎn)錄語(yǔ)音的方法和系統(tǒng)
- 應(yīng)用順式作用核酶對(duì)轉(zhuǎn)錄進(jìn)行調(diào)節(jié)
- 用于基因治療的載體
- 簡(jiǎn)化聽(tīng)寫(xiě)式語(yǔ)音文本系統(tǒng)的轉(zhuǎn)錄的復(fù)制粘貼的方法和系統(tǒng)
- 一種RNA反轉(zhuǎn)錄擴(kuò)增方法
- 基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì)
- 一種mRNA的制備方法及其在腫瘤治療中的應(yīng)用
- 前列腺癌細(xì)胞LNCaP的FASN基因長(zhǎng)短不同轉(zhuǎn)錄本的獲取及定量方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





