[發(fā)明專(zhuān)利]一種基于主題模型及詞聚類(lèi)的語(yǔ)言模型重算分方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210139114.9 | 申請(qǐng)日: | 2022-02-15 |
| 公開(kāi)(公告)號(hào): | CN114510571A | 公開(kāi)(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 簡(jiǎn)仁賢;黃懷鋐;林長(zhǎng)洲 | 申請(qǐng)(專(zhuān)利權(quán))人: | 竹間智能科技(上海)有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F16/335;G06F40/289;G10L15/26 |
| 代理公司: | 北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理有限公司 11514 | 代理人: | 胡林 |
| 地址: | 200030 上海市徐*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 模型 詞聚類(lèi) 語(yǔ)言 重算分 方法 | ||
本發(fā)明公開(kāi)了一種基于主題模型及詞聚類(lèi)的語(yǔ)言模型重算分方法,包括:對(duì)語(yǔ)音語(yǔ)料進(jìn)行語(yǔ)音識(shí)別,得到識(shí)別文本。識(shí)別文本包括多條識(shí)別語(yǔ)句,將每條識(shí)別語(yǔ)句對(duì)應(yīng)的N個(gè)候選語(yǔ)句依次輸入聲學(xué)文字計(jì)算系統(tǒng),得到每個(gè)候選語(yǔ)句的聲學(xué)分?jǐn)?shù)和文字分?jǐn)?shù)。計(jì)算每個(gè)候選語(yǔ)句的聲學(xué)分?jǐn)?shù)和文字分?jǐn)?shù)之和,得到基礎(chǔ)分?jǐn)?shù)。判斷每個(gè)候選語(yǔ)句的每個(gè)詞匯是否為最終詞匯表中的詞匯,若是,記錄為懲罰詞匯。基于懲罰詞匯的數(shù)量設(shè)定每個(gè)候選語(yǔ)句的懲罰值。計(jì)算每個(gè)候選語(yǔ)句的基礎(chǔ)分?jǐn)?shù)與懲罰值之差,得到整體分?jǐn)?shù)。輸出每條識(shí)別語(yǔ)句對(duì)應(yīng)的N個(gè)候選語(yǔ)句中整體分?jǐn)?shù)最低的候選語(yǔ)句。本發(fā)明可以改善語(yǔ)音識(shí)別可能文本偏離主題或識(shí)別效果不佳的狀況,進(jìn)而提升語(yǔ)音識(shí)別的能力。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其是一種基于主題模型及詞聚類(lèi)的語(yǔ)言模型重算分方法。
背景技術(shù)
語(yǔ)言模型的目的是描述某一種語(yǔ)言的詞序列的機(jī)率分布,也就是判斷一句話符合自然語(yǔ)言的表達(dá)習(xí)慣的可能性。目前語(yǔ)言模型主要用于語(yǔ)音識(shí)別、分詞、情感分析、機(jī)器翻譯等領(lǐng)域,當(dāng)前語(yǔ)音識(shí)別的模型可分為兩階段或端到端兩種訓(xùn)練方式,其中兩階段可拆分為聲學(xué)模型和語(yǔ)言模型單獨(dú)訓(xùn)練,此方法無(wú)法全局考慮聲音與文字的關(guān)系,導(dǎo)致語(yǔ)音識(shí)別結(jié)果不佳。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于主題模型及詞聚類(lèi)的語(yǔ)言模型重算分方法,同時(shí)考慮聲音和文字的關(guān)系,提高了語(yǔ)音識(shí)別結(jié)果。
本發(fā)明提供了一種基于主題模型及詞聚類(lèi)的語(yǔ)言模型重算分方法,包括以下步驟:獲取語(yǔ)音語(yǔ)料,對(duì)所述語(yǔ)音語(yǔ)料進(jìn)行語(yǔ)音識(shí)別,得到識(shí)別文本;所述識(shí)別文本包括多條識(shí)別語(yǔ)句;
將所述多條識(shí)別語(yǔ)句輸入訓(xùn)練好的主題模型進(jìn)行主題預(yù)測(cè),得到候選主題;
查詢(xún)訓(xùn)練好的詞聚類(lèi)表,得到每條識(shí)別語(yǔ)句中每個(gè)詞匯的類(lèi)別;篩選每個(gè)詞匯在詞聚類(lèi)表所屬的類(lèi)別中的若干個(gè)相似詞匯作為候選詞匯,并將所述候選詞匯記錄在候選詞匯表中;判斷所述候選詞匯表中的每個(gè)候選詞匯是否為候選主題下的詞匯,若是,判定為最終詞匯,并記錄到最終詞匯表中;
所述識(shí)別文本還包括每條識(shí)別語(yǔ)句對(duì)應(yīng)的多個(gè)詞匯組合及多個(gè)詞匯組合組成的N個(gè)候選語(yǔ)句;將每條識(shí)別語(yǔ)句對(duì)應(yīng)的N個(gè)候選語(yǔ)句依次輸入聲學(xué)文字計(jì)算系統(tǒng),得到每個(gè)候選語(yǔ)句的聲學(xué)分?jǐn)?shù)和文字分?jǐn)?shù);計(jì)算每個(gè)候選語(yǔ)句的聲學(xué)分?jǐn)?shù)和文字分?jǐn)?shù)之和,得到基礎(chǔ)分?jǐn)?shù);判斷每個(gè)候選語(yǔ)句的每個(gè)詞匯是否為所述最終詞匯表中的詞匯,若是,記錄為懲罰詞匯;基于懲罰詞匯的數(shù)量設(shè)定每個(gè)候選語(yǔ)句的懲罰值;計(jì)算每個(gè)候選語(yǔ)句的基礎(chǔ)分?jǐn)?shù)與懲罰值之差,得到整體分?jǐn)?shù);輸出每條識(shí)別語(yǔ)句對(duì)應(yīng)的N個(gè)候選語(yǔ)句中整體分?jǐn)?shù)最低的候選語(yǔ)句。
優(yōu)選地,將所述多條識(shí)別語(yǔ)句輸入訓(xùn)練好的主題模型進(jìn)行主題預(yù)測(cè),得到候選主題具體包括:
將所述多條識(shí)別語(yǔ)句的每條識(shí)別語(yǔ)句輸入訓(xùn)練好的主題模型進(jìn)行主題預(yù)測(cè),得到每條識(shí)別語(yǔ)句的主題;
設(shè)定所述多條識(shí)別語(yǔ)句中的每L條識(shí)別語(yǔ)句為一個(gè)單位,統(tǒng)計(jì)每個(gè)單位中出現(xiàn)次數(shù)最多的主題并設(shè)為單位主題;所述候選主題包括每個(gè)單位的單位主題。
優(yōu)選地,所述判斷所述候選詞匯表中的每個(gè)候選詞匯是否為候選主題下的詞匯具體包括:判斷所述候選詞匯表中的每個(gè)候選詞匯是否為所屬單位主題下的詞匯。
優(yōu)選地,所述訓(xùn)練好的主題模型的獲取方法包括:
獲取新聞?wù)Z料并進(jìn)行清理,得到一個(gè)干凈文本;
將所述干凈文本分別作為預(yù)設(shè)主題模型的訓(xùn)練語(yǔ)料,得到一個(gè)可預(yù)測(cè)文本主題的主題模型。
優(yōu)選地,所述預(yù)設(shè)主題模型為狄利克雷分布主題模型。
優(yōu)選地,所述清理包括標(biāo)點(diǎn)符號(hào)清理、分詞清理及不雅字眼清理。
優(yōu)選地,所述訓(xùn)練好的詞聚類(lèi)表的獲取方法包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于竹間智能科技(上海)有限公司,未經(jīng)竹間智能科技(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210139114.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





