[發(fā)明專利]一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210139114.9 | 申請(qǐng)日: | 2022-02-15 |
| 公開(kāi)(公告)號(hào): | CN114510571A | 公開(kāi)(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 簡(jiǎn)仁賢;黃懷鋐;林長(zhǎng)洲 | 申請(qǐng)(專利權(quán))人: | 竹間智能科技(上海)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/335;G06F40/289;G10L15/26 |
| 代理公司: | 北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理有限公司 11514 | 代理人: | 胡林 |
| 地址: | 200030 上海市徐*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 模型 詞聚類 語(yǔ)言 重算分 方法 | ||
1.一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,包括以下步驟:
獲取語(yǔ)音語(yǔ)料,對(duì)所述語(yǔ)音語(yǔ)料進(jìn)行語(yǔ)音識(shí)別,得到識(shí)別文本;所述識(shí)別文本包括多條識(shí)別語(yǔ)句;
將所述多條識(shí)別語(yǔ)句輸入訓(xùn)練好的主題模型進(jìn)行主題預(yù)測(cè),得到候選主題;
查詢訓(xùn)練好的詞聚類表,得到每條識(shí)別語(yǔ)句中每個(gè)詞匯的類別;篩選每個(gè)詞匯在詞聚類表所屬的類別中的若干個(gè)相似詞匯作為候選詞匯,并將所述候選詞匯記錄在候選詞匯表中;判斷所述候選詞匯表中的每個(gè)候選詞匯是否為候選主題下的詞匯,若是,判定為最終詞匯,并記錄到最終詞匯表中;
所述識(shí)別文本還包括每條識(shí)別語(yǔ)句對(duì)應(yīng)的多個(gè)詞匯組合及多個(gè)詞匯組合組成的N個(gè)候選語(yǔ)句;將每條識(shí)別語(yǔ)句對(duì)應(yīng)的N個(gè)候選語(yǔ)句依次輸入聲學(xué)文字計(jì)算系統(tǒng),得到每個(gè)候選語(yǔ)句的聲學(xué)分?jǐn)?shù)和文字分?jǐn)?shù);計(jì)算每個(gè)候選語(yǔ)句的聲學(xué)分?jǐn)?shù)和文字分?jǐn)?shù)之和,得到基礎(chǔ)分?jǐn)?shù);判斷每個(gè)候選語(yǔ)句的每個(gè)詞匯是否為所述最終詞匯表中的詞匯,若是,記錄為懲罰詞匯;基于懲罰詞匯的數(shù)量設(shè)定每個(gè)候選語(yǔ)句的懲罰值;計(jì)算每個(gè)候選語(yǔ)句的基礎(chǔ)分?jǐn)?shù)與懲罰值之差,得到整體分?jǐn)?shù);輸出每條識(shí)別語(yǔ)句對(duì)應(yīng)的N個(gè)候選語(yǔ)句中整體分?jǐn)?shù)最低的候選語(yǔ)句。
2.根據(jù)權(quán)利要求1所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,將所述多條識(shí)別語(yǔ)句輸入訓(xùn)練好的主題模型進(jìn)行主題預(yù)測(cè),得到候選主題具體包括:
將所述多條識(shí)別語(yǔ)句的每條識(shí)別語(yǔ)句輸入訓(xùn)練好的主題模型進(jìn)行主題預(yù)測(cè),得到每條識(shí)別語(yǔ)句的主題;
設(shè)定所述多條識(shí)別語(yǔ)句中的每L條識(shí)別語(yǔ)句為一個(gè)單位,統(tǒng)計(jì)每個(gè)單位中出現(xiàn)次數(shù)最多的主題并設(shè)為單位主題;所述候選主題包括每個(gè)單位的單位主題。
3.根據(jù)權(quán)利要求2所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述判斷所述候選詞匯表中的每個(gè)候選詞匯是否為候選主題下的詞匯具體包括:判斷所述候選詞匯表中的每個(gè)候選詞匯是否為所屬單位主題下的詞匯。
4.根據(jù)權(quán)利要求1所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述訓(xùn)練好的主題模型的獲取方法包括:
獲取新聞?wù)Z料并進(jìn)行清理,得到一個(gè)干凈文本;
將所述干凈文本分別作為預(yù)設(shè)主題模型的訓(xùn)練語(yǔ)料,得到一個(gè)可預(yù)測(cè)文本主題的主題模型。
5.根據(jù)權(quán)利要求4所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述預(yù)設(shè)主題模型為狄利克雷分布主題模型。
6.根據(jù)權(quán)利要求4所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述清理包括標(biāo)點(diǎn)符號(hào)清理、分詞清理及不雅字眼清理。
7.根據(jù)權(quán)利要求1所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述訓(xùn)練好的詞聚類表的獲取方法包括:
采用開(kāi)源的word2vector套件對(duì)所述干凈文本進(jìn)行訓(xùn)練,得到詞向量表;所述詞向量表包括每個(gè)詞匯的詞向量;
使用預(yù)設(shè)聚類算法對(duì)所述詞向量表進(jìn)行詞聚類,得到詞聚類表;所述詞聚類表包括詞匯與詞匯所屬的類別。
8.根據(jù)權(quán)利要求7所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述預(yù)設(shè)聚類算法包括AP聚類算法。
9.根據(jù)權(quán)利要求1所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述篩選每個(gè)詞匯在詞聚類表所屬的類別中的若干個(gè)相似詞匯具體包括:
通過(guò)word2vec得到詞匯表示法;
利用余弦相似計(jì)算相似度,篩選每個(gè)詞匯在詞聚類表所屬的類別中的若干個(gè)相似詞匯。
10.根據(jù)權(quán)利要求1所述的一種基于主題模型及詞聚類的語(yǔ)言模型重算分方法,其特征在于,所述對(duì)所述語(yǔ)音語(yǔ)料進(jìn)行語(yǔ)音識(shí)別具體包括:采用kaldi系統(tǒng)對(duì)所述語(yǔ)音語(yǔ)料進(jìn)行語(yǔ)音識(shí)別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于竹間智能科技(上海)有限公司,未經(jīng)竹間智能科技(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210139114.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





