[發明專利]一種基于BERT的電網調度語音識別語言模型構建方法有效
| 申請號: | 202010148584.2 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111489746B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 陳蕾;鄭偉彥;楊勇;黃武浩;張弛;樂全明;童力;陳彤;黃紅兵;章毅;劉宏偉;姜健;余慧華;傅婧;鄭潔;曹青;向新宇;盧家駒;何岳昊 | 申請(專利權)人: | 國網浙江省電力有限公司;國網浙江省電力有限公司杭州供電公司 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/02;G10L15/06;G10L15/26;G10L15/183 |
| 代理公司: | 杭州華鼎知識產權代理事務所(普通合伙) 33217 | 代理人: | 項軍 |
| 地址: | 310000*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 電網 調度 語音 識別 語言 模型 構建 方法 | ||
1.一種基于BERT的電網調度語音識別語言模型構建方法,其特征在于,包括:
提取電網調度語句的字粒度語義特征;
提取電網調度語句的關鍵字特征;
提取電網調度語句的命名實體特征;
對輸入BERT原始模型的電網調度語句以字為單元進行切分以提取位置特征,基于語義特征、關鍵字特征、命名實體特征以及位置特征對BERT原始模型進行訓練得到電網調度語音識別語言模型;
所述提取電網調度語句的命名實體特征包括:
利用電網臺賬信息,構建命名實體詞典,并統計命名實體詞典中最短和最長命名實體的字數,分別記為c和d;
對于電網調度語句中的每個字,提取包含該字的所有長度為q(q=c,c+1,…,d)的字序列,再計算得到每一條長度為q的字序列與命名實體詞典中各個長度為q的詞的相似度;
基于每一條長度為q的字序列與命名實體詞典中各個長度為q的詞的相似度計算得到電網調度信息中各個字的命名實體特征;
所述基于每一條長度為q的字序列與命名實體詞典中各個長度為q的詞的相似度計算得到電網調度信息中各個字的命名實體特征包括:
對于每一個字,設其共有e個對應的字序列,其中第s個字序列(s=1,2,…,e)與各個命名實體相似度的最大值記為msimxu(s),共有e個相似度最大值,再設該最大值中的最大者為msimxu(t),則稱第t個字序列為該字的匹配字序列,計算該字的命名實體特征向量:
式中:f(u)表示命名實體特征向量第u個維度的值;g·msimxu(t)表示匹配字序列誤識別的概率,其中g在匹配字序列和命名實體完全相同時為0,否則為1;pos表示該字為匹配字序列的第幾個字;len表示匹配字序列的長度;dim表示命名實體特征向量的維數。
2.根據權利要求1所述的一種基于BERT的電網調度語音識別語言模型構建方法,其特征在于,所述提取電網調度語句的字粒度語義特征包括:
以字為粒度對調度語句進行切分,每個字的語義特征向量采用word2vec的skip-gram模型生成。
3.根據權利要求1所述的一種基于BERT的電網調度語音識別語言模型構建方法,其特征在于,所述提取電網調度語句的關鍵字特征包括:
對于電網調度語句中的每個字,將其拼音拆分為聲母、韻母和聲調三部分,當出現整體認讀音節時直接拆分為聲母和韻母,組合韻母不再進行拆分,不含聲母的字或不含聲調的字將聲母或聲調記為空值;
計算電網調度語句中每個字與各個關鍵字的相似度;
對于電網調度語句中的每個字,提取與其相似度最高的關鍵字的語義特征向量并根據相似度,得到該字的關鍵字特征向量。
4.根據權利要求3所述的一種基于BERT的電網調度語音識別語言模型構建方法,其特征在于,所述計算電網調度語句中每個字與各個關鍵字的相似度包括:
計算公式如下:
式中:simsheng表示在兩個字聲母相同時取1,聲母不同但分別為對應的平舌和翹舌音時取0.5,其余情況取0;simyun表示在兩個字韻母相同時取1,韻母不同但分別為對應的前鼻和后鼻音時取0.5,其余情況取0;simdiao表示在兩個字聲調相同時取1,否則取0。
5.根據權利要求1所述的一種基于BERT的電網調度語音識別語言模型構建方法,其特征在于,所述計算得到每一條長度為q的字序列與命名實體詞典中各個長度為q的詞的相似度包括:
計算公式為:
式中:simzi(r)表示字序列的第r個字與命名實體第r個字的相似度。
6.根據權利要求1所述的一種基于BERT的電網調度語音識別語言模型構建方法,其特征在于,所述基于語義特征、關鍵字特征、命名實體特征以及位置特征對BERT原始模型進行訓練得到電網調度語音識別語言模型包括:
對BERT原始模型進行MLM任務的無監督的預訓練;
對BERT原始模型進行基于調度語句合理概率的有監督的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司;國網浙江省電力有限公司杭州供電公司,未經國網浙江省電力有限公司;國網浙江省電力有限公司杭州供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010148584.2/1.html,轉載請聲明來源鉆瓜專利網。





