[發明專利]一種缺失字/詞的補全方法及電子設備有效
| 申請號: | 202011582902.2 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112580310B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 王寶鑫;伍大勇;車萬翔;王士進;胡國平;劉挺 | 申請(專利權)人: | 河北省訊飛人工智能研究院;科大訊飛(北京)有限公司;科大訊飛股份有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/289;G06F40/117;G06N3/045;G06N3/08 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何倚雯 |
| 地址: | 065000 河北省廊坊市經濟技術*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 缺失 方法 電子設備 | ||
1.一種缺失字/詞的補全方法,其特征在于,包括:
用語言模型識別缺失句中缺失位置,其中所述語言模型為以偽數據作為輸入而進行預訓練所得到的模型,所述缺失句表征存在成分缺失錯誤的語句;
用所述語言模型生成所述缺失位置處所缺失的多個候選字/詞;以及
對所述多個候選字/詞進行排序,以確定所述缺失位置處所缺失的缺失字/詞;其中,
對所述多個候選字/詞進行排序包括:
將每個候選字/詞填充到所述缺失句中所述缺失位置處,以構成完整句;
使用所述語言模型,確定每個所述完整句的第一分數,其中所述第一分數由所述完整句中每個字的概率值之和表征,所述完整句中每個字的概率值是使用預訓練后的所述語言模型對填充后的候選字/詞進行預測而得到的;
使用另一語言模型,確定每個所述完整句的第二分數,其中所述第二分數為依據使用所述另一語言模型對所述缺失句及相應完整句進行訓練而得到的概率值;
根據所述第一分數和所述第二分數,得到每個候選字/詞對應的分數,從而根據每個所述每個候選字/詞對應的分數進行排序。
2.如權利要求1中所述的補全方法,其特征在于,識別后的所述缺失句由列表表征,所述列表包括至少一個內容元組和一個結束元組,每個所述內容元組表征所述缺失句中的一個字/詞,所述結束元組表征所述缺失句結束;
其中,每個所述內容元組包括:
每個字/詞;以及
第一標簽,表征所述每個字/詞之前是否缺失及缺失字/詞的數量;
所述結束元組包括:
結束符;以及
第二標簽,表征所述結束符之前是否缺失及缺失字/詞的數量。
3.如權利要求2中所述的補全方法,其特征在于,每個所述內容元組進一步包括第三標簽,表征所述每個字/詞的詞性;
所述結束元組進一步包括第四標簽,表征所述結束符的詞性。
4.如權利要求2中所述的補全方法,其特征在于,所述用所述語言模型生成所述缺失位置處所缺失的多個候選字/詞包括:
在所述缺失位置處填充至少一個占位符,其中所述占位符的數量與缺失字/詞的數量對應;
將所述填充后的缺失句輸入到所述語言模型,預測所述至少一個占位符所對應的預測信息,從而獲得多個候選字。
5.如權利要求4中所述的補全方法,其特征在于,所述至少一個占位符為兩個占位符;
每個所述占位符所對應的預測信息包括字矩陣及概率向量,其中所述字矩陣中的字表征所述占位符所對應的字,所述概率向量中的概率值表征所述占位符所對應的字的預測概率;
所述用所述語言模型生成所述缺失位置處所缺失的多個候選字/詞包括:
將每個占位符用預測符進行替換,其中所述預測符表征每個所述占位符所對應的所述預測信息中所述字矩陣與所述概率向量的乘積;
將替換后的所述缺失句輸入到所述語言模型,得到所述語言模型的輸出,并將所述語言模型的輸出以及替換后的所述缺失句輸入到循環神經網絡,預測所述缺失位置處所缺失的詞,從而獲得多個候選詞。
6.如權利要求1中所述的補全方法,其特征在于,
所述另一語言模型為以五元組的詞級別為訓練對象的模型。
7.如權利要求1-6中任一項所述的補全方法,其特征在于,所述偽數據的生成包括:
生成均勻分布于預設區間的第一隨機數,以對預設集合中每個正確語句進行隨機修改,從而得到每個正確語句的所述偽數據,其中所述預設集合為預采集的包括多個所述正確語句的正確文本;
所述每個正確語句的偽數據由預設列表表征,所述預設列表包括至少一個二元組和/或至少一個三元組,每個所述二元組包括一個字以及表征所述字之前未缺失的第一標簽值,每個所述三元組包括一個字、表征所述字之前缺失及缺失字數量的第二標簽值以及所述字之前所缺失的缺失字/詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北省訊飛人工智能研究院;科大訊飛(北京)有限公司;科大訊飛股份有限公司,未經河北省訊飛人工智能研究院;科大訊飛(北京)有限公司;科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011582902.2/1.html,轉載請聲明來源鉆瓜專利網。





