[發明專利]一種補全語義殘缺的語料的方法及系統有效
| 申請號: | 201811288739.1 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109344231B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 魏譽熒 | 申請(專利權)人: | 廣東小天才科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/903;G06F40/30;G06F40/289;G10L15/18 |
| 代理公司: | 上海碩力知識產權代理事務所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 523851 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 殘缺 語料 方法 系統 | ||
1.一種補全語義殘缺的語料的方法,其特征在于,包括:
獲取語義完整的語料樣本庫,根據所述語料樣本庫建立音頻庫、語義槽和正則表達式庫;
獲取用戶語音;
將所述用戶語音和所述音頻庫進行匹配;
當匹配結果相符時,根據所述語義槽確定匹配分詞對應的詞性,所述匹配分詞為所述用戶語音中與所述音頻庫匹配相符的分詞;
將所述匹配分詞的詞性和所述正則表達式庫進行對比,根據所述正則表達式庫中的正則表達式將所述用戶語音中的殘缺成分補全,得到補全文本,具體包括:確定所有的匹配分詞在所述用戶語音中的相對位置;
根據所述相對位置確定對應的詞性相對位置;
根據所述詞性相對位置和所述正則表達式庫進行對比,選擇預設數量的匹配比例大于等于預設比例的正則表達式作為目標正則表達式;
根據所述目標正則表達式將所述用戶語音中的殘缺成分補全,得到補全文本;
根據所述補全文本進行語義解析。
2.根據權利要求1所述的補全語義殘缺的語料的方法,其特征在于,所述的獲取語義完整的語料樣本庫,根據所述語料樣本庫建立音頻庫、語義槽和正則表達式庫具體包括:
獲取語義完整的所述語料樣本庫,根據分詞技術對所述語料樣本庫中的語料樣本進行分詞得到所述語料樣本中包含的分詞以及對應的詞性;
根據所述分詞和所述詞性建立所述語義槽;
獲取所述分詞對應的音頻,根據所述音頻建立所述音頻庫;
分析所述語料樣本總結得出正則表達式,根據所述正則表達式建立所述正則表達式庫。
3.根據權利要求2所述的補全語義殘缺的語料的方法,其特征在于,所述的分析所述語料樣本總結得出正則表達式,根據所述正則表達式建立所述正則表達式庫具體包括:
分析所述語料樣本中的所述分詞之間的關聯關系;
根據所述詞性以及所述關聯關系總結得出正則表達式,根據所述正則表達式建立所述正則表達式庫。
4.根據權利要求1所述的補全語義殘缺的語料的方法,其特征在于,所述的獲取用戶語音之后,所述的將所述用戶語音和所述音頻庫進行匹配之前包括:
將所述用戶語音轉化為識別文本,解析所述識別文本;
當所述識別文本成分殘缺時,根據所述音頻庫、所述語義槽和所述正則表達式庫補全所述識別文本。
5.一種補全語義殘缺的語料的系統,其特征在于,包括:
數據庫建立模塊,獲取語義完整的語料樣本庫,根據所述語料樣本庫建立音頻庫、語義槽和正則表達式庫;
獲取模塊,獲取用戶語音;
匹配模塊,將所述獲取模塊獲取的所述用戶語音和所述數據庫建立模塊建立的所述音頻庫進行匹配;
分析模塊,當匹配結果相符時,根據所述數據庫建立模塊建立的所述語義槽確定匹配分詞對應的詞性,所述匹配分詞為所述用戶語音中與所述音頻庫匹配相符的分詞;
處理模塊,將所述分析模塊確定的所述匹配分詞的詞性和所述數據庫建立模塊建立的所述正則表達式庫進行對比,根據所述正則表達式庫中的正則表達式將所述用戶語音中的殘缺成分補全,得到補全文本;
所處理模塊具體包括:
處理單元,確定所有的匹配分詞在所述用戶語音中的相對位置;
所述處理單元,根據所述處理單元確定的所述相對位置確定對應的詞性相對位置;
選擇單元,根據所述處理單元確定的所述詞性相對位置和所述正則表達式庫進行對比,選擇預設數量的匹配比例大于等于預設比例的正則表達式作為目標正則表達式;
補全單元,根據所述選擇單元選擇的所述目標正則表達式將所述用戶語音中的殘缺成分補全,得到補全文本;
解析模塊,根據所述處理模塊得到的所述補全文本進行語義解析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東小天才科技有限公司,未經廣東小天才科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811288739.1/1.html,轉載請聲明來源鉆瓜專利網。





