[發明專利]一種語義識別的方法和裝置有效
| 申請號: | 201810371874.6 | 申請日: | 2018-04-24 |
| 公開(公告)號: | CN108628830B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 張振庭;高志群;陶洪明;申林 | 申請(專利權)人: | 北京匯鈞科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/242 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;張效榮 |
| 地址: | 100176 北京市大興區北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 識別 方法 裝置 | ||
本發明公開了一種語義識別的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:獲取待識別的語句信息;根據所述待識別的語句信息和預設的語句模板基于最長公共子序列進行匹配,確定帶權值的匹配結果;根據所述匹配結果進行語義識別。該實施方式能夠根據預設的語句模板,基于最長公共子序列的帶權值的匹配方法,對獲取到的待識別的語句進行較為精確的語義識別,充分利用了語句模板信息,靈活性強且效率高。此外,本發明實施例提供的方法還能夠在短時間內實時更新語句模板,用以后續的測試反饋。
技術領域
本發明涉及計算機技術領域,尤其涉及一種語義識別的方法和裝置。
背景技術
自然語言理解技術中兩個關鍵的問題就是意圖的識別和槽值的提取。在自然語言理解的開放平臺服務中,會根據事先錄入的語句模板識別出其中意圖并提取出槽值。目前槽值的自動提取方法主要有兩種:基于正則表達式的方式、基于神經網絡模型的方式。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
1)對于基于正則表達式的方式:在對于槽值的提取時通常靈活性比較差,句子中間多幾個字、少幾個字都會導致表達式匹配失敗。
2)對于基于神經網絡模型的方式:該方式下的識別取決于訓練語料的大小,所以通常精確程度不高。尤其是在開發平臺應用中,無法充分利用用戶輸入的語句模板,也無法實時更新用戶新增的語句模板。
發明內容
有鑒于此,本發明實施例提供一種語義識別的方法,能夠根據預設的語句模板,基于最長公共子序列的帶權值的匹配方法,對獲取到的待識別的語句進行較為精確的語義識別,充分利用了語句模板信息,靈活性強且效率高。此外,本發明實施例提供的方法還能夠在短時間內實時更新語句模板,用以后續的測試反饋。
為實現上述目的,根據本發明實施例的一個方面,提供了一種語義識別的方法,包括:
獲取待識別的語句信息;
根據所述待識別的語句信息和預設的語句模板基于最長公共子序列進行匹配,確定帶權值的匹配結果;
根據所述匹配結果進行語義識別。
可選地,在根據所述待識別的語句信息和預設的語句模板基于最長公共子序列進行帶權值的匹配之前,還包括:
將待識別的語句信息轉化為字符串格式的語句字符串;
將預設的語句模板轉化為字符串格式的模板字符串;
所述預設的語句模板為已知槽位類型的文本格式。
可選地,將待識別的語句信息轉化為字符串格式的語句字符串,包括:
判斷所述待識別的語句信息是否為文本格式;若不是,將所述語句信息轉化為文本格式;
對文本格式的待識別的語句信息進行分詞處理,獲得詞集合;
遍歷詞集合中的詞,判斷詞集合中的詞是否存在于預設的詞典信息中的槽值信息中;若存在,則確定該詞為槽值,根據所述詞典信息和預設的槽位符號表獲取與該槽值對應的標識字符;
將所述待識別的語句信息中確認為槽值的詞替換為與之對應的標識字符,生成所述語句字符串;
所述詞典信息包括槽位類型信息、槽值信息;所述槽值為帶有槽位類型信息的值。
所述槽位符號表包括槽位類型、標識字符,以及所述槽位類型和標識字符的映射關系。
可選地,將預設的語句模板轉化為字符串格式的模板字符串,包括:
根據所述槽位符號表獲取與所述語句模板中的槽位類型對應的標識字符;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京匯鈞科技有限公司,未經北京匯鈞科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371874.6/2.html,轉載請聲明來源鉆瓜專利網。





