[發明專利]語義識別方法、裝置存儲介質和電子裝置在審
| 申請號: | 201711353756.4 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN109933774A | 公開(公告)日: | 2019-06-25 |
| 發明(設計)人: | 楊柳;何朝陽 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G10L15/22 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注信息 詞語 目標詞語 目標文本 語義識別 數據庫 分詞 存儲介質 電子裝置 目標語義 語義 查找目標 目標語音 指示目標 存儲 文本 | ||
本發明公開了一種語義識別方法、裝置存儲介質和電子裝置。其中,該方法包括:獲取對目標語音進行識別得到的目標文本;在第一數據庫中,查找目標文本的詞語中的目標詞語,其中,第一數據庫用于存儲具有標注信息的詞語,標注信息用于指示具有標注信息的詞語所屬的領域;在第一數據庫中查找到目標詞語的情況下,將第一數據庫中具有目標標注信息的目標詞語,確定為目標文本的分詞,其中,標注信息包括目標標注信息,目標標注信息用于指示目標詞語所屬的領域;根據目標標注信息確定分詞的目標語義;按照分詞的目標語義,確定目標文本的語義。本發明解決了相關技術中存在語義識別效率低的技術問題。
技術領域
本發明涉及語義識別領域,具體而言,涉及一種語義識別方法、裝置存儲介質和電子裝置。
背景技術
目前,在語義識別中,通常為基于全領域的數據詞典所進行的最大匹配策略,以對語句進行分詞。比如,傳統基于詞典自然語言處理(Natural Language Processing,簡稱為NLP)算法依賴于大規模的詞語詞典,一旦缺少匹配詞語數據就會導致分詞產生歧義。另外,該全領域的數據詞典不完全包含車載領域中需要的詞典數據。
上述基于全量的詞庫,會導致內存占用大;但輕量定制版本的領域詞語又覆蓋不全;另外,詞性標志較為基礎,不帶有車載領域的命名實體標注,并且無法自定義進行詞性標注。
圖1是根據相關技術中的一種語義識別的示意圖。如圖1所示,會話開始到記錄語音過程中的異常占比為8.8%,其中,包括語音啟動中異常占比E1:1%,手動關閉異常占比E2:7.8;記錄語音到將記錄的語音識別為文本的過程中的異常占比為6.3%,其中,包括未正確識別出的文字的占比E3:6.3%;將記錄的語音識別為文本到識別文本語義過程中的異常占比E4:22.6%,其中,包括未正確識別語義的占比E4:22.6%;識別文本語義到意圖執行過程中的異常占比為6.4%,其中,執行識別的占比E5:2.3%,執行超時的占比E6:1.4,執行過程中關閉的占比E7:1.8%,多輪交互錯誤的占比E8:0.9%。因而,語義識別的失敗率為44.1%,語義識別的總成功率為55.9%。
由上述可知,通過語音后臺統計出來語音識別在各個環節的失敗率,其中在識別文本語義環節存在高達22.6%的失敗率,因而存在語義識別效率低的問題。
圖2是根據相關技術中的一種語音語義平臺識別的示意圖。如圖2所示,語音語義平臺識別出現指令缺失、意圖錯誤、內容缺失、功能更新的問題。
針對上述的語義識別效率低的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種語義識別方法、裝置存儲介質和電子裝置,以至少解決相關技術中存在語義識別效率低的技術問題。
根據本發明實施例的一個方面,提供了一種語義識別方法。該方法包括:獲取對目標語音進行識別得到的目標文本;在第一數據庫中,查找目標文本的詞語中的目標詞語,其中,第一數據庫用于存儲具有標注信息的詞語,標注信息用于指示具有標注信息的詞語所屬的領域;在第一數據庫中查找到目標詞語的情況下,將第一數據庫中具有目標標注信息的目標詞語,確定為目標文本的分詞,其中,標注信息包括目標標注信息,目標標注信息用于指示目標詞語所屬的領域;根據目標標注信息確定分詞的目標語義;按照分詞的目標語義,確定目標文本的語義。
根據本發明實施例的另一方面,還提供了一種語義識別裝置。該裝置包括:獲取單元,用于獲取對目標語音進行識別得到的目標文本;查找單元,用于在第一數據庫中,查找目標文本的詞語中的目標詞語,其中,第一數據庫用于存儲具有標注信息的詞語,標注信息用于指示具有標注信息的詞語所屬的領域;第一確定單元,用于在第一數據庫中查找到目標詞語的情況下,將第一數據庫中具有目標標注信息的目標詞語,確定為目標文本的分詞,其中,標注信息包括目標標注信息,目標標注信息用于指示目標詞語所屬的領域;第二確定單元,用于根據目標標注信息確定分詞的目標語義;第三確定單元,用于按照分詞的目標語義,確定目標文本的語義。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711353756.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多重語義語句解析系統及方法
- 下一篇:UGC內容處理方法及裝置





