[發明專利]解析口語文本信息的語義的方法和裝置有效
| 申請號: | 201510977813.0 | 申請日: | 2015-12-23 |
| 公開(公告)號: | CN105786793B | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 陳由之;時培軒 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解析 口語 文本 信息 語義 方法 裝置 | ||
本申請公開了解析口語文本信息的語義的方法和裝置。所述方法的一具體實施方式包括:對接收的口語文本信息進行分詞以提取特征;由提取的特征中的名詞確定口語文本信息的關聯領域;響應于提取的特征匹配預設的數據庫中關聯領域的預設特征,將預設特征在關聯領域的權重值確定為提取的特征在關聯領域的權重值,其中,預設的數據庫可以包括但不限于預設特征在多個領域的權重值,多個領域可以包括但不限于關聯領域;基于提取的特征在關聯領域的權重值,確定文本信息在關聯領域的正則表達式的分值;對分值進行排序,根據排序的結果獲取預設數量的正則表達式;將獲取的正則表達式作為口語文本信息的解析文本。該實施方式提高了獲取語義解析結果的準確性。
技術領域
本申請涉及計算機技術領域,具體涉及語音識別技術領域,尤其涉及解析口語文本信息的語義的方法和裝置。
背景技術
口語語義解析是理解口語語音信號承載的信息,在對于用戶輸入的語音信號進行口語語義解析后,可以根據口語文本信息的解析文本進行檢索,從而提高檢索信息的速度,提高信息的更新能力。
目前常用的口語語義解析方法,是將口語語音信號識別為口語文本信息,之后采用規則匹配的方法解析口語文本信息,得到口語文本信息的解析文本。
然而,目前的口語語義解析方法,在采用規則匹配的方法對同一條口語文本信息進行解析以得到口語文本信息的解析文本時,往往能夠得到多條解析文本,并且不能確定多條解析文本中哪一條更趨近用戶所要表達的意圖。
發明內容
本申請的目的在于提出一種改進的解析口語文本信息的語義的方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請提供了一種解析口語文本信息的語義的方法,所述方法包括:對接收的口語文本信息進行分詞以提取特征;由提取的特征中的名詞確定所述口語文本信息的關聯領域;響應于所述提取的特征匹配預設的數據庫中所述關聯領域的預設特征,將所述預設特征在所述關聯領域的權重值確定為所述提取的特征在所述關聯領域的權重值,其中,所述預設的數據庫包括預設特征在多個領域的權重值,所述多個領域包括所述關聯領域;基于所述提取的特征在所述關聯領 域的權重值,確定所述文本信息在所述關聯領域的正則表達式的分值;對所述分值進行排序,根據排序的結果獲取預設數量的正則表達式;將獲取的正則表達式作為所述口語文本信息的解析文本。
在一些實施例中,所述預設特征在多個領域的權重值通過以下處理確定:在多個領域的每一個領域中將預設特征出現的次數除以出現預設特征的文本信息樣本的總詞語數,得到預設特征在每一個領域出現的頻率;將出現所述預設特征的文本信息樣本的數量除以總文本信息樣本的數量,得到所述預設特征的逆向文件頻率,其中,所述出現所述預設特征的文本信息樣本以及所述總文本信息樣本由已解析語義的口語文本信息的歷史數據得到;將所述預設特征在每一個領域出現的頻率乘以所述預設特征的逆向文件頻率,得到預設特征在每一個領域的權重值,以及根據所述預設特征在每一個領域的權重值,得到所述預設特征在多個領域的權重值。
在一些實施例中,所述基于所述提取的特征在所述關聯領域的權重值,確定所述文本信息在所述關聯領域的正則表達式的分值包括:在所述關聯領域中,將所述提取的特征中命中正則表達式的特征的權重值相加,得到所述文本信息在所述關聯領域的正則表達式的分值。
在一些實施例中,響應于所述提取的特征匹配預設的數據庫中所述關聯領域的預設特征,將所述預設特征在所述關聯領域的權重值確定為所述提取的特征在所述關聯領域的權重值包括:濾除所述提取的特征中命中預設過濾詞表的特征,得到過濾后的特征;響應于所述過濾后的特征匹配預設的數據庫中所述關聯領域的預設特征,將所述預設特征在所述關聯領域的權重值確定為所述過濾后的特征在所述關聯領域的權重值;以及所述在所述關聯領域中,將所述提取的特征中命中正則表達式的特征的權重值相加,得到所述文本信息在所述關聯領域的正則表達式的分值包括:在所述關聯領域中,將所述過濾后的特征中命中正則表達式的特征的權重值相加,得到所述文本信息的正則表達式的分值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510977813.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于多維時序數據分析的系統和方法
- 下一篇:一種云平臺下的統計分析系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





